Algorithmique 2 : Compression de données

Crash Course de théorie de l’information

$e$ : événement aléatoire de probabilité $p$
$v(p)$ : valeur d’un événement de probabilité $p$
- $v$ décroît
Supposons qu’on a deux pièces truquées :
- $p$ : probabilité que la première tombe sur pile
- $p’$ : probabilité que la seconde tombe sur pile
⟹ comme les événements sont indépendants,
\[v(pp') = v(p) + v(p')\]
On peut “vendre” l’information que les deux tombent sur pile d’un coup ou séparément, au même prix
$v(1) = 0$
$v(1/2) = 1$ (arbitraire)

\[⟹ v(x) = - log_2(x)\]

$X$ : v.a suivant un schéma de Bernoulli $B(n,p)$

On l’“achète” au prix :

\[H(p) = -p \log_2(p) - (1-p) \log_2 (1-p)\]

Entropie $H(X)$ :: \[H(X) = - \sum\limits_{ x∈X(𝛺) } p_x \log (p_x)\]
Entropie conditionnelle $H(Y \mid X)$ :: \[H(X) = \sum\limits_{ x∈X(𝛺) } p_x H(Y \mid X=x) = - \sum\limits_{ x∈X(𝛺) } p_x \sum\limits_{ y∈Y(𝛺) } p_{x,y}/p_x \log (p_{x,y}/p_x) \\ = - \sum\limits_{ x,y } p_{x,y} \log (p_{x,y}/p_x)\]

\[H(X, Y) = H(X) + H(Y \mid X)\]

Entropie relative

Entropie relative / Distance de Kullback-Leibler :: \[D(p \Vert p') = - \sum\limits_{ x∈X } p_x \log(p'_x/p_{x}) = E_p(\log (p(X)/p'(X)))\]

ni symétrique
ni inégalité triangulaire
MAIS positive et séparée :

Avec la convexité de $-\log$

\[D(p \Vert p') ≥ - \log( \sum p'_x ) = 0\]

Avec égalité ssi $p’_x = p_x$

Information mutuelle

Information mutuelle entre $X$ et $Y$ :: \[I(X; Y) = H(X) - H(X \mid Y) = H(Y) - H(Y \mid X)\]

Or :

\[D(p_{XY} \Vert p_X p_Y) = \sum\limits_{ x, y } p_{x,y} \log(\frac{p_{x,y}}{p_x p_y}) \\ = \sum\limits_{ x, y } p_{x,y} \log(\frac{p_{y \vert x}}{p_y}) \\ = H(Y) - H(Y \vert X)\]

Entropie : maximale pour la distribution uniforme

Dém : X prend $n$ valeur différentes.

$u$ : distribution uniforme
$p$ : distribution quelconque

\[0 ≤ D(p \Vert u) = - H(p) + H(u)\]

Sur $ℕ$, à moyenne constante (on compare les v.a qui ont la même moyenne): la loi géométrique (de moyenne $1/p$) maximise l’entropie.

Codes

$𝒳 ≝ \lbrace x_i \rbrace_{i∈I}$
$𝛴$ un alphabet de codage (usuellement : $𝛴 ≝ \lbrace 0, 1 \rbrace$)
$C : 𝒳 ⟶ 𝛴^\ast$ fonction de codage, qui peut être étendue à $𝒳^\ast$ par concaténation.

/!\ : Il nous faut assurer l’injectivité de la fonction étendue, pour pouvoir décoder.

Code préfixe :: $∀i≠j, C(x_i) \text{ n’est pas un préfixe de } C(x_j)$

NB :

un code préfixe est évidemment injectif.
les codes préfixes sont décodables en temps réel, alors que codes injectifs seulement ⟶ il faut attendre la fin du texte pour décoder.

Différents types de transmission :

transmission d’informations :

  digraph {
    rankdir=LR;
    Émetteur -> Récepteur[label="code"];
  }

fichier ⟶ avantage par rapport au précédent, entre autres : on connaît la fréquence d’apparition des lettres

Théorème de Mac-Millan

Nous donne une condition nécessaire et suffisante pour fabriquer un code.

Notations :

$C(x)$ : code de $x$
$l(x) ≝ \vert C(x) \vert$
$D ≝ \vert 𝛴 \vert$

Th (Mac-Millan) :

Si $C$ est un code, on a l’inégalité de Kraft :
\[\sum\limits_{ x∈𝒳 } D^{-l(x)} ≤ 1\]
Réciproquement :

Si $\lbrace l(x) \rbrace_{x∈𝒳}$ vérifie cette inégalité, alors il existe un code préfixe $C$ tel que
\[l(x) = \vert C(x) \vert\]

Preuve :

⟹ :

$C$ : code (injectif).

\[l_{max} ≝ \max_{x∈𝒳} l(x)\]

Soit $k≥1$.

\[\begin{align*} \left( \sum\limits_{ x∈𝒳 } D^{-l(x)} \right)^k & = \left( \sum\limits_{ x_1∈𝒳 } D^{-l(x_1)} \right) ⋯ \left( \sum\limits_{ x_k∈𝒳 } D^{-l(x_k)} \right) \\ & = \sum\limits_{ x_1, ⋯, x_k ∈𝒳 } D^{-l(x_1 ⋯ x_k)} \\ &= \sum\limits_{ m ≤ k l_{max} } a_m D^{-m} &&\text{ avec } ∀ 1≤m≤k \cdot l_{max}, a_m ≝ \vert \lbrace x_1 ⋯ x_k \mid l(x_1 ⋯ x_k) = m \rbrace \vert \\ & ≤ \sum\limits_{ m ≤ k l_{max} } D^m D^{-m} = k l_{max} &&\text{ par injectivité du code : } a_m ≤ D^m \end{align*}\]

Donc $∀k$,

\[\sum\limits_{ x∈𝒳 } D^{-l(x)} ≤ (k l_{max})^{1/k} \\ ⟹ \sum\limits_{ x∈𝒳 } D^{-l(x)} ≤ 1\]

par passage à la limite pour $k⟶+∞$

⟸ :

On numérote les $x_i$ par longueur croissante.

$𝛴 ≝ \lbrace 0, ⋯, D-1 \rbrace$

$C(x_i) = 0^{l(x_1)}$
On construit $C(x_{i+1})$ à partir de $C(x_i)$ en ajoutant $1$ au nombre en base $D$ que représente $C(x_i)$, puis en complétant par des zéros à droite pour atteindre la bonne longueur ($l(x_{i+1})$)

Attention : cet algorithme peut s’interrompre en cours d’exécution (si on ne peut plus incrémenter par exemple sans changer le nombre de chiffres).

Supposons que l’algo termine, et qu’ont ait la propriété suivante à l’étape $i$ :

\[∀i, j, ∃u; ∀v<u, \begin{cases} C(x_i)[v] = C(x_j)[v] \\ C(x_i)[u] < C(x_j)[u] \end{cases}\]

(ce qui implique $C(x_i) ≤_{lex} C(x_j)$)

Preuve : Si la propriété est vraie jusqu’à $i$ : pour tout $k<i$, on vérifie aisément qu’elle le reste à l’étape $i+1$

Ex : $D=2$, $𝛴≝ \lbrace 0,1 \rbrace$

$i$	1	2	3
$l(x_i)$	0	100	101

  digraph {
    rankdir=LR;
    0[label="C(x_1)"];
    100[label="C(x_2)"];
    101[label="C(x_3)"];
    𝜀 -> 0[label="0"];
    𝜀 -> 1[label="1"];
    1 -> 10[label="0"];
    1 -> 11[label="1"];
    10 -> 100[label="0"];
    10 -> 101[label="1"];
    11 -> 110[label="0"];
    11 -> 111[label="1"];
    0 -> ⋯;
  }

Le sous-arbre enraciné en $x_i$ a $D^{l_{max}-l(x_i)}$ feuilles.

De plus, les feuilles issues de de $x_i$ arrivent avant les feuilles de $x_j$ si $i<j$ et si on lit les feuilles de haut en bas (comme sur le dessin).

Par l’absurde : s’il y a un blocage, en $x_i$ avec $i<n$ lors de l’exécution : on bloque en $(D-1)^{l(x_i)}$ ⟶ dernière feuille de l’arbre.

$l(x_i) = l_{max}$

On a donc :

\[\sum\limits_{ j ≤ i } D^{l_{max}-l(x_j)} = D^{l_{max}} \\ \sum\limits_{ j ≤ i } D^{-l(x_j)} = 1 \\ ⟹ \sum\limits_{ j ≤ n} D^{-l(x_j)} > 1\]

contradiction

Complexité de l’algo : en $O(n+l)$ avec complexité amortie ⟶ cf. l’exemple du compteur dans le cours d’algo 1.

Si $𝒳$ est dénombrable :

\[\sum\limits_{ x∈𝒳 } D^{-l(x)} ≤ 1\]

est toujours une condition nécessaire, en appliquant Mac-Millan aux sommes partielles.

M2 :

Par l’absurde : s’il y a un blocage, en $x_i$ avec $i<n$ lors de l’exécution.

On prend des réels dans $[0,1[$ écrits en base $D$.

Ex :

\[a_1 ⋯ a_n \mapsto^f 0, a_1 ⋯ a_n ≝ \sum\limits_{ i≤n } a_i D^{-i}\]

On pose :

\[I_i ≝ \left[f(C(x_i)), \underbrace{f(C(x_i)) + D^{-l(x_i)}}_{≝ f(C(x_{i+1}))} \right[\]

Les $I_j$ sont contigus de longueur $D^{-k}$ : le dernier code sur lequel on bloque est $0, (D-1) ⋯ (D-1)$ ⟶ $+0, 0⋯01 = 1$, et la dernière borne est $1$.

Donc

\[\sum\limits_{ j ≤ i } D^{-l(x_j)} = 1 \\ ⟹ \sum\limits_{ j ≤ n} D^{-l(x_j)} > 1\]

contradiction

Efficacité du code

$p_i$ : probabilité d’occurrence de $x_i$.

On veut minimiser :

\[\sum\limits_{ i∈I } p_i l(x_i) = L(C) \\ = E(l(X))\]

Th : $∀C$,
\[H_D(X)≤ L(C)\]
avec égalité ssi :
\[\begin{cases} \sum\limits_{ i } D^{-l(x_i)} = 1 \\ p_i = D^{-l(x_i)} \\ \end{cases}\]

Preuve :

On pose

$l_i ≝ l(x_i)$
$C ≝ \sum\limits_{ i } D^{-l(x_i)} ≤ 1$
$r_i ≝ \frac{D^{-l_i}}{C}$

\[L( C ) - H_D(X) = \sum\limits_{ i }p_i \log_D\left(\frac{p_i}{D^{-l_i}}\right) \\ = \sum\limits_{ i }p_i \log_D\left(\frac{p_i}{Cr_i}\right) \\ = \underbrace{\sum\limits_{ i }p_i \log_D\left(\frac{p_i}{Cr_i}\right)}_{ = D(P \Vert r) ≥ 0 \text{ avec égalité si } p=r} + \underbrace{\log_D\left(\frac{1}{C}\right)}_{≥0 \text{ avec égalité si } C=1}\]

Codage de Shannon-Fano

Étant donnés les $p_i$, comment choisir les $l_i$ ?

⟶ Avec le théorème précédent :

\[p_i = D^{-l_i} \\ ⟹ l_i = \lceil -\log_D(p_i) \rceil\] \[H_D(X) ≤ L( C ) = \sum\limits_{ i } p_i \lceil -\log_D(p_i) \rceil ≤ \sum\limits_{ i } p_i ( -\log_D(p_i) +1) = H_D(X) + 1\]

Autre codage, plus fin

L’alphabet n’est plus $𝒳$ mais $𝒳^k$ :

Blocs de $k$ caractères :

\[H_D(X_1, ⋯, X_k) ≤ L( C ) ≤ H_D(X_1, ⋯, X_k) + 1 \\ k H_D(X_1) ≤ L( C ) ≤ k H_D(X_1) + 1\]

Donc le codage d’un caractère est compris entre $H_D(X)$ et $H_D(X) + 1/k$

⟶ Problème : taille de l’alphabet est exponentielle.

Algorithme de Huffman

Ex : $𝛴 ≝ \lbrace 0, 1 \rbrace$

$x_i$	$x_1$	$x_2$	$x_3$	$x_4$	$x_5$
$p_i$	0,25	0,25	0,2	0,15	0,15

  graph {
    rankdir=LR;
    x_2 -- y_2[label="0"];
    x_3 -- y_2[label="1"];
    x_4 -- y_1[label="0"];
    x_5 -- y_1[label="1"];
    x_1 -- y_3[label="0"];
    y_1 -- y_3[label="1"];
    y_2 -- y_4[label="0"];
    y_3 -- y_4[label="1"];
  }

Ex2 :

Si $D = \vert 𝛴 \vert > 2$ : à chaque étape, on élimine $D-1$ caractères

Il faut que $n≡1 \mod (D-1)$

Complexité de l’algorithme :

On utilise un tas binaire, pour pouvoir récupérer le min en $O(\log (n))$, et insérer un élément en $O(\log (n))$

On insère les $n$ événements $x_i$ ($+D-2$ éventuellement auxquels on donne une proba nulle pour que $n≡1 \mod (D-1)$)
Puis, on en retire $\frac{n-1}{D-1}$

⟶ au pire : $2n$ fois ces opérations qui coûtent $\log n$

⟹ complexité amortie en $O(n \log n)$

Lemme :

$p_1 ≥ ⋯ ≥ p_n$

$n \mod (D-1) = 1$

$∃C$ préfixe optimal $\lbrace l_i \rbrace_{i≤n}$ qui vérifie :

Si $p_i > p_j$ alors $l_i ≤ l_j$

“Les” (s’ils existent) $D$ mots les plus plus longs (événements de proba les plus faibles) ont même longueur (maximale)

$D$ mots associés aux probabilités les plus faibles partagent le même père

Preuve :

on vérifie aisément que tout $C$ optimal vérifie la première condition par contraposée.
$k < D$ mots les plus longs :

Peut-on avoir $k=1$ ? Non, car on aurait un fils tout seul, et on améliore le code en prenant le codage de son père.

Donc on peut supposer $1 < k <D$

Scolie : Un arbre dont tous les sommets internes ont $D$ fils a un nombre de feuille congru à $1 \mod (D-1)$

Preuve : Par récurrence sur la taille de l’arbre.

⟶ on peut se ramener au fait que les $D$ mots les plus longs ont même longueur, quitte à rajouter des fils (feuilles) aux noeuds internes qui n’ont pas $D$ fils.

Algorithme de Huffmann :

Insertion dans tas min des événements (poids = proba)
On rajoute des événements fictifs de proba nulle jusqu’à ce que $n≡1 (D-1)$
Extraire $D$ événements $y_1, ⋯, y_D$ du tas min de probas $P_{y_1}, ⋯ , P_{y_D}$
Créer un événement $z$ de proba $\sum_i P_{y_i}$
Insérer $z$ dans le tas
$z$ est père des $y_{D_i}$

Complexité : en $𝛳(n \log n)$

Correction : $∃C$ optimal

Shannon - Fano - Elias

$𝒳 = \lbrace 1, ⋯, n \rbrace$
$p_1, ⋯, p_n >0$
$𝛴 = \lbrace 0, 1 \rbrace$

\[F_X(x) ≝ \sum\limits_{ y ≤ x } P_y \\ F_X^-(x) ≝ \sum\limits_{ y < x } P_y = F_X(x-1)\\ \overline{F}_X(x) ≝ F_X^-(x) + P_x/2 ∈ ]0,1[\]

	41	2	3	4	53
$P_x$	0,25	0,25	0,2	0,15	0,15
$F(x)$	0,25	0,5	0,7	0,85	1
$\overline{F}(x)$	0,125	0,375	0,6	0,775	0,925

Idée : “$\overline{F}(x)$” servira de codage

\[\lfloor x \rfloor_l ≝ \text{ troncature aux } l \text{ premiers bits après la virgule}\]

En base 2 :

\[1/3 = 0,01010101⋯ \\ \lfloor x \rfloor_4 = 0,0101\] \[C(x) = \lfloor \overline{F}(x) \rfloor_{\lceil -\log p(x) \rceil+1} \\ ⟹ l(C) ≤ H(X) + 2\]

Le tableau devient :

	41	2	3	4	53
$P_x$	0,25	0,25	0,2	0,15	0,15
$F(x)$	0,25	0,5	0,7	0,85	1
$\overline{F}(x)$	0,125	0,375	0,6	0,775	0,925
$l(x)$	3	3	4	4	4
$\overline{F}(x)$ en base 2	0,001	0,011	$0,1\overline{001}$	$0,110\overline{0011}$	$0,111\overline{0110}$
$C(x)$ en base 2	001	011	1001	1100	1110

\[0 ≤ \overline{F}(x) - \lfloor \overline{F}(x) \rfloor_{l(x)} < 2^{-l(x)} ≤ 2^{\log(p(x)) -1} = p(x)/2\] \[\lfloor \overline{F}(x) \rfloor_{l(x)} ∈ ]F(x-1), \overline{F}(x)] \\ \lfloor \overline{F}(x+1) \rfloor_{l(x)} ∈ ]F(x), \overline{F}(x+1)]\]

⟶ intervalles disjoints ⟹ code préfixe

Code arithmétique = Shannon-Fano-Elias par bloc.

Comment éviter des stocker la table des blocs ?

Codeur

Codeur : voit un bloc de $b$ caractères $x_1, ⋯, x_i, ⋯, x_b$
\[F^-(x_1 ⋯ x_{i+1}) = F^-(x_1 ⋯ x_{i+1}) + p(x_1⋯x_n) F^-(x_{i+1})\]
\[p(x_1 ⋯ x_{i+1}) = p(x_1 ⋯ x_i) p(x_{i+1})\]
On a les tables statiques de $F^-$ et $p$, et on calcule dynamiquement $F^-(x_1 ⋯ x_{i+1})$ et $p(x_1 ⋯ x_{i+1})$

Décodeur

Décodeur : reçoit $\lfloor \overline{F}(x_1 ⋯ x_b) \rfloor_{l(x_1 ⋯ x_b)}$
\[F^-(x_1)< ⋯ < F^-(x_1 ⋯ x_b) < \lfloor \overline{F}(x_1 ⋯ x_b) \rfloor_{l(x_1 ⋯ x_b)} < F^-(x_1 ⋯ (x_b + 1)) < F^-(x_1 ⋯ (x_{b-1} + 1)) < ⋯ < F^-(x_1 + 1)\]
Le décodeur a la table des $0=F^-(1), ⋯, F^-(n+1)=1$ ⟶ avec l’encadrement précédent, il détermine $x_1$ en $O(n)$
Avec $F^-(x_1 x_2) = F^-(x_1) + p(x_1) F^-(x_2)$, le décodeur détermine $x_2$ en $O(n)$

Codage statique VS Codage adaptatif

Codage statique

La codeur connaît $p_1, ⋯, p_n$

adapté aux fréquences de lettres dans un fichier
pas adapté pour les streams ⟶ on ne connaît pas la proba d’occurrence

Codage adaptatif

On utilisera un alphabet de codage binaire.

$X ≝ (x_1, ⋯, x_n)$

La distribution $p_1, ⋯, p_n$ existe, mais le codeur ne la connaît pas.

Kolmogorov : loi forte des grands nombres.

Pour un mot

\[x_{𝛼(1)} ⋯ x_{𝛼(n)}\]

on pose

\[p^{(n)}(x) = \frac{\text{ nombre d'occurrences de } x}{n}\]

Avec proba 1 :

\[p^{(n)}(x) ⟶_{n \to ∞} p(x)\]

Huffmann adaptatif :

Codage $C_n$ obtenu obtenu à partir des occurrences des $n$ premières lettres pour encoder $x_{𝛼(n+1)}$

Mais ça coûte $O(n \log n)$ à chaque lettre ⟶ trop coûteux :

Solutions :

Première idée : utiliser un codage de Huffmann associé au nombre d’occurrences
Deuxième idée : $C_{n+1}$ à partir de $C_n$

$C_{n-1}(x_n)$ :: code de Huffmann obtenu à partir des fréquences d’événements $x_1, ⋯, x_{n-1}$.

Prop : $x_1, ⋯, x_n$, $p_1, ⋯, p_n$, de poids (compte d’occurrences) $w_1, ⋯, w_n$

Arbre associé à un code préfixe a $2n-1$ sommets :

CNS : $∃$ une numérotation $u_1, ⋯, u_{2n-1}$ tq

$∀i<j, w(u_i) ≤ w(u_j)$

$∀ 1 ≤ i ≤ n$, $u_{2i-1}$ et $u_{2i}$ ont le même père

Observation 1 : L’algo de Huffmann produit une telle numérotation.

Observation 2 : L’algo de Huffmann peut construire cet arbre en suivant la numérotation.

$x_n$ apparaît :

on incrémente la feuille associée à $x_n$ soeur $v_{j+1}$ telle que $v_{j+1}> v_n$, et on intervertit $x_j$ et $x_n$
on incrémente le père et on itère

NB : opération coûteuse : en gras, car on doit parcourir tous les frères (dans le cas équidistribué : $n$), alors que pour les père : hauteur de l’arbre (logarithmique dans le cas équidistribué).

\[l(C_n)⟶_{p.s} l(C)\]

où $C$ est le code de Huffmann.

Ex :

$X ≝ \lbrace a, b, c, d, e, f \rbrace$

  graph {
    rankdir=TB;
    32[label="11"];
    11[label="11 | f, 9"];
    21[label="21, 10"];
    10[label="10, 7"];
    112[label="11, 8"];
    51[label="5 | c, 3"];
    52[label="5 "];
    53[label="5 | d, 4"];
    6[label="5 | e, 6"];
    2[label="2
    | a, 1"];
    3[label="3
    | b, 2"];
    32 -- 11, 21;
    21 -- 10, 112;
    10 -- 51, 52;
    52 -- 2, 3;
    11 -- 53,6;
  }

Code arbitraire : sur $x_1, ⋯, x_n$, $c_1, ⋯, c_n$

Codeur $⟶^{x_3}c_3$ Décodeur

  digraph {
    rankdir=TB;
    12[label="1 | x_3"];
    0[label="0 | ?"];
    1 -> 0, 12;
  }

Codeur $⟶^{x_1}0c_1$ Décodeur

  digraph {
    rankdir=TB;
    12[label="1 | x_3"];
    22[label="2 | x_1"];
    0[label="0 | ?"];
    1 -> 2, 12;
    2 -> 0, 22;
  }

Lempel-Ziv

numéro de l’entrée	mot
0	$𝜀$

On veut coder 001010

Premier caractère : 0
- on passe 0, 0 (index d plus grand préfixe qu’on a déjà dans notre tableau, nouveau caractère)
- on actualise la table en ajoutant le mot précédemment codé (préfixe connu + nouveau caractère)

numéro de l’entrée	mot
0	$𝜀$
1	$0$
2	$01$
3	$010$

Ex :

0/1/00/01/10/11

numéro de l’entrée	mot
0	$𝜀$
1	$0$
2	$1$
3	$00$
4	$01$
5	$10$
6	$11$

Codes envoyés:

0, 0
0, 1
1, 0
1, 1
2, 0
2, 1

On ajoute l’information de la longueur du flux

NB :

si on veut encoder/faire passer 1101 en binaire ⟶ on fait passer 111110110 (longueur : $2\log n = O(\log n)$)

Flux : préfixe de longueur $n$

\[w_n ≝ u_1 ⋯ u_n\]

$c_i^{(n)}$ :: nombre d’occurrences de $x_i$ dans $w_n$
$X_i$ :: v.a du tirage de la lettre $i$

\[S_n ≝ - \frac 1 n \sum\limits_{ i≤n } \log (p(X_i))\]

Par la loi forte des grands nombres :

\[S_n ⟶_{p.s} H_X\]

Soit

\[m≝u_1 ⋯ u_n\] \[m = y_1 y_2 ⋯ y_{c(n)}\]

où les $y_i$ sont les mots produits par Ziv-Lempel.

\[\vert c(n) \vert≤ \lceil (\log c(n) \rceil + 1) c(n)\]

$c(l)$ :: nombre de mots de longueur $l$

LEMME :
\[\sum\limits_{l∈ℕ } c_l \log (c_l) ≤ - \sum\limits_{ i ≤n } \log (p(u_i)) \\ ⟺ \frac 1 n \sum\limits_{ 1 ≤ l≤ c(n) } c_l \log (c_l) ≤ - \frac 1 n \sum\limits_{ i ≤n } \log (p(u_i)) ⟶_{p.s} H(X)\]

Preuve : $p(u_1 ⋯ u_k) = \prod\limits_{1 ≤ i ≤k} p(u_i)$

\[\begin{align*}- \sum\limits_{ i ≤n } \log p(u_i) & = - \sum\limits_{ 1≤j≤c(n) } \log (p(y_j)) \\ & = - \sum\limits_{ l∈ℕ } c_l \sum\limits_{ \vert y_j \vert = l} \frac{1}{c_l} \log (p(y_j))\\ & ≥ - \sum\limits_{ l∈ℕ } c_l \log ( \frac{1}{c_l}) \sum\limits_{ \vert y_j \vert = l} p(y_j) \\ & ≥ \sum\limits_{ l∈ℕ } c_l \log (c_l) \end{align*}\]

Liv-Zempel est très fort : il atteint l’entropie sans même la connaître !

Share on

Twitter Facebook Google+ LinkedIn

Crash Course de théorie de l’information

Entropie relative

Information mutuelle

Codes

Théorème de Mac-Millan

⟹ :

⟸ :

Efficacité du code

Codage de Shannon-Fano

Autre codage, plus fin

Algorithme de Huffman

Shannon - Fano - Elias

Codeur

Décodeur

Codage statique VS Codage adaptatif

Codage statique

Codage adaptatif

Lempel-Ziv

Share on

Leave a comment