Lemme de Sauer

Le lemme de Sauer ou lemme de Sauer-Shelah est un résultat issu de la théorie des probabilités et en particulier de la théorie de Vapnik-Chervonenkis. Il précise le nombre maximal d'échantillons de taille n {\displaystyle n} qu'une classe VC de dimension finie peut pulvériser. Ce résultat a été montré en 1972 par les mathématiciens Norbert Sauer[1] et Saharon Shelah[2].

Énoncé

Articles détaillés : Pulvérisation (mathématiques) et Théorie de Vapnik-Chervonenkis.

On dit qu'une classe C {\displaystyle {\mathcal {C}}} d'un ensemble X {\displaystyle {\mathcal {X}}} prélève un sous-ensemble S {\displaystyle S} de { x 1 , , x n } {\displaystyle \{x_{1},\dots ,x_{n}\}} s'il existe un élément C C {\displaystyle C\in {\mathcal {C}}} vérifiant C { x 1 , , x n } = S {\displaystyle C\cap \{x_{1},\dots ,x_{n}\}=S} . On dit que cette classe pulvérise { x 1 , , x n } {\displaystyle \{x_{1},\dots ,x_{n}\}} s'il prélève tout sous-ensemble S {\displaystyle S} de { x 1 , , x n } {\displaystyle \{x_{1},\dots ,x_{n}\}} . Enfin cette classe est appelée classe VC de dimension n si C {\displaystyle {\mathcal {C}}} n'arrive pas à pulvériser tout ensemble { x 1 , , x n } {\displaystyle \{x_{1},\dots ,x_{n}\}} de taille n {\displaystyle n} . On note Δ ( C ; n ) {\displaystyle \Delta ({\mathcal {C}};n)} le nombre maximum de sous-ensemble prélevées de taille n {\displaystyle n} , i.e.

Δ ( C ; n ) = max x 1 , , x n X c a r d { C { x 1 , , x n } : C C } . {\displaystyle \Delta ({\mathcal {C}};n)=\max _{x_{1},\dots ,x_{n}\in {\mathcal {X}}}\mathrm {card} \{C\cap \{x_{1},\dots ,x_{n}\}:C\in {\mathcal {C}}\}.}

Le lemme de Sauer donne une borne majorante de Δ ( C ; n ) {\displaystyle \Delta ({\mathcal {C}};n)} si C {\displaystyle {\mathcal {C}}} est une classe VC. Formellement si C {\displaystyle {\mathcal {C}}} est une classe VC de dimension V {\displaystyle {\mathcal {V}}} alors

n < V , Δ ( C ; n ) i = 0 V ( n i ) et n V , Δ ( C ; n ) ( e n V ) V = O ( n V ) . {\displaystyle \forall n<{\mathcal {V}},\quad \Delta ({\mathcal {C}};n)\leq \sum _{i=0}^{\mathcal {V}}{\binom {n}{i}}\quad {\textrm {et}}\quad \forall n\geq {\mathcal {V}},\quad \Delta ({\mathcal {C}};n)\leq \left({\frac {en}{\mathcal {V}}}\right)^{\mathcal {V}}=O(n^{\mathcal {V}}).}

Preuve

Une manière classique de démontrer ce résultat est de le faire par récurrence[3],[4]. On raisonne par récurrence sur des classes de dimension VC n + V N {\displaystyle n+{\mathcal {V}}\in \mathbb {N} } .

Initialisation : Si n = 0 , { C : C C } = { } {\displaystyle n=0,\{{\mathcal {C}}\cap \emptyset :C\in {\mathcal {C}}\}=\{\emptyset \}} donc Δ ( C , 0 ) = 1 = i = 0 V ( 0 i ) {\displaystyle \Delta ({\mathcal {C}},0)=1=\sum _{i=0}^{\mathcal {V}}{\binom {0}{i}}} .

Si V = 1 , C {\displaystyle {\mathcal {V}}=1,{\mathcal {C}}} n'arrive à pulvériser aucun point.

Hérédité : Supposons que la propriété soit vérifiée pour tout n + V < n + V {\displaystyle n'+{\mathcal {V}}'<n+{\mathcal {V}}} . Soit C {\displaystyle {\mathcal {C}}} une classe VC (de sous-ensemble d'un ensemble X {\displaystyle {\mathcal {X}}} ) de dimension V {\displaystyle {\mathcal {V}}} et S {\displaystyle S} un ensemble de n {\displaystyle n} points de X {\displaystyle {\mathcal {X}}} . On se fixe un élément s S {\displaystyle s\in S} et on découpe C {\displaystyle {\mathcal {C}}} par C = C 1 C 2 {\displaystyle {\mathcal {C}}={\mathcal {C}}_{1}\cup {\mathcal {C}}_{2}} avec

C 1 = { C C : s C } { C { s } C : C C } C 2 = { C { s } C : C C } . {\displaystyle {\begin{array}{rl}{\mathcal {C}}_{1}&=\{C\in {\mathcal {C}}:s\not \in C\}\cup \{C\cup \{s\}\in {\mathcal {C}}:C\not \in {\mathcal {C}}\}\\{\mathcal {C}}_{2}&=\{C\cup \{s\}\in {\mathcal {C}}:C\in {\mathcal {C}}\}.\end{array}}}

On a que Δ ( C ; S ) = Δ ( C 1 ; S ) + Δ ( C 2 ; S ) {\displaystyle \Delta ({\mathcal {C}};S)=\Delta (C_{1};S)+\Delta (C_{2};S)} et par construction Δ ( C 1 ; S ) = Δ ( C ; S { s } ) {\displaystyle \Delta ({\mathcal {C}}_{1};S)=\Delta ({\mathcal {C}};S\setminus \{s\})} . En notant C {\displaystyle {\mathcal {C}}'} les C {\displaystyle C} qui constituent C 2 {\displaystyle {\mathcal {C}}_{2}} , i.e.

C = { C C : s C , C { s } C } . {\displaystyle {\mathcal {C}}'=\left\{C\in {\mathcal {C}}:s\not \in C,C\cup \{s\}\in {\mathcal {C}}\right\}.}

on a que Δ ( C 2 ; S ) = Δ ( C ; S { s } ) {\displaystyle \Delta ({\mathcal {C}}_{2};S)=\Delta ({\mathcal {C}}';S\setminus \{s\})} .

Par construction, si C {\displaystyle {\mathcal {C}}'} pulvérise un échantillon, C {\displaystyle {\mathcal {C}}} pulvérise également cet échantillon et ce même si on lui rajoute { s } {\displaystyle \{s\}} d'où V C D ( C ) + 1 V C D ( C ) V C D ( C ) V 1 {\displaystyle \mathrm {VCD} ({\mathcal {C}}')+1\leq \mathrm {VCD} ({\mathcal {C}})\Leftrightarrow \mathrm {VCD} ({\mathcal {C}}')\leq {\mathcal {V}}-1} . Ainsi par hypothèse de récurrence,

Δ ( C ; S ) = Δ ( C ; S { s } ) + Δ ( C ; S { s } ) i = 0 V ( n 1 i ) + i = 0 V 1 ( n 1 i ) = i = 0 V ( n i ) {\displaystyle \Delta ({\mathcal {C}};S)=\Delta ({\mathcal {C}};S\setminus \{s\})+\Delta ({\mathcal {C}}';S\setminus \{s\})\leq \sum _{i=0}^{\mathcal {V}}{\binom {n-1}{i}}+\sum _{i=0}^{{\mathcal {V}}-1}{\binom {n-1}{i}}=\sum _{i=0}^{\mathcal {V}}{\binom {n}{i}}}

Si n V {\displaystyle n\geq {\mathcal {V}}} , alors en utilisant le résultat précédent et l'inégalité 1 + x e x {\displaystyle 1+x\leq e^{x}} ,

( V n ) V 1 ( V n ) V Δ ( C , n ) ( V n ) V i = 0 V ( n i ) i = 0 V ( n i ) ( V n ) i ( 1 + V n ) n Δ ( C , n ) ( n V ) V ( 1 + V n ) n ( e n V ) V {\displaystyle {\begin{aligned}\left({\frac {\mathcal {V}}{n}}\right)^{\mathcal {V}}\leq 1\quad &\Rightarrow \quad \left({\frac {\mathcal {V}}{n}}\right)^{\mathcal {V}}\Delta ({\mathcal {C}},n)\leq \left({\frac {\mathcal {V}}{n}}\right)^{\mathcal {V}}\sum _{i=0}^{\mathcal {V}}{\binom {n}{i}}\leq \sum _{i=0}^{\mathcal {V}}{\binom {n}{i}}\left({\frac {\mathcal {V}}{n}}\right)^{i}\leq \left(1+{\frac {\mathcal {V}}{n}}\right)^{n}\\&\Rightarrow \quad \Delta (C,n)\leq \left({\frac {n}{\mathcal {V}}}\right)^{\mathcal {V}}\left(1+{\frac {\mathcal {V}}{n}}\right)^{n}\leq \left({\frac {en}{\mathcal {V}}}\right)^{\mathcal {V}}\end{aligned}}}

Références

  1. (en) N. Sauer, « On the density of families of sets », Journal of Combinatorial Theory, a, vol. 13,‎ , p. 145-147 (lire en ligne)
  2. (en) S. Shelah, « A combinatorial problem; stability and order for models and theories in infinitary languages », Pacific Journal of Mathematics, vol. 41,‎ , p. 247-261 (lire en ligne)
  3. (en) Aad W. Van der Vaart et Jon A. Wellner, Weak convergence and empirical processes, Springer
  4. Massih-Reza Amini, Apprentissage machine de la théorie à la pratique, Eyrolles
  • icône décorative Portail des mathématiques
  • icône décorative Portail des probabilités et de la statistique