Théorème de sélection de Helly

Le théorème de sélection de Helly a été établi par le mathématicien Eduard Helly en 1912[1]. Ce théorème garantit qu'une suite de fonctions qui a des variations bornées admet une sous-suite convergente[2],[3],[4]. Il permet en particulier le passage à la limite sous le signe de l'intégrale de Stieltjes.

Définitions

Soit I {\displaystyle I} un intervalle réel.

  • Une fonction f : I R {\displaystyle f:I\to \mathbb {R} } est dite :
    • à variations bornées sur I s'il existe une constante M telle que, pour toute subdivision σ = (x0, x1, … , xn) de I, on ait V ( f , σ ) := i = 1 n | f ( x i ) f ( x i 1 ) | M {\displaystyle V(f,\sigma ):=\sum _{i=1}^{n}|f(x_{i})-f(x_{i-1})|\leq M}  ;
    • localement à variations bornées sur I si elle est à variations bornées sur tout sous-intervalle compact de I.
  • Un ensemble E {\displaystyle {\mathcal {E}}} de fonctions réelles définies sur I est uniformément à variations bornées sur I s'il existe une constante M telle que, pour toute subdivision σ de I, on ait f E V ( f , σ ) M {\displaystyle \forall f\in {\mathcal {E}}\quad V(f,\sigma )\leq M} .

Énoncé

De toute suite ( f n ) {\displaystyle (f_{n})} de fonctions réelles définies sur un intervalle I uniformément à variations bornées et uniformément bornée ( R > 0 n N x I | f n ( x ) | R {\displaystyle \exists R>0\quad \forall n\in \mathbb {N} \quad \forall x\in I\quad |f_{n}(x)|\leqslant R} ) on peut extraire une sous-suite simplement convergente. La limite de cette sous-suite est à variations bornées.

Démonstration[5],[6]

On va d'abord démontrer le théorème pour une suite de fonctions croissantes. Pour ce faire, on utilisera deux fois le fait que pour tout ensemble dénombrable D, l'espace produit [ R , R ] D {\displaystyle [-R,R]^{D}} est séquentiellement compact, c.-à-d. que toute suite d'applications de D dans [ R , R ] {\displaystyle [-R,R]} admet une sous-suite simplement convergente (c'est la stabilité par produits dénombrables de la compacité séquentielle).

En appliquant d'abord ce lemme à D 1 = I Q {\displaystyle D_{1}=I\cap \mathbb {Q} } , on peut donc extraire une sous-suite, qu'on notera encore ( f n ) {\displaystyle (f_{n})} , qui converge simplement sur I Q {\displaystyle I\cap \mathbb {Q} } .

Notons f la fonction limite, définie sur I Q {\displaystyle I\cap \mathbb {Q} } et à valeurs dans [ R , R ] {\displaystyle [-R,R]} et, pour tout point x I   {\displaystyle x\in {\stackrel {\ \circ }{I}}} ,

f ( x ) := sup { f ( y ) y I Q , y x } et f + ( x ) := inf { f ( z ) z I Q , z x } {\displaystyle f_{-}(x):=\sup\{f(y)\mid y\in I\cap \mathbb {Q} ,y\leq x\}\quad {\text{et}}\quad f_{+}(x):=\inf\{f(z)\mid z\in I\cap \mathbb {Q} ,z\geq x\}} .

La fonction f étant croissante (comme limite simple de fonctions croissantes), l'ensemble

D 2 = { x I   f ( x ) < f + ( x ) } ( I I   ) {\displaystyle D_{2}=\{x\in {\stackrel {\ \circ }{I}}\mid f_{-}(x)<f_{+}(x)\}\cup (I\setminus {\stackrel {\ \circ }{I}})}

est au plus dénombrable.

Soit x I D 2 {\displaystyle x\in I\setminus D_{2}} . Notons {\displaystyle \ell } la valeur commune f ( x ) = f + ( x ) {\displaystyle f_{-}(x)=f_{+}(x)} et montrons que f n ( x ) {\displaystyle f_{n}(x)} tend vers cette valeur. Soit ϵ > 0 {\displaystyle \epsilon >0}  ; il existe y , z I Q {\displaystyle y,z\in I\cap \mathbb {Q} } tels que y x z {\displaystyle y\leq x\leq z} , f ( y ) > ϵ {\displaystyle f(y)>\ell -\epsilon } et f ( z ) < + ϵ {\displaystyle f(z)<\ell +\epsilon } . Pour n assez grand, f n ( y ) f ( y ) ϵ {\displaystyle f_{n}(y)\geq f(y)-\epsilon } et f n ( z ) f ( z ) + ϵ {\displaystyle f_{n}(z)\leq f(z)+\epsilon } et, comme les f n {\displaystyle f_{n}} sont croissantes, f n ( y ) f n ( x ) f n ( z ) {\displaystyle f_{n}(y)\leq f_{n}(x)\leq f_{n}(z)} , donc

ϵ > 0 N n N 2 ϵ < f n ( x ) < + 2 ϵ {\displaystyle \forall \epsilon >0\quad \exists N\quad \forall n\geq N\quad \ell -2\epsilon <f_{n}(x)<\ell +2\epsilon } ,

ce qui prouve la convergence de ( f n ( x ) ) {\displaystyle \left(f_{n}(x)\right)} pour tout x I D 2 {\displaystyle x\in I\setminus D_{2}} .

Pour finir, on applique à nouveau le lemme (à l'ensemble D 2 {\displaystyle D_{2}} ) pour obtenir une sous-suite qui converge partout.

Cas général : on sait qu'une fonction réelle à variations bornées peut se mettre sous forme de différence de deux fonctions croissantes : f = f ( c ) f ( d ) {\displaystyle f=f^{(c)}-f^{(d)}} . La décomposition n'étant pas unique, il faut en trouver une telle que les deux suites ( f n ( c ) ) {\displaystyle (f_{n}^{(c)})} et ( f n ( d ) ) {\displaystyle (f_{n}^{(d)})} vérifient les hypothèses qu'on a utilisées. Notons S ( J ) {\displaystyle {\mathcal {S}}(J)} l'ensemble des subdivisions d'un sous-intervalle J. et fixons a I {\displaystyle a\in I} . Pour toute fonction f à variations bornées sur I, notons V u , v ( f ) = sup { V ( f , σ ) σ S ( [ u , v ] ) } {\displaystyle V_{u,v}(f)=\sup\{V(f,\sigma )\mid \sigma \in {\mathcal {S}}([u,v])\}} (pour tout segment [ u , v ] I {\displaystyle [u,v]\subset I} ) ; on vérifie facilement que les deux fonctions

f ( c ) : x { V a , x ( f ) si  x a V x , a ( f ) si  x a et f ( d ) := f ( c ) f {\displaystyle f^{(c)}:x\mapsto {\begin{cases}V_{a,x}(f)&{\text{si }}x\geq a\\-V_{x,a}(f)&{\text{si }}x\leq a\end{cases}}\quad {\text{et}}\quad f^{(d)}:=f^{(c)}-f}

sont croissantes et que si σ S ( I ) V ( f , σ ) M {\displaystyle \forall \sigma \in {\mathcal {S}}(I)\quad V(f,\sigma )\leq M} alors | f ( c ) | M {\displaystyle |f^{(c)}|\leq M} , donc si de plus | f | R {\displaystyle |f|\leq R} alors | f ( d ) | M + R {\displaystyle |f^{(d)}|\leq M+R} .

Les hypothèses utilisées ci-dessus sont donc satisfaites pour f n ( c ) {\displaystyle f_{n}^{(c)}} et f n ( d ) {\displaystyle f_{n}^{(d)}} .

On applique le résultat déjà démontré à ( f n ( c ) ) {\displaystyle (f_{n}^{(c)})} , puis de la suite extraite on fait une seconde extraction pour assurer la convergence de ( f n ( d ) ) {\displaystyle (f_{n}^{(d)})} .

Selon le même principe, on pourrait traiter des fonctions à valeurs complexes ou, plus généralement, à valeurs dans un espace de dimension finie, en faisant des extractions en cascade pour les parties réelle et imaginaire, ou pour les composantes dans une base.

Généralisation

On peut déduire du théorème le résultat suivant (encore par une extraction diagonale) :

Soit ( f n ) {\displaystyle (f_{n})} une suite de fonctions réelles définies sur un intervalle telle que

  • pour tout sous-intervalle compact K, il existe R K > 0 {\displaystyle R_{K}>0} tel que sup { | f n ( x ) | x K , n N } R K {\displaystyle \sup \lbrace |f_{n}(x)|\mid x\in K,n\in \mathbb {N} \rbrace \leqslant R_{K}}  ;
  • la suite est uniformément à variations bornées sur tout sous-intervalle compact.

Alors, on peut extraire de ( f n ) {\displaystyle (f_{n})} une sous suite simplement convergente. La limite de cette sous-suite est localement à variations bornées.

Interprétation en termes de compacité

Le théorème de Helly est clairement un énoncé de compacité, mais cette compacité ne concerne pas vraiment les fonctions à variations bornées.

Notons C 0 {\displaystyle {\mathcal {C}}_{0}} l'espace vectoriel des fonctions réelles continues sur R {\displaystyle \mathbb {R} } tendant vers zéro en ± {\displaystyle \pm \infty } , muni de la norme uniforme f = sup { | f ( x ) | x R } {\displaystyle \|f\|_{\infty }=\sup \lbrace |f(x)|\mid x\in \mathbb {R} \rbrace } et C b {\displaystyle {\mathcal {C}}_{b}} l'espace vectoriel des fonctions réelles continues bornées sur R {\displaystyle \mathbb {R} } , avec la même norme. On sait que ce sont deux espaces de Banach, et que C 0 {\displaystyle {\mathcal {C}}_{0}} est un sous espace fermé de C b {\displaystyle {\mathcal {C}}_{b}} .

Le dual de l'espace de Banach C 0 {\displaystyle {\mathcal {C}}_{0}} s'identifie à l'espace M b {\displaystyle {\mathcal {M}}_{b}} des mesures de Radon bornées sur R {\displaystyle \mathbb {R} } , et d'après le théorème de Banach-Alaoglu, la boule unité fermée de M b {\displaystyle {\mathcal {M}}_{b}} est *-faiblement compacte, c'est-à-dire compacte pour la topologie de la convergence simple sur C 0 {\displaystyle {\mathcal {C}}_{0}} . Elle est aussi séquentiellement compacte (comme C 0 {\displaystyle {\mathcal {C}}_{0}} est séparable, la topologie induite sur la boule unité de M b {\displaystyle {\mathcal {M}}_{b}} par la topologie *-faible est métrisable). C'est cette compacité qu'exprime, indirectement, le théorème de Helly, et la démonstration ci-dessus est une preuve de ce cas particulier du théorème de Banach-Alaoglu (preuve d'un intérêt limité, car la démonstration générale du théorème de Banach-Alaoglu est plus courte que celle du théorème de Helly). Montrons le lien entre les deux résultats.

On sait que toute mesure bornée se prolonge de manière unique à C b {\displaystyle {\mathcal {C}}_{b}} (pour des mesures positives — les seules pour lesquelles le théorème est utilisé en pratique —, c'est une conséquence du théorème de convergence monotone ; pour des mesures de signe quelconque, il faut passer par la mesure positive | μ | {\displaystyle |\mu |} ). Si μ {\displaystyle \mu } est une mesure bornée, on peut donc définir la fonction de répartition F : F ( x ) = μ ( ] , x ] ) {\displaystyle F:F(x)=\mu (\rbrack -\infty ,x\rbrack )} , et une condition suffisante pour qu'une suite bornée de mesures bornées ( μ n ) {\displaystyle (\mu _{n})} converge *-faiblement vers μ {\displaystyle \mu } est que leurs fonctions de répartition F n {\displaystyle F_{n}} convergent vers la fonction de répartition F {\displaystyle F} de μ {\displaystyle \mu } simplement sur l'ensemble des points de continuité de F {\displaystyle F} (la réciproque est fausse).

Démonstration

Supposons que la suite de fonctions uniformément à variations bornées ( F n ) {\displaystyle (F_{n})} converge simplement vers la fonction à variations bornées F {\displaystyle F} sur l'ensemble E c {\displaystyle E_{c}} des points de continuité de F {\displaystyle F} . Comme F {\displaystyle F} est à variations bornées, l'ensemble des points de discontinuités est au plus dénombrable, donc E c {\displaystyle E_{c}} est dense dans R {\displaystyle \mathbb {R} } . On notera μ n {\displaystyle \mu _{n}} (resp μ {\displaystyle \mu } ) les mesures bornées associées à F n {\displaystyle F_{n}} (resp F {\displaystyle F} ) par l'intégrale de Stieltjes. On note que n , μ n M {\displaystyle \forall n,\|\mu _{n}\|\leqslant M} , où M {\displaystyle M} est un majorant uniforme des variations des F n {\displaystyle F_{n}} et de F {\displaystyle F} ). Soit ] a , b ] {\displaystyle \rbrack a,b\rbrack } un intervalle borné limité par deux points de E c {\displaystyle E_{c}} , notons 1 ] a , b ] {\displaystyle \mathbb {1} _{\rbrack a,b\rbrack }} la fonction indicatrice de cet intervalle.

D'après la définition des intégrales de Stieltjes, 1 ] a , b ] d μ n = F n ( b ) F n ( a ) {\displaystyle \int \mathbb {1} _{\rbrack a,b\rbrack }\,\mathrm {d} \mu _{n}=F_{n}(b)-F_{n}(a)} , donc lim n 1 ] a , b ] d μ n = F ( b ) F ( a ) = 1 ] a , b ] d μ {\displaystyle \lim _{n}\int \mathbb {1} _{\rbrack a,b\rbrack }\,\mathrm {d} \mu _{n}=F(b)-F(a)=\int \mathbb {1} _{\rbrack a,b\rbrack }\,\mathrm {d} \mu } . Si f {\displaystyle f} est une combinaison linéaire de fonctions de ce type, il est clair que lim f d μ n n + f d μ {\displaystyle \lim \int f\,\mathrm {d} \mu _{n}{\xrightarrow[{n\to +\infty }]{}}\int f\,\mathrm {d} \mu } .

Soit maintenant f C 0 {\displaystyle f\in {\mathcal {C}}_{0}} . Elle est uniformément continue : ϵ > 0 η > 0 | x y | < η | f ( x ) f ( y ) | < ϵ {\displaystyle \forall \epsilon >0\quad \exists \eta >0\quad |x-y|<\eta \Rightarrow |f(x)-f(y)|<\epsilon } .

Soit h : 0 < h < η {\displaystyle h:0<h<\eta } et notons x k = k h , k Z {\displaystyle x_{k}=kh,k\in \mathbb {Z} } . Pour tout k {\displaystyle k} choisissons un élément a k ] ( k 1 ) h , k h [ E c {\displaystyle a_{k}\in \rbrack (k-1)h,kh\lbrack \cap E_{c}} . Par construction, x ] a k , a k + 1 ] | f ( x ) f ( x k ) | < ϵ {\displaystyle \forall x\in \rbrack a_{k},a_{k+1}\rbrack \quad |f(x)-f(x_{k})|<\epsilon } .

Comme f {\displaystyle f} tend vers zéro à l'infini, il existe une somme finie g = k = k m i n k = k m a x f ( x k ) 1 ] a k , a k + 1 ] {\displaystyle g=\sum _{k=kmin}^{k=kmax}f(x_{k})\mathbb {1} _{\rbrack a_{k},a_{k+1}\rbrack }} telle que f g < ϵ {\displaystyle \|f-g\|<\epsilon } (pour | x | {\displaystyle |x|} assez grand, 0 {\displaystyle 0} est une approximation à ϵ {\displaystyle \epsilon } près). On a vu que N n N | g d μ n g d μ | < ϵ {\displaystyle \exists N\quad n\geqslant N\Rightarrow \left|\int g\,\mathrm {d} \mu _{n}-\int g\,\mathrm {d} \mu \right|<\epsilon } donc

n > N | f d μ n f d μ | | f d μ n g d μ n | + | g d μ n g d μ | + | g d μ f d μ | ( 1 + 2 M ) ϵ {\displaystyle n>N\Rightarrow \left|\int f\,\mathrm {d} \mu _{n}-\int f\,\mathrm {d} \mu \right|\leqslant \left|\int f\,\mathrm {d} \mu _{n}-\int g\,\mathrm {d} \mu _{n}\right|+\left|\int g\,\mathrm {d} \mu _{n}-\int g\,\mathrm {d} \mu \right|+\left|\int g\,\mathrm {d} \mu -\int f\,\mathrm {d} \mu \right|\leqslant (1+2M)\epsilon } .

On applique le plus souvent ces résultats pour des mesures de probabilité, ce qui demande des précautions supplémentaires : l'ensemble des mesures positives de masse totale inférieure ou égale à M {\displaystyle M} est *-faiblement fermé (c'est une intersection de demi-espaces *-faiblement fermés) ; il est contenu dans le compact (*-faible) constitué par la boule fermée de rayon M {\displaystyle M} , donc il est *-faiblement compact. Mais l'ensemble des mesures de probabilité n'est pas *-faiblement fermé ; il est par exemple évident que la suite ( δ n ) {\displaystyle (\delta _{n})} des masses de Dirac aux points n {\displaystyle n} converge *-faiblement vers zéro, or la mesure nulle n'est clairement pas une mesure de probabilité. Il faut donc des hypothèses supplémentaires, par exemple la convergence étroite, ou des conditions de tension, ces dernières pouvant, dans le cas de R {\displaystyle \mathbb {R} } , s'exprimer à l'aide des fonctions de répartition.

Habituellement, les probabilistes sous entendent l'étoile et écrivent « convergence faible » au lieu de « convergence *-faible » et de même pour toutes les expressions du même type (parce que la véritable convergence faible, qui ferait intervenir le dual de l'espace des mesures, n'est jamais utilisée) ; comme l'espace C 0 {\displaystyle {\mathcal {C}}_{0}} n'est pas réflexif, cela peut conduire à des erreurs si on utilise sans réfléchir des théorèmes sur les e.v.t. pour lesquels la distinction est importante.

Notes et références

  1. (en) John J. O'Connor et Edmund F. Robertson, « Eduard Helly », sur MacTutor, université de St Andrews.
  2. W. J. Kaczor et M. T. Nowak (trad. de l'anglais par E. Kouris), Problèmes d'analyse, vol. III, EDP Sciences (lire en ligne), p. 17 et 94 (problème I.3.14).
  3. M. Métivier, Notions fondamentales de la théorie des probabilités, Paris, Dunod, .
  4. (en) Patrick Billingsley (en), Probability and Measures, Wiley, .
  5. S. Francinou, H. Gianella et S. Nicolas, Exercices de mathématiques oraux x-ENS, Analyse 2, Cassini.
  6. (en) I. P. Natanson (en), Theory of Functions of a Real Variable, Dover, (lire en ligne), p. 222.
  • icône décorative Portail de l'analyse