Intégration – alpha et omega

March 21st, 2016 2 comments
Robert Solovay (1938 - )

Robert Solovay (1938 – )

En unifiant la théorie de la mesure d’Émile Borel et la théorie de l’intégration de Bernhard Riemann, Henri-Léon Lebesgue a créé un paradis pour les mathématiciens. Ces derniers ont eu du mal à s’en rendre compte, et même les plus illustres comme Nicolas Bourbaki ont ignoré le sujet durablement. Stanisław Saks et Paul Halmos ont beaucoup fait, dit-on, pour la diffusion de la théorie de la mesure et l’intégrale de Lebesgue. Il existe, de nos jours, plusieurs manières d’introduire et d’étudier l’intégrale de Lebesgue (en troisième année de licence en France). Les analystes spécialistes des équations aux dérivées partielles et du calcul des variations préfèrent bien souvent évacuer rapidement la théorie de la mesure et les tribus, pour se consacrer pleinement aux aspects fonctionnels, car les fonctions tests sont leur alpha et omega. Ils apprécient l’intégrale de Lebesgue notamment pour ses commutations : théorèmes de convergence monotone, lemme de Pierre Fatou, théorème de convergence dominée, et théorème de Guido Fubini et Leonida Tonelli. Les probabilistes en revanche mettent plus l’accent sur la théorie de la mesure et les tribus, car c’est le langage moderne des probabilités inventé par Andreï Kolmogorov, qui permet notamment de donner un sens à l’indépendance et d’unifier l’étude des variables aléatoires discrètes et continues : les sommes et les intégrales sont des objets de même nature et les théorèmes sont les mêmes. Il est bien sûr possible de procéder de manière équilibrée en ménageant la chèvre et le chou, mais force est de constater que tout le monde ne souhaite pas être polyglotte. La mesurabilité constitue un sujet épineux pour les étudiants, culminant avec l’effrayante simplicité de construction d’ensembles non mesurables grâce à l’axiome du choix. Je ne résiste pas au plaisir de partager un extrait du cours d’analyse de Jean-Michel Bony, signalé par Yann Brenier :

1.6.1. Existe-t-il des ensembles et des fonctions non mesurables? L’expérience suggère la réponse non. En effet, les ensembles mesurables forment une tribu contenant les ouverts et il en résulte que l’espace des fonctions mesurables contient les fonctions continues et est stable par toutes les opérations dénombrables usuelles : limite d’une suite (ou somme d’une série) de fonctions qui converge en chaque point, sup ou inf dénombrable,… À titre d’exemple, le lecteur pourra voir dans l’exercice B.2.4 que la fonction égale à 1 en tout point rationnel et à 0 en tout point irrationnel — le type même de la fonction non intégrable au sens de Riemann, alors que c’est une excellente fonction sommable d’intégrale nulle — est limite d’une suite de fonctions dont chacune est limite d’une suite de fonctions continues. On peut bien sûr faire beaucoup plus compliqué, mais on n’arrive jamais à construire une fonction non mesurable sans faire appel à l’axiome du choix.

La véritable réponse à la question posée est : cela dépend des axiomes mis à la base des mathématiques. On a en effet les deux résultats suivants.

  • Si on adjoint l’axiome du choix aux axiomes usuels de la théorie des ensembles, on peut prouver effectivement qu’il existe des ensembles non mesurables (voir l’exercice 1.6.2).
  • Par contre, un résultat relativement récent de logique mathématique (Solovay, 1966) assure que l’on peut adjoindre à ces mêmes axiomes, sans introduire de contradiction, les formes dénombrables de l’axiome du choix et l’axiome “tout sous-ensemble de $\mathbb{R}^n$ est mesurable”.

Dans la pratique cela signifie que, à moins de le faire exprès à l’aide de l’axiome du choix, il est exclu que l’on ait à considérer des fonctions non mesurables. C’est pourquoi ce cours a été écrit comme si toutes les fonctions étaient mesurables. La véritable raison est bien sûr une question de temps, il y a mieux à faire que de démontrer, par des méthodes répétitives, des résultats dont on sait d’avance qu’ils sont toujours vrais. Le lecteur n’aura qu’à ajouter mentalement l’adjectif “mesurable” chaque fois qu’il rencontrera le mot “ensemble” ou “fonction”.

Cela dit, le lecteur excessivement scrupuleux qui serait choqué par cette façon de faire pourra se placer dans le système d’axiomes autorisé par Solovay. C’est un cadre dans lequel on peut développer toute l’analyse classique, et où tous les énoncés de ce chapitre sont effectivement des théorèmes.

Ce qui précède s’applique à la mesure de Lebesgue, et il ne faudrait pas en conclure que toutes les questions de mesurabilité sont sans intérêt. En théorie des probabilités, on introduit fréquemment plusieurs tribus (dépendant par exemple du temps), la mesurabilité d’une variable aléatoire X par rapport à telle ou telle tribu ayant un contenu probabiliste précis. Dans un tel contexte, la démonstration de la mesurabilité d’une variable aléatoire peut être un résultat important, et éventuellement difficile.

L’article A model of set-theory in which every set of reals is Lebesgue measurable de Robert Solovay paru dans Annals of Mathematics en 1970 vaut le détour. Page 3 Robert Solovay dit «Of course, the axiom of choice is true, and so there are non-measurable sets.»! Renoncer à l’axiome du choix général fait que certains résultats phares de l’analyse comme par exemple le théorème de Andrey Nikolayevich Tikhonov, de Hans Hahn et Stefan Banach, ou de Stefan Banach et Leonidas Alaoglu ne sont plus disponibles au delà du dénombrable ou du séparable.

Lectures : tous les livres cités sont disponibles en DjVu sur Internet !

  • Henri-Léon Lebesgue, Leçons sur l’intégration et la recherche des fonctions primitives professées au Collège de France, 1904.
  • Paul R. Halmos, Measure theory, 1950.
  • Jacques Neveu, Bases mathématiques du calcul des probabilités, 1970.
  • Jean-Michel Bony, Cours d’analyse – Théorie des distributions et analyse de Fourier, 1996.
Jean-Michel Bony (1942 - )

Jean-Michel Bony (1942 – )

Share

Vincennes – Polytechnique

March 17th, 2016 No comments

J’ai entrepris récemment d’effectuer le trajet Vincennes – Polytechnique à bicyclette, en Origine Tuxedo (voir ci-dessous). L’itinéraire, roulant, emprunte le bois de Vincennes jusqu’à la Porte Dorée, les boulevards des maréchaux jusqu’au Parc Montsouris, la départementale jusqu’au Parc de Sceaux, la coulée verte jusqu’à Massy, puis une piste jusqu’à l’École Polytechnique.

Google Maps est pessimiste : vers 10 heures du matin, l’aller peut être fait en 1h15, et le retour en 1h30 vers 18h. J’ai remplacé récemment les deux pneumatiques 23mm par un 25mm à l’arrière et un 28mm à l’avant. Cela donne un vélo un peu plus adapté à un usage urbain, et moins sujet aux crevaisons, fréquentes par temps de pluie avec des 23mm quand on roule beaucoup ! Les mensurations du cadre du Tuxedo ne permettent pas du 28mm à l’arrière.

Vélo Origine Tuxedo

Origine Tuxedo à Vincennes avec des 23 A/R.

Le trajet est peu bucolique, mais le vélo est ici plus un moyen de (tran)sport que de loisir !

Lien du jour : Mieux se Déplacer à Bicyclette – Vélomobilité au quotidien en Île-de-France.

Share
Categories: Bicyclette

Aspects of the Ornstein-Uhlenbeck process

February 13th, 2016 No comments
George Uhlenbeck (1900-1988)

George Uhlenbeck (1900-1988)

The Ornstein-Uhlenbeck process \( {X={(X_t)}_{t\in[0,\infty)}} \) on \( {\mathbb{R}^n} \) is the solution of the stochastic differential equation

\[ dX_t=\sqrt{2}dB_t-X_tdt \]

where \( {{(B_t)}_{t\in[0,\infty)}} \) is a standard Brownian motion. Since the diffusion coefficient is constant and the drift is affine, it follows that \( {X} \) is a Gaussian process. The computation of the mean and of the variance of \( {X_t} \) conditional on \( {\{X_0=x\}} \) yields

\[ \mathrm{Law}(X_t\mid X_0=x)=\mathcal{N}(xe^{-t},\sqrt{1-e^{-2t}}I_n). \]

This shows that for any \( {x} \) and conditional on \( {\{X_0=x\}} \), \( {X} \) converges in distribution:

\[ X_t\underset{t\rightarrow\infty}{\overset{d}{\longrightarrow}}\gamma_n \]

where \( {\gamma_n=\mathcal{N}(0,I_n)} \) has density \( {(2\pi)^{-\frac{n}{2}}e^{-\frac{1}{2}|x|^2}} \). This shows also that \( {\gamma_n} \) is invariant:

\[ X_0\sim\gamma_n\quad\Rightarrow\quad\forall t\geq0,\quad X_t\sim\gamma_n. \]

Actually a stronger property holds true: the law \( {\gamma_n} \) is reversible in the sense that

\[ X_0\sim\gamma_n\quad\Rightarrow\quad\forall t\geq0,\quad (X_0,X_t)\overset{d}{=}(X_t,X_0). \]

The explicit law of the process allows computations, for instance for any \( {s,t\geq0} \),

\[ \mathrm{Cov}(X_s,X_t)=e^{-|t-s|}(1-e^{-2\min(s,t)}). \]

For any bounded and measurable \( {f:\mathbb{R}^n\rightarrow\mathbb{R}} \), any \( {x\in\mathbb{R}} \) and \( {t\in[0,+\infty)} \), we set

\[ P_t(f)(x)=\mathbb{E}(f(X_t)\mid X_0=x). \]

We have \( {P_t(\mathbf{1}_A)(x)=\mathbb{P}(X_t\in A\mid X_0=x)} \). The family \( {{(P_t)}_{t\in[0,\infty)}} \) is a semigroup of linear operators acting on continuous and bounded functions, in the sense that

\[ P_0=id, \quad \forall s,t\geq0, \quad P_t\circ P_s = P_{t+s}. \]

These operators are Markov operators, in the sense that for any \( {t\in[0,\infty)} \),

\[ \forall c\in\mathbb{R}, P_t(c)=c, \quad\text{and}\quad \forall f, f\geq0 \Rightarrow P_t(f)\geq0. \]

The explicit law of the process provides the Mehler formula for the semigroup

\[ P_t(f)(x) =\int\!f(xe^{-t}+\sqrt{1-e^{-2t}}y)\gamma_n(dy)\\ =\mathbb{E}(f(xe^{-t}+\sqrt{1-e^{-2t}}Z)). \]

This gives the following commutation with the gradient when \( {f} \) is smooth:

\[ (\nabla P_t f)(x)=e^{-t}P_t(\nabla f)(x), \]

where in the right hand side, \( {P_t} \) acts on each coordinates of the vector \( {\nabla f} \).

The infinitesimal generator is the unbounded operator in \( {L^2(\gamma_n)} \) given by

\[ Af =\partial_{t=0^+}P_tf =\lim_{t\rightarrow0^+}\frac{P_tf-f}{t} =\Delta f-\langle x,\nabla f\rangle. \]

The Chapman-Kolmogorov evolution equation writes

\[ \partial_tP_t=AP_t=P_tA. \]

If we fix \( {f} \) and write \( {u_t(x)=P_t(f)(x)} \) for any \( {x} \) and \( {t} \) then

\[ u_0=f\quad\text{and}\quad \partial_t u_t=Au_t=\Delta u_t-\langle x,\nabla u_t\rangle. \]

The operator \( {A} \) (and \( {P_t} \) for any \( {t\geq0} \)) is symmetric in \( {L^2(\gamma_n)} \), in other words an integration by parts holds, meaning that for any \( {f} \) and \( {g} \),

\[ -\int\!fAg\,d\gamma_n =\int\!\nabla f\cdot\nabla g\,d\gamma_n. \]

If \( {X_0} \) has density \( {f_0} \) with respect to \( {\gamma_n} \) then \( {X_t} \) has also a density with respect to \( {\gamma_n} \) given by \( {f_t=P_tf_0} \). If \( {g} \) is the Lebesgue density of \( {\gamma_n} \), then \( {g_t=f_tg} \) is the Lebesgue density of \( {X_t} \). The evolution of \( {g_t} \) with respect to \( {t} \) is described by the Fokker-Planck equation, dual of the Chapman-Kolmogorov equation,

\[ \partial_tg_t=\Delta g_t+\mathrm{div}(xg_t). \]

If \( {\mu} \) and \( {\nu} \) are probability measures on \( {\mathbb{R}^n} \) with \( {\nu\ll\mu} \) then the Kullback-Leibler divergence or relative entropy of \( {\nu} \) with respect to \( {\mu} \) is defined by

\[ H(\nu\mid\mu)=\int\!f\log f\,d\mu=\int\!\log f\,d\nu \quad\text{where}\quad f=\frac{d\nu}{d\mu}. \]

We take the convention \( {H(\nu\mid\mu)=+\infty} \) if \( {f\log f\not\in L^1(\mu)} \) or if \( {\nu\not\ll\mu} \). Note that Jensen’s inequality shows that \( {H(\nu\mid\mu)\geq0} \) with equality iff \( {\mu=\nu} \).

In the case where \( {\mu} \) is a Boltzmann-Gibbs measure with Lebesgue density \( {g(x)=e^{-V(x)}} \), the quantity \( {H(\nu\mid\mu)} \) becomes a Helmholtz free energy, in the sense that

\[ H(\nu\mid\mu)=\int\!V\,d\nu-S(\nu) \]

where the first term in the right hand side is the mean energy of \( {\nu} \) while the second term in the right hand side is the Boltzmann-Shannon entropy

\[ S(\nu)=\displaystyle\int\!fg\log(fg)\,dx. \]

Suppose that the law \( {\mu_0} \) of \( {X_0} \) has density \( {f_0} \) with respect to \( {\gamma_n} \). Then the law \( {\mu_t} \) of \( {X_t} \) has density \( {f_t=P_tf_0} \) with respect to \( {\gamma_n=\mu_\infty} \). The free energy decays along the time. Namely, using the evolution equation and the integration by parts,

\[ \begin{array}{rcl} \frac{d}{dt}H(\mu_t\mid\gamma_n) &=&\displaystyle\int\!\partial_t(f_t\log f_t)\,d\gamma_n\\ &=&\displaystyle\int\!(1+\log f_t)Af_t\,d\gamma_n\\ &=&\displaystyle-\int\!\frac{|\nabla f_t|^2}{f_t}\,d\gamma_n\\ &=&-J(\mu_t\mid\gamma_n) \leq0. \end{array} \]

This is know as the de Bruijn identity:

\[ \frac{d}{dt}H(\mu_t\mid\gamma_n)=-J(\mu_t\mid\gamma_n)\leq0. \]

The quantity

\[ J(\nu\mid\mu) =\int\!\frac{|\nabla f|^2}{f}\,d\mu=\int\!|\nabla\log f|^2\,d\nu \quad\text{where}\quad f=\frac{d\nu}{d\mu} \]

is the Fisher information. How it behaves along the O.-U. dynamics? Well, using commutation, two times Jensen’s inequality, and the invariance of \( {\gamma_n} \), we get

\[ \begin{array}{rcl} J(\mu_t\mid\gamma_n) &=&\int\!\frac{|\nabla f_t|^2}{f_t}\,d\gamma_n\\ &=&e^{-2t}\int\!\frac{|(\nabla f)_t|^2}{f_t}\,d\gamma_n\\ &\leq& e^{-2t}\int\!\frac{(|\nabla f|)_t^2}{f_t}\,d\gamma_n\\ &\leq& e^{-2t}\int\!\left(\frac{|\nabla f_0|^2}{f_0}\right)_t\,d\gamma_n\\ &=& e^{-2t}J(\mu_0\mid\gamma_n), \end{array} \]

in other words the Fisher information decays exponentially:

\[ \forall \mu_0\ll\gamma_n,  \forall t\geq0,\quad J(\mu_t\mid\gamma_n)\leq e^{-2t}J(\mu_0\mid\gamma_n). \]

In particular we get \begin{align*} H(\mu_0\mid\gamma_n) =-\int_0^\infty\!\frac{d}{dt}H(\mu_t\mid\gamma_n)\,dt =\int_0^\infty\!J(\mu_t\mid\gamma_n)\,dt \leq \frac{1}{2}J(\mu_0\mid\gamma_n). \end{align*} This inequality is known as a logarithmic Sobolev inequality:

\[ \forall \nu\ll\gamma_n,\quad H(\nu\mid\gamma_n)\leq\frac{1}{2}J(\nu\mid\gamma_n). \]

This inequality is optimal in the sense that equality is achieved when \( {d\nu(x)/d\gamma_n(x)=e^{ax}} \) for some \( {a\in\mathbb{R}} \). Using this inequality for \( {\nu=\mu_t} \) yields

\[ \frac{d}{dt}H(\mu_t\mid\gamma_n) =-J(\mu_t\mid\gamma_n) \leq -\frac{1}{2}H(\mu_t\mid\gamma_n). \]

which gives, by Gronwall’s lemma, an exponential decay of the free energy, namely

\[ \forall\mu_0\ll\gamma_n,  \forall t\geq0,  H(\mu_t\mid\gamma_n)\leq e^{-2t}H(\mu_0\mid\gamma_n). \]

Since both sides are equal for \( {t=0} \), taking the derivative at time \( {t=0} \) allows to recover from this exponential decay the logarithmic Sobolev inequality!

Hypercontractivity. For any \( {t\in[0,\infty)} \) and any \( {p\in[1,\infty]} \), Mehler’s formula shows immediately that \( {P_t} \) can be extended into a linear operator on \( {L^p(\gamma_n)} \). In fact \( {P_t} \) is always a contraction:

\[ \forall p\geq1, \forall t\in[0,\infty), \forall f\in L^p(\gamma_n),\quad \Vert P_tf\Vert_p\leq\Vert f\Vert_p. \]

Namely, using Jensen’s inequality and the invariance of \( {\gamma_n} \),

\[ \begin{array}{rcl} \Vert P_tf\Vert_p^p &=&\int\!|\mathbb{E}(f(X_t)\mid X_0=x)|^p\,d\gamma_n(x)\\ &\leq& \int\!\mathbb{E}(|f(X_t)|^p\mid X_0=x)\,d\gamma_n(x)\\ &=&\int\!P_t(|f|^p)\,d\gamma_n(x)\\ &=&\int\!|f|^p\,d\gamma_n(x)\\ &=&\Vert f\Vert_p^p. \end{array} \]

Since equality is achieved for constant functions, it follows that \( {\Vert P_t\Vert_{p\rightarrow p}=1} \). The semigroup \( {{(P_t)}_{t\in[0,\infty)}} \) is in fact hypercontractive:

\[ \forall p\geq1, \forall t\geq0, \forall f\in L^p(\gamma_n), \quad \Vert P_t f \Vert_{p(t)} \leq \Vert f \Vert_p, \]

where \( {p(t) = 1 + (p-1)e^{2t}} \), in other words \( {\Vert P_t\Vert_{p\rightarrow p(t)}=1} \), and moreover this value \( {p(t)} \) is critical in the sense that if \( {q > p(t)} \) then \( {\Vert P_t\Vert_{p\rightarrow q}=+\infty} \).

Let us give a proof. One can assume that \( {f\geq0} \) since \( {|P_t f|\leq P_t|f|} \) by Jensen’s inequality. Note that \( {p(0)=0} \) and \( {p(t)>p} \) if \( {t>0} \). Set \( {\alpha(t)=\log\Vert P_t f\Vert_{p(t)}} \). To lighten the notation, let us set \( {f_t=P_tf} \). We have, for any \( {t\geq0} \),

\[ \begin{array}{rcl} \alpha'(t) &=&\left(\frac{1}{p(t)}\log\int\!f_t^{p(t)}\,d\gamma_n\right)’\\ &=&-\frac{p'(t)}{p(t)^2}\log\int\!f_t^{p(t)}\,d\gamma_n +\frac{1}{p(t)}\frac{\left(\displaystyle\int\!f_t^{p(t)}\,d\gamma_n\right)’}{\displaystyle\int\!f_t^{p(t)}\,d\gamma_n}\\ &=&-\frac{p'(t)}{p(t)^2}\log\int\!(f_t)^{p(t)}\,d\gamma_n +\frac{1}{p(t)}\frac{\displaystyle\int\!\left(p'(t)\log f_t+p(t)\frac{Af_t}{f_t}\right)f_t^{p(t)}\,d\gamma_n}{\displaystyle\int\!f_t^{p(t)}\,d\gamma_n}\\ &=&-\frac{p'(t)}{p(t)^2}\log\int\!f_t^{p(t)}\,d\gamma_n +\frac{p'(t)}{p(t)^2}\frac{\displaystyle\int\!f_t^{p(t)}\log f_t^{p(t)}\,d\gamma_n}{\displaystyle\int\!f_t^{p(t)}\,d\gamma_n} +\frac{\displaystyle\int\!(Af_t)f_t^{p(t)-1}\,d\gamma_n}{\displaystyle\int\!f_t^{p(t)}\,d\gamma_n}\\ &=&\frac{p'(t)}{p(t)^2}\left(H(h_t^{p(t)}\gamma_n\mid\gamma_n)+\frac{p(t)^2}{p'(t)}\int\!(Ah_t)h_t^{p(t)-1}\,d\gamma_n\right) \end{array} \]

where \( {h_t=f_t/\Vert f_t\Vert_{p(t)}} \). Now the logarithmic Sobolev inequality and the integration by parts give, for any \( {h\geq0} \) such that \( {h^p} \) is a probability density with respect to \( {\gamma_n} \),

\[ \begin{array}{rcl} \mathrm{H}(h^p\gamma_n\mid\gamma_n) &\leq&\frac{1}{2}\int\!\frac{|\nabla h^p|^2}{h^p}\,d\gamma_n\\ &=&\frac{p^2}{2}\int\!|\nabla h|^2h^{p-2}\,d\gamma_n\\ &=&\frac{p^2}{2(p-1)}\int\!\left<\nabla h,\nabla h^{p-1}\right>\,d\gamma_n\\ &=&-\frac{p^2}{2(p-1)}\int\!(Ah)h^{p-1}\,d\gamma_n. \end{array} \]

Using this inequality for \( {h=h_t} \) and \( {p=p(t)} \), and using \( {2(p(t)-1)=p'(t)} \), we obtain that \( {\alpha'(t)\leq0} \) for any \( {t\geq0} \), and as a consequence

\[ \log\Vert P_tf\Vert_{p(t)} = \alpha(t) \leq\alpha(0)=\log\Vert f\Vert_p. \]

Finally, if now \( {q>p(t)} \) then taking \( {f_\lambda(x)=e^{\langle\lambda,x\rangle}} \) for some \( {\lambda\in\mathbb{R}^n} \) gives

\[ \Vert f_\lambda\Vert_p=e^{p|\lambda|^2/2} \quad\text{and}\quad P_t f_\lambda=e^{|\lambda|^2(1-e^{-2t})/2}f_{\lambda e^{-t}} \]

and therefore

\[ \frac{\Vert P_t f_\lambda\Vert_{q}}{\Vert f_\lambda\Vert_p} =e^{|\lambda|^2(e^{-2t}(q-1)+1-p)/2}, \]

a quantity which tends to \( {+\infty} \) as \( {|\lambda|\rightarrow\infty} \) since \( {q>p(t)=1+(p-1)e^{2t}} \).

The proof shows that conversely, from the hypercontractive statement, one can extract the logarithmic Sobolev inequality by taking the derivative at \( {t=0} \).

Polynomials. The set of polynomials \( {\mathbb{R}[X]} \) is dense in \( {L^2(\gamma_1)} \). To see it, let us take \( {f\in L^2(\gamma_1)} \), then the Laplace transform \( {\varphi_\mu} \) of the signed measure \( {\mu(dx)=f(x)\gamma_1(dx)} \) is finite on \( {\mathbb{R}} \) since for any \( {\theta\in\mathbb{R}} \), by the Cauchy-Schwarz inequality,

\[ (\varphi_\mu(\theta))^2=\left(\int\! \exp(\theta x)\,\mu(dx)\right)^2 \leq \int\!f^2\,d\gamma_1\int\!\exp(2\theta x)\,\gamma_1(dx)<+\infty, \]

and in particular, \( {\varphi_\mu} \) is analytic on a neighborhood of \( {0} \). Now since for any \( {k\in\mathbb{N}} \),

\[ \varphi_\mu^{(k)}(0) =\int\!x^kf(x)\,\gamma_1(dx) =\langle P_k,f\rangle_{L^2(\gamma_1)}\quad\text{where}\quad P_{k}(x) =x^{k}, \]

and if \( {f\perp\mathbb{R}[X_1,\ldots,X_n]} \) in \( {L^2(\mathbb{R})} \), then the derivatives of any order of \( {\varphi_\mu} \) vanish at \( {0} \), and since \( {\varphi_\mu} \) is analytic, we get \( {\varphi_\mu\equiv0} \) and then \( {\mu=0} \) and then \( {f=0} \) in \( {L^2(\gamma_n)} \).

Hermite polynomials. Hermite’s polynomials \( {{(H_k)}_{k\in\mathbb{N}}} \) are the orthogonal polynomials obtained using the Gram-Schmidt algorithm in \( {L^2(\gamma_1)} \) from the canonical basis of \( {\mathbb{R}[X]} \). They are normalized in such a way that the coefficient of the term of highest degree in \( {H_k} \) is \( {1} \) for any \( {k\geq0} \). We find

\[ H_0(x)=1,\quad H_1(x)=x,\quad H_2(x)=x^2-1,\quad\ldots \]

It can be checked that Hermite’s polynomials \( {{(H_k)}_{k\geq0}} \) satisfy

  • Generating series: for any \( {k\geq0} \) and \( {x\in\mathbb{R}} \),

    \[ H_k(x)=\partial^k_1G(0,x) \quad\text{where}\quad G(s,x)=e^{sx-\frac{1}{2}s^2}=\sum_{k=0}^\infty\frac{s^k}{k!}H_k(x); \]

  • Three terms recursion formula: for any \( {k\geq0} \) and \( {x\in\mathbb{R}} \),

    \[ H_{k+1}(x)= xH_{k}(x) – kH_{k-1}(x); \]

  • Recursive differential equation: for any \( {k\geq0} \) and \( {x\in\mathbb{R}} \),

    \[ H_k'(x)=kH_{k-1}(x); \]

  • Differential equation: for any \( {k\geq0} \) and \( {x\in\mathbb{R}} \),

    \[ H_k”(x)-xH_k'(x)+kH_k(x)=0. \]

Using the generating series and Plancherel’s formula, we get

\[ \sum_{k=0}^\infty \frac{s^{2k}}{k!^2}\Vert H_k\Vert_2^2 =\int\!G(s,x)^2\,\gamma_1(dx)=\exp(-s^2)\int\!e^{2sx}\,\gamma_1(dx) =e^{s^2} =\sum_{k=0}^\infty\frac{s^{2k}}{k!}, \]

which gives \( {\Vert H_k\Vert_2^2=k!} \) by identifying the series coefficients. It follows that \( {{(H_k/\sqrt{k!})}_{k\in\mathbb{N}}} \) is a dense orthonormal sequence in the Hilbert space \( {L^2(\gamma_1)} \).

For any \( {f\in L^2(\gamma_1)} \), we have

\[ f=\sum_{k\geq0}a_kH_k\quad\text{where}\quad k!a_k=\int\!fH_k\,d\gamma_1. \]

In particular

\[ \Vert f\Vert_2^2=\int\!f^2\,d\gamma_1=\sum_{k\geq0}k!a_k^2. \]

Note that \( {a_0=\displaystyle\int\!f\,d\gamma_1=\gamma_1(f)} \) is the mean of \( {f} \) under \( {\gamma_1} \).

Hermite’s polynomials and Ornstein-Uhlenbeck process. Hermite’s polynomials are eigenvectors of the operators \( {P_t} \) and \( {A} \), namely for any \( {k\in\mathbb{N}} \) and \( {t\geq0} \),

\[ P_tH_k=e^{-kt}H_k \quad\text{and}\quad AH_k=-kH_k. \]

The property for \( {A} \) is immediate from the differential equation satisfied by Hermite’s polynomials. To establish the property for \( {P_t} \), we note that for any \( {Z\sim\gamma_1} \),

\[ P_t(G(s,\cdot))(x) =e^{se^{-t}x-\frac{1}{2}s^2}\mathbb{E}\bigr(e^{s\sqrt{1-e^{-2t}}Z}\bigr), \]

and since the Laplace transform of \( {Z} \) is given by \( {\mathbb{E}(e^{\theta Y})=e^{\frac{1}{2}\theta^2}} \) we get

\[ P_t(G(s,\cdot))(x)=G(se^{-t},x), \]

therefore, by the generating series property of Hermite’s polynomials,

\[ \begin{array}{rcl} P_t(H_k)(x) &=&P_t(\partial_1^kG(0,\cdot))(x)\\ &=&\partial_{s}^k P_t(G(s,\cdot))(x)_{\vert s=0}\\ &=&\partial_{s}^k G(se^{-t},x)_{\vert s=0}\\ &=&e^{-kt}\partial_{1}^k G(se^{-t},x)_{\vert s=0}\\ &=&e^{-kt}H_k(x). \end{array} \]

This shows that Hermite’s polynomials are eigenvectors of \( {P_t} \).

Exponential decay. If \( {f=\sum_{k\geq0}a_kH_k\in L^2(\gamma_1)} \) then for any \( {t\geq0} \),

\[ P_tf=\sum_{k\geq 0}e^{-kt}a_kH_k, \]

and thus

\[ \Vert P_t f-\gamma_1(f)\Vert_2^2 =\sum_{k\geq 1}a_k^2 e^{-2kt}k! \leq e^{-2t}\sum_{k\geq 1}a_k^2 k! =e^{-2t}\Vert f-\gamma_1(f)\Vert_2^2. \]

We have obtained the exponential decay in \( {L^2(\gamma_1)} \): for any \( {t\geq0} \) and \( {f\in L^2(\gamma_1)} \),

\[ \Vert P_t f-\gamma_1(f)\Vert_2 \leq e^{-t}\Vert f-\gamma_1(f)\Vert_2. \]

Using the invariance of \( {\gamma_1} \), we get \( {\displaystyle\int\!P_tf\,d\gamma_1=\int\!f\,d\gamma_1=\gamma_1(f)} \) and therefore

\[ \mathrm{Var}_{\gamma_1}(P_tf)\leq e^{-2t}\mathrm{Var}_{\gamma_1}(f), \]

which is is equivalent to the Poincaré inequality with constant \( {1} \) (optimal for \( {H_1} \)):

\[ \mathrm{Var}_{\gamma_1}(f)\leq-\int\!fAf\,d\gamma_1=\int\!f’^2\,d\gamma_1. \]

This inequality is the linearization at \( {h=1+\varepsilon f} \) of the logarithmic Sobolev inequality

\[ \int\!h^2\log(h^2)\,d\gamma_1 -\int\!h^2\,d\gamma_1\log\int\!h^2\,d\gamma_1 \leq -2\int\!hAh\,d\gamma_1=2\int\!h’^2\,d\gamma_1. \]

The gap between the first eigenvalue \( {0} \) and the second eigenvalue \( {-1} \) of \( {A} \) is of length \( {1} \). This spectral gap produces the exponential convergence. More generally, the semigroup preserves the spectral decomposition. If \( {f\perp\mathrm{Vect}\{H_1,\ldots,H_{k-1}\}} \) in \( {L^2(\gamma_1)} \) then \( {P_t(f)\perp\mathrm{Vect}\{H_1,\ldots,H_{k-1}\}} \) for any \( {t\geq0} \) and for any \( {t\geq0} \),

\[ \Vert P_t f-\gamma_1(f)\Vert_2 \leq e^{-k t}\Vert f-\gamma_1(f)\Vert_2. \]

Dimension \( {n} \). The operator \( {A} \) is a sum of operators acting on one variable:

\[ Af =\Delta f-\langle x,\nabla f\rangle =A_1f+\cdots+A_nf \quad\text{where}\quad A_kf=\partial_k^2f-x_k\partial_kf. \]

The eigenvectors of \( {A} \) are products of univariate Hermite’s polynomials. Namely, for any \( {k\in\mathbb{N}^n} \), if we denote, for any \( {x\in\mathbb{R}^n} \),

\[ H_k(x)=H_{k_1}(x_1)\cdots H_{k_n}(x_n), \]

then

\[ AH_k=(k_1+\cdots+k_n)H_k. \]

Quantum harmonic oscillator. Let \( {g_n} \) be the density of \( {\gamma_n} \). Consider the isometry

\[ \Phi:f\in L^2(dx)\rightarrow \Phi(f)=g_n^{-1/2}f\in L^2(\gamma_n). \]

One can define the operators \( {K} \) on \( {L^2(dx)} \) from the operator \( {A} \) on \( {L^2(\gamma_n)} \), namely

\[ Kf=(\Phi^{-1}\circ A\circ\Phi)(f) =g_n^{1/2}A(fg_n^{-1/2}) =\Delta f+\Bigr(\frac{n}{2}-\frac{1}{4}|x|^2\Bigr)f. \]

This is the quantum harmonic oscillator, a special kind of Schrödinger operator. We have \( {\partial_t Q_t=KQ_t} \) where \( {{(Q_t)}_{t\in[0,\infty)}} \) is the semigroup of operators defined by

\[ Q_t(f) =(\Phi^{-1}\circ P_t\circ \Phi)(f) =g_n^{1/2}P_t(g_n^{-1/2}f) \]

The eigenvectors of \( {K} \) are Hermite’s wave functions: for any \( {k\in\mathbb{N}^n} \),

\[ \psi_k(x)=g_n^{1/2}(x)H_k(x)=(2\pi)^{-\frac{n}{2}}e^{-\frac{1}{4}|x|^2}H_k(x). \]

For instance, for \( {k=(0,1,\ldots,n-1)} \), we get the wave function

\[ \psi(x_1,\ldots,x_n)=g_n^{1/2}(x)e^{-\frac{1}{4}|x|^2}H_0(x_1)\cdots H_{n-1}(x_n). \]

A bosonic wave function is obtained by symmetrization over \( {x_1,\ldots,x_n} \). A fermionic wave function is obtained by anti-symmetrization (implies nullity on the diagonal):

\[ \begin{array}{rcl} \psi_{\mathrm{fermions}}(x_1,\ldots,x_n) &=&g_n^{1/2}(x)\sum_{\sigma\in\Sigma_n}(-1)^{\mathrm{signature}(\sigma)}H_{\sigma(1)-1}(x_1)\cdots H_{\sigma(n)-1}(x_n)\\ &=&g_n^{1/2}(x)\det \begin{pmatrix} H_0(x_1)&\ldots&H_0(x_n)\\ \vdots &\vdots&\vdots\\ H_{n-1}(x_1)&\ldots&H_{n-1}(x_n) \end{pmatrix}\\ &=&g_n^{1/2}(x)\det \begin{pmatrix} x_1^0&\ldots&x_n^0\\ \vdots &\vdots&\vdots\\ x_1^{n-1}&\ldots&x_n^{n-1} \end{pmatrix}\\ &=&g_n^{1/2}\prod_{1\leq i<j\leq n}(x_i-x_j). \end{array} \]

The Slater determinant is here proportional to a Vandermonde determinant. Now

\[ |\psi_{\mathrm{fermions}}(x_1,\ldots,x_n)|^2 =(2\pi)^{-\frac{n}{2}}e^{-\frac{1}{2}(x_1^2+\cdots+x_n^2)}\prod_{1\leq i<j\leq n}(x_i-x_j)^2. \]

We recognize up to normalization the formula of the density of the Gaussian Unitary Ensemble (GUE) namely the density of the eigenvalues of a Gaussian \( {n\times n} \) Hermitian random matrix with Lebesgue density in \( {\mathbb{R}^{n+n^2-n}=\mathbb{R}^{n^2}} \) proportional to

\[ H\mapsto e^{-\frac{1}{2}\mathrm{Tr}(H^2)}. \]

Notes. By pure provocation, we used the Cauchy-Schwarz inequality only once. We have learned the link with the GUE during a talk by Satya Majumdar.

Leonard Ornstein (1880-1941)

Leonard Ornstein (1880-1941)

Share
Categories: Analysis, Physics, Probability

Dauphine : frais de scolarité

January 23rd, 2016 No comments

Université_Paris-Dauphine

La plupart des établissements d’enseignement supérieur français du secteur public font face depuis quelques années à des dépenses de plus en plus importantes, liées notamment au vieillissement de leurs salariés, à l’accroissement de leur autonomie, ou à la réforme de la taxe d’apprentissage. Comme l’État ne s’engage pas plus, et ne le fera sans doute pas de si tôt, ces établissements sont conduits inexorablement à rechercher des sources de refinancement, notamment en augmentant les frais de scolarité acquittés par les étudiants. En la matière, l’université Paris-Dauphine ne fait pas exception. C’est dans ce contexte que le département LSO de Paris-Dauphine s’apprête à suivre l’exemple de Sciences Po : faire payer les riches en modulant le montant des frais de scolarité en fonction des revenus des parents. La mise en place de la modulation est délicate, et doit tenir compte de la composition des familles, des cas spéciaux des étudiants venus de l’étranger, etc. Tout comme les classes préparatoires, et contrairement à la plupart des universités françaises, Paris-Dauphine accueille beaucoup d’étudiants issus de familles aisées, qui payent les mêmes frais de scolarité que leurs camarades issus de familles moins aisées (exception faite des boursiers, exonérés de frais de scolarité). Du côté des mathématiques et de l’informatique, le département MIDO de Paris-Dauphine est en pleine réflexion sur cette question particulièrement épineuse. Les conditions de travail généreuses dont bénéficient les enseignants-chercheurs pourraient être à ce prix.

La modulation fait peur car elle correspond symboliquement à un changement de paradigme, à une forme d’abandon de l’État providence, à une porte ouverte sur des excès à l’américaine. Cette crainte conduit à une ligne de fracture politique, au parfum d’absolu à gauche, et aux senteurs de dérégulations à droite. Quoi qu’il en soit, les frais de scolarité augmentent discrètement ici et là, et sont à l’heure actuelle plus de dix fois plus élevés dans les (très) grandes écoles d’ingénieurs que dans les universités ! Ces frais de scolarité des établissements français restent néanmoins la plupart du temps dérisoires par rapport aux niveaux des salaires de première embauche.

En France, le vrai marché de l’éducation n’est pas celui des frais de scolarité, mais plutôt celui de la valeur socio-économique des diplômes et donc du prestige des établissements. À Paris-Dauphine, les étudiants viennent chercher un label qui leur garantira une carrière intéressante. Tant qu’ils pourront s’offrir ce label, il le feront, et s’ils peuvent s’offrir un meilleur label ailleurs, il le feront aussi. La faible ampleur de la modulation des frais de scolarité ne change rien à cet état de fait, d’autant plus que les étudiants issus des milieux les moins favorisés ne sont pas impactés. Ce thème des frais de scolarité est décidément passionnant, et donne envie de relire Pierre Bourdieu (et ses détracteurs) !

Des collègues m’ont demandé de préciser mon opinion personnelle sur la question.  Dans la société idéale dont je rêve, la santé et l’éducation sont gratuites, sont financées par des impôts collectés par l’état, et ces impôts sont progressifs et redistributifs. Malheureusement la réalité est différente. Nous traversons une époque dans laquelle l’éducation nécessite plus de moyens tandis que l’état ne s’engage pas d’avantage. La question est donc de savoir comment s’organiser en attendant le retour éventuel de l’état (si si c’est possible !). L’instauration de frais de scolarité progressifs basés sur les revenus est une solution socialement juste, qu’on peut préférer à la réforme libérale adoptée en Grande Bretagne, mais qui fait prendre le risque de possibles dérives. On peut alternativement opter pour la posture de la résistance et du statu quo, quitte à détériorer les conditions de travail des enseignants-chercheurs et les conditions d’étude des étudiants. Charybde et Scylla ! L’idéal bien à l’esprit, peut-on dire que d’une certaine manière, en terme d’abandon de la quasi-gratuité, les frais de scolarité progressifs sont à l’éducation ce que les mutuelles sont à la santé ?

D’autres points de vue sont éclairants. Sur le plan sociologique, on peut considérer que l’enjeu financier est factice, et que le département LSO de Dauphine veut surtout ressembler autant que possible au dominant de son secteur :  Sciences Po. Sur le plan politique, on peut considérer que le système actuel des frais de scolarité identiques pour tout le monde est une égalité « de droite », et on peut lui préférer une égalité « de gauche »  consistant à supprimer tout simplement les frais de scolarité, ou alors à les moduler en fonction des revenus.

À lire : De l’inégalité en Amérique sur le blog de Thomas Piketty, 18 février 2016.

Share
Categories: Universities