Press "Enter" to skip to content

Libres pensées d'un mathématicien ordinaire Posts

Mean of a random variable on a manifold

Let $ X$ be a random variable on a manifold $latex M$. Is there a nice (intrinsic?) definition of the mean of $latex X$ and of its variance? This funny question comes from concrete motivations (imaging). What can be done with a chart? The problem here is that the mean is  a global notion.

If $latex M$ has global coordinates or almost global, like stereographical projections for spheres, one may use them. This is ugly and non canonical. If $latex M$ is a Lie group, one may use the exponential map. When $latex M$ is equipped with a Riemannian metric $latex d:M\times M\to\mathbb{R}_+$ one may think about using a variational approach, and simply define the mean $latex m$ of $latex X$ as

$latex \displaystyle m:=\arg\min_{x\in M}\mathbb{E}(d(x,X)^2)$.

The value of the minimum is the variance of $latex X$. This definition  does not always provide a unique point on $latex M$, as shown by the  example of the uniform law on spheres for which every point is a mean! This is not a bug, it is a feature, a geometrical feature due to the invariance of the law by isometries in this example. One can ask about an empirical estimator of the mean, and its asymptotic fluctuations. For some answers, see e.g. the work of Pennec and Bhattacharya and Bhattacharya. The variational expression of $latex d$ in terms of geodesics is valid up to the cut-locus/injectivity-radius of the exponential map.

Beyond the mean, the law of $latex X$ may be viewed as the linear form

$latex f\in\mathcal{C}_b(M,\mathbb{R})\mapsto\mathbb{E}(f(X)).$

This does not rely on the manifold nature of $latex M$ since we only use the fact that $latex M$ is a topological space. Note that if $latex M$ is an open subset of $latex \mathbb{R}^d$ then we recover the usual $latex \mathbb{E}(X)$ by approximation via dominated convergence. The integrability of $latex X$  is the class of functions for which the map above is finite. In some sense, $latex \mathbb{E}(X)$ is an element of the bidual $latex M”$ of $latex M$, provided that we view $latex M’:=\mathcal{C}_b(M,\mathbb{R})$ as a sort of dual of $latex M$. Of course, $latex M\subset M”$ via the canonical injection but the converse does not hold in general.

If $latex (X_n)_{n\geq0}$ is an irreducible positive recurrent aperiodic Markov chain with state space $latex M$ and unique invariant law $latex \mu$ then the law of large numbers states that with probability one, and regardless of the initial law of the chain, we have

$latex \displaystyle \frac{1}{n}\delta_{X_1}+\cdots+\frac{1}{n}\delta_{X_n} \underset{n\to\infty}{\overset{\mathcal{C}_b(M,\mathbb{R})}{\longrightarrow}}\mu.$

The asymptotic fluctuations of this convergence are described by a central limit theorem, which involves the variance for $latex \mu$ of the solution of the Poisson equation associated to the dynamics.

1 Comment

Problèmes inverses

En mathématiques appliquées, on parle de problème inverse lorsqu’on cherche à reconstituer une information inconnue à partir de son observation indirecte au travers d’un canal distordant et bruité. Il s’agit donc d’opérer l’inversion d’une transformation. Les exemples sont nombreux. En théorie du signal, les radaristes cherchent à reconstituer la trajectoire de l’avion à partir de la signature radar. En informatique, le récepteur cherche à reconstituer le message de l’émetteur malgré la mauvaise qualité du canal de communication. Le pirate cherche à reconstituer la clé secrète à partir d’observations indirectes. En sciences de la terre, les météorologues cherchent à reconstituer les caractéristiques du profil atmosphérique à partir de l’observation des radiances par satellite, malgré la nature complexe du transfert radiatif. Les ingénieurs cherchent à reconstituer la géométrie et la nature du sous-sol à partir des enregistrement sismographiques. En biologie, les pharmacologues cherchent à reconstituer certaines caractéristiques biologiques du patient à partir de l’observation bruitée des cinétiques du principe actif dans son sang. Les imagistes cherchent à reconstituer la structure des organes internes du patient à partir de l’observation bruitée de IRM ou PET. Les problèmes inverses sont légion et en dresser une liste plus longue serait idiot.

Mathématiquement, on peut représenter schématiquement un problème inverse sous la forme suivante : trouver un $latex X$ raisonnable tel que $latex Y\approx F(X,\varepsilon)$. Ici, $latex Y$ est l’observation, $latex F$ la transformation, $latex \varepsilon$ le bruit, et $latex X$ l’information recherchée non observée. Bien évidement, les problèmes concrets font intervenir des covariables et du temps dans bien des cas. La fonction $latex F$ est souvent connue, mais pas toujours complètement, et la linéarité est rarement au rendez-vous en première approche. D’un point de vue statistique, nous n’avons pas affaire à un problème de régression car $latex X$ n’est pas connu. Une idée vague qui permet de résoudre un certain nombre de problèmes inverses consiste à minimiser $latex X’\mapsto d(F(X’,\varepsilon),Y)+P(X’)$ sur une classe de signaux $latex X’$. Ici $latex d$ est une distance dans l’espace des observations et $latex P$ une pénalité qui pénalise les $latex X’$ trop complexes. Le traitement du bruit dépend de la situation. Ce point de vue de l’optimisation permet de définir un estimateur de $latex X$. L’essentiel de la statistique de l’estimation peut être traduit sous forme de problème inverse. Les problèmes de débruitage et de filtrage sont fortement reliés aux problèmes inverses. Lorsque le temps intervient, des approches récursives sont disponibles. Plus récemment, de nouvelles techniques mathématiques ont permis de prendre en compte la sparsité du signal $latex X$. Ainsi, il est possible de traiter le cas où $latex Y$ est de dimension beaucoup plus petite que $latex X$, pourvu que la dimension «réelle» du signal $latex X$ soit beaucoup plus petite que l’espace dans le lequel il est représenté, en raison de sa sparsité.

À l’heure actuelle, le problème inverse le plus célèbre est sans doute celui du climat…

Leave a Comment

Comportements collectifs et problèmes d’échelle

L’étude macroscopique, statique ou dynamique, des comportements collectifs d’individus à partir de la description de leurs interactions microscopiques constitue un vaste sujet à l’interface entre la biologie, la physique, l’informatique, les mathématiques, et peut-être même les sciences sociales. En physique, la stabilité des étoiles et des trous noirs de l’astronomie, les systèmes de spins de la mécanique statistique, ainsi que la cinétique des gas et des plasmas de la physique statistique en constituent des exemples frappants. En biologie, le comportement des fourmis, des abeilles, des bancs de poissons, des vols d’oiseau, des feux de forêts, des colonies sédentaires, et des foules humaines est également à ranger dans cette catégorie. En informatique, les réseau pairs à pairs, les processus exécutés par un processeur, leurs occupation en mémoire, ou plus simplement les réseaux de machines constituent autant de dynamiques individuelles en interactions. Sur le plan mathématique, différents types de modélisations ont été développés, allant d’équations aux dérivées partielles, avec ou sans bruit, aux processus de Markov discrets ou continus, en passant par les automates cellulaires. Les modèles les plus difficiles sont ceux qui font intervenir des interactions spatialisées plutôt qu’échangeables. Le passage du microscopique au macroscopique correspond souvent à un passage du discret au continu. L’exemple le plus naturel est celui du théorème central limite pour la marche aléatoire simple qui fait apparaître le mouvement Brownien (principe d’invariance de Donsker). Les limites fluides et hydrodynamiques sont reliées à cet exemple.

Leave a Comment

Entropies along dynamics and conservation laws

The work of Boltzmann on entropy in the years 1865-1905 is really amazing. Beyond important combinatorial aspects, one of the general ideas behind his work is that along certain dynamics, some functional is monotonic, and thus, the long time equilibrium, if it exists, is related to the optimum of the functional over the constraints related to the conservation laws. For the original Boltzmann equation $latex \partial_tf_t=A(f_t)$ which comes from kinetic gases modelling, the entropy is $latex H(f)=-\int\!f(x)\log f(x)dx$, and is maximized by Gaussians under a variance constraint. Here the variance constraint corresponds to the convervation law of the energy. One may call entropies such functionals. Boltzmann was the first to use a partial differential equation to describe the evolution of a probability density function, dozens of years before the rigorous analysis of such concepts in mathematics.

Of course, for nonlinear dynamics, the initial data may play a subtle role. The same idea is present in the notion of gradient flow equations. Beyond statistical physics, the maximum entropy principle plays a role in Bayesian statistics. It has also something to do with the consistency of the maximum likelihood estimator.

For an ergodic and reversible Markov process, the equilibrium is typically a Gibbs measure, and the free energy plays the role of the entropy and is monotonic. A Gibbs measure is a maximum entropy under an averaged energy constraint involving the potential of the Gibbs measure. The monotonicity does not contradict the reversibility, because reversibility is a property of the equilibrium, and has nothing to do with the initial data.

Another interesting problem involving entropy and monotonicity emerged from information theory and was stated by Shannon: does the entropy of Boltzmann is monotonic along the standard central limit theorem? How about the speed? Here the dynamics is related to independence and convolution and the conservation law is the variance. This problem was solved dozens of years later by many authors including Artstein, Ball, Barthe and Naor. The central limit theorem is available in many contexts beyond the classical Abelian case, including the Voiculescu operators algebras of free probability (Shlyakhtenko has solved positively the problem) and Lie groups. It is tempting to formulate the Shannon conjecture on (non-compact) Lie groups with dilation. The answer in unknown, even for the Heisenberg group.

Leave a Comment