Press "Enter" to skip to content

Category: Uncategorized

Sub-Gaussian tail bound for local martingales

Herman Chernoff
Herman Chernoff (1923 – ) One of the first to play with exponential Markov inequalities in the 1950s. He was not aware of the work of Harald Cramér in the 1930s!

This post is devoted to a sub-Gaussian tail bound and exponential square integrability for local martingales, taken from my master course on stochastic calculus.

Sub-Gaussian tail bound and exponential square integrability for local martingales. Let \( {M={(M_t)}_{t\geq0}} \) be a continuous local martingale issued from the origin. Then for all \( {t,K,r\geq0} \),

\[ \mathbb{P}\Bigr(\sup_{s\in[0,t]}|M_s|\geq r, \langle M\rangle_t\leq K\Bigr) \leq2\mathrm{e}^{-\frac{r^2}{2K}}, \]

and in particular, if \( {\langle M\rangle_t\leq Ct} \) then

\[ \mathbb{P}\Bigr(\sup_{s\in[0,t]}|M_s|\geq r\Bigr) \leq2\mathrm{e}^{-\frac{r^2}{2Ct}} \]

and, for all \( {\alpha<\frac{1}{2Ct}} \),

\[ \mathbb{E}\Bigr(\mathrm{e}^{\alpha\sup_{s\in[0,t]}|M_s|^2}\Bigr)<\infty. \]

The condition \( {\langle M\rangle_t\leq Ct} \) is a comparison to Brownian motion for which equality holds.

Proof. For all \( {\lambda,t\geq0} \), the Doléans-Dade exponential

\[ X^\lambda ={\Bigr(\mathrm{e}^{\lambda M_t-\frac{\lambda^2}{2}\langle M\rangle_t}\Bigr)}_{t\geq0} \]

is a positive super-martingale with \( {X^\lambda_0=1} \) and \( {\mathbb{E}X^\lambda_t\leq1} \) for all \( {t\geq0} \). For all \( {t,\lambda,r,K\geq0} \), by using the maximal inequality for the super-martingale \( {X^\lambda} \) in the last step,

\[ \begin{array}{rcl} \mathbb{P}\Bigr(\langle M\rangle_t\leq K,\sup_{0\leq s\leq t}M_s\geq r\Bigr) &\leq&\mathbb{P}\Bigr(\langle M\rangle_t\leq K,\sup_{0\leq s\leq t}X^\lambda_s\geq\mathrm{e}^{\lambda r-\frac{\lambda^2}{2}K}\Bigr) \\ &\leq&\mathbb{P}\Bigr(\sup_{0\leq s\leq t}X^\lambda_s\geq\mathrm{e}^{\lambda r-\frac{\lambda^2}{2}K}\Bigr)\\ &\leq&\mathbb{E}(X^\lambda_0)\mathrm{e}^{-\lambda r+\frac{\lambda^2}{2}K} =\mathrm{e}^{-\lambda r+\frac{\lambda^2}{2}K}. \end{array} \]

Taking \( {\lambda=r/K} \) gives

\[ \mathbb{P}\Bigr(\langle M\rangle_t\leq K,\sup_{0\leq s\leq t}M_s\geq r\Bigr) \leq\mathrm{e}^{-\frac{r^2}{2K}}. \]

The same reasoning for \( {-M} \) instead of \( {M} \) provides (note that \( {\langle -M\rangle=\langle M\rangle} \) obviously)

\[ \mathbb{P}\Bigr(\langle M\rangle_t\leq K,\sup_{0\leq s\leq t}(-M_s)\geq r\Bigr) \leq\mathrm{e}^{-\frac{r^2}{2K}}. \]

The union bound (hence the prefactor \( {2} \)) gives then the first desired inequality. The exponential square integrability comes from the usual link between tail bound and integrability, namely if \( {X=\sup_{s\in[0,t]}|M_s|} \), \( {U(x)=\mathrm{e}^{\alpha x^2}} \), \( {\alpha<\frac{1}{2Kt}} \), then, by Fubini-Tonelli,

\[ \begin{array}{rcl} \mathbb{E}(U(X)) &=&\mathbb{E}\Bigr(\int_0^XU'(x)\mathrm{d}x\Bigr)\\ &=&\mathbb{E}\Bigr(\int_0^\infty\mathbf{1}_{x\leq X}U'(x)\mathrm{d}x\Bigr)\\ &=&\int_0^\infty U'(x)\mathbb{P}(X\geq x)\mathrm{d}x\  &\leq&\int_0^\infty2\alpha x\mathrm{e}^{\alpha x^2}\mathrm{e}^{-\frac{x^2}{2Kt}}\mathrm{d}x <\infty. \end{array} \]

Doob maximal inequality for super-martingales. If \( {M} \) is a continuous super-martingale, then for all \( {t\geq0} \) and \( {\lambda>0} \), denoting \( {M^-=\max(0,-M)} \),

\[ \mathbb{P}\Bigr(\max_{s\in[0,t]}|M_s|\geq\lambda\Bigr) \leq\frac{\mathbb{E}(M_0)+2\mathbb{E}(M^-_t)}{\lambda}. \]

In particular when \( {M} \) is non-negative then \( {\mathbb{E}(M^-)=0} \) and the upper bound is \( {\frac{\mathbb{E}(M_0)}{\lambda}} \).

Proof. Let us define the bounded stopping time

\[ T=t\wedge \inf\{s\in[0,t]:M_s\geq \lambda\}. \]

We have \( {M_T\in\mathrm{L}^1} \) since \( {|M_T|\leq\max(|M_0|,|M_t|,\lambda)} \). By the Doob stopping theorem for the sub-martingale \( {-M} \) and the bounded stopping times \( {0} \) and \( {T} \) that satisfy \( {M_0\in\mathrm{L}^1} \) and \( {M_T\in\mathrm{L}^1} \), we get

\[ \mathbb{E}(M_0) \geq\mathbb{E}(M_T) \geq \lambda\mathbb{P}(\max_{s\in[0,t]}M_s\geq \lambda) +\mathbb{E}(M_t\mathbf{1}_{\max_{s\in[0,t]}M_s<\lambda}) \]

hence, recalling that \( {M^-=\max(-M,0)} \),

\[ \lambda\mathbb{P}(\max_{s\in[0,t]}M_s\geq \lambda) \leq \mathbb{E}(M_0)+\mathbb{E}(M^-_t). \]

This produces the desired inequality when \( {M} \) is non-negative. For the general case, we observe that the Jensen inequality for the nondecreasing convex function \( {u\in\mathbb{R}\mapsto\max(u,0)} \) and the sub-martingale \( {-M} \) shows that \( {M^-} \) is a sub-martingale. Thus, by the Doop maximal inequality for non-negative sub-martingales,

\[ \lambda\mathbb{P}(\max_{s\in[0,t]}M^-_s\geq \lambda) \leq\mathbb{E}(M^-_t). \]

Finally, putting both inequalities together gives

\[ \lambda\mathbb{P}(\max_{s\in[0,t]}|M_s|\geq \lambda) \leq \lambda\mathbb{P}(\max_{s\in[0,t]}M_s\geq \lambda) +\lambda\mathbb{P}(\max_{s\in[0,t]}M^-_s\geq \lambda) \leq\mathbb{E}(M_0)+2\mathbb{E}(M^-_t). \]

Doob maximal inequalities. Let \( {M} \) be a continuous process.

  1. If \( {M} \) is a martingale or a non-negative sub-martingale then for all \( {p\geq1} \), \( {t\geq0} \), \( {\lambda>0} \),

    \[ \mathbb{P}\Bigr(\max_{s\in[0,t]}|M_s|\geq\lambda\Bigr) \leq\frac{\mathbb{E}(|M_t|^p)}{\lambda^p}. \]

  2. If \( {M} \) is a martingale then for all \( {p>1} \) and \( {t\geq0} \),

    \[ \mathbb{E}\Bigr(\max_{s\in[0,t]}|M_s|^p\Bigr) \leq\Bigr(\frac{p}{p-1}\Bigr)^p\mathbb{E}(|M_t|^p) \]

    in other words

    \[ \Bigr\|\max_{s\in[0,t]}|M_s|\Bigr\|_p\leq\frac{p}{p-1}\|M_t\|_p. \]

    In particular if \( {M_t\in\mathrm{L}^p} \) then \( {M^*_t=\max_{s\in[0,t]}M_s\in\mathrm{L}^p} \).

Comments. This inequality allows to control the tail of the supremum by the moment at the terminal time. It is a continuous time martingale version of the simpler Kolmogorov maximal inequality for sums of independent and identically distributed random variables. Note that \( {q=1/(1-1/p)=p/(p-1)} \) is the Hölder conjugate of \( {p} \) namely \( {1/p+1/q=1} \). The inequality is often used with \( {p=2} \), for which \( {(p/(p-1))^p=4} \).

Proof. We can always assume that the right hand side is finite, otherwise the inequalities are trivial.

  1. If \( {M} \) is a martingale, then by the Jensen inequality for the convex function \( {u\in\mathbb{R}\mapsto |u|^p} \), the process \( {|M|^p} \) is a sub-martingale. Similarly, If \( {M} \) is a non-negative sub-martingale then, since \( {u\in[0,+\infty)\mapsto u^p} \) is convex and non-decreasing it follows that \( {M^p=|M|^p} \) is a sub-martingale. Therefore in all cases \( {{(|M_s|^p)}_{s\in[0,t]}} \) is a sub-martingale. Let us define the bounded stopping time

    \[ T=t\wedge \inf\{s\geq0:|M_s|\geq\lambda\}. \]

    Note that \( {|M_T|\leq\max(|M_0|,\lambda)} \) and thus \( {M_T\in\mathrm{L}^1} \). The Doob stopping theorem for the sub-martingale \( {|M|^p} \) and the bounded stopping times \( {T} \) and \( {t} \) that satisfy \( {T\leq t} \) gives

    \[ \mathbb{E}(|M_T|^p)\leq\mathbb{E}(|M_t|^p). \]

    On the other hand the definition of \( {T} \) gives

    \[ |M_T|^p \geq\lambda^p\mathbf{1}_{\max_{s\in[0,t]}|M_s|\geq\lambda} +|M_t|^p\mathbf{1}_{\max_{s\in[0,t]}|M_s|<\lambda}\\ \geq\lambda^p\mathbf{1}_{\max_{s\in[0,t]}|M_s|\geq\lambda}. \]

    It remains to combine these inequalities to get the desired result.

  2. If we introduce for all \( {n\geq1} \) the “localization” stopping time

    \[ T_n=t\wedge\inf\{s\geq0:|M_s|\geq n\}, \]

    then the desired inequality for the bounded sub-martingale \( {{(|M_{s\wedge T_n}|)}_{s\in[0,t]}} \) would give

    \[ \mathbb{E}(\max_{s\in[0,t]}|M_{s\wedge T_n}|^p) \leq\left(\frac{p}{p-1}\right)^p\mathbb{E}(|M_t|^p), \]

    and the desired result for \( {{(M_s)}_{s\in[0,t]}} \) would then follow by monotone convergence theorem. Thus this shows that we can assume without loss of generality that \( {{(|M_s|)}_{s\in[0,t]}} \) is bounded, in particular that \( {\mathbb{E}(\max_{s\in[0,t]}|M_s|^p)<\infty} \). This a martingale localization argument! The previous proof gives

    \[ \mathbb{P}(\max_{s\in[0,t]}|M_s|\geq\lambda) \leq\frac{\mathbb{E}(|M_t|\mathbf{1}_{\max_{s\in[0,t]}|M_s|\geq\lambda})}{\lambda} \]

    for all \( {\lambda>0} \), and thus

    \[ \int_0^\infty\lambda^{p-1} \mathbb{P}(\max_{s\in[0,t]}|M_s|\geq\lambda)\mathrm{d}\lambda \leq \int_0^\infty\lambda^{p-2} \mathbb{E}(|M_t|\mathbf{1}_{\max_{s\in[0,t]}|M_s|\geq\lambda})\mathrm{d}\lambda. \]

    Now the Fubini-Tonelli theorem gives

    \[ \int_0^\infty\lambda^{p-1}\mathbb{P}(\max_{s\in[0,t]}|M_s|\geq\lambda)\mathrm{d}\lambda =\mathbb{E}\int_0^{\max_{s\in[0,t]}|M_s|}\lambda^{p-1}\mathrm{d}\lambda =\frac{1}{p}\mathbb{E}(\max_{s\in[0,t]}|M_s|^p). \]

    and similarly (here we need \( {p>1} \))

    \[ \int_0^\infty\lambda^{p-2}\mathbb{E}(|M_t|\mathbf{1}_{\max_{s\in[0,t]}|M_s|\geq\lambda)})\mathrm{d}\lambda =\frac{1}{p-1}\mathbb{E}(|M_t|\max_{s\in[0,t]}|M_s|^{p-1}). \]

    Combining all this gives

    \[ \mathbb{E}(\max_{s\in[0,t]}|M_s|^p) \leq\frac{p}{p-1} \mathbb{E}(M_t\max_{s\in[0,t]}|M_s|^{p-1}). \]

    But since the Hölder inequality gives

    \[ \mathbb{E}(|M_t|\max_{s\in[0,t]}|M_s|^{p-1}) \leq\mathbb{E}(|M_t|^p)^{1/p}\mathbb{E}(\max_{s\in[0,t]}|M_s|^p)^{\frac{p-1}{p}}, \]

    we obtain

    \[ \mathbb{E}(\max_{s\in[0,t]}|M_s|^p) \leq\frac{p}{p-1}\mathbb{E}(|M_t|^p)^{1/p}\mathbb{E}(\max_{s\in[0,t]}|M_s|^p)^{\frac{p-1}{p}}. \]

    Consequently, since \( {\mathbb{E}(\max_{s\in[0,t]}|M_s|^p)<\infty} \), we obtain the desired inequality.

Doob stopping theorem for sub-martingales. If \( {M} \) is a continuous sub-martingale and \( {S} \) and \( {T} \) are bounded stopping times such that \( {S\leq T,\quad M_S\in\mathrm{L}^1,\quad M_T\in\mathrm{L}^1} \), then

\[ \mathbb{E}(M_S)\leq\mathbb{E}(M_T). \]

Proof. We proceed as in the proof of the Doob stopping theorem for martingales, by assuming first that \( {S} \) and \( {T} \) take their values in the finite set \( {\{t_1,\ldots,t_n\}} \) where \( {t_1<\cdots<t_n} \). In this case \( {M_T} \) and \( {M_S} \) are in \( {\mathrm{L}^1} \) automatically. The inequality \( {S\leq T} \) gives \( {\mathbf{1}_{S\geq t}\leq\mathbf{1}_{T\geq t}} \) for all \( {t} \). Using this fact and the sub-martingale property of \( {M} \), we get

\[ \begin{array}{rcl} \mathbb{E}(M_S) &=&\mathbb{E}(M_0) +\mathbb{E}\Big(\sum_{k=1}^n\overbrace{\mathbb{E}(M_{t_k}-M_{t_{k-1}}\mid\mathcal{F}_{t_{k-1}})}^{\geq0}\mathbf{1}_{S\geq t_k}\Bigr)\\ &\leq&\mathbb{E}(M_0) +\mathbb{E}\Big(\sum_{k=1}^n\mathbb{E}(M_{t_k}-M_{t_{k-1}}\mid\mathcal{F}_{t_{k-1}})\mathbf{1}_{T\geq t_k}\Bigr)\\ &=&\mathbb{E}(M_T). \end{array} \]

More generally, when \( {S} \) and \( {T} \) are arbitrary bounded stopping times satisfying \( {S\leq T} \), we proceed by approximation as in the proof of the Doob stopping for martingales, using again the sub-martingale nature of \( {M} \) to get uniform integrability.

Doob stopping theorem for martingales. If \( {M} \) is a continuous martingale and \( {T:\Omega\rightarrow[0,+\infty]} \) is a stopping time then \( {{(M_{t\wedge T})}_{t\geq0}} \) is a martingale: for all \( {t\geq0} \) and \( {s\in[0,t]} \), we have

\[ M_{t\wedge T}\in\mathrm{L}^1 \quad\text{and}\quad \mathbb{E}(M_{t\wedge T}\mid\mathcal{F}_s)=M_{s\wedge T}. \]

Moreover, if \( {T} \) is bounded, or if \( {T} \) is almost surely finite and \( {{(M_{t\wedge T})}_{t\geq0}} \) is uniformly integrable (for instance dominated by an integrable random variable), then

\[ M_T\in\mathrm{L}^1 \quad\text{and}\quad \mathbb{E}(M_T)=\mathbb{E}(M_0). \]

Comments. The most important is that \( {{(M_{t\wedge T})}_{t\geq0}} \) is a martingale. We have always \( {\lim_{t\rightarrow\infty}M_{T\wedge t}\mathbf{1}_{T<\infty}=M_T\mathbf{1}_{T<\infty}} \) almost surely. When \( {T<\infty} \) almost surely we could use what we know on \( {M} \) and \( {T} \) to deduce by monotone or dominated convergence that this holds in \( {\mathrm{L}^1} \), giving \( {\mathbb{E}(M_T)=\mathbb{E}(\lim_{t\rightarrow\infty}M_{t\wedge T})=\lim_{t\rightarrow\infty}\mathbb{E}(M_{t\wedge T})=\mathbb{E}(M_0)} \).

The theorem states that this is automatically the case when \( {T} \) is bounded or when \( {M^T} \) is uniformly integrable. Furthermore, if \( {M^T} \) is uniformly integrable then it can be shown that \( {M_\infty} \) exists, giving a sense to \( {M_T} \) even on \( {\{T=\infty\}} \), and then \( {\mathbb{E}(M_T)=\mathbb{E}(M_0)} \).

Proof. Let assume first that \( {T} \) takes a finite number of values \( {t_1<\cdots<t_n} \). Let us show that \( {M_T\in\mathrm{L}^1} \) and \( {\mathbb{E}(M_T)=\mathbb{E}(M_0)} \). We have \( {M_T=\sum_{k=1}^nM_{t_k}\mathbf{1}_{T=t_k}\in\mathrm{L}^1} \), and moreover, using

\[ \{T\geq t_k\}=(\cup_{i=1}^{k-1}\{T=t_i\})^c\in\mathcal{F}_{t_{k-1}}, \]

and the martingale property \( {\mathbb{E}(M_{t_k}-M_{t_{k-1}}\mid\mathcal{F}_{t_{k-1}})=0} \), for all \( {k} \), we get

\[ \mathbb{E}(M_T) =\mathbb{E}(M_0) +\mathbb{E}\Big(\sum_{k=1}^n\mathbb{E}(M_{t_k}-M_{t_{k-1}}\mid\mathcal{F}_{t_{k-1}})\mathbf{1}_{T\geq t_k}\Bigr) =\mathbb{E}(M_0). \]

Suppose now that \( {T} \) takes an infinite number of values but is bounded by some constant \( {C} \). For all \( {n\geq0} \), we approximate \( {T} \) by the piecewise constant random variable (discretization of \( {[0,C]} \)).

\[ T_n=C\mathbf{1}_{T=C}+\sum_{k=1}^{n}t_{k}\mathbf{1}_{t_{k-1}\leq T<t_{k}} \quad\text{where}\quad t_k=t_{n,k}=C\frac{k}{n}. \]

This is a stopping time since for all \( {t\geq0} \), \( {\{T_n\leq t\}=\{T_n\leq\lfloor t\rfloor\}\in\mathcal{F}_{\lfloor t\rfloor}} \), which reduces the problem to a discrete \( {t} \), and then for all integer \( {m\geq0} \), we have that \( {\{T_n=m\} =\varnothing\in\mathcal{F}_0} \) if \( {m\not\in\{t_{k}:1\leq k\leq n\}} \), while \( {\{T_n=m\}=\{T=C\}\in\mathcal{F}_C} \) if \( {m=C} \), and

\[ \{T_n=m\} =\{T<t_{k-1}\}^c\cap\{T<t_{k}\}\in\mathcal{F}_{t_{k}} \]

if \( {m=t_{k}} \), \( {1\leq k\leq n} \), where we used the fact that for all \( {t\geq0} \),

\[ \{T=t\}=\{T\leq t\}\cap\{T<t\}^c=\{T\leq t\}\cap\cap_{r=1}^\infty\{T>t-1/r\}\in\mathcal{F}_t. \]

Since \( {T_n} \) takes a finite number of values, the previous step gives \( {\mathbb{E}(M_{T_n})=\mathbb{E}(M_0)} \). On the other hand, almost surely, \( {T_n\rightarrow T} \) as \( {n\rightarrow\infty} \). Since \( {M} \) is continuous, it follows that almost surely \( {M_{T_n}\rightarrow M_T} \) as \( {n\rightarrow\infty} \). Let us show now that \( {{(M_{T_n})}_{n\geq1}} \) is uniformly integrable. Since for all \( {n\geq0} \), \( {T_n} \) takes its values in a finite set \( {t_1<\cdots<t_{m_n}\leq C} \), the martingale property and the Jensen inequality give, for all \( {R>0} \),

\[ \begin{array}{rcl} \mathbb{E}(|M_C|\mathbf{1}_{|M_{T_n}|\geq R}) &=&\sum_k\mathbb{E}(|M_C|\mathbf{1}_{|M_{t_k}|\geq R,T_n=t_k})\\ &=&\sum_k\mathbb{E}(\mathbb{E}(|M_C|\mid\mathcal{F}_{t_k})\mathbf{1}_{|M_{t_k}|\geq R,T_n=t_k})\\ &\geq&\sum_k\mathbb{E}(|\mathbb{E}(M_C\mid\mathcal{F}_{t_k})|\mathbf{1}_{|M_{t_k}|\geq R,T_n=t_k})\\ &=&\sum_k\mathbb{E}(|M_{t_k}|\mathbf{1}_{|M_{t_k}|\geq R,T_n=t_k})\\ &=&\mathbb{E}(|M_{T_n}|\mathbf{1}_{|M_{T_n}|\geq R}). \end{array} \]

Now \( {M} \) is continuous and thus locally bounded, and \( {M_C\in\mathrm{L}^1} \), thus, by dominated convergence,

\[ \sup_n\mathbb{E}(|M_{T_n}|\mathbf{1}_{|M_{T_n}|>R}) \leq\mathbb{E}(|M_C|\mathbf{1}_{\sup_{s\in[0,C]}|M_s|\geq R}) \underset{R\rightarrow\infty}{\longrightarrow}0. \]

Therefore \( {{(M_{T_n})}_{n\geq0}} \) is uniformly integrable. As a consequence

\[ \overset{\mathrm{a.s.}}{\lim_{n\rightarrow\infty}}M_{T_n}=M_T\in\mathrm{L}^1 \quad\text{and}\quad \mathbb{E}(M_T)=\lim_{n\rightarrow\infty}\mathbb{E}(M_{T_n})=\mathbb{E}(M_0). \]

Let us suppose now that \( {T} \) is an arbitrary stopping time. For all \( {0\leq s\leq t} \) and \( {A\in\mathcal{F}_s} \), the random variable \( {S=s\mathbf{1}_A+t\mathbf{1}_{A^c}} \) is a (finite) stopping time, and what precedes for the finite stopping time \( {t\wedge T\wedge S} \) gives \( {M_{t\wedge T\wedge S}\in\mathrm{L}^1} \) and \( {\mathbb{E}(M_{t\wedge T\wedge S})=\mathbb{E}(M_0)} \). Now, using the definition of \( {S} \), we have

\[ \mathbb{E}(M_0) =\mathbb{E}(M_{t\wedge T\wedge S}) =\mathbb{E}(\mathbf{1}_AM_{s\wedge T}) +\mathbb{E}(\mathbf{1}_{A^c}M_{t\wedge T}) =\mathbb{E}(\mathbf{1}_A(M_{s\wedge T}-M_{t\wedge T}))+\mathbb{E}(M_{t\wedge T}). \]

Since \( {\mathbb{E}(M_{t\wedge T})=\mathbb{E}(M_0)} \), we get the martingale property for \( {{(M_{t\wedge T})}_{t\geq0}} \), namely

\[ \mathbb{E}((M_{t\wedge T}-M_{s\wedge T})\mathbf{1}_A)=0. \]

Finally, suppose that \( {T<\infty} \) almost surely and \( {{(M_{t\wedge T})}_{t\geq0}} \) is uniformly integrable. The random variable \( {M_T} \) is well defined and \( {\lim_{t\rightarrow\infty}M_{t\wedge T}=M_T} \) almost surely because \( {M} \) is continuous. Furthermore, since \( {{(M_{t\wedge T})}_{t\geq0}} \) is uniformly integrable, it follows that \( {M_T\in\mathrm{L}^1} \) and \( {\lim_{t\rightarrow\infty}M_{t\wedge T}=M_T} \) in \( {\mathrm{L}^1} \). In particular \( {\mathbb{E}(M_0)\underset{\forall t}{=}\mathbb{E}(M_{t\wedge T})=\lim_{t\rightarrow\infty}\mathbb{E}(M_{t\wedge T})=\mathbb{E}(M_T)} \). Further reading in the same spirit.


Modélisation et analyse quantitative

Allegory of the Vanity of Earthly Things
Allegory of the Vanity of Earthly Things

Ce billet est une version longue et en français d’un billet précédent publié en anglais au printemps dernier. Il s’agit d’une contribution au livre collectif pluridisciplinaire « Regards croisés sur la crise de la Covid-19 » en cours de préparation à l’université Paris-Dauphine. Le texte fait un peu plus de 10 000 caractères et le résumé environ 1000 caractères, espaces compris.

Résumé. La pandémie de coronavirus actuelle et sa gestion sont des sujets d’étude intéressants à bien des égards. Si l’on se penche sur l’histoire récente et moins récente, cette pandémie en elle-même apparaît pour l’instant comme plutôt ordinaire, alors que les réponses politiques le sont moins. On observe en particulier, au-delà de l’aversion au risque et d’un mimétisme international, un certain rôle joué par l’analyse quantitative de risque pour la décision, basée sur la modélisation en épidémiologie. Ce texte regroupe des libres pensées sur ce qu’est la modélisation mathématique ou informatique, ce qu’elle n’est pas, le rôle qu’elle a, qu’elle a eu, et qu’elle pourrait avoir. Le propos est d’apporter un contrepoint critique et historique aux tentations utilitaristes qui sous-tendent la modélisation et l’analyse quantitative, exacerbées par la crise du coronavirus que nous vivons.

La modélisation mathématique réussit remarquablement à prédire, avec un haut degré de précision, le comportement de nombreux phénomènes naturels, comme par exemple, et très concrètement, la trajectoire des satellites ou la propagation du son et de la lumière. La modélisation mathématique joue indéniablement un rôle clé dans la plupart des champs technologiques actuels, souvent à travers la physique et l’informatique. Ses nombreux succès ont un impact considérable, concret et positif, sur notre vie quotidienne. Comment expliquer un tel succès de la mathématisation du monde ? Quelle est la nature du lien entre mathématiques et monde physique ? Ces questions occupent les penseurs depuis l’antiquité. Les plus grands esprits s’y attardent, comme le prix Nobel de physique Eugene Wigner, et son célèbre « The unreasonable effectiveness of mathematics in the natural sciences » publié en 1960, ou le grand mathématicien et informaticien Richard Hamming, et son « The unreasonable effectiveness of mathematics » publié en 1980. Sans vraiment apporter de réponse sur le fond, ces articles dessinent les contours d’une fascinante réussite, qui passe par une quantification et une mécanisation des phénomènes naturels.

D’un autre côté, il se trouve que les mécanismes de nombreux phénomènes naturels quantifiables ne sont pas bien compris, et même lorsqu’ils sont bien compris à une certaine échelle, leur modélisation mathématique n’est en général qu’une approximation parfois grossière de leur complexité et subtilité, qui peut beaucoup manquer de précision. L’approximation peut également provenir de l’analyse mathématique et numérique du modèle en lui-même, ainsi que du manque de données pour l’ajuster. Tous ces aspects sont bien connus des mathématiciens, qui ont coutume de dire que tous les modèles sont faux, mais que certains sont utiles. Ces limitations de la modélisation mathématique des phénomènes naturels, liées au caractère simpliste voire caricatural de la mathématisation et numérisation du monde, font contrepoint. L’ingénieur Derek Abbott a publié en 2013 un article remarqué sur ce sujet, intitulé « The reasonable ineffectiveness of mathematics », une sorte de pied de nez à l’arrogance de ceux d’Eugène Wigner et Richard Hamming.

Le cas de la météorologie est particulièrement intéressant. Les mécanismes des phénomènes naturels sous-jacents sont relativement bien compris et sont modélisés mathématiquement notamment par les équations de la mécanique des fluides, liées à l’une des plus grandes questions de physique mathématique. Malheureusement, la sensibilité de ces équations aux perturbations rend la prédiction relativement limitée, malgré les progrès remarquables réalisés dans l’analyse numérique et la puissance de calcul, et malgré l’énorme quantité de données collectées par télédétection par satellite. Les prévisions météorologiques à moyen/long terme restent inaccessibles.

La situation est pire encore pour les sciences sociales comme l’économie ou la sociologie, pour lesquelles nous n’avons pas l’analogue des équations de la mécanique des fluides. Historiquement, l’analyse quantitative des phénomènes sociaux a d’abord été abordée à l’aide de données statistiques, notamment par Adolphe Quetelet, qui a produit entre autres études son célèbre « Sur l’homme et le développement de ses facultés, ou Essai de physique sociale » (1835). Quetelet a découvert une mécanique, une régularité des phénomènes aléatoires, ouvrant la voie à la modélisation mathématique des systèmes désordonnés et à leur prévisibilité. L’idée fondamentale est que ce sont les distributions statistiques ou les lois de probabilités qui sont justiciables d’une mécanique et d’une prédiction, et non pas les phénomènes aléatoires au niveau individuel. Cette distinction entre comportement microscopique ou individuel et comportement macroscopique ou de population pose également le problème philosophique du libre arbitre. Adolphe Quetelet, héritier de Pierre-Simon de Laplace, n’était pas le seul scientifique du dix-neuvième siècle à explorer une vision mécaniste de la nature, les plus célèbres étant peut-être Charles Darwin et Ludwig Boltzmann, dont les idées révolutionnaires ont été longtemps fort controversées avant d’être intégrées dans le corpus scientifique. La mécanisation des systèmes désordonnés amorcée à l’époque a conduit aux grands succès de la théorie des probabilités et de la statistique que nous connaissons tous aujourd’hui, qui sont également au cœur de la physique statistique, de la mécanique quantique, et de la théorie de l’information. Mais les sciences sociales restent malgré tout bien trop complexes pour de nombreux aspects. Les limitations de la modélisation pour l’économie mais aussi la difficulté de l’analyse des données sont abordées par exemple par Thomas Piketty dans « Le Capital au XXIe siècle » (Seuil, 2013).

Le formidable développement de la numérisation, des ordinateurs, des bases de données massives, et des réseaux a conduit à une utilisation généralisée de la modélisation et des algorithmes, bien au-delà des périmètres habituels. Cela a également stimulé le développement de divers types d’apprentissage automatique, produisant des succès parfois étonnants dont on ne comprend pas forcément les tenants et les aboutissants. Ce type de traitement algorithmique des données est toujours considéré comme de la modélisation mais peut différer de la modélisation habituelle en ce qu’il peut produire des prédictions empiriques sans compréhension.

Qu’en est-il de l’épidémiologie ? Il s’avère que les mécanismes biologiques et médicaux des épidémies virales ne sont pas bien compris par les scientifiques pour l’instant, même si la science progresse à l’occasion de chaque épidémie. La modélisation mathématique ou informatique développée en épidémiologie incorpore au mieux ce qui est connu. Elle reste cependant limitée pour la prédiction, et le problème ne se réduit pas à la collecte de données, à la sensibilité des modèles, ou à la complexité des phénomènes. En particulier, cela produit une analyse des risques discutable pour la prise de décision. On pourrait alternativement utiliser les statistiques historiques des épidémies pour produire des prédictions, au moins de nature qualitative ou phénoménologique, mais cela est également relativement limité. Nous sommes donc condamnés à vivre pour l’instant avec d’importantes incertitudes. C’est quelque peu difficile à accepter pour nos sociétés actuelles, dont l’aversion au risque est importante, et dont le rapport à la fin de vie est bouleversé.

La modélisation en épidémiologie n’en demeure pas moins intéressante pour explorer les phénomènes, les hypothèses, faire avancer notre compréhension des mécanismes et de leurs effets. La modélisation permet également la conception d’indicateurs quantitatifs avancés et l’organisation générale des moyens. La controverse fait partie de la science, mais le temps d’élaboration de la science reste cependant bien différent du temps de la décision, du temps politique ou médiatique.

D’autre part, force est de constater qu’en ces temps d’hyperspécialisation, nos scientifiques ne sont plus vraiment philosophes, tandis que nos philosophes ne sont plus vraiment scientifiques. Quant à nos décideurs et à nos journalistes, ils ne sont bien souvent ni l’un ni l’autre. C’est donc aussi de pluridisciplinarité et de pensées croisées, autant à l’échelle individuelle que collective, dont nous avons besoin. Les jeunes esprits y sont réceptifs, et cela peut inspirer et étoffer nos formations universitaires. On a coutume de dire que l’esprit critique et le sens de l’histoire sont essentiels à la science et à sa diffusion. À la fin du seizième siècle, les horoscopes du grand astronome Johannes Kepler, l’un des plus grands scientifiques de tous les temps, étaient très prisés des puissants qui l’employaient, et Kepler lui-même était persuadé que l’astrologie pouvait devenir une science au même titre que l’astronomie. Certaines des prédictions astrologiques de Kepler se sont révélées exactes. L’aventure scientifique depuis cette époque incite les scientifiques à la prudence et à l’humilité, à ne pas devenir de simples marchands de certitudes au service des puissants. Servir des scénarios issus de modélisations approximatives ne risque-t-il pas d’alimenter la peur ou l’insouciance, de produire des excès regrettables y compris pour la science ?

Toujours à propos d’histoire, et concernant la pandémie de coronavirus du printemps 2020 en France, examinons le graphique de l’INSEE qui superpose les courbes de mortalité totale de périodes passées marquantes, notamment la canicule de l’été 2003, des grippes saisonnières des années récentes, et la grippe dite de Hong Kong, qui a frappé la France à l’hiver 1969-1970 dans une quasi-indifférence générale. La chose la plus frappante est peut-être la similarité en forme et en taille entre le pic de cette grippe de Hong Kong et celui de l’épidémie de coronavirus du printemps 2020. En 2020, un confinement de la population a été organisé, par mimétisme international et au vu des prédictions issues de modélisations en épidémiologie. Comment en évaluer l’efficacité globale et la pertinence ? La démarche scientifique est assez limitée car il n’est pas possible de répéter l’expérience en contrôlant les paramètres. L’effet sur les accidents de la route, souvent évoqué, est bien réel mais une simple règle de trois révèle que cela ne change pas énormément les choses quantitativement. La médecine a certainement évolué entre les deux époques. D’autre part, la population française en 1969-1970 était bien plus petite et bien plus jeune qu’en 2020. L’essentiel des décès en question concerne les personnes âgées, pour partie en établissement spécialisé. Notons également que la grippe dite espagnole en fin de première guerre mondiale – absente du graphique – a plutôt tué les jeunes adultes, par surinfection bactérienne, avant l’ère des antibiotiques. Tout cela souligne aussi bien la tentation et la difficulté à comparer à travers le temps. Une analyse du même type pourrait aussi être menée à travers l’espace. Ces phénomènes extrêmes et récurrents sont encore plus complexes et hétérogènes que les crues des fleuves dont les bassins évoluent. Il s’agit là d’un problème majeur de l’analyse de données à travers le temps et l’espace. La principale difficulté à laquelle est confronté Thomas Piketty dans son travail sur le capital est précisément l’hétérogénéité spatio-temporelle des données statistiques concernant l’économie.

Mortalité comparée
Mortalité comparée. Superposition des courbes de décès, en France, tout le long de l‘année, pour chaque année depuis 2010, ainsi que pour certaines années exceptionnelles plus lointaines dans le passé. Le grand pic en jaune, au milieu, est celui de la canicule de l’été 2003, accompagné de plusieurs petits pics des canicules d‘autres étés. Le grand pic rouge à gauche est celui de l‘épidémie du coronavirus du printemps 2020. Le grand pic bleu, essentiellement à droite, est celui de la grippe dite de Hong Kong de l’hiver 1969-1970, environné de plusieurs petits pics des grippes d‘autres hivers. Source : Statistiques sur les décès : le mode d’emploi des données de l’Insee en 7 questions/réponses, blog de l’INSEE.


Leave a Comment

Back to basics : local martingales

A martingale.

This post is inspired from the exam of my master course on stochastic calculus. The processes considered in this post are in continuous time, defined on a filtered probability space \( {(\Omega,\mathcal{F},{(\mathcal{F}_t)}_{t\geq0},\mathbb{P})} \), adapted, and have almost surely continuous trajectories.

Local martingales. If \( {{(M_t)}_{t\geq0}} \) is a martingale, the Doob stopping theorem states that if \( {T} \) is a stopping time, then the stopped process \( {{(M_{t\wedge T})}_{t\geq0}} \) is again a martingale.

Stopping can be used in general to truncate the trajectories of a process with a cutoff, in order to gain more integrability or tightness, while keeping adaptation and continuity. Typically if \( {{(X_t)}_{t\geq0}} \) is an adapted process, we could consider the sequence of stopping times \( {{(T_n)}_{n\geq0}} \) defined by

\[ T_n=\inf\{t\geq0:|X_t|\geq n\}, \]

which satisfies almost surely \( {T_n\nearrow+\infty} \) as \( {n\rightarrow\infty} \) and for which for all \( {n} \) the stopped process \( {{(X_{t\wedge T_n})}_{t\geq0}} \) is bounded by \( {|X_0|\vee n} \). Since \( {X} \) is continuous, almost surely, for all \( {t\geq0} \), \( {\lim_{n\rightarrow\infty}X_{t\wedge T_n}=X_t} \). We say that \( {{(T_n)}_{n\geq0}} \) is a localizing sequence.

Now a local martingale is simply an adapted processes \( {{(X_t)}_{t\geq0}} \) such that for all \( {n\geq0} \) the stopped process \( {{(X_{t\wedge T_n})}_{t\geq0}} \) is a (bounded) martingale.

Every martingale is a local martingale. However the converse is false, and strict local martingales do exist. We give below one of the most famous example. Local martingales also popup naturally in the construction of the Itô stochastic integral. We give below a simple example of a stochastic integral which is a strict local martingale.

Domination. If \( {{(X_t)}_{t\geq0}} \) is a local martingale which is dominated by an integrable random variable, in the sense that \( {\mathbb{E}\sup_{t\geq0}|X_t|<\infty} \), then \( {{(X_t)}_{t\geq0}} \) is a martingale, and in fact a uniformly integrable martingale. Namely, for all \( {t\geq0} \) and all \( {s\in[0,t]} \), by dominated convergence used twice and the martingale property for the stopped process,

\[ \begin{array}{rcl} \mathbb{E}(X_s) &=&\mathbb{E}(\lim_{n\rightarrow\infty}X_{s\wedge T_n})\\ &=&\lim_{n\rightarrow\infty}\mathbb{E}(X_{s\wedge T_n})\\ &=&\lim_{n\rightarrow\infty}\mathbb{E}(X_{t\wedge T_n}\mid\mathcal{F}_s)\\ &=&\mathbb{E}(\lim_{n\rightarrow\infty}X_{t\wedge T_n}\mid\mathcal{F}_s)\\ &=&\mathbb{E}(X_t\mid\mathcal{F}_s). \end{array} \]

Therefore strict local martingales are not dominated, their supremum is not integrable. However strict local martingales can be uniformly integrable, and even bounded in \( {\mathrm{L}^2} \).

A strict local martingale bounded in \( {\mathrm{L}^2} \). Let \( {{(B_t)}_{t\geq0}} \) be a standard Brownian motion in \( {\mathbb{R}^3} \) issued from \( {x\in\mathbb{R}^3} \) with \( {x\neq0} \). Then the inverse Bessel process \( {{(|B_t|^{-1})}_{t\geq0}} \) is a well defined local martingale, bounded in \( {\mathrm{L}^2} \), but is not a martingale.

Proof. Our first goal is to show that the process \( {{(|B_t|^{-1})}_{t\geq0}} \) is well defined, namely that \( {B} \) takes its values in \( {D=\{x\in\mathbb{R}^3:x\neq0\}} \). For that we consider \( {0<r<|x|} \), and we define

\[ T_r=\inf\{t\geq0:|x+B_t|=r\}. \]

The stopped process \( {{(X_t)}_{t\geq0}={(B_{t\wedge T_r})}_{t\geq0}} \) takes its values in the open set \( {D} \). Now, the function \( {y\in D\mapsto u(y)=|y|^{-1}} \) is harmonic, namely \( {\Delta u=0} \) since

\[ \partial_iu(y)=-\frac{y_i}{|y|^3}, \quad\text{and}\quad \partial^2_{i,i}u(y)=\frac{3}{2}\frac{|y|^3-3y_i^2|y|}{|y|^{5}}. \]

Also, by the Itô formula, for all \( {t\geq0} \), using \( {\langle X^j,X^k\rangle_t=\langle B^j,B^k\rangle_{t\wedge T_r}=(t\wedge T_r)\mathbf{1}_{j=k}} \),

\[ u(X_t)=u(X_0)+\int_0^t\nabla u(X_s)\mathrm{d}X_s+\frac{1}{2}\int_0^{t\wedge T_r}\Delta u(X_s)\mathrm{d}s. \]

The last integral vanishes because \( {\Delta u=0} \) on \( {D} \), hence

\[ {(u(X_t))}_{t\geq0}={(|B_{t\wedge T_r}|^{-1})}_{t\geq0} \]

is a local martingale, bounded by the constant \( {r^{-1}} \), thus it is a bounded martingale.

Let us compute now \( {\mathbb{P}(T_r<T_R)} \) for \( {0<r<|x|<R} \). Since a \( {1} \)-dimensional Brownian motion almost surely escapes from every finite interval, the first component of our \( {3} \)-dimensional Brownian motion started from \( {x} \) almost surely escapes from \( {[-R,R]} \), and it follows that almost surely \( {T_R<\infty} \). In particular almost surely either \( {T_r<T_R} \) or \( {T_r>T_R} \) and we cannot have \( {T_r=T_R} \). Next, we have first the immediate equation

\[ 1=\mathbb{P}(T_r<T_R)+\mathbb{P}(T_r>T_R). \]

On the other hand, by the Doob stopping theorem for the bounded martingale \( {Y={(|B_{t\wedge T_r}|^{-1})}_{t\geq0}} \) and the finite stopping time \( {T_R} \), we get the new equation

\[ \frac{1}{|x|} =\mathbb{E}(Y_0) =\mathbb{E}(Y_{T_R}) =\mathbb{E}\left(\frac{1}{|B_{T_r\wedge T_R}|}\right) =\frac{\mathbb{P}(T_r<T_R)}{r}+\frac{\mathbb{P}(T_r>T_R)}{R}. \]

Solving this couple of equations gives

\[ \mathbb{P}(T_r<T_R)=\frac{R^{-1}-|x|^{-1}}{R^{-1}-r^{-1}}. \]

Now \( {T_r<T_R} \) if \( {R>\sup_{s\in[0,B_{T_r}]}|B_s|} \), hence \( {\{T_r<T_R\}\underset{R\rightarrow\infty}{\nearrow}\{T_r<\infty\}} \). It follows that

\[ \mathbb{P}(T_r<T_R) \underset{R\nearrow\infty}{\nearrow} \mathbb{P}(T_r<\infty) \]

and thus, from the formula above,

\[ \mathbb{P}(T_r<\infty) =\lim_{R\rightarrow\infty}\mathbb{P}(T_r<T_R) =\frac{|x|^{-1}}{r^{-1}}=\frac{r}{|x|}. \]

Now almost surely \( {B} \) is continuous and therefore \( {\{T_r<\infty\}\underset{r\searrow0^+}{\searrow}\{T_0<\infty\}} \) and thus

\[ \mathbb{P}(T_0<\infty) =\lim_{r\rightarrow0^+}\mathbb{P}(T_r<\infty) =\lim_{r\rightarrow0^+}\frac{r}{|x|}=0. \]

Therefore \( {B} \) takes its values in \( {D} \), and the process \( {{(|B_t|^{-1})}_{t\geq0}} \) is well defined. This process is also adapted. It is a local martingale, localized by \( {T_r} \) with \( {r\in\{(|x|+n)^{-1}:n\geq1\}} \).

Let us show that \( {\lim_{t\rightarrow\infty}|B_t|=+\infty} \) almost surely. This is typical to dimension \( {d\geq3} \), related to transcience of Brownian motion. Indeed, since \( {{(|B_t|^{-1})}_{t\geq0}} \) is a non-negative local martingale, it is a super-martingale. This is easily seen by using a localization sequence and the Fatou lemma. It follows that almost surely it converges as \( {t\rightarrow\infty} \) to an integrable random variable, hence, almost surely \( {\lim_{t\rightarrow\infty}|B_t|} \) exists in \( {[0,+\infty]} \), and the convergence holds also in law and the limiting law can only be \( {\delta_\infty} \).

Let us show now that \( {{(|B_t|^{-1})}_{t\geq0}} \) is bounded in \( {\mathrm{L}^2} \). By rotational invariance and scaling of Brownian motion, we can assume without loss of generality that \( {x=(1,0,0)} \). Since \( {B_t\sim\mathcal{N}(x,tI_3)} \), using spherical coordinates

\[ y_1=r\cos(\theta)\sin(\varphi),\quad y_2=r\sin(\theta)\sin(\varphi),\quad y_3=r\cos(\varphi) \]

with \( {r\in[0,\infty)} \), \( {\theta\in[0,2\pi)} \), \( {\varphi\in[0,\pi)} \), we have \( {\mathrm{d}y=r^2\sin(\varphi)\mathrm{d}r\mathrm{d}\theta\mathrm{d}\varphi} \), and for all \( {t>0} \),

\[ \begin{array}{rcl} \mathbb{E}(|B_t|^{-2}) &=&(2\pi t)^{-3/2}\int_{\mathbb{R}^3} \left|y\right|^{-2}\mathrm{e}^{-\frac{y_1^2+y_2^2+(y_3-1)^2}{2t}}\mathrm{d}y\\ &=&(2\pi t)^{-3/2}\int_0^\infty\int_0^{2\pi}\int_0^\pi r^{-2}\mathrm{e}^{-\frac{r^2\sin(\varphi)^2+(r\cos(\varphi)-1)^2}{2t}} r^2\sin(\varphi)\mathrm{d}r\mathrm{d}\theta\mathrm{d}\varphi\\ &=&(2\pi)^{-1/2}t^{-3/2}\int_0^\infty\int_0^\pi \mathrm{e}^{-\frac{r^2\sin(\varphi)^2+(r\cos(\varphi)-1)^2}{2t}} \sin(\varphi)\mathrm{d}r\mathrm{d}\varphi\\ &=&(2\pi)^{-1/2}t^{-3/2}\int_0^\infty\int_0^\pi \mathrm{e}^{-\frac{r^2-2r\cos(\varphi)+1}{2t}} \sin(\varphi)\mathrm{d}r\mathrm{d}\varphi\\ &=&(2\pi)^{-1/2}t^{-3/2}\mathrm{e}^{-\frac{1}{2t}}\int_0^\infty\mathrm{e}^{-\frac{r^2}{2t}}\Bigr(\int_{-1}^1 \mathrm{e}^{\frac{ru}{t}}\mathrm{d}u\Bigr)\mathrm{d}r\\ &=&(2\pi)^{-1/2}t^{-3/2}\mathrm{e}^{-\frac{1}{2t}}\int_0^\infty\mathrm{e}^{-\frac{r^2}{2t}}\Bigr[\frac{t}{r}\mathrm{e}^{\frac{ru}{t}}\Bigr]_{u=-1}^{u=1}\mathrm{d}r\\ &=&2(2\pi)^{-1/2}t^{-3/2}\mathrm{e}^{-\frac{1}{2t}}\int_0^\infty \mathrm{e}^{-\frac{r^2}{2t}}\frac{\sinh(\frac{r}{t})}{\frac{r}{t}}\mathrm{d}r\\ &=&2(2\pi)^{-1/2}t^{-3/2}\mathrm{e}^{-\frac{1}{2t}} \sum_{n=0}^\infty\frac{1}{(2n+1)!}\int_0^\infty\left(\frac{r}{t}\right)^{2n}\mathrm{e}^{-\frac{r^2}{2t}}\mathrm{d}r\\ &=&t^{-1}\mathrm{e}^{-\frac{1}{2t}}\sum_{n=0}^\infty\frac{t^{-2n}}{(2n+1)!}(2\pi t)^{-1/2}\int_{-\infty}^\infty r^{2n}\mathrm{e}^{-\frac{r^2}{2t}}\mathrm{d}r\\ &=&t^{-1}\mathrm{e}^{-\frac{1}{2t}}\sum_{n=0}^\infty\frac{t^{-2n}}{(2n+1)!}t^n\frac{(2n-1)!}{2^{n-1}(n-1)!}\\ &=&t^{-1}\mathrm{e}^{-\frac{1}{2t}}\sum_{n=0}^\infty\frac{(2t)^{-n}}{(2n+1)n!}\\ &=&2\mathrm{e}^{-\frac{1}{2t}} \sum_{n=0}^\infty\frac{(2t)^{-(n+1)}}{(2n+1)n!}\\ &\leq&2\mathrm{e}^{-\frac{1}{2t}} \sum_{n=0}^\infty\frac{(2t)^{-(n+1)}}{(n+1)!} =2\mathrm{e}^{-\frac{1}{2t}}(\mathrm{e}^{\frac{1}{2t}}-1)\leq2. \end{array} \]

Let us show that \( {{(Z_t)}_{t\geq0}={(|B_t|^{-1})}_{t\geq0}} \) is not a martingale by contradiction. Assume that it is a martingale. Since it is bounded in \( {\mathrm{L}^2} \), \( {\lim_{t\rightarrow\infty}Z_t=Z_\infty} \) almost surely and in \( {\mathrm{L}^1} \), with \( {Z_\infty\geq0} \) and \( {Z_\infty\in\mathrm{L}^1} \). Moreover \( {\mathbb{E}(Z_\infty)=\mathbb{E}(Z_0)=|x|^{-1}>0} \). But almost surely \( {\lim_{t\rightarrow\infty}|B_t|=+\infty} \), hence almost surely \( {Z_\infty=0} \), thus \( {\mathbb{E}(Z_\infty)=0} \), a contradiction.

Alternatively, we could use Doob stopping for u.i. martingales with the u.i. martingale \( {Z} \) and the finite stopping time \( {T_R} \), which gives \( {|x|^{-1}=\mathbb{E}(Z_0)=\mathbb{E}(Z_{T_R})=R^{-1}} \), a contradiction.

Alternatively, we could conduct explicit computations to show that \( {\mathbb{E}(Z_t)\searrow0} \) as \( {t\rightarrow\infty} \), which is thus yet another way to show that \( {{(Z_t)}_{t\geq0}} \) is not a martingale!

Stochastic differential equation. Actually \( {{(Z_t)}_{t\geq0}={(|B_t|^{-1})}_{t\geq}} \) solves

\[ Z_t=\frac{1}{|x|}-\int_0^tZ_s^2\mathrm{d}W_s. \]

Itô stochastic integrals. Let us give an example of an Itô stochastic integral which is a local martingale but not a martingale. Of course we could consider the trivial example \( {\int_0^t\mathrm{d}Z_s=Z_t-Z_0} \) where \( {{(Z_t)}_{t\geq0}={(|B_t|^{-1})}_{t\geq0}} \) is the strict local martingale considered previously, but a deeper understanding is expected here!

A more interesting idea relies on the stochastic integral

\[ I_B(\varphi)=\int_0^\bullet\varphi_s\mathrm{d}B_s \]

where \( {\varphi} \) is the single step function \( {\varphi=U\mathbf{1}_{(0,1]}} \) with \( {U} \) \( {\mathcal{F}_0} \)-measurable. A property of the Itô stochastic integral for semi-martingale integrators (here \( {B} \)) gives

\[ I_B(\varphi) =UB_{\bullet\wedge 1}-UB_0 =UB_{\bullet\wedge 1}. \]

Now if we take \( {U} \) independent of \( {B} \), then, in \( {[0,+\infty]} \),

\[ \mathbb{E}(|I_B(\varphi)_1|) =\mathbb{E}(|U|)\mathbb{E}(|B_1|). \]

Thus, if \( {U} \) is not integrable then \( {I_B(\varphi)_1} \) is not integrable, and \( {I_B(\varphi)} \) is not a martingale.

Leave a Comment

Convergence of discrete time martingales

Joseph Leo Doob
Joseph Leo Doob (1910 – 2004) as president of the AMS (1963 – 1964)

It is tempting to think that discrete time martingales are deeper and more elementary than continuous martingales, and that most of the statements on continuous martingales can be reduced by approximation to statements on discrete time martingales. But the truth is that some statements on continuous martingales can be proved with genuine continuous methods, which can be more elegant or more simple than discrete methods. The best for a probabilist is probably to be comfortable on both sides and to focus on the probabilistic intuition, contrary to pure analysts! Even if most of the physics of the phenomena is the same, there are specific aspects related to continuities and discontinuities and their links by passage to the limit, which cannot be reduced completely to technical aspects.

This post is a discrete time counterpart of a previous post on the almost sure convergence of martingales. The argument that we have used for a continuous martingale \( {{(M_t)}_{t\geq0}} \) with \( {M_0=0} \) involves that if for some threshold \( {R} \) we define \( {T=\inf\{t\geq0:|M_t|\geq R\}} \), then \( {|M_T|\leq R} \). Due to a possible jump at time \( {T} \), this is no longer valid when \( {M} \) is discontinuous. In particular, the argument is not valid for discrete time martingales.

In this post, we provide a proof of almost sure convergence of submartingales bounded in \( {\mathrm{L}^1} \), by reduction to the almost sure convergence of nonnegative supermartingales, itself reduced to the convergence of martingales bounded in \( {\mathrm{L}^2} \), which uses the Doob decomposition of adapted integrable processes as well as the Doob maximal inequality. We do not use the Doob stopping theorem (only the germ of it). What is remarkable here is that the whole approach is alternative to the classical proof from scratch with upcrossings which goes back to Joseph Leo Doob.

Submartingales bounded in \( {\mathrm{L}^1} \). If \( {{(X_n)}_{n\geq0}} \) is a submartingale bounded in \( {\mathrm{L}^1} \) then there exists \( {X_\infty\in\mathrm{L}^1} \) such that \( {\lim_{n\rightarrow\infty}X_n=X_\infty} \) almost surely.

Proof. The fact that \( {X_\infty\in\mathrm{L}^1} \) follows by the Fatou lemma since

\[ \mathbb{E}(|X_\infty|) =\mathbb{E}(\varliminf_n|X_n|) \leq\varliminf_n\mathbb{E}(|X_n|) \leq\sup_n\mathbb{E}(|X_n|)<\infty. \]

Set \( {C=\sup_n\mathbb{E}(|X_n|)<\infty} \). To get almost sure convergence it suffices to show that

\[ X=Y-Z \]

where \( {{(Y_n)}_{n\geq0}} \) and \( {{(Z_n)}_{n\geq0}} \) are both nonnegative supermartingales and to use the theorem of convergence for nonnegative supermartingales. Since \( {(\bullet)^+=\max(\bullet,0)} \) is convex and nondecreasing, \( {X_n^+=\max(X_n,0)} \) defines a submartingale. Let

\[ X_n^+=X_0^++M_n+A_n \]

be its Doob decomposition. We known that \( {0\leq A_n\nearrow A_\infty} \) as \( {n\rightarrow\infty} \) almost surely where \( {A_\infty} \) takes its values in \( {[0,+\infty]} \). But since \( {\mathbb{E}(A_n)=\mathbb{E}(X_n^+)-\mathbb{E}(X_0^+)\leq C} \), it follows by monotone convergence that \( {\mathbb{E}(A_\infty)\leq C} \). Let us define

\[ Y_n=X_0^++M_n+\mathbb{E}(A_\infty\mid\mathcal{F}_n). \]

The process \( {{(Y_n)}_{n\geq0}} \) is a martingale. It is nonnegative since

\[ Y_n\geq X_0^++M_n+A_n=X_n^+\geq0; \]

Finally \( {Z_n=Y_n-X_n} \) defines a submartingale as the difference of a martingale and a supermartingale and \( {Z_n\geq X_n^+-X_n=X_n^-\geq0} \).

Nonnegative supermartingales. If \( {{(X_n)}_{n\geq0}} \) is a nonnegative supermartingale then there exists \( {X_\infty} \) taking values in \( {[0,+\infty]} \) such that \( {\lim_{n\rightarrow\infty}X_n=X_\infty} \) almost surely.

Proof. Since \( {\mathrm{e}^{-\bullet}} \) is nonincreasing and convex, the Jensen inequality gives that \( {Y_n=\mathrm{e}^{-X_n}} \) defines a submartingale. Let us write its Doob decomposition

\[ Y_n=Y_0+M_n+A_n \]

where \( {M} \) is a martingale and \( {A} \) is nonnegative and predictable, and \( {M_0=A_0=0} \). We have \( {0\leq A_n\nearrow A_\infty} \) as \( {n\rightarrow\infty} \) almost surely where \( {A_\infty} \) takes its values in \( {[0,+\infty]} \). It suffices now to show that \( {M} \) is a martingale bounded in \( {\mathrm{L}^2} \) and to use the theorem about the convergence of martingales bounded in \( {\mathrm{L}^2} \). The martingale property gives, for all \( {n,m} \), denoting \( {\Delta M_k=M_k-M_{k-1}} \),

\[ \mathbb{E}((M_{n+m}-M_n)^2) =\sum_{k=n+1}^{n+m}\mathbb{E}((\Delta M_k)^2). \]

Let us write \( {Y_n^2=Y_0^2+\sum_{k=1}^n(Y_k^2-Y_{k-1}^2)} \). Since \( {Y_k=Y_{k-1}+\Delta M_k+\Delta A_k} \), we get

\[ Y_n^2=Y_0^2+\sum_{k=1}^n\left[(\Delta M_k)^2+(\Delta A_k)^2+2Y_{k-1}\Delta M_k+2Y_{k-1}\Delta A_k+2\Delta M_k\Delta A_k\right]. \]

Now \( {Y_0^2+\sum_k(\Delta A_k)^2\geq0} \) and \( {2\sum_kY_{k-1}\Delta A_k\geq0} \) since \( {Y\geq0} \) and \( {\Delta A\geq0} \). Thus

\[ \sum_{k=1}^n(\Delta M_k)^2 +2\sum_{k=1}^n(Y_{k-1}+\Delta A_k)\Delta M_k \leq Y_n^2\leq1. \]

At this step, we note that

\[ \mathbb{E}((Y_{k-1}+\Delta A_k)\Delta M_k) =\mathbb{E}((Y_{k-1}+\Delta A_k)\mathbb{E}(\Delta M_k\mid\mathcal{F}_{k-1})) =0. \]

It follows that \( {\mathbb{E}(M_n^2)=\mathbb{E}((M_n-M_0)^2)=\sum_{k=1}^n\mathbb{E}((\Delta M_k)^2)\leq1} \).

Martingales bounded in \( {\mathrm{L}^2} \). If \( {{(M_n)}_{n\geq0}} \) is a martingale bounded in \( {\mathrm{L}^2} \), then there exists \( {M_\infty\in\mathrm{L}^2} \) such that \( {\lim_{n\rightarrow\infty}M_n=M_\infty} \) almost surely and in \( {\mathrm{L}^2} \).

Proof. For all \( {n,m} \), for all \( {1\leq k<n} \), we have, denoting \( {\Delta M_k=M_k-M_{k-1}} \),

\[ \mathbb{E}(\Delta M_k\Delta M_n) =\mathbb{E}(\mathbb{E}(\Delta M_k\Delta M_n\mid\mathcal{F}_{n-1})) =\mathbb{E}(\Delta M_k\mathbb{E}(\Delta M_n\mid\mathcal{F}_{n-1})) =0. \]

This orthogonality of successive increments gives, for all \( {n,m\geq0} \),

\[ \mathbb{E}((M_{n+m}-M_n)^2) =\sum_{k=n+1}^{n+m}\mathbb{E}((\Delta M_k)^2). \]

In particular, since \( {\sup_{n\geq0}\mathbb{E}(M_n^2)<\infty} \), we get \( {\sup_{n\geq0}\mathbb{E}((M_n-M_0)^2)<\infty} \), and thus \( {\sum_{k\geq0}\mathbb{E}((\Delta M_k)^2)<\infty} \). Moreover \( {{(M_n)}_{n\geq0}} \) is a Cauchy sequence in \( {\mathrm{L}^2} \), and thus it converges in \( {\mathrm{L}^2} \) to some \( {M_\infty\in\mathrm{L^2}} \). It remains to establish almost sure convergence. It suffices to show that \( {{(M_n)}_{n\geq0}} \) is almost surely a Cauchy sequence. Let us define

\[ X_n=\sup_{i,j\geq n}|M_i-M_j|. \]

Now it suffices to show that almost surely \( {\lim_{n\rightarrow\infty}X_n=0} \). Actually \( {0\leq X_n\searrow X_\infty} \) as \( {n\rightarrow\infty} \) almost surely where \( {X_\infty\geq0} \). Hence it suffice to show that \( {\mathbb{E}(X_\infty^2)=0} \) where the square is for computational convenience later on. By monotone convergence it suffices to show that \( {\lim_{n\rightarrow\infty}\mathbb{E}(X_n^2)=0} \). We have \( {X_n\leq 2Y_n} \) where

\[ Y_n=\sup_{k\geq n}|M_k-M_n|. \]

It suffices to show that \( {\lim_{n\rightarrow\infty}\mathbb{E}(Y_n^2)=0} \). But the Doob maximal inequality for the martingale \( {{(M_{n+k}-M_n)}_{k\geq 0}} \) gives

\[ \mathbb{E}(Y_n^2) \leq 4\sup_{k\geq n}\mathbb{E}((M_k-M_n)^2) =4\sum_{k=n+1}^\infty\mathbb{E}((\Delta M_k)^2), \]

and we already know that the right hand side is the reminder of a converging series!

Finally note that both the limit in \( {\mathrm{L}^2} \) and the almost sure limit are the same either by using uniform integrability and using the uniqueness of the limit in \( {\mathrm{L}^2} \) or by extracting an almost sure subsequence from the \( {\mathrm{L}^2} \) convergence and using the uniqueness of the almost sure limit.

Doob maximal inequalities.

If \( {{(X_n)}_{n\geq0}} \) is a nonnegative submartingale then for all \( {n\geq0} \) and all \( {r>0} \),

\[ \mathbb{P}(\max_{0\leq k\leq n}X_k\geq r)\leq\frac{\mathbb{E}(X_n)}{r} \]

If \( {{(M_n)}_{n\geq0}} \) is a martingale then for all \( {n\geq0} \) and and all \( {p>1} \),

\[ \mathbb{E}\left(\sup_{0\leq k\leq n}|M_k|^p\right) \leq\left(\frac{p}{p-1}\right)^p\mathbb{E}(|M_n|^p) \]

in particular by monotone convergence we get

\[ \mathbb{E}\left(\sup_{n\geq0}|M_n|^p\right) \leq\left(\frac{p}{p-1}\right)^p\sup_{n\geq0}\mathbb{E}(|M_n|^p). \]

Note that \( {q=p/(p-1)} \) is the Hölder conjugate of \( {p} \). For \( {p=2} \) then \( {(p/(p-1))^p=4} \).

Proof. For the first inequality, we set \( {T=\inf\{n\geq0:X_n\geq r\}} \). For all \( {k\leq n} \), we have \( {\{T=k\}=\{X_0<r,\ldots,X_{k-1}<r,X_k\geq r\}\in\mathcal{F}_k} \). Also

\[ r\mathbf{1}_{T=k} \leq X_k\mathrm{1}_{T=k} \leq \mathbb{E}(X_n\mid\mathcal{F}_k)\mathbf{1}_{T=k} =\mathbb{E}(X_n\mathbf{1}_{T=k}\mid\mathcal{F}_k) \]


\[ r\mathbb{P}(T=k)\leq\mathbb{E}(X_n\mathbf{1}_{T=k}) \]

and summing over all \( {k\leq n} \) gives

\[ r\mathbb{P}(T\leq n)\leq\mathbb{E}(X_n\mathbf{1}_{T\leq n}). \]

It remains to note that \( {\{\max_{0\leq k\leq n}X_k\geq r\}=\{T\leq n\}} \) to get the first inequality.

For the second inequality, we use the proof of the first part with the nonnegative submartingale \( {{(|M_n|)}_{n\geq0}} \). This gives, for all \( {r>0} \), denoting \( {S_n=\max_{0\leq k\leq n}|M_k|} \),

\[ r\mathbb{P}(S_n\geq r)\leq\mathbb{E}(|M_n|\mathbf{1}_{S_n\geq a}). \]


\[ \int_0^\infty r\mathbb{P}(S_n\geq r)pr^{p-2}\mathrm{d}r \leq\int_0^\infty\mathbb{E}(|M_n|\mathbf{1}_{S_n\geq r})pr^{p-2}\mathrm{d}r. \]

Now by the Fubini–Tonelli theorem, this rewrites

\[ \mathbb{E}\int_0^\infty r\mathbf{1}_{S_n\geq r}pr^{p-2}\mathrm{d}r \leq\mathbb{E}\int_0^\infty|M_n|\mathbf{1}_{S_n\geq r}pr^{p-2}\mathrm{d}r \]


\[ \mathbb{E}\int_0^{S_n} pr^{p-1}\mathrm{d}r \leq\frac{p}{p-1}\mathbb{E}\int_0^{S_n}|M_n|(p-1)r^{p-2}\mathrm{d}r \]

in other words

\[ \mathbb{E}(S_n^p)\leq\frac{p}{p-1}\mathbb{E}(|M_n|S_n^{p-1}). \]

The right hand side is bounded by the Hölder inequality as

\[ \mathbb{E}(|M_n|S_n^{p-1}) \leq\mathbb{E}(|M_n|^p)^{1/p}\mathbb{E}(S_n^p)^{1-1/p}, \]


\[ \mathbb{E}(S_n^p)\leq\left(\frac{p}{p-1}\right)^p\mathbb{E}(|M_n|^p). \]

Doob decomposition. If \( {{(X_n)}_{n\geq0}} \) is adapted, and integrable in the sense that \( {\mathbb{E}(|X_n|)<\infty} \) for all \( {n} \), then there exists a martingale \( {M} \) and a predictable process \( {A} \) such that

\[ M_0=A_0=0\quad\text{and}\quad X=X_0+M+A. \]

Moreover this decomposition is unique. Furthermore if \( {X} \) is a submartingale then \( {A} \) is nondecreasing and there exists \( {A_\infty} \) taking values in \( {[0,+\infty]} \) such that almost surely

\[ 0\leq A_n\underset{n\rightarrow\infty}{\nearrow} A_\infty. \]

Recall that predictable means that \( {A_n} \) is \( {\mathcal{F}_{n-1}} \) measurable for all \( {n\geq1} \).

The process \( {A} \) is the compensator of \( {X} \) in the sense that \( {X-A} \) is a martingale. For a martingale \( {N} \), the compensator of the submartingale \( {X=N^2} \) is the increasing process of \( {N} \).

There is a continuous time analogue known as the Doob–Meyer decomposition.

Proof. Note that \( {A} \) is necessarily integrable too. For the uniqueness, if \( {X=X_0+M+A} \) then

\[ \mathbb{E}(X_{n+1}-X_n\mid\mathcal{F}_n)=A_{n+1}-A_n, \]

and since \( {A_0=0} \) we get, for all \( {n\geq1} \),

\[ A_n=\sum_{k=0}^{n-1}\mathbb{E}(X_{k+1}-X_k\mid\mathcal{F}_k), \]

and \( {M_n=X_n-X_0-A_n} \). For the existence, we set \( {A_0=M_0=0} \) and we use the formulas above to define \( {A_n} \) and \( {M_n} \) for all \( {n\geq1} \). Since \( {X} \) is adapted, \( {A_{n+1}} \) and \( {M_n} \) are \( {\mathcal{F}_n} \) measurable. By definition \( {A_n} \) is integrable and since \( {X_n} \) is integrable we also have that \( {M_n} \) is integrable. Moreover \( {\mathbb{E}(M_{n+1}-M_n\mid\mathcal{F}_n)=0} \) because

\[ M_{n+1}-M_n =X_{n+1}-X_n-(A_{n+1}-A_n) =X_{n+1}-X_n-\mathbb{E}(X_{n+1}-X_n\mid\mathcal{F}_n). \]

Finally, when \( {X} \) is a submartingale then for all \( {n\geq0} \) we have

\[ \begin{array}{rcl} A_{n+1}-A_n &=&\mathbb{E}(A_{n+1}-A_n\mid\mathcal{F}_n)\\ &=&\mathbb{E}(X_{n+1}-X_n\mid\mathcal{F}_n) -\mathbb{E}(M_{n+1}-M_n\mid\mathcal{F}_n)\\ &=&\mathbb{E}(X_{n+1}-X_n\mid\mathcal{F}_n) \geq0. \end{array} \]

Curiosity. In the special case of nonnegative martingales bounded in \( {L\log L} \), there is an information theoretic argument due to Andrew R. Barron that resembles a little bit to the one that we have used for continuous martingales in a previous post. This is written in an apparently unpublished document available online.

Thanks. This post benefited from discussions with Nicolas Fournier and Nathaël Gozlan.

Leave a Comment
Syntax · Style · .