Wahrscheinlichkeitserzeugende Funktion

Eine Wahrscheinlichkeitserzeugende Funktion, auch kurz erzeugende Funktion oder Erzeugendenfunktion genannt, ist in der Wahrscheinlichkeitstheorie eine spezielle reelle Funktion. Jeder diskreten Wahrscheinlichkeitsverteilung auf den natürlichen Zahlen und jeder Zufallsvariable mit Werten in den natürlichen Zahlen kann eine Wahrscheinlichkeitserzeugende Funktion zugeordnet werden. Umgekehrt kann auch aus jeder wahrscheinlichkeitserzeugenden Funktion die Wahrscheinlichkeitsverteilung oder die Verteilung der Zufallsvariable eindeutig rekonstruiert werden.

Aufgrund dieser eindeutigen Zuordnung ermöglichen es Wahrscheinlichkeitserzeugende Funktionen, gewisse Eigenschaften der Verteilungen und Operationen von Zufallsvariablen auf Eigenschaften und Operationen von Funktionen zu übertragen. So existiert beispielsweise eine Beziehung zwischen den Ableitungen der wahrscheinlichkeitserzeugenden Funktion und dem Erwartungswert, der Varianz und weiteren Momenten der Zufallsvariable. Ebenso entspricht der Addition von stochastisch unabhängigen Zufallsvariablen oder der Faltung der Wahrscheinlichkeitsverteilungen der Multiplikation der entsprechenden Wahrscheinlichkeitserzeugenden Funktionen. Diese Vereinfachung wichtiger Operationen ermöglicht dann beispielsweise die Untersuchung von komplexen stochastischen Objekten wie dem Bienaymé-Galton-Watson-Prozess.

Definition

Die wahrscheinlichkeitserzeugende Funktion lässt sich auf zwei Arten angeben: einerseits mittels einer Wahrscheinlichkeitsverteilung, andererseits mittels der Verteilung einer Zufallsvariablen. Beide Arten sind insofern äquivalent, als dass jede Wahrscheinlichkeitsverteilung als Verteilung einer Zufallsvariablen aufgefasst werden kann und jede Verteilung einer Zufallsvariable wieder eine Wahrscheinlichkeitsverteilung ist. Bei beiden Definitionen ist 0^0 := 1 gesetzt. Mit $\mathbb{N} _{0}$ sei die Menge der natürlichen Zahlen inklusive der 0 bezeichnet.

Für Wahrscheinlichkeitsverteilungen

Ist eine Wahrscheinlichkeitsverteilung auf $({\mathbb {N}}_{0},{\mathcal {P}}({\mathbb {N}}_{0}))$ mit Wahrscheinlichkeitsfunktion $f_{P}(k)=P(\{k\})$ , so heißt die Funktion

$m_{P}\colon [0,1]\to [0,1]$

definiert durch

$m_{P}(t)=\sum _{k=0}^{\infty }f_{P}(k)t^{k}$

die wahrscheinlichkeitserzeugende Funktion von beziehungsweise von f_P .

Für Zufallsvariablen

Für eine Zufallsvariable mit Werten in $\mathbb{N}_0$ ist die wahrscheinlichkeitserzeugende Funktion

$m_{X}\colon [0,1]\to [0,1]$

von beziehungsweise von $P_{X}$ definiert als

$m_X(t):=m_{P \circ X^{-1}}(t)=\sum_{k=0}^{\infty} t^k P[X=k]$ .

Somit ist die wahrscheinlichkeitserzeugende Funktion einer Zufallsvariable genau die wahrscheinlichkeitserzeugende Funktion ihrer Verteilung. Alternativ lässt sich die wahrscheinlichkeitserzeugende Funktion einer Zufallsvariable auch über den Erwartungswert definieren als

$m_X(t):=\operatorname E\left[t^{X}\right]$ .

Elementare Beispiele

Gegeben sei eine Bernoulli-verteilte Zufallsvariable , also $X \sim \operatorname{Ber}(p)$ . Dann ist P(X=0)=1-p und P(X=1)=p . Rein formell fasst man als Zufallsvariable mit Werten in ganz $\mathbb{N} _{0}$ auf und setzt dann P(X=n)=0 für $n\geq 2$ . Dann ist

$m_X(t)=\sum_{k=0}^{\infty} t^k P[X=k]= 1-p+pt$

Ist die Zufallsvariable binomialverteilt mit Parametern und , also $Y \sim \operatorname{Bin}_{n,p}$ , so ist für $k\leq n$

$P(X=k)= \binom nk p^k (1-p)^{n-k}$

und P(X=k)=0 für k > n . Die wahrscheinlichkeitserzeugende Funktion ist dann

$m_X(t)= \sum_{k=0}^{n}\binom nk (pt)^k (1-p)^{n-k} = (pt+1-p)^n$ .

Dies folgt mittels des binomischen Lehrsatzes.

Eigenschaften

Eigenschaften als Funktion

Die wahrscheinlichkeitserzeugende Funktion ist eine Potenzreihe und hat einen Konvergenzradius von mindestens 1, sie konvergiert also für alle $t \in [0,1]$ . Dies folgt daraus, dass alle Koeffizienten der Potenzreihe positiv sind und sich zu 1 aufsummieren. Daraus folgt dann $\sum_{k=0}^{\infty} \left| t^k P[X=k] \right| \leq 1$ für $t \in [-1,1]$ . Damit erben die wahrscheinlichkeitserzeugenden Funktionen auf dem untersuchten Intervall [0,1] alle Eigenschaften der Potenzreihen: Sie sind stetig und auf dem Intervall [0,1) unendlich oft differenzierbar.

Da jedes der Monome $x^{k}$ konvex und monoton wachsend ist und diese Eigenschaften abgeschlossen bezüglich konischen Kombinationen sind, ist auch die wahrscheinlichkeitserzeugende Funktion konvex und monoton wachsend.

Umkehrbarkeit

Die wahrscheinlichkeitserzeugende Funktion bestimmt die Verteilung von eindeutig:

Sind und $\mathbb{N}_{0}$ -wertige Zufallsvariable mit m_X (t) = m_Y (t)

für alle $t \in [0,c]$ mit einem c > 0

, dann folgt P[X=k] = P[Y=k]

für alle $k \in \mathbb{N}_0$ .

Es gilt dann nämlich nach der Taylor-Formel für alle $k \in \mathbb{N}_0$

$P[X = k] = \dfrac{ m_{X}^{(k)} (0) }{k!} = \dfrac{ m_{Y}^{(k)} (0) }{k!} = P[Y = k]$ .

Dieser Zusammenhang zeigt, dass m_X die Wahrscheinlichkeiten P[X=k] „erzeugt“ und die Wahrscheinlichkeitsfunktion aus der wahrscheinlichkeitserzeugenden Funktion rekonstruiert werden kann.

Faltung und Summen von Zufallsvariablen

Sind und unabhängige $\mathbb{N}_{0}$ -wertige Zufallsvariablen, so gilt für die wahrscheinlichkeitserzeugende Funktion von X + Y

$m_{X+Y}(t) = \operatorname{E}(t^{X+Y}) = \operatorname{E}(t^X \cdot t^Y) = \operatorname{E}(t^X) \cdot \operatorname{E}(t^Y) = m_X(t) \cdot m_Y(t)$ ,

denn mit und sind auch t^X und t^Y unabhängig. Das lässt sich direkt auf endliche Summen unabhängiger Zufallsvariabler verallgemeinern: Sind $X_1 , \ldots , X_n$ unabhängige $\mathbb{N}_{0}$ -wertige Zufallsvariablen, dann gilt für $S_n = \sum_{i=1}^n X_i$

$m_{S_n} (t)= \prod_{i=1}^n m_{X_i} (t)$ .

Daraus folgt dann direkt für die wahrscheinlichkeitserzeugende Funktion der Faltung $P*Q$ der Wahrscheinlichkeitsmaße $P,Q$

$m_{P*Q}(t)=m_{P}(t)m_{Q}(t)$ .

Beispiel

Seien $X_{1},X_{2}$ unabhängige, Bernoulli-verteilte Zufallsvariablen zum selben Parameter . Dann ist die Summe der Zufallsvariablen bekanntermaßen binomialverteilt zu den Parametern und , also $X_1+X_2 \sim \operatorname{Bin}_{2,p}$ . Mit den oben im Abschnitt Elementare Beispiele hergeleiteten wahrscheinlichkeitserzeugenden Funktionen für die Bernoulli-Verteilung und die Binomialverteilung folgt

$m_{X_1}(t) \cdot m_{X2}(t)=(1-p+pt)^2=m_{\operatorname{Bin}_{2,p}}(t)=m_{X_1+X_2}(t)$ .

Momenterzeugung

Für eine $\mathbb{N}_{0}$ -wertige Zufallsvariable und $k \in \N_0$ ist

$\operatorname E\left[ \binom{X}{k} \right] = \dfrac{ \lim_{t \uparrow 1} m_{X}^{(k)} (t) }{k!}$

beziehungsweise

$\operatorname {E} \left[X(X-1)\dots (X-k+1)\right]=\lim _{t\uparrow 1}m_{X}^{(k)}(t)$ .

Dabei sind beide Seiten der beiden Gleichungen genau dann endlich, wenn $\operatorname {E}\left[X^{k}\right]$ endlich ist.

Damit lassen sich insbesondere der Erwartungswert und die Varianz einer $\mathbb{N}_{0}$ -wertigen Zufallsvariablen aus ihrer wahrscheinlichkeitserzeugenden Funktion ermitteln:

$\operatorname{E}\left[X \right] = \lim_{t \uparrow 1} m_X'(t)$ ,

$\operatorname{Var} \left[ X \right] = \operatorname E\left[X(X-1)\right] + \operatorname E\left[X \right] - \operatorname E\left[X \right]^2 = \lim_{t \uparrow 1} \left( m_X''(t) + m_X'(t) - m_X'(t)^2 \right)$

Die Betrachtung des linksseitigen Grenzwertes ist hier notwendig, da die Differenzierbarkeit von Potenzreihen auf dem Rande des Konvergenzradius nicht notwendigerweise gegeben ist.

Beispiel

Sei eine binomialverteilte Zufallsvariable, also $X\sim \operatorname {Bin} _{n,p}$ . Dann ist

$m_{X}(t)=(pt+1-p)^{n},\quad m'_{X}(t)=np(pt+1-p)^{n-1}{\text{ und }}m''_{X}(t)=n(n-1)p^{2}(pt+1-p)^{n-2}$

Beide Ableitungen sind Polynome und können daher problemlos für $t=1$ ausgewertet werden, der linksseitige Grenzwert braucht also nicht betrachtet werden. Es ist

$m'_{X}(1)=np{\text{ und }}m''_{X}(1)=n(n-1)p^{2}$ .

Damit folgt mit den obigen Ergebnissen

$\operatorname {E} (X)=m'_{X}(1)=np,\quad \operatorname {Var} (X)=m_{X}''(1)+m_{X}'(1)-m_{X}'(1)^{2}=np(1-p)$ .

Lineare Transformation von Zufallsvariablen

Lineare Transformationen der Zufallsvariable wirken wie folgt auf die wahrscheinlichkeitserzeugende Funktion:

$m_{aX+b}(t)=t^bm_X(t^a)$ .

Beispiel

Ist eine Bernoulli-verteilte Zufallsvariable, also $X \sim \operatorname{Ber}(p)$ , so ist für $a,b\in \mathbb {N}$ die Zufallsvariable $Y=aX+b$ zweipunktverteilt auf $\{a,a+b\}$ . Die wahrscheinlichkeitserzeugende Funktion ist dann

$m_{Y}(t)=m_{aX+b}(t)=t^{b}m_{X}(t^{a})=t^{b}\cdot (1-p+pt^{a})=(1-p)t^{b}+pt^{a+b}$ .

Konvergenz

Die punktweise Konvergenz der Wahrscheinlichkeitserzeugenden Funktion lässt sich direkt mit der Konvergenz in Verteilung in Beziehung setzen:

Sind $X,X_{1},X_{2},X_{3},\dots$ Zufallsvariablen mit zugehörigen wahrscheinlichkeitserzeugenden Funktionen $m,m_{1},m_{2},m_{3},\dots$ , so konvergieren die $X_{n}$ genau dann in Verteilung gegen , wenn die wahrscheinlichkeitserzeugenden Funktionen $m_{n}$ für alle $t\in [0,\varepsilon )$ mit einem $\varepsilon \in (0,1)$ punktweise gegen konvergieren.

Die Aussage gilt ebenso für die Wahrscheinlichkeitserzeugenden Funktionen von Wahrscheinlichkeitsverteilungen und die schwache Konvergenz.

Wahrscheinlichkeitserzeugende Funktionen von zufälligen Summen

Mittels wahrscheinlichkeitserzeugender Funktionen lassen sich leicht Summen über eine zufällige Anzahl von Summanden berechnen. Sind $(X_{i})_{{i\in {\mathbb {N}}}}$ unabhängig identisch verteilte Zufallsvariablen mit Werten in $\mathbb{N}_0$ und eine weitere, von allen $X_{i}$ unabhängige Zufallsvariable mit demselben Wertebereich. Dann hat die Zufallsvariable

$Z=\sum _{i=1}^{T}X_{i}$

die wahrscheinlichkeitserzeugende Funktion

$m_{Z}(t)=m_{T}(m_{X_{1}}(t))$ .

Diese Eigenschaft macht man sich zum Beispiel bei der Analyse des Galton-Watson-Prozesses zunutze. Nach den obigen Regeln für die Berechnung des Erwartungswertes gilt dann mit der Kettenregel

$\operatorname{E}(Z)=\operatorname{E}(T) \cdot \operatorname{E}(X_1)$ ,

was der Formel von Wald entspricht.

Für die Varianz gilt dann

$\operatorname {Var}(Z)=\operatorname {Var}(T)\operatorname {E}(X_{1})^{2}+\operatorname {E}(T)\operatorname {Var}(X_{1})$ .

Dies ist genau die Blackwell-Girshick-Gleichung. Auch sie folgt mittels der obigen Regeln zur Bestimmung der Varianz und der Produktregel.

Multivariate wahrscheinlichkeitserzeugende Funktion

Ist $X=(X_{1},\dots ,X_{k})$ ein -dimensionaler Zufallsvektor mit Werten in ${\mathbb {N}}_{0}^{k}$ , so ist die wahrscheinlichkeitserzeugende Funktion von definiert als

$m_{X}(t):=m_{X}(t_{1},\dots ,t_{k})=\operatorname {E} \left(\prod _{i=1}^{k}t_{i}^{X_{i}}\right)=\sum _{x_{1},\ldots ,x_{k}=0}^{\infty }f_{P}(x_{1},\ldots ,x_{k})t_{1}^{x_{1}}\dots t_{k}^{x_{k}}$

mit $f_{P}(x_{1},\ldots ,x_{k})=P(X_{1}=x_{1},\dotsc ,X_{k}=x_{k})$ .

Erwartungswert, Varianz und Kovarianz

Analog zum eindimensionalen Fall gilt

$\operatorname{E}(X_i)=\frac{\partial m_X}{\partial t_i}(1,\dots, 1) \quad \forall i \in \{1,\dots,k\}$

sowie

$\operatorname{Var}(X_i)=\frac{\partial^2 m_X}{{\partial t_i}^2}(1,\dots, 1)+ \frac{\partial m_X}{\partial t_i}(1,\dots, 1)\left( 1- \frac{\partial m_X}{\partial t_i}(1,\dots, 1)\right) \quad \forall i \in \{1,\dots,k\}$

und

$\operatorname{Cov}(X_i,X_j)=\frac{\partial^2 m_X}{\partial t_i \partial t_j}(1,\dots, 1) -\frac{\partial m_X}{\partial t_i}(1,\dots, 1)\cdot \frac{\partial m_X}{\partial t_j}(1,\dots, 1)\quad \forall i,j \in \{1,\dots,k\}$

Beispiele

In der Tabelle sind einige wahrscheinlichkeitserzeugende Funktionen von gängigen diskreten Verteilungen aufgeführt. Wahrscheinlichkeitserzeugende Funktionen von Wahrscheinlichkeitsverteilungen, die hier nicht aufgeführt sind, stehen in dem jeweiligen Artikel der Wahrscheinlichkeitsfunktion.

Verteilung	Wahrscheinlichkeitserzeugende Funktion $m_{X}(t)$
Bernoulli-Verteilung
Zweipunktverteilung	$m_{X}(t)=(1-p)t^{a}+pt^{b}$
Binomialverteilung
Geometrische Verteilung	$m_X(t) = \frac{p}{1 - (1-p)t}$
Negative Binomialverteilung	$m_X(t) = \left(\frac{p}{1 - (1-p)t}\right)^r$
Diskrete Gleichverteilung auf $\{1,\dotsc,n\}$	$m_X(t) = \sum_{k=1}^n \frac{1}{n} t^k = \frac{t^{n+1} - t}{n(t-1)}$
Logarithmische Verteilung	$m_{{X}}(t)={\frac {\ln(1-pt)}{\ln(1-p)}}$
Poisson-Verteilung $P_{\lambda }$	$m_{{X}}(t)={\mathrm {e}}^{{\lambda (t-1)}}$
Verallgemeinerte Binomialverteilung	$m_{{X}}(t)=\prod \limits _{{j=1}}^{n}(1-{p_{j}}+{p_{j}}{t})$
Multivariate Verteilungen
Multinomialverteilung	$m_{X}(t)={\biggl (}\sum _{{i=1}}^{k}p_{i}t_{i}{\biggr )}^{n}$

Insbesondere ist die wahrscheinlichkeitserzeugende Funktion der Binomialverteilung gleich dem n-fachen Produkt der wahrscheinlichkeitserzeugenden Funktion der Bernoulli-Verteilung, da die Binomialverteilung genau die Summe von unabhängigen Bernoulli-Verteilungen ist. Dasselbe gilt für die geometrische Verteilung und die negative Binomialverteilung.

Zusammenhang mit weiteren erzeugenden Funktionen

Die wahrscheinlichkeitserzeugende Funktion einer Zufallsvariable mit Wahrscheinlichkeitsfunktion ist ein Spezialfall einer erzeugenden Funktion mit $a_{i}=p\left({i}\right)$ für $i\in {\mathbb {N}}_{0}$ . Außer der wahrscheinlichkeitserzeugenden Funktion gibt es noch drei weitere erzeugende Funktionen in der Stochastik, die aber nicht nur für diskrete Verteilungen definiert werden. Die momenterzeugende Funktion ist definiert als $M_{X}\left(t\right):=\operatorname {E}\left(e^{{tX}}\right)$ . Demnach gilt $m_{X}\left(e^{t}\right)=M_{X}\left(t\right)$ Die charakteristische Funktion ist definiert als $\varphi _{X}\left(t\right):=\operatorname {E}\left(e^{{itX}}\right)$ . Demnach gilt $m_{X}\left(e^{{it}}\right)=\varphi _{X}\left(t\right)$ .

Außerdem gibt es noch die kumulantenerzeugende Funktion als Logarithmus der momenterzeugenden Funktion. Aus ihr wird der Begriff der Kumulante abgeleitet.

Basierend auf einem Artikel in:

Wikipedia.de