Standardfehler des Regressionskoeffizienten

In der Statistik ist der Standardfehler des Regressionskoeffizienten ein Maß für die Variabilität des Schätzers für den Regressionskoeffizienten. Der Standardfehler des Regressionskoeffizienten wird benötigt, um die Präzision der Schätzung des Regressionskoeffizienten beurteilen zu können, etwa anhand eines statistischen Tests oder eines Konfidenzintervalls.

Die Schätzung einer Regressionsgerade wird oft so angegeben, dass unter den ermittelten Koeffizienten die Standardfehler in Klammern angeführt werden. Damit erreicht man eine übersichtliche Darstellung der beiden Aspekte, der Punktschätzung sowie einer Angabe der Präzision.

Spezialfall: Lineare Einfachregression

In der linearen Einfachregression (nur eine erklärende Variable) $y_{i}=\beta _{0}+x_{i}\beta _{1}+\varepsilon _{i}$ ist der (geschätzte) Standardfehler des Regressionskoeffizienten (hier des Anstiegs ${\hat {\beta }}_{1}$ ) gegeben durch die positive Quadratwurzel der geschätzten Varianz von ${\hat {\beta }}_{1}$ (siehe auch Lineare Einfachregression#Varianzen der Kleinste-Quadrate-Schätzer):

${\hat {\sigma }}_{{\hat {\beta }}_{1}}=\operatorname {SE} ({\hat {\beta }}_{1})={\sqrt {\frac {{\hat {\sigma }}^{2}}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}}$

mit der erwartungstreuen Schätzung der Varianz der Störgrößen

${\hat {\sigma }}^{2}={\frac {1}{n-2}}\sum \limits _{i=1}^{n}(y_{i}-{\hat {\beta }}_{0}-{\hat {\beta }}_{1}x_{i})^{2}$ ,

dessen empirisches Pendant das mittlere Residuenquadrat

$MQR={\sqrt {\frac {SQR}{n-2}}}$

ist. Daher folgt für den (empirischen) Standardfehler des Anstiegs:

$s_{b_{1}}={\sqrt {\frac {MQR}{\sum \nolimits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}}$ .

Mit diesem Standardfehler lässt sich die Präzision der Schätzung des Anstiegs $\beta _{1}$ beurteilen, z. B. mittels eines Konfidenzintervalls. Ein $(1-\alpha)$ -Konfidenzintervall für den unbekannten (wahren) Regressionskoeffizienten $\beta _{1}$ ist gegeben durch:

$KI_{1-\alpha }(\beta _{1})=\left[b_{1}-s_{b_{1}}t_{1-\alpha /2}(n-2);b_{1}+s_{b_{1}}t_{1-\alpha /2}(n-2)\right]$ ,

wobei $t_{1-\alpha /2}(n-2)$ das $(1-\alpha /2)$ -Quantil der studentschen t-Verteilung mit (n-2) Freiheitsgraden ist.

Multiple lineare Regression

Gegeben ein typisches multiples lineares Regressionsmodell $\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }}$ , mit ${\boldsymbol {\beta }}$ dem $p\times 1$ Vektor der unbekannten Regressionsparameter, der $n\times p$ Versuchsplanmatrix ${\mathbf {X}}$ , dem $n \times 1$ Vektor der abhängigen Variablen $\mathbf{y}$ und dem $n \times 1$ Vektor der Störgrößen ${\boldsymbol {\varepsilon }}$ . Dann ist in der multiplen linearen Regression ist die erwartungstreuen Schätzung der Varianz der Störgrößen in Matrixschreibweise gegeben durch die Residuenquadratsumme adjustiert durch die residualen Freiheitsgrade:

${\hat {\sigma }}^{2}=SQR/(n-k-1)={\frac {{\hat {\boldsymbol {\varepsilon }}}^{\top }{\hat {\boldsymbol {\varepsilon }}}}{n-k-1}}$ .

Für den Standardfehler der (geschätzten) Regressionskoeffizienten folgt daraus, dass sie gegeben sind durch die Quadratwurzel des -ten Diagonalelements der geschätzten Kovarianzmatrix des Kleinste-Quadrate-Schätzers

$\operatorname {SE} ({\hat {\beta }}_{j})={\sqrt {{\hat {\sigma }}^{2}(\mathbf {X} ^{\top }\mathbf {X} )_{jj}^{-1}}}$ .

Eine andere Darstellung mittels des Bestimmtheitsmaßes ist

$\operatorname {SE} ({\hat {\beta }}_{j})={\sqrt {\frac {{\tfrac {1}{n-p}}\sum \nolimits _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}}{(1-{\mathit {R}}_{j}^{2})\sum \nolimits _{i=1}^{n}(x_{ij}-{\overline {x}}_{j})^{2}}}}$ .

Basierend auf einem Artikel in:

Wikipedia.de