Summe der Abweichungsquadrate

In der Statistik ist die Summe der Abweichungsquadrate (SAQ bzw. englisch sum of squared deviations, kurz SSD), auch Abweichungsquadratsumme, kurz Summe der Quadrate oder Quadratsumme (SQ oder Q bzw. englisch sum of squares, kurz SS) genannt, die Summe der quadratischen Abweichungen der Messwerte von ihrem arithmetischen Mittel. Die Summe der Abweichungsquadrate ist ein Maß für die Stärke der Schwankungen der Messwerte um deren Mittelwert und damit ein Maß für die „Variation“ eines Merkmals . Eine Verallgemeinerung der Summe der Abweichungsquadrate stellt die Summe der Abweichungsprodukte (SAP bzw. englisch sum of products of deviations, kurz SPD), auch Abweichungsproduktsumme, kurz Summe der Produkte (SP bzw. englisch sum of products, kurz SP) oder Produktsumme (selten auch Summe der Kreuzprodukte bzw. Kreuzproduktsumme) dar und ist ein Maß für den Grad der gemeinsamen Variation (der „Kovariation“) zweier Merkmale und .^[1] Die Summe der Abweichungsprodukte ist die Summe der mittelwertbereinigten Messwertpaare. Das nicht-standardisierte „mittlere Abweichungsquadrat“ von Messwerten heißt empirische Varianz und das nicht-standardisierte „mittlere Abweichungsprodukt“ von Messwertpaaren heißt empirische Kovarianz. Die Quadratsumme ist also der Zähler der empirischen Varianz und die Produktsumme ist der Zähler der empirischen Kovarianz. Die Quadratsumme und die Produktsumme werden vielfältig angewandt, z.B. beim Bestimmtheitsmaß oder beim Bravais-Pearson-Korrelationskoeffizienten. Der Verschiebungssatz liefert wichtige Rechenregeln für die Quadratsumme und die Produktsumme. In der Statistik wichtige Quadratsummen sind die totale Quadratsumme und die erklärte Quadratsumme. Eine weitere in der Statistik wichtige Quadratsumme ist die Residuenquadratsumme, kurz SQR (Summe der Quadrate der Restabweichungen (oder: „Residuen“) bzw. englisch sum of squared residuals, kurz SSR), die bei der Methode der kleinsten Quadrate eine große Rolle spielt.

Definition

Die Abweichungsquadratsumme ergibt sich als Summe der quadratischen Abweichungen der Messwerte von ihrem arithmetischen Mittelwert $(x_{i}-{\overline {x}})^{2}$

$S_{xx}:=SQ_{x}({\overline {x}}):=(x_{1}-{\overline {x}})^{2}+(x_{2}-{\overline {x}})^{2}+\ldots +(x_{n}-{\overline {x}})^{2}=\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})^{2}$ .

Alternativ lässt sich Abweichungsquadratsumme durch den Verschiebungssatz von Steiner wie folgt angeben:

$SQ_{x}=\left(\sum _{i=1}^{n}x_{i}^{2}\right)-{\frac {1}{n}}\left(\sum _{i=1}^{n}x_{i}\right)^{2}$ .

Um den Unterschied zur Produktsumme deutlicher herauszustellen wird sie auch als $S_{xx}$ notiert. Für Anwendungen, besonders in der Varianzanalyse, wird die Notation der Abweichungsquadratsumme mit $SQ$ bevorzugt.

Falls das Merkmal keinerlei Variabilität aufweist, d.h. $x_{1}=x_{2}=\ldots =x_{n}={\overline {x}}$ , dann ergibt sich eine Quadratsumme (und eine Varianz) von Null. In die Berechnung der Summe gehen insgesamt Abweichungsquadrate ein, sodass die Abweichungsquadratsumme umso größer ist, je größer die Stichprobengröße ist.

Mittleres Abweichungsquadrat

Um ein von der Stichprobengröße unabhängiges Maß für die Variation der Merkmalswerte zu erhalten, muss eine Normierung vorgenommen werden. Die Normierung geschieht dadurch, dass man die Abweichungsquadratsumme durch die Anzahl der Freiheitsgrade dividiert:

$MQ_{x}={\frac {SQ_{x}}{FG}}={\frac {\sum \nolimits _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}}{n-1}}=s_{x}^{2}$ .

Das so gewonnene Streuungsmaß stellt eine Art „mittleres“ bzw. „durchschnitlliches“ Abweichungsquadrat dar (englisch mean square, kurz: MS), dass mit $MQ$ bzw. $DQ$ (Mittlere Quadrate der Abweichungen bzw. Durchschnittliche Quadrate der Abweichungen) abgekürzt wird. Das „mittlere Abweichungsquadrat“ (oft fälschlicherweise „mittlere Quadratsumme“ genannt) ist die empirische Varianz, wird aber in der Varianzanalyse nicht als Varianz, sondern als mittlere Abweichungsquadrat bezeichnet. Die Abweichungsquadratsumme ist also die (n-1) -fache empirische Varianz s_x^2 der Messwerte. Das mittlere Quadrat der Residuen heißt „mittleres Residuenquadrat“.

Verallgemeinerung

Die Abweichungsproduktsumme bzw. die Summe der Abweichungsprodukte ist eine Verallgemeinerung der Abweichungsquadratsumme und ist definiert als Summe der Produkte der mittelwertbereinigten Messwertpaare:

$S_{xy}:=SP_{xy}:=(x_{1}-{\overline {x}})(y_{1}-{\overline {y}})+(x_{2}-{\overline {x}})(y_{2}-{\overline {y}})+\ldots +(x_{n}-{\overline {x}})(y_{n}-{\overline {y}})=\sum \limits _{i=1}^{n}(x_{i}-{\overline {x}})(y_{i}-{\overline {y}})$ .

Insbesondere gilt $SQ_{x}=SP_{xx}$ . Die empirische Kovarianz $s_{xy}$ ist die Summe der Abweichungsprodukte der Messwerte von und dividiert durch n-1 :

$s_{xy}={\frac {1}{n-1}}SP_{xy}$ .

Die empirische Kovarianz kann somit als „mittleres“ bzw. „durchschnittliches“ Abweichungsprodukt interpretiert werden.

Spezielle Quadratsummen

Residuenquadratsumme

Ausgehend von den Residuen, die den vertikalen Abstand zwischen Beobachtungspunkt und der geschätzten Regressionsgerade messen, lässt sich eine Residuenquadratsumme durch die Summe der Abweichungsquadrate der Residuen wie folgt definieren

$SQR:=SQ_{\text{Rest}}:=\sum _{i=1}^{n}{\hat {\varepsilon }}_{i}^{2}=\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}$ .

Hypothesenquadratsumme

Die Hypothesenquadratsumme (englisch sum of squares due to hypothesis) tritt beim Testen der allgemeinen linearen Hypothese auf. Sei ${\boldsymbol {R}}$ eine $q\times (k+1)$ Restriktionsmatrix, mit $q\leq (k+1)$ Sei weiterhin angenommen, dass die Restriktionen an den $(k+1)\times 1$ Parametervektor ${\boldsymbol {\beta }}$ ausgedrückt werden können als : $H_{0}:{\boldsymbol {R}}{\boldsymbol {\beta }}={\boldsymbol {r}}$ , wobei ${\boldsymbol {r}}$ ein $q\times 1$ -Vektor bestehend aus bekannten Konstanten darstellt. Die Hypothesenquadratsumme ist dann gegeben durch

$SQH=({\boldsymbol {R}}{\boldsymbol {\hat {\beta }}}-{\boldsymbol {r}})^{\top }({\boldsymbol {R}}(\mathbf {X} ^{\top }\mathbf {X} )^{-1}{\boldsymbol {R}}^{\top })^{-1}({\boldsymbol {R}}{\boldsymbol {\hat {\beta }}}-{\boldsymbol {r}})$ .

Anmerkungen

↑ Das gemeinsame Variieren zweier oder mehrerer Merkmale bezeichnet man als „Ko-Variation“

Basierend auf einem Artikel in:

Wikipedia.de