next up previous index
Nächste Seite: Regressionskoeffizient Aufwärts: Regression und Korrelation Vorherige Seite: Regression und Korrelation   Index


Regressionsanalyse

Die Regressionsanalyse (engl.: regression analysis) ist ein sehr allgemeines statistisches Verfahren, um die Werte einer »Zielvariablen« $ Y$ mit Hilfe der Werte einer oder mehrerer »unabhängiger Variablen« $ X_{1}, X_{2}, \ldots, X_{k}$ vorherzusagen. Das klassische Regressionsmodell betrachtet ausschließlich »kontinuierliche Variablen«. Es kann jedoch auf »kategoriale« abhängige und unabhängige Variablen verallgemeinert werden. Bei Verwendung einer unabhängigen Variablen $ X$ spricht man auch von einer einfachen (bivariaten) Regression, bei mehreren dagegen von multipler Regression. Die folgenden Überlegungen beginnen mit dem bivariaten Fall.

Zunächst kann man die Regressionsanalyse als deskriptives Modell verwenden, um in einem »Streudiagramm« zweier Variablen $ X$ und $ Y$ den linearen Trend der Punktwolke mit Hilfe einer Geraden zu beschreiben. Die Funktionsgleichung dieser Geraden lautet für alle $ i=1,\ldots,n$ »Untersuchungseinheiten«: $ \hat y_{i}= b_{0} + b_{1} x_{i}$. $ \hat y_{i}$ ist jeweils der Wert der Zielvariablen, der aufgrund dieses deskriptiven Modells vorhergesagt wird. Er sollte nicht zu sehr von den jeweiligen beobachteten Werten $ y_{i}$ abweichen. Die Gerade wird daher so in die Punktwolke eingezeichnet, oder anders ausgedrückt: die Parameter $ b_{0}$ und $ b_{1}$ werden so berechnet, daß die Summe der quadrierten Abweichungen für alle Untersuchungseinheiten minimiert wird. $ b_{0}$ und $ b_{1}$ bezeichnet man auch als »Regressionskoeffizienten«.

Neben der Verwendung als deskriptives Verfahren wird die Regressionsanalyse vor allem inferenzstatistisches Modell eingesetzt, um Hypothesen über eine (unbekannte) »Grundgesamtheit« mit Hilfe einer »Stichprobe« von $ n$ »Untersuchungseinheiten« empirisch zu überprüfen. In den meisten Fällen wird dabei, wie beim deskriptiven Modell, ein linearer Zusammenhang unterstellt. Zusätzlich wird angenommen, daß man die abhängige Variable nur teilweise mit der unabhängigen Variablen vorhersagen kann. Das Regressionsmodell enthält daher zusätzlich eine Restkomponente $ u_{i}$: $ y_{i}= \beta_{0} + \beta_{1} x_{i} + u_{i}$. Die Regressionskoeffizienten werden mit einem griechischen Buchstaben bezeichnet, um deutlich zu machen, daß dieses Modell die Verhältnisse in der »Grundgesamtheit« beschreibt. Unter dieser Perspektive sind die in einer Stichprobe berechneten Regressionskoeffizienten $ b_{0}$ und $ b_{1}$ lediglich mehr oder wenige gute Schätzungen für den statistischen Zusammenhang der Variablen $ X$ und $ Y$ in der Grundgesamtheit.

Die Linearitätsannahme besagt, daß die Zielvariable immer um den gleichen Betrag $ \beta_{1}$ zu- oder abnimmt, wenn sich die unabhängige Variable um eine Einheit ändert, unabhängig davon, welchen konkreten Wert $ X$ aufweist. Die Restkomponente ist notwendig, weil anzunehmen ist, daß die Zielvariable neben $ X$ auch von anderen Einflüssen abhängt, von denen man nichts weiß oder über die man keine Daten hat. Zudem macht man wahrscheinlich bei der Erhebung der abhängigen Variablen Meßfehler. Somit verbleibt für jede Untersuchungseinheit ein unbekannter Rest $ u_{i}$ (engl.: unobserved), der je nach Theorieentwicklung und Datenlage größer oder kleiner sein kann. Mit $ u$ werden also Meßfehler sowie alle unbekannten Einflüsse auf die untersuchte Zielvariable bezeichnet, die nicht im Modell kontrolliert werden. $ u$ wird auch Störterm des Regressionsmodells genannt.

Mit Hilfe empirischer Daten und eines Schätzverfahrens, das die Summe der quadrierten Abweichungen der Modellvorhersagen von den empirischen Werten minimiert, versucht man, den tatsächlichen Einfluß $ \beta_{1}$ der unabhängigen Variablen $ X$ trotz des unerklärten Restes $ u$ so genau und unverzerrt wie möglich zu bestimmen. Falls die Störterme $ u_{i}$ aller Untersuchungseinheiten bestimmte Voraussetzungen (Schätzannahmen) erfüllen, kann man sogar zeigen, daß diese Art der Schätzung das beste aller möglichen Schätzverfahren ist. Man bezeichnet es auch als Kleinste-Quadrate-Schätzung oder kurz: als OLS-Schätzung (engl.: ordinary least squares estimation).

Mit Hilfe der beiden geschätzten Regressionskoeffzienten $ b_{0}$ und $ b_{1}$ kann man durch Einsetzen in die Regressionsgleichung für jeden Wert der unabhängigen Variablen $ x_{i}$ eine entsprechende Vorhersage $ \hat y_{i}$ für die Zielvariable machen: $ \hat y_{i}= b_{0} + b_{1} x_{i}$. Aus den genannten Gründen wird diese Vorhersage in den wenigsten Fällen mit dem tatsächlich beobachteten Wert $ y_{i}$ exakt übereinstimmen. Die Abweichung der Vorhersage vom empirischen Wert bezeichnet man als Residuum $ e_{i}$. Die Residuen $ e_{i}$ sind quasi Schätzer für die unbekannten Einflüsse und Meßfehler $ u_{i}$.

Im allgemeinen Fall mit mehreren unabhängigen Variablen geht man in der Regel davon aus, daß die Effekte der einzelnen Variablen voneinander unabhängig sind und daher addiert werden können: $ y_{i}= \beta_{0} + \beta_{1} x_{1i} + \beta_{2} x_{2i} + \ldots + \beta_{k} x_{ki} + u_{i}$. Sowohl die Annahme der Linearität als auch die der Additivität können in einer konkreten Anwendung nicht zutreffen, so daß das Regressionsmodell entsprechend verallgemeinert werden muß (nicht-lineares Modell, multiplikative Effekte). Im bivariaten Fall kann man mit Hilfe eines »Streudiagramms« entscheiden, ob die Linearitätsannahme zumindest eine gute Näherung liefert. Im multivariaten Fall sind weitergehende diagnostische Werkzeuge notwendig.

Notation: $ \hat y_{i}$ (sprich: y-Dach) für die Modellvorhersagen, $ e_{i} = \hat y_{i} - y_{i}$ für die Residuen, $ u_{i}$ für die nicht im Modell berücksichtigten Einflüsse und Meßfehler der abhängigen Variablen.


next up previous index
Nächste Seite: Regressionskoeffizient Aufwärts: Regression und Korrelation Vorherige Seite: Regression und Korrelation   Index
HJA 2001-10-01