Speisekarte
Kostenlos
Anmeldung
heim  /  Dermatitis/ Beispiel einer Regressionsanalyse in der Psychologie. Methoden der mathematischen Statistik. Regressionsanalyse

Beispiel einer Regressionsanalyse in der Psychologie. Methoden der mathematischen Statistik. Regressionsanalyse

Die Regressionsanalyse ist eine Methode zur Erstellung eines analytischen Ausdrucks für die stochastische Abhängigkeit zwischen den untersuchten Merkmalen. Die Regressionsgleichung zeigt, wie sich der Durchschnitt ändert bei wenn Sie etwas davon ändern X ich , und hat die Form:

Wo y - abhängige Variable (sie ist immer gleich);

X ich - unabhängige Variablen (Faktoren) (es können mehrere davon sein).

Wenn nur eine unabhängige Variable vorhanden ist, handelt es sich um eine einfache Regressionsanalyse. Wenn es mehrere davon gibt ( P 2), dann nennt man eine solche Analyse multifaktoriell.

Die Regressionsanalyse löst zwei Hauptprobleme:

    Erstellen einer Regressionsgleichung, d.h. Finden der Art der Beziehung zwischen dem Ergebnisindikator und unabhängigen Faktoren X 1 , X 2 , …, X N .

    Einschätzung der Bedeutung der resultierenden Gleichung, d.h. Bestimmen, inwieweit ausgewählte Faktormerkmale die Variation eines Merkmals erklären u.

Die Regressionsanalyse wird hauptsächlich zur Planung sowie zur Entwicklung eines Regulierungsrahmens eingesetzt.

Im Gegensatz zur Korrelationsanalyse, die nur die Frage beantwortet, ob zwischen den analysierten Merkmalen ein Zusammenhang besteht, liefert die Regressionsanalyse auch deren formalisierten Ausdruck. Wenn außerdem die Korrelationsanalyse irgendeine Beziehung zwischen Faktoren untersucht, dann untersucht die Regressionsanalyse die einseitige Abhängigkeit, d. h. eine Beziehung, die zeigt, wie sich eine Änderung der Faktormerkmale auf das effektive Merkmal auswirkt.

Die Regressionsanalyse ist eine der am weitesten entwickelten Methoden der mathematischen Statistik. Streng genommen ist es für die Umsetzung der Regressionsanalyse notwendig, eine Reihe besonderer Anforderungen zu erfüllen (insbesondere X l ,X 2 ,...,X N ;j müssen unabhängige, normalverteilte Zufallsvariablen mit konstanten Varianzen sein). IN wahres Leben Eine strikte Einhaltung der Anforderungen der Regressions- und Korrelationsanalyse ist sehr selten, beide Methoden sind jedoch in der Wirtschaftsforschung weit verbreitet. Abhängigkeiten in der Ökonomie können nicht nur direkt, sondern auch invers und nichtlinear sein. Ein Regressionsmodell kann bei Vorliegen einer beliebigen Abhängigkeit erstellt werden. In der multivariaten Analyse werden jedoch nur lineare Modelle der Form verwendet:

Die Regressionsgleichung wird in der Regel nach der Methode der kleinsten Quadrate erstellt, deren Kern darin besteht, die Summe der quadratischen Abweichungen der tatsächlichen Werte des resultierenden Merkmals von seinen berechneten Werten zu minimieren, d.h.:

Wo T - Anzahl der Beobachtungen;

J =a+b 1 X 1 J +b 2 X 2 J + ... + b N X N J - berechneter Wert des Ergebnisfaktors.

Es wird empfohlen, Regressionskoeffizienten mit Analysepaketen für einen PC oder einem speziellen Finanzrechner zu ermitteln. Im einfachsten Fall sind die Regressionskoeffizienten eine einfaktorielle lineare Regressionsgleichung der Form y = a + bx kann mit den Formeln ermittelt werden:

Clusteranalyse

Die Clusteranalyse ist eine der Methoden der mehrdimensionalen Analyse, die dazu dient, eine Population zu gruppieren (zu gruppieren), deren Elemente durch viele Merkmale gekennzeichnet sind. Die Werte jedes Merkmals dienen als Koordinaten jeder untersuchten Bevölkerungseinheit im mehrdimensionalen Merkmalsraum. Jede Beobachtung, die durch die Werte mehrerer Indikatoren gekennzeichnet ist, kann als Punkt im Raum dieser Indikatoren dargestellt werden, deren Werte als Koordinaten in einem mehrdimensionalen Raum betrachtet werden. Abstand zwischen Punkten R Und Q Mit k Koordinaten sind definiert als:

Das Hauptkriterium für die Clusterbildung besteht darin, dass die Unterschiede zwischen Clustern signifikanter sein sollten als zwischen Beobachtungen, die demselben Cluster zugeordnet sind, d. h. In einem mehrdimensionalen Raum muss folgende Ungleichung beachtet werden:

Wo R 1, 2 – Abstand zwischen Cluster 1 und 2.

Das Clustering-Verfahren ist ebenso wie Regressionsanalyseverfahren recht arbeitsintensiv, es empfiehlt sich, es am Computer durchzuführen.

Regressionsanalyse– eine Methode zur Modellierung gemessener Daten und zur Untersuchung ihrer Eigenschaften. Die Daten bestehen aus Wertepaaren der abhängigen Variablen (Antwortvariable) und der unabhängigen Variablen (erklärende Variable). Ein Regressionsmodell ist eine Funktion der unabhängigen Variablen und Parameter mit einer hinzugefügten Zufallsvariablen.

Korrelationsanalyse und Regressionsanalyse sind verwandte Abschnitte der mathematischen Statistik und dienen der Untersuchung der statistischen Abhängigkeit einer Reihe von Größen anhand von Stichprobendaten. einige davon sind zufällig. Bei der statistischen Abhängigkeit stehen die Größen nicht in einem funktionalen Zusammenhang, sondern werden durch eine gemeinsame Wahrscheinlichkeitsverteilung als Zufallsvariablen definiert.

Die Untersuchung der Abhängigkeit von Zufallsvariablen führt zu Regressionsmodellen und Regressionsanalysen basierend auf Stichprobendaten. Wahrscheinlichkeitstheorie und mathematische Statistik stellen lediglich ein Instrument zur Untersuchung statistischer Abhängigkeiten dar, zielen jedoch nicht darauf ab, einen Kausalzusammenhang herzustellen. Ideen und Hypothesen über einen Kausalzusammenhang müssen aus einer anderen Theorie stammen, die eine sinnvolle Erklärung des untersuchten Phänomens ermöglicht.

Numerische Daten stehen in der Regel in expliziten (bekannten) oder impliziten (verborgenen) Beziehungen zueinander.

Die Indikatoren, die durch direkte Berechnungsmethoden gewonnen werden, d. h. nach bisher bekannten Formeln berechnet werden, stehen in einem klaren Zusammenhang. Zum Beispiel Prozentsätze der Planerfüllung, Stufen, spezifische Gewichte, Abweichungen in der Menge, Abweichungen in Prozentsätzen, Wachstumsraten, Wachstumsraten, Indizes usw.

Verbindungen der zweiten Art (implizit) sind im Vorhinein unbekannt. Um komplexe Phänomene bewältigen zu können, ist es jedoch notwendig, komplexe Phänomene erklären und vorhersagen zu können. Deshalb streben Spezialisten mit Hilfe von Beobachtungen danach, verborgene Abhängigkeiten zu erkennen und in Formeln auszudrücken, also Phänomene oder Prozesse mathematisch zu modellieren. Eine solche Möglichkeit bietet die Korrelations-Regressionsanalyse.

Mathematische Modelle werden für drei allgemeine Zwecke erstellt und verwendet:

  • * zur Erläuterung;
  • * zur Vorhersage;
  • * Zum Fahren.

Mit den Methoden der Korrelations- und Regressionsanalyse messen Analysten die Nähe der Zusammenhänge zwischen Indikatoren anhand des Korrelationskoeffizienten. Dabei werden Verbindungen unterschiedlicher Stärke (stark, schwach, mäßig usw.) und unterschiedlicher Richtung (direkt, umgekehrt) entdeckt. Sollten sich die Zusammenhänge als signifikant herausstellen, wäre es ratsam, ihren mathematischen Ausdruck in Form eines Regressionsmodells zu finden und die statistische Signifikanz des Modells zu bewerten.

Die Regressionsanalyse wird als die wichtigste Methode der modernen mathematischen Statistik zur Identifizierung impliziter und verschleierter Zusammenhänge zwischen Beobachtungsdaten bezeichnet.

Die Problemstellung der Regressionsanalyse wird wie folgt formuliert.

Es gibt eine Reihe von Beobachtungsergebnissen. In diesem Satz entspricht eine Spalte einem Indikator, für den eine funktionale Beziehung zu den Parametern des Objekts und der Umgebung hergestellt werden muss, die durch die übrigen Spalten dargestellt werden. Erforderlich: Stellen Sie einen quantitativen Zusammenhang zwischen dem Indikator und den Faktoren her. Unter dem Problem der Regressionsanalyse wird in diesem Fall die Aufgabe verstanden, eine solche funktionale Abhängigkeit y = f (x2, x3, ..., xт) zu identifizieren, die die verfügbaren experimentellen Daten am besten beschreibt.

Annahmen:

die Anzahl der Beobachtungen reicht aus, um statistische Muster hinsichtlich Faktoren und ihrer Beziehungen aufzuzeigen;

die verarbeiteten Daten enthalten einige Fehler (Rauschen) aufgrund von Messfehlern und dem Einfluss nicht berücksichtigter Zufallsfaktoren;

Die Beobachtungsergebnismatrix ist die einzige Information über das Untersuchungsobjekt, die vor Beginn der Untersuchung verfügbar ist.

Die Funktion f (x2, x3, ..., xт), die die Abhängigkeit des Indikators von den Parametern beschreibt, wird als Regressionsgleichung (Funktion) bezeichnet. Der Begriff „Regression“ (Regression (lateinisch) – Rückzug, Rückkehr zu etwas) ist mit den Besonderheiten eines der spezifischen Probleme verbunden, die in der Phase der Methodenbildung gelöst werden.

Es empfiehlt sich, die Lösung des Problems der Regressionsanalyse in mehrere Phasen aufzuteilen:

Datenvorverarbeitung;

Auswahl der Art der Regressionsgleichungen;

Berechnung der Koeffizienten der Regressionsgleichung;

Überprüfen der Angemessenheit der konstruierten Funktion an die Beobachtungsergebnisse.

Die Vorverarbeitung umfasst die Standardisierung der Datenmatrix, die Berechnung von Korrelationskoeffizienten, die Überprüfung ihrer Signifikanz und den Ausschluss unbedeutender Parameter aus der Berücksichtigung.

Auswahl des Typs der Regressionsgleichung Die Aufgabe, die funktionale Beziehung zu bestimmen, die die Daten am besten beschreibt, erfordert die Überwindung einer Reihe grundlegender Schwierigkeiten. Im Allgemeinen kann für standardisierte Daten die funktionale Abhängigkeit des Indikators von den Parametern wie folgt dargestellt werden:

y = f (x1, x2, …, xm) + e

wobei f eine bisher unbekannte zu bestimmende Funktion ist;

e – Datennäherungsfehler.

Diese Gleichung wird üblicherweise als Stichprobenregressionsgleichung bezeichnet. Diese Gleichung charakterisiert die Beziehung zwischen der Variation des Indikators und den Variationen der Faktoren. Und das Korrelationsmaß misst den Anteil der Variation eines Indikators, der mit der Variation der Faktoren verbunden ist. Mit anderen Worten: Die Korrelation zwischen einem Indikator und Faktoren kann nicht als Zusammenhang zwischen ihren Niveaus interpretiert werden, und die Regressionsanalyse erklärt nicht die Rolle von Faktoren bei der Erstellung eines Indikators.

Ein weiteres Merkmal betrifft die Bewertung des Einflussgrades jedes Faktors auf den Indikator. Die Regressionsgleichung liefert keine Bewertung des einzelnen Einflusses jedes Faktors auf den Indikator; eine solche Bewertung ist nur möglich, wenn alle anderen Faktoren nicht mit dem untersuchten Faktor zusammenhängen. Wenn der untersuchte Faktor mit anderen zusammenhängt, die den Indikator beeinflussen, ist das Ergebnis so gemischte Eigenschaften Faktoreinfluss. Dieses Merkmal beinhaltet sowohl den direkten Einfluss des Faktors als auch den indirekten Einfluss, der durch die Verbindung mit anderen Faktoren und deren Einfluss auf den Indikator ausgeübt wird.

Es wird nicht empfohlen, Faktoren in die Regressionsgleichung einzubeziehen, die einen schwachen Zusammenhang mit dem Indikator, aber einen engen Zusammenhang mit anderen Faktoren haben. Faktoren, die funktional miteinander in Zusammenhang stehen, gehen nicht in die Gleichung ein (für sie beträgt der Korrelationskoeffizient 1). Die Einbeziehung solcher Faktoren führt zur Degeneration des Gleichungssystems zur Schätzung der Regressionskoeffizienten und zur Unsicherheit der Lösung.

Die Funktion f muss so gewählt werden, dass der Fehler e gewissermaßen minimal ist. Um einen funktionalen Zusammenhang auszuwählen, wird vorab eine Hypothese aufgestellt, zu welcher Klasse die Funktion f gehören könnte, und anschließend die „beste“ Funktion dieser Klasse ausgewählt. Die ausgewählte Funktionsklasse muss eine gewisse „Glattheit“ aufweisen, d. h. „Kleine“ Änderungen der Argumentwerte sollten „kleine“ Änderungen der Funktionswerte verursachen.

Ein in der Praxis weit verbreiteter Sonderfall ist eine polynomische oder lineare Regressionsgleichung ersten Grades

Zur Auswahl der Art der funktionalen Abhängigkeit kann folgende Vorgehensweise empfohlen werden:

Punkte mit Indikatorwerten werden im Parameterraum grafisch dargestellt. Bei einer großen Anzahl von Parametern ist es möglich, für jeden von ihnen Punkte zu konstruieren und so zweidimensionale Werteverteilungen zu erhalten;

basierend auf der Lage der Punkte und basierend auf einer Analyse des Wesens der Beziehung zwischen dem Indikator und den Parametern des Objekts wird eine Schlussfolgerung über die ungefähre Art der Regression oder ihre möglichen Optionen gezogen;

Nach der Berechnung der Parameter wird die Qualität der Näherung beurteilt, d.h. den Grad der Ähnlichkeit zwischen berechneten und tatsächlichen Werten bewerten;

Wenn die berechneten und tatsächlichen Werte im gesamten Aufgabenbereich nahe beieinander liegen, kann das Problem der Regressionsanalyse als gelöst angesehen werden. Andernfalls können Sie versuchen, einen anderen Polynomtyp oder eine andere analytische Funktion zu wählen, beispielsweise eine periodische.

Berechnen der Regressionsgleichungskoeffizienten

Es ist unmöglich, ein Gleichungssystem anhand der verfügbaren Daten eindeutig zu lösen, da die Anzahl der Unbekannten immer größer ist als die Anzahl der Gleichungen. Um dieses Problem zu lösen, sind zusätzliche Annahmen erforderlich. Gesunder Menschenverstand schlägt vor: Es ist ratsam, die Koeffizienten des Polynoms so zu wählen, dass ein minimaler Fehler bei der Datennäherung gewährleistet ist. Zur Bewertung von Approximationsfehlern können verschiedene Maßnahmen herangezogen werden. Als Maß dafür wird häufig der quadratische Mittelfehler verwendet. Darauf aufbauend wurde es entwickelt spezielle Methode Schätzung der Koeffizienten von Regressionsgleichungen – die Methode der kleinsten Quadrate (OLS). Mit dieser Methode können Sie Maximum-Likelihood-Schätzungen der unbekannten Koeffizienten der Regressionsgleichung unter der Normalverteilungsoption erhalten, sie kann jedoch auch für jede andere Verteilung von Faktoren verwendet werden.

MNCs basieren auf die folgenden Bestimmungen:

die Werte der Fehler und Faktoren sind unabhängig und daher unkorreliert, d.h. Es wird davon ausgegangen, dass die Mechanismen zur Erzeugung von Interferenzen nicht mit dem Mechanismus zur Erzeugung von Faktorwerten zusammenhängen.

die mathematische Erwartung des Fehlers e muss gleich Null sein (die konstante Komponente ist im Koeffizienten a0 enthalten), mit anderen Worten, der Fehler ist eine zentrierte Größe;

Die Stichprobenschätzung der Fehlervarianz sollte minimal sein.

Wenn das lineare Modell ungenau ist oder die Parameter ungenau gemessen werden, können wir in diesem Fall mit der Methode der kleinsten Quadrate solche Werte der Koeffizienten finden, bei denen das lineare Modell das reale Objekt im Sinne der gewählten Standardabweichung am besten beschreibt Kriterium.

Die Qualität der resultierenden Regressionsgleichung wird durch den Grad der Nähe zwischen den Ergebnissen der Beobachtungen des Indikators und den durch die Regressionsgleichung in vorhergesagten Werten beurteilt vergebene Punkte Parameterraum. Liegen die Ergebnisse nahe beieinander, kann das Problem der Regressionsanalyse als gelöst betrachtet werden. Andernfalls sollten Sie die Regressionsgleichung ändern und die Berechnungen wiederholen, um die Parameter abzuschätzen.

Bei mehreren Indikatoren wird das Problem der Regressionsanalyse für jeden von ihnen unabhängig gelöst.

Bei der Analyse des Wesens der Regressionsgleichung sollten die folgenden Punkte beachtet werden. Der betrachtete Ansatz sieht keine separate (unabhängige) Bewertung von Koeffizienten vor – eine Änderung des Wertes eines Koeffizienten führt zu einer Änderung der Werte anderer. Die erhaltenen Koeffizienten sollten nicht als Beitrag des entsprechenden Parameters zum Wert des Indikators betrachtet werden. Eine Regressionsgleichung ist lediglich eine gute analytische Beschreibung der verfügbaren Daten und kein Gesetz, das die Beziehung zwischen Parametern und einem Indikator beschreibt. Diese Gleichung wird verwendet, um die Werte des Indikators in einem bestimmten Bereich von Parameteränderungen zu berechnen. Für Berechnungen außerhalb dieses Bereichs ist es nur bedingt geeignet, d. h. Es kann zur Lösung von Interpolationsproblemen und in begrenztem Umfang zur Extrapolation verwendet werden.

Der Hauptgrund für die Ungenauigkeit der Prognose liegt nicht so sehr in der Unsicherheit der Extrapolation der Regressionsgeraden, sondern vielmehr in der erheblichen Variation des Indikators aufgrund von Faktoren, die im Modell nicht berücksichtigt wurden. Die Einschränkung der Prognosefähigkeit ist die Bedingung der Stabilität der im Modell nicht berücksichtigten Parameter und die Art des Einflusses der berücksichtigten Modellfaktoren. Wenn es sich abrupt ändert Außenumgebung, dann verliert die kompilierte Regressionsgleichung ihre Bedeutung.

Die Prognose, die durch Einsetzen des erwarteten Werts des Parameters in die Regressionsgleichung erhalten wird, ist eine Punkt-Eins-Prognose. Die Wahrscheinlichkeit, dass eine solche Prognose eintrifft, ist vernachlässigbar. Es empfiehlt sich, das Konfidenzintervall der Prognose zu bestimmen. Für einzelne Werte des Indikators sollte das Intervall Fehler in der Position der Regressionsgeraden und Abweichungen einzelner Werte von dieser Linie berücksichtigen.

In der statistischen Modellierung ist die Regressionsanalyse eine Studie zur Bewertung der Beziehung zwischen Variablen. Diese mathematische Methode umfasst viele andere Methoden zur Modellierung und Analyse mehrerer Variablen, bei denen der Schwerpunkt auf der Beziehung zwischen einer abhängigen Variablen und einer oder mehreren unabhängigen Variablen liegt. Genauer gesagt hilft uns die Regressionsanalyse zu verstehen, wie sich der typische Wert einer abhängigen Variablen ändert, wenn sich eine der unabhängigen Variablen ändert, während die anderen unabhängigen Variablen unverändert bleiben.

In allen Fällen ist die Zielschätzung eine Funktion der unabhängigen Variablen und wird als Regressionsfunktion bezeichnet. Bei der Regressionsanalyse ist es auch von Interesse, die Änderung der abhängigen Variablen als Funktion der Regression zu charakterisieren, die durch eine Wahrscheinlichkeitsverteilung beschrieben werden kann.

Probleme der Regressionsanalyse

Diese statistische Forschungsmethode wird häufig für Prognosen verwendet, wo ihre Verwendung erhebliche Vorteile bietet, aber manchmal zu Illusionen oder falschen Beziehungen führen kann. Daher wird empfohlen, sie in diesem Bereich vorsichtig anzuwenden, da beispielsweise Korrelation keine Bedeutung hat Kausalität.

Für die Regressionsanalyse wurde eine Vielzahl von Methoden entwickelt, beispielsweise die lineare und die gewöhnliche Regression der kleinsten Quadrate, die parametrisch sind. Ihr Kern besteht darin, dass die Regressionsfunktion durch eine endliche Anzahl unbekannter Parameter definiert wird, die aus den Daten geschätzt werden. Bei der nichtparametrischen Regression liegt die Funktion innerhalb einer bestimmten Menge von Funktionen, die unendlichdimensional sein können.

Als statistische Forschungsmethode hängt die Regressionsanalyse in der Praxis von der Form des Datengenerierungsprozesses und ihrer Beziehung zum Regressionsansatz ab. Da die wahre Form des Datenprozesses in der Regel eine unbekannte Zahl ist, hängt die Regressionsanalyse der Daten oft in gewissem Maße von Annahmen über den Prozess ab. Diese Annahmen sind manchmal überprüfbar, wenn genügend Daten verfügbar sind. Regressionsmodelle sind oft auch dann nützlich, wenn die Annahmen mäßig verletzt werden, obwohl sie möglicherweise nicht die höchste Effizienz erzielen.

Im engeren Sinne kann sich Regression speziell auf die Schätzung kontinuierlicher Antwortvariablen beziehen, im Gegensatz zu den diskreten Antwortvariablen, die bei der Klassifizierung verwendet werden. Der Fall der kontinuierlichen Ausgabevariablen wird auch als metrische Regression bezeichnet, um ihn von verwandten Problemen zu unterscheiden.

Geschichte

Die früheste Form der Regression ist die bekannte Methode der kleinsten Quadrate. Es wurde 1805 von Legendre und 1809 von Gauss veröffentlicht. Legendre und Gauß wandten die Methode auf das Problem an, aus astronomischen Beobachtungen die Umlaufbahnen von Körpern um die Sonne (hauptsächlich Kometen, später aber auch neu entdeckte Kleinplaneten) zu bestimmen. Gauß veröffentlicht weitere Entwicklung Theorie der kleinsten Quadrate im Jahr 1821, einschließlich einer Version des Gauß-Markov-Theorems.

Der Begriff „Regression“ wurde im 19. Jahrhundert von Francis Galton geprägt, um ein biologisches Phänomen zu beschreiben. Die Idee dahinter war, dass die Körpergröße der Nachkommen gegenüber der ihrer Vorfahren tendenziell nach unten in Richtung des normalen Mittelwerts zurückgeht. Für Galton hatte die Regression nur diese biologische Bedeutung, doch später wurde seine Arbeit von Udney Yoley und Karl Pearson fortgeführt und in einen allgemeineren statistischen Kontext gebracht. In der Arbeit von Yule und Pearson wird angenommen, dass die gemeinsame Verteilung der Antwort- und Erklärungsvariablen eine Gaußsche Verteilung ist. Diese Annahme wurde von Fischer in Arbeiten von 1922 und 1925 zurückgewiesen. Fisher schlug vor, dass die bedingte Verteilung der Antwortvariablen eine Gaußsche Verteilung ist, die gemeinsame Verteilung jedoch nicht sein muss. In dieser Hinsicht steht Fischers Vorschlag näher an der Formulierung von Gauß aus dem Jahr 1821. Vor 1970 dauerte es manchmal bis zu 24 Stunden, bis das Ergebnis einer Regressionsanalyse vorlag.

Methoden der Regressionsanalyse sind weiterhin ein Bereich aktiver Forschung. In den letzten Jahrzehnten wurden neue Methoden für eine robuste Regression entwickelt; Regressionen mit korrelierten Antworten; Regressionsmethoden, die verschiedene Arten fehlender Daten berücksichtigen; nichtparametrische Regression; Bayesianische Regressionsmethoden; Regressionen, bei denen Prädiktorvariablen mit Fehlern gemessen werden; Regression mit mehr Prädiktoren als Beobachtungen und Ursache-Wirkungs-Schlussfolgerung mit Regression.

Regressionsmodelle

Regressionsanalysemodelle umfassen die folgenden Variablen:

  • Unbekannte Parameter, die als Beta bezeichnet werden und ein Skalar oder ein Vektor sein können.
  • Unabhängige Variablen, X.
  • Abhängige Variablen, Y.

Verschiedene Wissenschaftsbereiche, in denen die Regressionsanalyse verwendet wird, verwenden unterschiedliche Begriffe anstelle von abhängigen und unabhängigen Variablen, aber in allen Fällen bezieht das Regressionsmodell Y auf eine Funktion von X und β.

Die Näherung wird normalerweise als E(Y | X) = F(X, β) geschrieben. Um eine Regressionsanalyse durchzuführen, muss der Typ der Funktion f bestimmt werden. Seltener basiert es auf Wissen über die Beziehung zwischen Y und X, das nicht auf Daten beruht. Wenn dieses Wissen nicht verfügbar ist, wird die flexible oder bequeme Form F gewählt.

Abhängige Variable Y

Nehmen wir nun an, dass der Vektor unbekannter Parameter β die Länge k hat. Um eine Regressionsanalyse durchzuführen, muss der Benutzer Informationen über die abhängige Variable Y bereitstellen:

  • Wenn N Datenpunkte der Form (Y, X) beobachtet werden, wobei N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Wenn genau N = K beobachtet wird und die Funktion F linear ist, kann die Gleichung Y = F(X, β) exakt und nicht näherungsweise gelöst werden. Dies läuft darauf hinaus, einen Satz von N-Gleichungen mit N-Unbekannten (Elementen β) zu lösen, der eine eindeutige Lösung hat, solange X linear unabhängig ist. Wenn F nichtlinear ist, gibt es möglicherweise keine Lösung oder es existieren viele Lösungen.
  • Am häufigsten kommt es vor, dass N > Datenpunkte beobachtet werden. In diesem Fall sind in den Daten genügend Informationen vorhanden, um einen eindeutigen Wert für β zu schätzen, der am besten zu den Daten passt, und ein Regressionsmodell, bei dem die Anwendung auf die Daten als überbestimmtes System in β betrachtet werden kann.

Im letzteren Fall bietet die Regressionsanalyse Werkzeuge für:

  • Finden einer Lösung für den unbekannten Parameter β, die beispielsweise den Abstand zwischen dem gemessenen und dem vorhergesagten Wert von Y minimiert.
  • Unter bestimmten statistischen Annahmen verwendet die Regressionsanalyse überschüssige Informationen, um statistische Informationen über die unbekannten Parameter β und die vorhergesagten Werte der abhängigen Variablen Y bereitzustellen.

Erforderliche Anzahl unabhängiger Messungen

Betrachten Sie ein Regressionsmodell mit drei unbekannten Parametern: β 0 , β 1 und β 2 . Angenommen, der Experimentator führt 10 Messungen am gleichen Wert des unabhängigen Variablenvektors X durch. In diesem Fall erzeugt die Regressionsanalyse keinen eindeutigen Wertesatz. Das Beste, was Sie tun können, ist, den Durchschnitt zu schätzen und Standardabweichung abhängige Variable Y. Ebenso die Messung von zwei unterschiedliche Bedeutungen X können Sie mit zwei Unbekannten genügend Daten für die Regression erhalten, mit drei oder mehr Unbekannten jedoch nicht.

Wenn die Messungen des Experimentators bei drei verschiedenen Werten des unabhängigen Variablenvektors X durchgeführt wurden, liefert die Regressionsanalyse einen eindeutigen Satz von Schätzungen für die drei unbekannten Parameter in β.

Im Fall einer allgemeinen linearen Regression entspricht die obige Aussage der Anforderung, dass die Matrix X T X invertierbar ist.

Statistische Annahmen

Wenn die Anzahl der Messungen N größer ist als die Anzahl der unbekannten Parameter k und die Messfehler ε i , dann werden in der Regel die in den Messungen enthaltenen überschüssigen Informationen weitergegeben und für statistische Vorhersagen über die unbekannten Parameter verwendet. Diese überschüssigen Informationen werden als Regressionsfreiheitsgrad bezeichnet.

Grundlegende Annahmen

Zu den klassischen Annahmen für die Regressionsanalyse gehören:

  • Die Stichprobe ist repräsentativ für die Inferenzvorhersage.
  • Der Fehlerterm ist eine Zufallsvariable mit einem Mittelwert von Null, der von den erklärenden Variablen abhängig ist.
  • Unabhängige Variablen werden fehlerfrei gemessen.
  • Als unabhängige Variablen (Prädiktoren) sind sie linear unabhängig, das heißt, es ist nicht möglich, einen Prädiktor als lineare Kombination der anderen auszudrücken.
  • Die Fehler sind unkorreliert, d. h. die Fehlerkovarianzmatrix der Diagonalen und jedes Nicht-Null-Element ist die Fehlervarianz.
  • Die Fehlervarianz ist über die Beobachtungen hinweg konstant (Homoskedastizität). Wenn nicht, können gewichtete kleinste Quadrate oder andere Methoden verwendet werden.

Diese ausreichende Voraussetzungen Da Kleinste-Quadrate-Schätzer die erforderlichen Eigenschaften aufweisen, bedeuten diese Annahmen insbesondere, dass Parameterschätzungen objektiv, konsistent und effizient sind, insbesondere wenn sie in der Klasse der linearen Schätzer berücksichtigt werden. Es ist wichtig zu beachten, dass Beweise selten die Bedingungen erfüllen. Das heißt, die Methode wird auch dann angewendet, wenn die Annahmen nicht korrekt sind. Abweichungen von den Annahmen können manchmal als Maß dafür verwendet werden, wie nützlich das Modell ist. Viele dieser Annahmen können mit fortgeschritteneren Methoden gelockert werden. Statistische Analyseberichte umfassen in der Regel Analysen von Tests an Beispieldaten und Methoden zur Nützlichkeit des Modells.

Darüber hinaus beziehen sich Variablen in einigen Fällen auf Werte, die an Punktorten gemessen werden. Es kann zu räumlichen Trends und räumlichen Autokorrelationen in Variablen kommen, die gegen statistische Annahmen verstoßen. Die geografisch gewichtete Regression ist die einzige Methode, die solche Daten verarbeitet.

Ein Merkmal der linearen Regression besteht darin, dass die abhängige Variable Yi eine lineare Kombination von Parametern ist. Beispielsweise verwendet die einfache lineare Regression eine unabhängige Variable, x i , und zwei Parameter, β 0 und β 1 , um n-Punkte zu modellieren.

Bei der multiplen linearen Regression gibt es mehrere unabhängige Variablen oder Funktionen davon.

Wenn einer Grundgesamtheit eine Zufallsstichprobe entnommen wird, ermöglichen ihre Parameter die Erstellung eines linearen Regressionsmodells für die Stichprobe.

In dieser Hinsicht ist die Methode der kleinsten Quadrate am beliebtesten. Es wird verwendet, um Parameterschätzungen zu erhalten, die die Summe der quadrierten Residuen minimieren. Diese Art der Minimierung (typisch für die lineare Regression) dieser Funktion führt zu einer Menge normaler Gleichungen und einer Menge lineare Gleichungen mit Parametern, die gelöst werden, um Parameterschätzungen zu erhalten.

Unter der weiteren Annahme, dass sich Populationsfehler im Allgemeinen ausbreiten, kann ein Forscher diese Standardfehlerschätzungen verwenden, um Konfidenzintervalle zu erstellen und Hypothesentests zu seinen Parametern durchzuführen.

Nichtlineare Regressionsanalyse

Ein Beispiel, bei dem die Funktion in Bezug auf die Parameter nicht linear ist, weist darauf hin, dass die Quadratsumme mithilfe eines iterativen Verfahrens minimiert werden sollte. Dies führt zu vielen Komplikationen, die die Unterschiede zwischen linearen und nichtlinearen Methoden der kleinsten Quadrate definieren. Folglich sind die Ergebnisse der Regressionsanalyse bei Verwendung einer nichtlinearen Methode manchmal unvorhersehbar.

Berechnung von Trennschärfe und Stichprobengröße

Im Allgemeinen gibt es keine konsistenten Methoden hinsichtlich der Anzahl der Beobachtungen im Verhältnis zur Anzahl der unabhängigen Variablen im Modell. Die erste Regel wurde von Dobra und Hardin vorgeschlagen und sieht wie folgt aus: N = t^n, wobei N die Stichprobengröße, n die Anzahl der unabhängigen Variablen und t die Anzahl der Beobachtungen ist, die erforderlich sind, um die gewünschte Genauigkeit zu erreichen, wenn das Modell dies getan hätte nur eine unabhängige Variable. Beispielsweise erstellt ein Forscher ein lineares Regressionsmodell unter Verwendung eines Datensatzes, der 1000 Patienten (N) enthält. Wenn der Forscher entscheidet, dass fünf Beobachtungen erforderlich sind, um die Linie (m) genau zu definieren, beträgt die maximale Anzahl unabhängiger Variablen, die das Modell unterstützen kann, 4.

Andere Methoden

Obwohl die Parameter von Regressionsmodellen normalerweise mithilfe der Methode der kleinsten Quadrate geschätzt werden, gibt es andere Methoden, die weitaus seltener verwendet werden. Dies sind beispielsweise die folgenden Methoden:

  • Bayesianische Methoden (z. B. Bayesianische lineare Regression).
  • Prozentuale Regression, wird für Situationen verwendet, in denen eine Reduzierung prozentualer Fehler als angemessener erachtet wird.
  • Kleinste absolute Abweichungen, die robuster sind, wenn Ausreißer vorhanden sind, die zu einer Quantilregression führen.
  • Nichtparametrische Regression erforderlich große Menge Beobachtungen und Berechnungen.
  • Eine Fernlernmetrik, die erlernt wird, um in einem bestimmten Eingaberaum eine aussagekräftige Distanzmetrik zu finden.

Software

Alle wichtigen Statistiksoftwarepakete führen eine Regressionsanalyse nach der Methode der kleinsten Quadrate durch. Einfache lineare Regression und multiple Regressionsanalyse können in einigen Tabellenkalkulationsanwendungen sowie einigen Taschenrechnern verwendet werden. Obwohl viele Statistiksoftwarepakete verschiedene Arten nichtparametrischer und robuster Regression durchführen können, sind diese Methoden weniger standardisiert; Verschiedene Softwarepakete implementieren unterschiedliche Methoden. Spezialisierte Regression Software wurde für den Einsatz in Bereichen wie Untersuchungsanalyse und Neuroimaging entwickelt.

Konzept der Regression. Abhängigkeit zwischen Variablen X Und j kann auf unterschiedliche Weise beschrieben werden. Insbesondere kann jede Form der Verbindung durch eine allgemeine Gleichung ausgedrückt werden, wobei j als abhängige Variable behandelt, oder Funktionen von einer anderen - unabhängigen Variablen x, genannt Streit. Die Entsprechung zwischen einem Argument und einer Funktion kann durch eine Tabelle, eine Formel, ein Diagramm usw. angegeben werden. Das Ändern einer Funktion abhängig von einer Änderung eines oder mehrerer Argumente wird aufgerufen Rückschritt. Alle zur Beschreibung von Zusammenhängen verwendeten Mittel machen den Inhalt aus Regressionsanalyse.

Um eine Regression auszudrücken, werden Korrelationsgleichungen oder Regressionsgleichungen, empirisch und theoretisch berechnete Regressionsreihen, deren Diagramme, sogenannte Regressionslinien, sowie lineare und nichtlineare Regressionskoeffizienten verwendet.

Regressionsindikatoren drücken die Korrelationsbeziehung bilateral aus und berücksichtigen dabei Änderungen der Durchschnittswerte des Merkmals Y beim Ändern von Werten X ich Zeichen X und zeigen umgekehrt eine Änderung der Durchschnittswerte des Merkmals X nach geänderten Werten j ich Zeichen Y. Eine Ausnahme bilden Zeitreihen bzw. Zeitreihen, die Veränderungen von Merkmalen im Laufe der Zeit zeigen. Die Regression solcher Reihen ist einseitig.

Es gibt viele verschiedene Formen und Arten von Zusammenhängen. Die Aufgabe besteht darin, die Form des Zusammenhangs in jedem konkreten Fall zu identifizieren und sie mit der entsprechenden Korrelationsgleichung auszudrücken, die uns eine Vorhersage ermöglicht mögliche Änderungen ein Zeichen Y basierend auf bekannten Änderungen in einem anderen X, korrelativ mit dem ersten verbunden.

12.1 Lineare Regression

Regressionsgleichung. Ergebnisse von Beobachtungen, die an einem bestimmten biologischen Objekt auf der Grundlage korrelierter Merkmale durchgeführt wurden X Und j, kann durch die Konstruktion eines Systems durch Punkte auf der Ebene dargestellt werden kartesische Koordinaten. Das Ergebnis ist eine Art Streudiagramm, das es ermöglicht, die Form und Nähe des Zusammenhangs zwischen unterschiedlichen Merkmalen zu beurteilen. Sehr oft sieht diese Beziehung wie eine Gerade aus oder kann durch eine Gerade angenähert werden.

Lineare Beziehung zwischen Variablen X Und j wird durch eine allgemeine Gleichung beschrieben, wobei A B C D,... – Parameter der Gleichung, die die Beziehungen zwischen den Argumenten bestimmen X 1 , X 2 , X 3 , …, X M und Funktionen.

In der Praxis werden nicht alle möglichen Argumente berücksichtigt, sondern nur einige Argumente; im einfachsten Fall nur eines:

In der linearen Regressionsgleichung (1) A ist der freie Term und der Parameter B bestimmt die Steigung der Regressionsgeraden relativ zu den rechteckigen Koordinatenachsen. In der analytischen Geometrie wird dieser Parameter aufgerufen Neigung, und in der Biometrie – Regressionskoeffizienten. Eine visuelle Darstellung dieses Parameters und der Position der Regressionslinien Y Von X Und X Von Y im rechtwinkligen Koordinatensystem ergibt Abb. 1.

Reis. 1 Regressionsgeraden von Y mal X und X mal Y im System

kartesische Koordinaten

Regressionslinien, wie in Abb. 1 dargestellt, schneiden sich am Punkt O (,) und entsprechen den arithmetischen Durchschnittswerten der miteinander korrelierten Merkmale Y Und X. Beim Erstellen von Regressionsdiagrammen werden die Werte der unabhängigen Variablen X entlang der Abszissenachse und die Werte der abhängigen Variablen oder Funktion Y entlang der Ordinatenachse aufgetragen. Linie AB, die durch Punkt O (, ) entspricht der vollständigen (funktionalen) Beziehung zwischen den Variablen Y Und X, wenn der Korrelationskoeffizient. Je stärker die Verbindung zwischen Y Und X, je näher die Regressionsgeraden an AB liegen und umgekehrt, je schwächer der Zusammenhang zwischen diesen Größen, desto weiter entfernt sind die Regressionsgeraden von AB. Besteht kein Zusammenhang zwischen den Merkmalen, stehen die Regressionsgeraden im rechten Winkel zueinander und .

Da Regressionsindikatoren die Korrelationsbeziehung bilateral ausdrücken, sollte die Regressionsgleichung (1) wie folgt geschrieben werden:

Die erste Formel ermittelt die Durchschnittswerte bei Merkmalsänderungen X pro Maßeinheit, für die Sekunde - Durchschnittswerte bei Änderung um eine Maßeinheit des Attributs Y.

Regressionskoeffizienten. Der Regressionskoeffizient gibt an, wie hoch der durchschnittliche Wert eines Merkmals ist jändert sich, wenn sich das Maß eines anderen, mit dem korreliert ist, um eins ändert Y Zeichen X. Dieser Indikator wird durch die Formel bestimmt

Hier sind die Werte S multipliziert mit der Größe der Klassenintervalle λ , wenn sie aus Variationsreihen oder Korrelationstabellen gefunden wurden.

Der Regressionskoeffizient kann ohne Berechnung von Durchschnittswerten berechnet werden quadratische Abweichungen S j Und S X nach der Formel

Wenn der Korrelationskoeffizient unbekannt ist, wird der Regressionskoeffizient wie folgt bestimmt:

Zusammenhang zwischen Regressions- und Korrelationskoeffizienten. Beim Vergleich der Formeln (11.1) (Thema 11) und (12.5) sehen wir: Ihr Zähler hat den gleichen Wert, was auf einen Zusammenhang zwischen diesen Indikatoren hinweist. Dieser Zusammenhang wird durch die Gleichheit ausgedrückt

Somit ist der Korrelationskoeffizient gleich dem geometrischen Mittel der Koeffizienten B yx Und B xy. Formel (6) ermöglicht erstens basierend auf den bekannten Werten der Regressionskoeffizienten B yx Und B xy Bestimmen Sie den Regressionskoeffizienten R xy, und zweitens überprüfen Sie die Richtigkeit der Berechnung dieses Korrelationsindikators R xy zwischen unterschiedlichen Merkmalen X Und Y.

Wie der Korrelationskoeffizient charakterisiert der Regressionskoeffizient nur einen linearen Zusammenhang und wird von einem Pluszeichen für einen positiven Zusammenhang und einem Minuszeichen für einen negativen Zusammenhang begleitet.

Bestimmung linearer Regressionsparameter. Es ist bekannt, dass die Summe der quadratischen Abweichungen eine Variante ist X ich aus dem Durchschnitt ergibt sich der kleinste Wert, d.h. Dieser Satz bildet die Grundlage der Methode der kleinsten Quadrate. Zur linearen Regression [siehe Formel (1)] Die Anforderung dieses Theorems wird durch ein bestimmtes Gleichungssystem namens erfüllt normal:

Gemeinsame Lösung dieser Gleichungen hinsichtlich Parametern A Und B führt zu folgenden Ergebnissen:

;

;

, von wo und.

Berücksichtigung der wechselseitigen Natur der Beziehung zwischen den Variablen Y Und X, Formel zur Bestimmung des Parameters A sollte so ausgedrückt werden:

Und . (7)

Parameter B oder Regressionskoeffizient wird durch die folgenden Formeln bestimmt:

Konstruktion empirischer Regressionsreihen. Wenn vorhanden große Zahl Beobachtungen beginnt die Regressionsanalyse mit der Konstruktion empirischer Regressionsreihen. Empirische Regressionsreihe wird durch Berechnung der Werte eines variierenden Merkmals gebildet X Durchschnittswerte eines anderen, korreliert mit X Zeichen Y. Mit anderen Worten: Bei der Konstruktion empirischer Regressionsreihen kommt es darauf an, Gruppendurchschnitte aus den entsprechenden Werten der Merkmale Y und X zu ermitteln.

Eine empirische Regressionsreihe ist eine doppelte Zahlenreihe, die durch Punkte auf einer Ebene dargestellt werden kann. Durch Verbinden dieser Punkte mit geraden Liniensegmenten kann dann eine empirische Regressionslinie erhalten werden. Empirische Regressionsreihen, insbesondere deren Graphen, genannt Regressionslinien, geben Sie eine klare Vorstellung von der Form und Nähe des Zusammenhangs zwischen unterschiedlichen Merkmalen.

Ausrichtung empirischer Regressionsreihen. Diagramme empirischer Regressionsreihen stellen sich in der Regel nicht als glatte, sondern als gestrichelte Linien dar. Dies erklärt sich aus der Tatsache, dass ihre Größe neben den Hauptgründen, die das allgemeine Muster der Variabilität korrelierter Merkmale bestimmen, durch den Einfluss zahlreicher sekundärer Gründe beeinflusst wird, die zufällige Schwankungen in den Knotenpunkten der Regression verursachen. Um die Haupttendenz (Trend) der konjugierten Variation korrelierter Merkmale zu identifizieren, ist es notwendig, gestrichelte Linien durch glatte, gleichmäßig verlaufende Regressionslinien zu ersetzen. Der Vorgang des Ersetzens unterbrochener Linien durch glatte Linien wird aufgerufen Ausrichtung empirischer Reihen Und Regressionslinien.

Grafische Ausrichtungsmethode. Dies ist die einfachste Methode, die keinen Rechenaufwand erfordert. Seine Essenz läuft auf Folgendes hinaus. Die empirische Regressionsreihe wird als Diagramm in einem rechtwinkligen Koordinatensystem dargestellt. Anschließend werden die Mittelpunkte der Regression visuell umrissen, entlang derer mit einem Lineal oder Muster eine durchgezogene Linie gezogen wird. Der Nachteil dieser Methode liegt auf der Hand: Sie schließt den Einfluss der individuellen Eigenschaften des Forschers auf die Ergebnisse der Ausrichtung empirischer Regressionsgeraden nicht aus. Daher werden in Fällen, in denen beim Ersetzen gebrochener Regressionslinien durch glatte Linien eine höhere Genauigkeit erforderlich ist, andere Methoden zum Ausrichten empirischer Reihen verwendet.

Methode des gleitenden Durchschnitts. Der Kern dieser Methode besteht in der sequentiellen Berechnung arithmetischer Mittelwerte aus zwei oder drei benachbarten Termen der empirischen Reihe. Diese Methode ist besonders praktisch in Fällen, in denen die empirische Reihe durch eine große Anzahl von Termen dargestellt wird, so dass der Verlust von zwei von ihnen – den extremen, der bei dieser Ausrichtungsmethode unvermeidlich ist – ihre Struktur nicht merklich beeinträchtigt.

Methode der kleinsten Quadrate. Diese Methode wurde zu Beginn des 19. Jahrhunderts von A.M. vorgeschlagen. Legendre und unabhängig von ihm K. Gauss. Damit können Sie empirische Reihen am genauesten ausrichten. Diese Methode basiert, wie oben gezeigt, auf der Annahme, dass die Summe der quadratischen Abweichungen eine Option ist X ich aus ihrem Durchschnitt ergibt sich ein Mindestwert, d.h. daher der Name der Methode, die nicht nur in der Ökologie, sondern auch in der Technik eingesetzt wird. Die Methode der kleinsten Quadrate ist objektiv und universell und wird in den unterschiedlichsten Fällen verwendet, wenn es darum geht, empirische Gleichungen für Regressionsreihen zu finden und deren Parameter zu bestimmen.

Die Anforderung der Methode der kleinsten Quadrate besteht darin, dass die theoretischen Punkte der Regressionsgeraden so ermittelt werden müssen, dass sich die Summe der quadrierten Abweichungen von diesen Punkten für die empirischen Beobachtungen ergibt j ich war minimal, d.h.

Indem man das Minimum dieses Ausdrucks nach den Prinzipien der mathematischen Analyse berechnet und auf eine bestimmte Weise umwandelt, kann man ein sogenanntes System erhalten normale Gleichungen, bei dem die unbekannten Werte die erforderlichen Parameter der Regressionsgleichung sind und die bekannten Koeffizienten durch die Erfahrungswerte der Merkmale, normalerweise die Summen ihrer Werte und ihrer Kreuzprodukte, bestimmt werden.

Multiple lineare Regression. Die Beziehung zwischen mehreren Variablen wird normalerweise durch eine multiple Regressionsgleichung ausgedrückt linear Und nichtlinear. In ihrer einfachsten Form wird die multiple Regression als Gleichung mit zwei unabhängigen Variablen ausgedrückt ( X, z):

Wo A– freier Term der Gleichung; B Und C– Parameter der Gleichung. Um die Parameter der Gleichung (10) zu finden (unter Verwendung der Methode der kleinsten Quadrate), wird das folgende System von Normalgleichungen verwendet:

Dynamische Serie. Ausrichtung der Reihen. Veränderungen der Eigenschaften im Laufe der Zeit bilden die sogenannten Zeitfolgen oder Dynamikreihe. Ein charakteristisches Merkmal solcher Reihen ist, dass die unabhängige Variable X hier immer der Zeitfaktor und die abhängige Variable Y ein sich änderndes Merkmal ist. Abhängig von der Regressionsreihe ist der Zusammenhang zwischen den Variablen X und Y einseitig, da der Zeitfaktor nicht von der Variabilität der Merkmale abhängt. Trotz dieser Merkmale können Dynamikreihen mit Regressionsreihen verglichen und mit denselben Methoden verarbeitet werden.

Wie Regressionsreihen unterliegen empirische Dynamikreihen nicht nur dem Einfluss der Hauptfaktoren, sondern auch zahlreicher sekundärer (zufälliger) Faktoren, die den Haupttrend in der Variabilität von Merkmalen verschleiern, der in der Sprache der Statistik so genannt wird Trend.

Die Analyse von Zeitreihen beginnt mit der Identifizierung der Form des Trends. Dazu wird die Zeitreihe als Liniendiagramm in einem rechtwinkligen Koordinatensystem dargestellt. Dabei werden auf der Abszissenachse Zeitpunkte (Jahre, Monate und andere Zeiteinheiten) aufgetragen, auf der Ordinatenachse die Werte der abhängigen Variablen Y. Sofern verfügbar lineare Abhängigkeit zwischen den Variablen der unabhängigen Variablen X:

Hier ist der lineare Regressionsparameter.

Numerische Eigenschaften von Dynamikreihen. Zu den wichtigsten verallgemeinernden numerischen Merkmalen dynamischer Reihen gehören: geometrisches Mittel und ein arithmetisches Mittel in der Nähe davon. Sie charakterisieren die durchschnittliche Geschwindigkeit, mit der sich der Wert der abhängigen Variablen über bestimmte Zeiträume ändert:

Eine Bewertung der Variabilität von Mitgliedern der Dynamikreihe ist Standardabweichung. Bei der Auswahl von Regressionsgleichungen zur Beschreibung von Zeitreihen wird die Form des Trends berücksichtigt, die linear (oder auf linear reduziert) und nichtlinear sein kann. Die Richtigkeit der Wahl der Regressionsgleichung wird üblicherweise anhand der Ähnlichkeit der empirisch beobachteten und berechneten Werte der abhängigen Variablen beurteilt. Eine genauere Lösung für dieses Problem ist die Regressionsanalyse der Varianzmethode (Thema 12, Absatz 4).

Korrelation von Zeitreihen. Oft ist es notwendig, die Dynamik paralleler Zeitreihen, die durch bestimmte Rahmenbedingungen miteinander in Zusammenhang stehen, zu vergleichen, um beispielsweise den Zusammenhang zwischen der landwirtschaftlichen Produktion und dem Wachstum der Viehbestände über einen bestimmten Zeitraum herauszufinden. In solchen Fällen ist das Merkmal die Beziehung zwischen den Variablen X und Y Korrelationskoeffizient R xy (bei Vorliegen eines linearen Trends).

Es ist bekannt, dass der Trend von Zeitreihen in der Regel durch Schwankungen in der Reihe der abhängigen Variablen Y verdeckt wird. Dies führt zu einem zweifachen Problem: die Messung der Abhängigkeit zwischen verglichenen Reihen, ohne den Trend auszuschließen, und die Messung der Abhängigkeit zwischen benachbarten Mitgliedern derselben Reihe, unter Ausschluss des Trends. Im ersten Fall ist der Indikator für die Nähe des Zusammenhangs zwischen den verglichenen Zeitreihen Korrelationskoeffizient(wenn die Beziehung linear ist), im zweiten – Autokorrelationskoeffizient. Diese Indikatoren haben unterschiedliche Bedeutungen, obwohl sie nach denselben Formeln berechnet werden (siehe Thema 11).

Es ist leicht zu erkennen, dass der Wert des Autokorrelationskoeffizienten von der Variabilität der Reihenmitglieder der abhängigen Variablen beeinflusst wird: Je weniger die Reihenmitglieder vom Trend abweichen, desto höher ist der Autokorrelationskoeffizient und umgekehrt.

Mit der Methode der Regressionsanalyse werden die technischen und wirtschaftlichen Parameter von Produkten einer bestimmten Parameterreihe ermittelt, um Wertbeziehungen aufzubauen und abzugleichen. Mit dieser Methode werden die Niveau- und Preisverhältnisse von Produkten analysiert und begründet, die durch das Vorhandensein eines oder mehrerer technischer und wirtschaftlicher Parameter gekennzeichnet sind, die die wichtigsten Verbrauchereigenschaften widerspiegeln. Mithilfe der Regressionsanalyse können wir eine empirische Formel finden, die die Abhängigkeit des Preises von den technischen und wirtschaftlichen Parametern von Produkten beschreibt:

P=f(X1X2,...,Xn),

wobei P der Wert des Stückpreises des Produkts ist, Rubel; (X1, X2, ... Xn) – technische und wirtschaftliche Parameter von Produkten.

Die Methode der Regressionsanalyse – die fortschrittlichste der verwendeten normativ-parametrischen Methoden – ist effektiv bei der Durchführung von Berechnungen, die auf der Verwendung moderner Methoden basieren Informationstechnologien und Systeme. Seine Anwendung umfasst die folgenden Hauptschritte:

  • Bestimmung klassifizierungsparametrischer Produktgruppen;
  • Auswahl der Parameter, die den Preis des Produkts am stärksten beeinflussen;
  • Auswahl und Begründung der Form des Zusammenhangs zwischen Preisänderungen bei Parameteränderung;
  • Aufbau eines Systems normaler Gleichungen und Berechnung von Regressionskoeffizienten.

Die Hauptqualifikationsgruppe von Produkten, deren Preis einem Ausgleich unterliegt, ist eine parametrische Reihe, innerhalb derer Produkte je nach Anwendung, Betriebsbedingungen und Anforderungen usw. in unterschiedliche Designs gruppiert werden können. Bei der Bildung parametrischer Reihen kommen automatische Klassifizierungsmethoden zum Einsatz können verwendet werden, die es ermöglichen, homogene Gruppen aus der Gesamtmasse der Produkte zu unterscheiden. Die Auswahl technischer und wirtschaftlicher Parameter erfolgt auf Basis folgender Grundvoraussetzungen:

  • Zu den ausgewählten Parametern gehören Parameter, die in Normen und technischen Spezifikationen erfasst sind. zusätzlich zu technischen Parametern (Leistung, Belastbarkeit, Geschwindigkeit etc.) werden Indikatoren der Produktserialisierung, Komplexitätskoeffizienten, Vereinheitlichung etc. verwendet;
  • der Satz ausgewählter Parameter sollte das Design, die technologischen und betrieblichen Eigenschaften der in der Serie enthaltenen Produkte hinreichend vollständig charakterisieren und einen ziemlich engen Zusammenhang mit dem Preis aufweisen;
  • Parameter sollten nicht voneinander abhängig sein.

Um technische und wirtschaftliche Parameter auszuwählen, die den Preis maßgeblich beeinflussen, wird eine Matrix von Paarkorrelationskoeffizienten berechnet. Anhand der Größe der Korrelationskoeffizienten zwischen den Parametern kann man die Nähe ihres Zusammenhangs beurteilen. Gleichzeitig zeigt eine Korrelation nahe Null einen unbedeutenden Einfluss des Parameters auf den Preis. Die endgültige Auswahl der technischen und wirtschaftlichen Parameter erfolgt im Rahmen einer schrittweisen Regressionsanalyse unter Einsatz von Computertechnologie und entsprechenden Standardprogrammen.

In der Preispraxis werden folgende Funktionen verwendet:

linear

P = ao + alXl + ... + antXn,

linear-power

P = ao + a1X1 + ... + anXn + (an+1Xn) (an+1Xn) +... + (an+nXn2) (an+nXn2)

inverser Logarithmus

P = a0 + a1: In X1 + ... + an: In Xn,

Leistung

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

indikativ

P = e^(a1+a1X1+...+anXn)

hyperbolisch

P = ao + a1:X1 + a2:X2 + ... + ap:Xn,

wobei P der Preisausgleich ist; X1 X2,..., Xn – der Wert der technischen und wirtschaftlichen Parameter der Produkte der Serie; a0, a1 ..., an – berechnete Koeffizienten der Regressionsgleichung.

IN praktische Arbeit Für die Preisgestaltung können je nach Art des Zusammenhangs zwischen Preisen und technischen und wirtschaftlichen Parametern andere Regressionsgleichungen verwendet werden. Die Art der Funktion des Zusammenhangs zwischen Preis und einem Satz technischer und wirtschaftlicher Parameter kann voreingestellt oder bei der Computerverarbeitung automatisch ausgewählt werden. Die Nähe der Korrelation zwischen dem Preis und dem Parametersatz wird anhand des Wertes des multiplen Korrelationskoeffizienten beurteilt. Seine Nähe zu einem weist auf eine enge Verbindung hin. Mithilfe der Regressionsgleichung werden ausgeglichene (berechnete) Preiswerte für Produkte einer gegebenen parametrischen Reihe erhalten. Zur Auswertung der Ausgleichsergebnisse werden die relativen Werte der Abweichung der berechneten Preiswerte von den tatsächlichen berechnet:

Tsr = Rf - Rr: R x 100

wobei Рф, Рр – tatsächliche und berechnete Preise.

Der CR-Wert sollte 8-10 % nicht überschreiten. Bei erheblichen Abweichungen der berechneten Werte von den tatsächlichen Werten ist Folgendes zu untersuchen:

  • die Richtigkeit der Bildung einer parametrischen Reihe, da diese Produkte enthalten kann, die sich in ihren Parametern stark von anderen Produkten der Reihe unterscheiden. Sie müssen ausgeschlossen werden;
  • richtige Auswahl technischer und wirtschaftlicher Parameter. Es ist möglich, dass eine Reihe von Parametern nur schwach mit dem Preis korreliert. In diesem Fall ist es notwendig, die Suche und Auswahl von Parametern fortzusetzen.

Das Vorgehen und die Methodik zur Durchführung der Regressionsanalyse, zum Auffinden unbekannter Parameter der Gleichung und zur wirtschaftlichen Bewertung der erzielten Ergebnisse erfolgen nach den Anforderungen der mathematischen Statistik.