メニュー
無料で
登録
 /  皮膚炎/心理学の例における回帰分析。 数理統計の方法。 回帰分析

心理学の例における回帰分析。 数理統計の方法。 回帰分析

回帰分析は、調査対象の特徴間の確率的関係の分析的表現を確立する方法です。 回帰方程式は、平均してどのように変化するかを示しています いずれかを変更する場合 バツ , 次のようになります。

どこ y-従属変数(常に1つです);

バツ - 独立変数(因子)(それらのいくつかがあるかもしれません)。

独立変数が1つしかない場合、これは単純な回帰分析です。 複数ある場合 P 2), そのような分析は多変量と呼ばれます。

回帰分析の過程で、2つの主要なタスクが解決されます。

    回帰方程式の構築、すなわち 結果指標と独立した要因の間の関係のタイプを見つける バツ 1 , バツ 2 , …, バツ n .

    結果として得られる方程式の重要性の評価、つまり 選択された要素の特徴が特徴の変化をどの程度説明するかの決定 y。

回帰分析は、主に計画と規制の枠組みの開発に使用されます。

分析された特徴間に関係があるかどうかという質問にのみ答える相関分析とは異なり、回帰分析はその形式化された表現も提供します。 さらに、相関分析が要因の関係を調査する場合、回帰分析は一方的な依存関係を調査します。 因子符号の変化が結果の符号にどのように影響するかを示す接続。

回帰分析は、数理統計の最も開発された方法の1つです。 厳密に言えば、回帰分析の実装には、いくつかの特別な要件(特に、 バツ l 、バツ 2 、...、バツ n ;y独立した、一定の分散を持つ正規分布確率変数である必要があります)。 で 実生活回帰分析と相関分析の要件に厳密に準拠することは非常にまれですが、これらの方法はどちらも経済研究では非常に一般的です。 経済への依存は、直接的であるだけでなく、逆で非線形でもあり得ます。 回帰モデルは、依存関係が存在する場合に構築できますが、多変量解析では、次の形式の線形モデルのみが使用されます。

回帰方程式の構築は、原則として最小二乗法によって実行されます。その本質は、結果の属性の実際の値の計算値からの偏差の二乗の合計を最小化することです。

どこ t-観測数;

j =a + b 1 バツ 1 j + b 2 バツ 2 j + ... + b n バツ n j - 結果係数の計算値。

回帰係数は、パソコン用の分析パッケージまたは特別な金融電卓を使用して決定することをお勧めします。 最も単純なケースでは、次の形式の1因子線形回帰方程式の回帰係数 y = a + bx次の式を使用して見つけることができます。

クラスター分析

クラスター分析は、多変量解析の方法の1つであり、母集団をグループ化(クラスター化)するために設計されており、その要素は多くの機能によって特徴付けられます。 各特徴の値は、特徴の多次元空間で調査対象の母集団の各ユニットの座標として機能します。 いくつかの指標の値によって特徴付けられる各観測値は、これらの指標の空間内の点として表すことができ、その値は多次元空間内の座標と見なされます。 ポイント間の距離 Rqk座標は次のように定義されます。

クラスタリングの主な基準は、クラスター間の差異が、同じクラスターに割り当てられた観測間の差異よりも重要である必要があるということです。 多次元空間では、不等式を観察する必要があります。

どこ r 1、2-クラスター1と2の間の距離。

回帰分析の手順と同様に、クラスタリングの手順は非常に面倒なので、コンピューターで実行することをお勧めします。

回帰分析-測定データをモデル化し、それらの特性を研究する方法。 データは、従属変数(応答変数)と独立変数(説明変数)の値のペアで構成されています。 回帰モデルは、独立変数と確率変数が追加されたパラメーターの関数です。

相関分析と回帰分析は、数理統計の関連セクションであり、サンプルデータに基づいて多数の量の統計的依存性を研究することを目的としています。 そのうちのいくつかはランダムです。 統計的依存性がある場合、量は機能的に関連していませんが、確率変数は同時確率分布によって与えられます。

確率変数の依存性の研究は、サンプルデータに基づく回帰モデルと回帰分析につながります。 確率論と数理統計は、統計的依存性を研究するためのツールにすぎませんが、因果関係を確立することを目的とはしていません。 因果関係についての考えや仮説は、研究中の現象の意味のある説明を可能にする他の理論から持ち込まれなければなりません。

数値データには通常、明示的(既知)または暗黙的(非表示)の関係があります。

直接カウント法によって得られる指標は明確に関連しています。つまり、既知の式に従って計算されます。 たとえば、完了率、レベル、シェア、合計偏差、パーセンテージ偏差、成長率、成長率、インデックスなどを計画します。

2番目のタイプ(暗黙的)の接続は事前にわかっていません。 ただし、複雑な現象を管理するには、複雑な現象を説明・予測(予測)できる必要があります。 したがって、専門家は観察の助けを借りて、隠れた依存関係を明らかにし、それらを式の形で表現しようとします。つまり、現象やプロセスを数学的にモデル化します。 これらの可能性の1つは、相関回帰分析によって提供されます。

数学モデルは、次の3つの一般的な目的で構築および使用されます。

  • *説明のため;
  • *予測用。
  • ※運転用。

分析者は、相関分析と回帰分析の方法を使用して、相関係数を使用して指標間のリンクの近さを測定します。 同時に、強度が異なり(強い、弱い、中程度など)、方向が異なる(直接、逆)接続が見つかります。 関係が有意であることが判明した場合は、回帰モデルの形式でそれらの数式を見つけて、モデルの統計的有意性を評価することをお勧めします。

回帰分析は、観測データ間の暗黙的で覆い隠された関係を識別するための現代の数理統計学の主な方法と呼ばれています。

回帰分析の問題の記述は次のように定式化されます。

一連の観察結果があります。 このセットでは、1つの列が、残りの列で表されるオブジェクトおよび環境パラメーターとの機能的関係を確立する必要があるインジケーターに対応します。 必須:指標と要因の間に定量的な関係を確立するため。 この場合、回帰分析のタスクは、そのような関数従属性y = f(x2、x3、...、xt)を識別するタスクとして理解されます。これは、利用可能な実験データを最もよく表します。

仮定:

観測数は、要因とそれらの関係に関する統計パターンを明らかにするのに十分です。

処理されたデータには、測定誤差によるいくつかの誤差(ノイズ)が含まれています。これは、ランダムな要因が考慮されていないことによる影響です。

観察結果マトリックスは、研究の開始前に利用可能な研究中のオブジェクトに関する唯一の情報です。

インジケーターのパラメーターへの依存性を表す関数f(x2、x3、...、xt)は、回帰方程式(関数)と呼ばれます。 「回帰」(回帰(lat。)-後退、何かに戻る)という用語は、メソッドの形成段階で解決された特定のタスクの1つの詳細に関連付けられています。

回帰分析の問題の解決策をいくつかの段階に分割すると便利です。

データ前処理;

回帰方程式のタイプの選択。

回帰方程式の係数の計算;

観測結果に対する構築された関数の妥当性の検証。

前処理には、データマトリックスの標準化、相関係数の計算、それらの有意性のチェック、および重要でないパラメーターの考慮からの除外が含まれます。

回帰方程式のタイプの選択データを最もよく表す関数従属性を決定するタスクは、いくつかの基本的な問題を克服することに関連しています。 一般的なケースでは、標準化されたデータの場合、パラメーターに対するインジケーターの機能依存性は次のように表すことができます。

y = f(x1、x2、…、xm)+ e

ここで、fはこれまで決定されていなかった関数です。

e-データ近似誤差。

この方程式は、サンプル回帰方程式と呼ばれます。 この方程式は、指標の変動と因子の変動の関係を特徴づけます。 相関の尺度は、因子の変動に関連する指標の変動の割合を測定します。 言い換えれば、指標と因子の相関は、それらのレベル間の関係として解釈することはできず、回帰分析は、指標の作成における因子の役割を説明しません。

もう1つの特徴は、指標に対する各要因の影響度の評価に関するものです。 回帰方程式は、指標に対する各要因の個別の影響の評価を提供しません。このような評価は、他のすべての要因が調査対象の要因に関連していない場合にのみ可能です。 調査した要因が指標に影響を与える他の要因に関連している場合は、 混標数要因の影響。 この特性には、要因の直接的な影響と、他の要因との関係を通じて及ぼされる間接的な影響、およびそれらの指標への影響の両方が含まれます。

指標との関連性は弱いが、他の要因と密接に関連している要因を回帰方程式に含めることはお勧めしません。 機能的に相互に関連する要因は方程式に含まれません(それらの場合、相関係数は1です)。 このような要因を含めると、回帰係数を推定するための連立方程式が縮退し、解の不確実性が生じます。

関数fは、誤差eがある意味で最小になるように選択する必要があります。 関数接続を選択するために、関数fがどのクラスに属するかについて事前に仮説が立てられ、次にこのクラスの「最良の」関数が選択されます。 選択した関数のクラスには、ある程度の「滑らかさ」が必要です。 引数値の「小さな」変更は、関数値の「小さな」変更を引き起こすはずです。

実際に広く使用されている特殊なケースは、1次の多項式または線形回帰方程式です。

機能依存性のタイプを選択するには、次のアプローチをお勧めします。

パラメータ空間では、インジケータ値のあるポイントがグラフィカルに表示されます。 多数のパラメーターを使用すると、パラメーターごとにポイントを作成して、値の2次元分布を取得できます。

ポイントの位置によって、そしてインジケーターとオブジェクトのパラメーターの間の関係の本質の分析に基づいて、回帰の近似タイプまたはその可能な変形について結論が出されます。

パラメータを計算した後、近似の品質が評価されます。 計算値と実際の値の近さの程度を評価します。

計算値と実際の値がタスク領域全体で近い場合、回帰分析の問題は解決されたと見なすことができます。 それ以外の場合は、別の種類の多項式または周期関数などの別の分析関数を選択してみてください。

回帰方程式の係数の計算

未知数の数は常に方程式の数よりも多いため、利用可能なデータに基づいて連立方程式を一意に解くことは不可能です。 この問題を克服するには、追加の仮定が必要です。 常識プロンプト:データの近似の誤差が最小になるように、多項式の係数を選択することが望ましいです。 近似誤差を評価するために、さまざまな測定を適用できます。 そのような尺度として、二乗平均平方根誤差は幅広い用途を見出しています。 その上で、開発 特別な方法回帰方程式の係数の推定-最小二乗法(LSM)。 この方法では、正規分布オプションを使用して回帰方程式の未知の係数の最尤推定値を取得できますが、他の因子の分布にも適用できます。

MNCはに基づいています 以下の規定:

エラー値と要因の値は独立しているため、相関関係がありません。 ノイズ発生のメカニズムは、因子値の形成のメカニズムとは関係がないと想定されています。

エラーeの数学的な期待値はゼロに等しくなければなりません(定数成分は係数a0に含まれます)。つまり、エラーは中心値です。

誤差分散のサンプル推定は最小限に抑える必要があります。

線形モデルが不正確であるか、パラメーターが不正確に測定されている場合、この場合、LSMを使用すると、選択した標準偏差基準の意味で線形モデルが実際のオブジェクトを最もよく表す係数の値を見つけることができます。

結果として得られる回帰方程式の品質は、インジケーターの観測結果と回帰方程式によって予測された値との間の近さの程度によって評価されます。 与えられたポイントパラメータスペース。 結果が近い場合、回帰分析の問題は解決されたと見なすことができます。 それ以外の場合は、回帰方程式を変更し、計算を繰り返してパラメーターを推定する必要があります。

複数の指標がある場合、回帰分析の問題はそれらのそれぞれについて独立して解決されます。

回帰方程式の本質を分析すると、次の点に注意する必要があります。 検討されたアプローチは、係数の個別の(独立した)評価を提供しません-1つの係数の値の変更は、他の係数の値の変更を伴います。 得られた係数は、インジケーターの値への対応するパラメーターの寄与と見なされるべきではありません。 回帰方程式は、利用可能なデータの優れた分析的記述であり、パラメーターとインジケーターの関係を記述する法則ではありません。 この方程式は、特定の範囲のパラメーター変更におけるインジケーターの値を計算するために使用されます。 これは、この範囲外の計算には限定的に使用されます。 これは、内挿問題の解決に使用でき、限られた範囲で外挿に使用できます。

予測が不正確である主な理由は、回帰直線の外挿の不確実性ではなく、モデルで考慮されていない要因による指標の大幅な変動です。 予測の可能性の限界は、モデルで考慮されていないパラメーターの安定性の条件と、モデルで考慮されている要因の影響の性質です。 大幅に変化した場合 外部環境、その後、コンパイルされた回帰方程式はその意味を失います。

パラメータの期待値を回帰式に代入して得られる予測は、ポイント予測です。 そのような予測が実現する可能性はごくわずかです。 予測の信頼区間を決定することをお勧めします。 インジケーターの個々の値の場合、間隔は回帰直線の位置のエラーとこの直線からの個々の値の偏差を考慮に入れる必要があります。

統計モデリングでは、回帰分析は変数間の関係を評価するために使用される研究です。 この数学的方法には、従属変数と1つ以上の独立変数の間の関係に焦点が当てられている場合に、複数の変数をモデル化および分析するための他の多くの方法が含まれます。 より具体的には、回帰分析は、他の独立変数が固定されたままで、独立変数の1つが変化した場合に、従属変数の典型的な値がどのように変化するかを理解するのに役立ちます。

すべての場合において、目標スコアは独立変数の関数であり、回帰関数と呼ばれます。 回帰分析では、従属変数の変化を回帰の関数として特徴付けることも重要です。これは、確率分布を使用して説明できます。

回帰分析のタスク

この統計的調査方法は、予測に広く使用されており、その使用には大きな利点がありますが、錯覚や誤った関係につながる可能性があるため、この質問では慎重に使用することをお勧めします。たとえば、相関関係は原因。

線形回帰や通常の最小二乗回帰など、パラメトリックな回帰分析を実行するための多くの方法が開発されています。 それらの本質は、回帰関数がデータから推定される有限数の未知のパラメーターに関して定義されることです。 ノンパラメトリック回帰では、その関数を特定の関数セットに含めることができます。これは、無限次元である可能性があります。

統計的調査方法として、実際の回帰分析は、データ生成プロセスの形式と、それが回帰アプローチにどのように関連しているかに依存します。 通常、生成されるデータプロセスの実際の形式は不明な数であるため、データ回帰分析は、プロセスに関する仮定にある程度依存することがよくあります。 十分なデータが利用できる場合、これらの仮定は時々テスト可能です。 回帰モデルは、仮定が中程度に違反している場合でも、最高のパフォーマンスを発揮しない場合でも役立つことがよくあります。

狭義には、回帰は、分類で使用される離散応答変数とは対照的に、連続応答変数の推定を具体的に指すことができます。 連続出力変数の場合は、関連する問題と区別するためにメトリック回帰とも呼ばれます。

物語

回帰の最も初期の形式は、最小二乗法のよく知られた方法です。 これは、1805年にLegendreによって、1809年にGaussによって発行されました。LegendreとGaussは、天文観測から太陽の周りの体の軌道(主に彗星ですが、後に新しく発見された小惑星も)を決定する問題にこの方法を適用しました。 ガウスが公開 さらなる開発ガウス-マルコフ定理の変形を含む、1821年の最小二乗理論。

「回帰」という用語は、生物学的現象を説明するために19世紀にフランシスガルトンによって造られました。 肝心なのは、祖先の成長からの子孫の成長は、原則として、通常の平均まで後退するということでした。 ゴルトンにとって、回帰にはこの生物学的意味しかありませんでしたが、後に彼の研究はUdniYoleyとKarlPearsonによって取り上げられ、より一般的な統計的文脈に持ち込まれました。 ユールとピアソンの研究では、応答変数と説明変数の同時分布はガウス分布であると見なされています。 この仮定は、1922年と1925年の論文でフィッシャーによって拒否されました。 フィッシャーは、応答変数の条件付き分布はガウス分布であると提案しましたが、同時分布はそうである必要はありません。 この点で、フィッシャーの提案はガウスの1821年の定式化に近いものです。 1970年以前は、回帰分析の結果を取得するのに最大24時間かかることがありました。

回帰分析手法は、引き続き活発な研究分野です。 ここ数十年で、ロバスト回帰のための新しい方法が開発されました。 相関応答を含む回帰。 さまざまなタイプの欠測データに対応する回帰法。 ノンパラメトリック回帰; ベイズ回帰法; 予測変数がエラーで測定される回帰。 観測値よりも多くの予測子を使用した回帰、および回帰を使用した因果推論。

回帰モデル

回帰分析モデルには、次の変数が含まれます。

  • ベータとして示される未知のパラメーター。スカラーまたはベクトルの場合があります。
  • 独立変数、X。
  • 従属変数、Y。

回帰分析が適用される科学のさまざまな分野では、従属変数と独立変数の代わりにさまざまな用語が使用されますが、すべての場合において、回帰モデルはYをXとβの関数に関連付けます。

近似は通常、E(Y | X)= F(X、β)として定式化されます。 回帰分析を実行するには、関数fの形式を決定する必要があります。 ごくまれに、データに依存しないYとXの関係に関する知識に基づいています。 そのような知識が利用できない場合は、柔軟または便利なフォームFが選択されます。

従属変数Y

ここで、未知のパラメーターβのベクトルの長さがkであると仮定します。 回帰分析を実行するには、ユーザーは従属変数Yに関する情報を提供する必要があります。

  • (Y、X)の形式のN個のデータポイントが観測された場合、ここでN< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • 正確にN=Kが観測され、関数Fが線形である場合、方程式Y = F(X、β)は、近似ではなく正確に解くことができます。 これは、Xが線形独立である限り、一意の解を持つN個の未知数(βの要素)を使用して一連のN方程式を解くことに要約されます。 Fが非線形の場合、解が存在しないか、多くの解が存在する可能性があります。
  • 最も一般的な状況は、データへのN>ポイントがある場合です。 この場合、データには、データに最適なβの一意の値を推定するのに十分な情報があり、データに適用されたときの回帰モデルは、βのオーバーライドされたシステムと見なすことができます。

後者の場合、回帰分析は次のツールを提供します。

  • 未知のパラメータβの解を見つける。これにより、たとえば、Yの測定値と予測値の間の距離が最小化されます。
  • 特定の統計的仮定の下で、回帰分析は過剰な情報を使用して、未知のパラメーターβと従属変数Yの予測値に関する統計情報を提供します。

必要な独立した測定数

β0、β1、およびβ2の3つの未知のパラメーターを持つ回帰モデルについて考えてみます。 実験者がベクトルXの独立変数の同じ値で10回の測定を行ったと仮定します。この場合、回帰分析では一意の値のセットは得られません。 最善の方法は、平均と 標準偏差従属変数Y。同様に、2つを測定します。 異なる値 X、2つの未知数を持つ回帰には十分なデータを取得できますが、3つ以上の未知数には取得できません。

実験者の測定が独立ベクトル変数Xの3つの異なる値で行われた場合、回帰分析はβの3つの未知のパラメーターの一意の推定セットを提供します。

一般線形回帰の場合、上記のステートメントは、行列XTXが可逆であるという要件と同等です。

統計的仮定

測定数Nが未知パラメータ数kおよび測定誤差εiよりも大きい場合、原則として、測定値に含まれる過剰な情報が分散され、未知パラメータに関する統計的予測に使用されます。 この過剰な情報は、回帰の自由度と呼ばれます。

基礎となる仮定

回帰分析の一般的な仮定には、次のものがあります。

  • サンプリングは推論予測の代表です。
  • エラーは、説明変数を条件とする平均値がゼロの確率変数です。
  • 独立変数はエラーなしで測定されます。
  • 独立変数(予測変数)として、それらは線形独立です。つまり、予測変数を他の予測変数の線形結合として表現することはできません。
  • エラーは無相関です。つまり、対角線のエラー共分散行列であり、ゼロ以外の各要素はエラーの分散です。
  • 誤差分散は、観測全体で一定です(等分散性)。 そうでない場合は、加重最小二乗法または他の方法を使用できます。

これらは 十分条件最小二乗推定には必要な特性があります。特に、これらの仮定は、特に線形推定のクラスで考慮した場合、パラメーター推定が客観的で一貫性があり、効率的であることを意味します。 実際のデータが条件を満たすことはめったにないことに注意することが重要です。 つまり、仮定が正しくない場合でも、この方法が使用されます。 仮定からの変化は、モデルがどれほど有用であるかの尺度として使用できる場合があります。 これらの仮定の多くは、より高度な方法で緩和できます。 統計分析レポートには通常、サンプルデータに対するテストの分析とモデルの有用性に関する方法論が含まれます。

さらに、変数は、ポイントの場所で測定された値を参照する場合があります。 統計的仮定に違反する変数には、空間的傾向と空間的自己相関が存在する可能性があります。 地理的加重回帰は、そのようなデータを処理する唯一の方法です。

線形回帰の特徴は、従属変数であるYiがパラメーターの線形結合であるということです。 たとえば、単純な線形回帰では、n点モデリングは1つの独立変数x iと、2つのパラメーターβ0およびβ1を使用します。

重回帰では、いくつかの独立変数またはそれらの関数があります。

母集団からランダムにサンプリングされる場合、そのパラメーターにより、線形回帰モデルのサンプルを取得できます。

この側面では、最小二乗法が最も一般的です。 これは、残差の二乗和を最小化するパラメーター推定を提供します。 この関数のこの種の最小化(線形回帰に典型的)は、一連の正規方程式と一連の方程式につながります。 一次方程式パラメータ推定値を取得するために解決されるパラメータを使用します。

さらに、母集団誤差が一般に伝播すると仮定すると、研究者はこれらの標準誤差の推定値を使用して信頼区間を作成し、そのパラメーターに関する仮説検定を実行できます。

非線形回帰分析

関数がパラメーターに関して線形ではない例は、二乗和が反復手順で最小化される必要があることを示しています。 これにより、線形最小二乗法と非線形最小二乗法の違いを定義する多くの複雑さが生じます。 その結果、非線形法を使用した場合の回帰分析の結果は、予測できない場合があります。

検出力とサンプルサイズの計算

ここでは、原則として、モデル内の独立変数の数と比較した観測値の数に関して一貫した方法はありません。 最初のルールはDobraとHardinによって提案され、N = t ^ nのようになります。ここで、Nはサンプルサイズ、nは説明変数の数、tはモデルが説明変数は1つだけです。 たとえば、研究者は1000人の患者(N)を含むデータセットを使用して線形回帰モデルを構築します。 研究者が線(m)を正確に決定するために5つの観測値が必要であると判断した場合、モデルがサポートできる説明変数の最大数は4です。

その他の方法

回帰モデルのパラメーターは通常、最小二乗法を使用して推定されますが、使用頻度がはるかに低い他の方法もあります。 たとえば、次の方法があります。

  • ベイズ法(たとえば、線形回帰のベイズ法)。
  • パーセンテージエラーを減らすことがより適切であると考えられる状況に使用されるパーセンテージ回帰。
  • 最小の絶対偏差。これは、分位点回帰につながる外れ値が存在する場合により堅牢です。
  • 必要なノンパラメトリック回帰 多数観察と計算。
  • 指定された入力スペースで意味のある距離メトリックを検索して学習される学習メトリックの距離。

ソフトウェア

すべての主要な統計ソフトウェアパッケージは、最小二乗回帰分析を使用して実行されます。 単純な線形回帰および重回帰分析は、一部のスプレッドシートアプリケーションおよび一部の計算機で使用できます。 多くの統計ソフトウェアパッケージは、さまざまなタイプのノンパラメトリックでロバスト回帰を実行できますが、これらの方法はあまり標準化されていません。 異なるソフトウェアパッケージは異なるメソッドを実装します。 特殊な回帰 ソフトウェア調査分析やニューロイメージングなどの分野で使用するために開発されました。

回帰の概念。 変数間の関係 バツyさまざまな方法で説明できます。 特に、任意の形式の接続は、一般的な方程式で表すことができます。 y従属変数として扱われる、または 関数別のものから-独立変数x、と呼ばれる 口論。 引数と関数の対応は、表、式、グラフなどで表すことができます。 1つまたは複数の引数の変更に応じて関数を変更するが呼び出されます 回帰。 相関関係を説明するために使用されるすべての手段は内容です 回帰分析.

相関方程式、または回帰方程式、経験的および理論的に計算された回帰系列、回帰直線と呼ばれるそれらのグラフ、および線形および非線形回帰係数は、回帰を表すのに役立ちます。

回帰インジケーターは、属性の平均値の変化を考慮して、双方向の相関関係を表します Y値を変更するとき バツ サイン バツ、およびその逆の場合、機能の平均値の変化を示します バツ変更された値によって y サイン Y。 例外は時系列、または一連のダイナミクスであり、時間の経過に伴う符号の変化を示します。 このようなシリーズの回帰は一方的なものです。

相関関係にはさまざまな形式とタイプがあります。 タスクは、それぞれの特定のケースで接続の形式を識別し、対応する相関方程式で表現することになります。これにより、予測が可能になります。 可能な変更 1つのサイン Y既知の変更に基づく バツ、最初の相関に関連付けられています。

12.1線形回帰

回帰方程式。相関特性に従って特定の生物学的オブジェクトに対して実行された観察の結果 バツy、システムを構築することにより、平面上の点で表すことができます 長方形の座標。 その結果、一定の散布図が得られ、さまざまな特徴間の関係の形と緊密さを判断することができます。 多くの場合、この関係は直線のように見えるか、直線で近似できます。

変数間の線形関係 バツyは一般的な方程式で表されます。 あいうえお、…は、引数間の関係を決定する方程式のパラメーターです。 バツ 1 、 バツ 2 、 バツ 3 、 …、 バツ mと機能。

実際には、考えられるすべての引数が考慮されるわけではありませんが、一部の引数のみが考慮されます。最も単純なケースでは、次の1つだけが考慮されます。

線形回帰方程式(1) aは自由用語であり、パラメータ b直交座標軸に対する回帰直線の傾きを決定します。 解析幾何学では、このパラメーターはと呼ばれます スロープファクター、およびバイオメトリクス- 回帰係数。 このパラメーターの視覚的表現と回帰直線の位置 Yの上 バツバツの上 Y長方形の座標系で図1を与えます。

米。 システム内の1YxXおよびXxY回帰直線

長方形の座標

図1に示すように、回帰直線は点O(、)で交差し、相互に相関する符号の算術平均値に対応します Yバツ。 回帰グラフをプロットする場合、独立変数Xの値は横軸に沿ってプロットされ、従属変数または関数Yの値は縦軸に沿ってプロットされます。点O(、 )変数間の完全な(機能的な)関係に対応します Yバツ相関係数が。 間のつながりが強い Yバツ、回帰直線がABに近いほど、逆に、これらの値の間の関係が弱いほど、回帰直線はABから離れています。 特徴間に接続がない場合、回帰直線は互いに直角になります。

回帰指標は相関を双方向で表すため、回帰式(1)は次のように記述する必要があります。

最初の式によると、平均値は符号が変化したときに決定されます バツ測定単位あたり、2番目に-測定単位あたりの機能が変更されたときの平均値 Y.

回帰係数。回帰係数は、平均して1つの特徴の値がどのように変化するかを示します y別の測定単位が Yサイン バツ。 この指標は次の式によって決定されます

ここで値 sクラス間隔のサイズを掛ける λ それらがバリエーション系列または相関テーブルによって検出された場合。

回帰係数は、平均の計算をバイパスして計算できます 標準偏差 s ys バツ式によると

相関係数が不明な場合、回帰係数は次のように決定されます。

回帰係数と相関係数の関係。式(11.1)(トピック11)と(12.5)を比較すると、分子に同じ値が含まれていることがわかります。これは、これらのインジケーター間の関係を示しています。 この関係は平等によって表されます

したがって、相関係数は係数の幾何平均に等しくなります b yxb xy。 式(6)は、最初に、回帰係数の既知の値から許可します b yxb xy回帰係数を決定する R xy、そして第二に、この相関指標の計算の正確さをチェックするために R xyさまざまな特性の間 バツY.

相関係数と同様に、回帰係数は線形関係のみを特徴とし、正の関係の場合はプラス記号、負の関係の場合はマイナス記号を伴います。

線形回帰パラメーターの決定。バリアントの偏差の2乗の合計が知られています バツ 平均から最小値があります。つまり、この定理は最小二乗法の基礎を形成します。 線形回帰に関して[参照 式(1)]、この定理の要件は、次のような特定の連立方程式によって満たされます。 正常:

パラメータに関するこれらの方程式の共同解 ab次の結果につながります。

;

;

、どこから私。

変数間の関係の双方向性を考えると Yバツ、パラメータを決定するための式 a次のように表現する必要があります。

と 。 (7)

パラメータ b、または回帰係数は、次の式によって決定されます。

経験的回帰シリーズの構築。の存在下で 多数観測回帰分析は、経験的回帰系列の構築から始まります。 経験的回帰シリーズ 1つの変数属性の値を計算することによって形成されます バツ他の平均値、と相関 バツサイン Y。 言い換えれば、経験的回帰系列の構築は、符号YとXの対応する値からグループ平均uを見つけることになります。

経験的回帰系列は、平面上の点で表すことができる2つの一連の数値であり、これらの点を直線セグメントで接続することにより、経験的回帰直線を取得できます。 経験的回帰シリーズ、特にそれらのプロットは、 回帰直線、さまざまな特徴間の相関依存性の形式とタイトさを視覚的に表現します。

経験的回帰系列の等化。経験的回帰系列のグラフは、原則として、滑らかな線ではなく破線です。 これは、相関特性の変動性の一般的なパターンを決定する主な理由とともに、それらの値が回帰の節点にランダムな変動を引き起こす多数の二次的原因の影響を受けるという事実によって説明されます。 相関する特徴の共役変動の主な傾向(傾向)を特定するには、破線を滑らかで滑らかに実行される回帰直線に置き換える必要があります。 破線を滑らかな線に置き換えるプロセスは、 経験的シリーズのアラインメント回帰直線.

グラフィックアライメント方式。これは、計算作業を必要としない最も簡単な方法です。 その本質は次のとおりです。 経験的回帰系列は、直交座標系でグラフとしてプロットされます。 次に、回帰の中点の輪郭が視覚的に示され、それに沿って定規またはパターンを使用して実線が描画されます。 この方法の欠点は明らかです。経験的な回帰直線の整列の結果に対する研究者の個々の特性の影響を排除するものではありません。 したがって、壊れた回帰直線を滑らかな回帰直線に置き換えるときに高い精度が必要な場合は、経験的系列を整列させる他の方法が使用されます。

移動平均法。この方法の本質は、経験的系列の2つまたは3つの隣接するメンバーの算術平均の順次計算に還元されます。 この方法は、経験的級数が多数の項で表される場合に特に便利です。そのため、この等化方法では避けられない極端なものの2つが失われても、その構造に大きな影響はありません。

最小二乗法。この方法は、19世紀の初めにA.M.によって提案されました。 レジェンドレと、彼とは独立して、K。ガウス。 これにより、経験的系列を最も正確に整列させることができます。 この方法は、上記のように、バリアントの偏差の2乗の合計が バツ それらの平均から最小値があります。つまり、エコロジーだけでなくテクノロジーでも使用されるメソッドの名前です。 最小二乗法は客観的で普遍的であり、回帰系列の実験式を見つけてそれらのパラメーターを決定するときにさまざまな場合に使用されます。

最小二乗法の要件は、回帰直線の理論上の点が、経験的観測のためにこれらの点からの偏差の二乗の合計が得られるように取得する必要があることです。 y 最小限でした、つまり

数学的分析の原理に従ってこの式の最小値を計算し、それを特定の方法で変換すると、いわゆるシステムを得ることができます。 正規方程式ここで、未知の値は回帰方程式の望ましいパラメーターであり、既知の係数は、特徴の経験値、通常はそれらの値とそれらの外積の合計によって決定されます。

重回帰。複数の変数間の関係は、通常、重回帰方程式で表されます。 線形非線形。 最も単純な形式では、重回帰は2つの独立変数を持つ方程式で表されます( バツ, z):

どこ a方程式の自由項です。 bc方程式のパラメータです。 式(10)のパラメーターを(最小二乗法で)見つけるために、次の正規方程式のシステムが使用されます。

ダイナミクスの行。 行の配置。時間の経過に伴う兆候の変化は、いわゆる 時系列また ダイナミクスの行。 このような系列の特徴は、時間係数が常にここで独立変数Xとして機能し、符号の変化が従属変数Yであるということです。 時間係数は特徴の変動性に依存しないため、回帰系列に応じて、変数XとYの間の関係は一方的なものになります。 これらの機能にもかかわらず、時系列は回帰系列に例えられ、同じ方法で処理されます。

回帰時系列と同様に、経験的時系列は、主なものだけでなく、統計の言語で呼ばれる特徴の変動性の主な傾向を曖昧にする多数の二次的な(ランダムな)要因の影響も受けます。 傾向.

時系列の分析は、トレンドの形を特定することから始まります。 これを行うために、時系列は直交座標系の折れ線グラフとして表されます。 この場合、時点(年、月、およびその他の時間単位)が横軸に沿ってプロットされ、従属変数Yの値が縦軸に沿ってプロットされます。 線形依存最小二乗法を使用して時系列を整列させるための変数XとY(線形傾向)の間で、最も適切な回帰方程式は、従属変数Yの系列の項の一連の算術平均からの偏差の形式になります。独立変数X:

ここに、線形回帰パラメーターがあります。

一連のダイナミクスの数値特性。一連のダイナミクスの主な一般化数値特性には、次のものがあります。 幾何平均そしてそれに近い算術平均。 これらは、従属変数の値が特定の期間にわたって変化する平均速度を特徴づけます。

ダイナミクス系列の項の変動性の推定値は次のとおりです。 標準偏差。 時系列を記述するために回帰方程式を選択するとき、傾向の形式が考慮されます。これは、線形(または線形に縮小)および非線形にすることができます。 回帰方程式の選択の正しさは、通常、従属変数の経験的に観察され計算された値の類似性によって判断されます。 この問題をより正確に解決するには、分散分析の回帰分析の方法があります(トピック12p.4)。

一連のダイナミクスの相関。多くの場合、たとえば、一定期間における農業生産と家畜の成長との関係を見つけるために、いくつかの一般的な条件によって相互に関連する並列時系列のダイナミクスを比較する必要があります。 このような場合、変数XとYの関係は次のように特徴付けられます。 相関係数 R xy(線形トレンドが存在する場合)。

時系列の傾向は、原則として、従属変数Yの系列の変動によって不明瞭になることが知られています。したがって、傾向を除外せずに、比較された系列間の関係を測定するという2つの問題が発生します。 、傾向を除いて、同じシリーズの隣接するメンバー間の関係を測定します。 最初のケースでは、比較された一連のダイナミクス間の接続の近さの指標は次のとおりです。 相関係数(関係が線形の場合)、2番目に- 自己相関係数。 これらの指標の値は異なりますが、同じ式を使用して計算されます(トピック11を参照)。

自己相関係数の値は、従属変数の系列のメンバーの変動性の影響を受けることは容易に理解できます。系列のメンバーがトレンドから逸脱することが少ないほど、自己相関係数は高くなり、逆もまた同様です。

回帰分析法は、価値の関係を構築および調整するために、特定のパラメトリック系列に関連する製品の技術的および経済的パラメーターを決定するために使用されます。 この方法は、主要な消費者の特性を反映する1つ以上の技術的および経済的パラメーターの存在を特徴とする製品のレベルと価格の比率を分析し、正当化するために使用されます。 回帰分析により、製品の技術的および経済的パラメーターに対する価格の依存性を説明する実験式を見つけることができます。

P = f(X1X2、...、Xn)、

ここで、Pは製品の単価の値です。 (X1、X2、... Xp)-製品の技術的および経済的パラメーター。

回帰分析の方法(使用されている規範的パラメトリック法の中で最も進んだ方法)は、最新の使用に基づいて計算を実行するのに効果的です 情報技術およびシステム。 そのアプリケーションには、次の主な手順が含まれます。

  • 製品の分類パラメトリックグループの定義。
  • 製品の価格に最大の影響を与えるパラメータの選択。
  • パラメータを変更する際の価格変更の伝達形式の選択と正当化。
  • 正規方程式のシステムの構築と回帰係数の計算。

価格が平準化される製品の主な認定グループは、パラメトリック範囲であり、その範囲内で、アプリケーション、動作条件、要件などに応じて、さまざまな設計に従って製品をグループ化できます。パラメトリックシリーズを形成する場合、自動分類製品の総質量からその均質なグループを割り当てることを可能にする方法を適用することができます。 技術的および経済的パラメータの選択は、次の基本的な要件に基づいています。

  • 選択したパラメータの構成には、規格および仕様で固定されているパラメータが含まれます。 技術的パラメータ(電力、環境収容力、速度など)に加えて、連続生産の指標、複雑さの要因、統一などが使用されます。
  • 選択されたパラメータのセットは、シリーズに含まれる製品の設計、技術、および運用特性を十分に完全に特徴付け、価格とかなり密接な相関関係がある必要があります。
  • パラメータは相互に依存してはなりません。

価格に大きな影響を与える技術的および経済的パラメータを選択するために、ペア相関係数の行列が計算されます。 パラメータ間の相関係数の大きさにより、それらの関係の緊密さを判断することができます。 同時に、ゼロに近い相関関係は、価格に対するパラメーターのわずかな影響を示しています。 技術的および経済的パラメータの最終的な選択は、コンピュータ技術と適切な標準プログラムを使用した段階的な回帰分析のプロセスで実行されます。

価格設定の実践では、次の一連の関数が使用されます。

線形

P = ao + alXl + ... + antXn、

線形電力

P \ u003d ao + a1X1 + ... + anXp +(an + 1Xp)(an + 1Xp)+​​ ... +(an + nXp2)(an + nXp2)

逆対数

P \ u003d a0 + a1:X1の場合+ ... + an:Xnの場合、

パワー

P = a0(X1 ^ a1)(X2 ^ a2)..(Xn ^ an)

デモンストレーション

P = e ^(a1 + a1X1 + ... + anXn)

双曲線

P \ u003d ao + a1:X1 + a2:X2 + ... + an:Xn、

ここで、P-価格均等化。 X1 X2、...、Xn-シリーズの製品の技術的および経済的パラメーターの値。 a0、a1 ...、-回帰方程式の計算された係数。

実用的な仕事価格設定については、価格関係の形式と技術的および経済的パラメーターに応じて、他の回帰方程式を使用できます。 価格と技術的および経済的パラメータのセットとの間の関係関数のタイプは、事前に設定するか、コンピュータでの処理中に自動的に選択することができます。 価格とパラメータのセットの間の相関の緊密さは、多重相関係数の値によって推定されます。 団結に近いということは、密接な関係を示しています。 回帰方程式に従って、このパラメトリックシリーズの製品の価格の調整された(計算された)値が取得されます。 アラインメントの結果を評価するために、実際の価格値からの計算された価格値の相対偏差が計算されます:

Tsr \ u003d Rf-Rr:R x 100

ここで、Рф、Рр-実際の価格と推定価格。

Crの値は8〜10%を超えてはなりません。 計算値が実際の値から大幅に逸脱している場合は、以下を調査する必要があります:

  • パラメトリックシリーズの形成の正確さ。その構成には、シリーズの他の製品とはパラメーターが大幅に異なる製品が含まれている可能性があるためです。 それらは除外する必要があります。
  • 技術的および経済的パラメータの正しい選択。 価格と弱く相関するパラメータのセットが可能です。 この場合、パラメータの検索と選択を継続する必要があります。

回帰分析を実施し、方程式の未知のパラメータを見つけ、得られた結果の経済的評価を行うための手順と方法論は、数理統計学の要件に従って実行されます。