メニュー
無料で
登録
 /  病気について/ 研究対象となる一般集団はどのような場合ですか。 一般母集団とサンプル母集団。 代表性の概念

研究対象となる一般集団はどのような場合ですか。 一般母集団とサンプル母集団。 代表性の概念

統計上の母集団- 質量特性、典型性、質的均一性、および変動の存在を備えた一連の単位。

統計上の母集団は、物質的に存在するオブジェクト (従業員、企業、国、地域) で構成され、オブジェクトです。

人口の単位— 統計上の母集団のそれぞれの特定の単位。

同じ統計上の母集団でも、ある特徴では均一である場合もあれば、別の特徴では不均一である場合もあります。

定性的均一性- ある基準では人口のすべての単位が類似しており、他のすべてでは類似性がありません。

統計的な母集団では、ある母集団単位と別の母集団単位の間の差異は量的な性質を持つことがよくあります。 集団のさまざまな単位の特性の値の量的な変化は、変動と呼ばれます。

特性のバリエーション- 集団のある単位から別の単位に移行する際の、(量的特性の場合の)特性の量的変化。

サイン- これは財産です 特性または、観察または測定できる単位、物体、現象のその他の特徴。 兆候は定量的なものと定性的なものに分けられます。 集団の個々の単位における特性の値の多様性と変動性は、 変化.

属性(質的)特性は数値化できません(男女別人口構成)。 定量的な特徴は、 数値式(年齢別の人口構成)。

索引- これは、時間と場所の特定の条件下で全体としてのユニットまたは集合体のあらゆる特性の一般化された量的および定性的な特性です。

スコアカード研究対象の現象を包括的に反映する一連の指標です。

たとえば、給与は次のように調査されます。
  • サイン - 賃金
  • 統計上の母集団 - 全従業員
  • 人口の単位は従業員1名です
  • 質的均一性 - 未払賃金
  • 記号のバリエーション - 一連の数字

人口とそこからのサンプル

基礎となるのは、1 つ以上の特性を測定した結果として得られた一連のデータです。 真に観測されたオブジェクトのセットは、確率変数の観測値の数によって統計的に表現され、次のようになります。 サンプリング、そして仮説的に存在する(推測) - 一般人。 母集団は有限である可能性があります (観測値の数) N = 定数) または無限 ( N = ∞)、およびからのサンプル 人口常に限られた一連の観察の結果です。 サンプルを形成する観測値の数は次のように呼ばれます。 サンプルサイズ。 サンプルサイズが十分に大きい場合 ( n → ∞) サンプルが考慮されます 大きい、それ以外の場合はサンプリングと呼ばれます 数量限定。 サンプルが考慮されます 小さい 1 次元の確率変数を測定するときにサンプル サイズが 30 を超えない場合 ( n<= 30 )、複数を同時に測定する場合( k) 多次元関係空間の特徴 nkを超えない 10 (n/k< 10) 。 サンプルフォーム バリエーションシリーズ、そのメンバーが 順序統計、つまり確率変数のサンプル値 バツ昇順(ランク付け)に並べられ、特性の値はと呼ばれます オプション.

。 ほぼ同じ無作為に選択されたオブジェクトのセット (モスクワのある行政区の商業銀行) は、この地区のすべての商業銀行の一般人口からのサンプル、およびモスクワのすべての商業銀行の一般人口からのサンプルと考えることができます。 、および国の商業銀行からのサンプルなど。

サンプリングを組織する基本的な方法

統計的結論の信頼性と結果の有意義な解釈は、以下に依存します。 代表性サンプル、つまり 一般集団の特性の表現の完全性と適切性。これに関連して、このサンプルが代表的であるとみなされる可能性があります。 母集団の統計的特性の研究は、次の 2 つの方法で組織化できます。 継続的なそして 連続的ではありません。 継続観測すべての検査を提供します 単位勉強した 全体性、A 部分的(選択的)観察- ほんの一部です。

サンプル観察を整理するには主に 5 つの方法があります。

1. 単純なランダム選択、オブジェクトはオブジェクトの母集団から (たとえば、テーブルまたは乱数発生器を使用して) ランダムに選択され、可能なサンプルのそれぞれが等しい確率を持ちます。 このようなサンプルは次のように呼ばれます。 実際にはランダム;

2. 通常の手順で簡単に選択機械的なコンポーネント (日付、曜日、アパート番号、アルファベットなど) を使用して実行され、この方法で取得されたサンプルはと呼ばれます。 機械的;

3. 階層化された選択は、ボリュームの一般集団がボリュームの部分集団または層 (層) に分割されるという事実から構成されます。 層は、統計的特性の点で同質のオブジェクトです (たとえば、人口は年齢グループまたは社会階級ごとに層に分割され、企業は産業ごとに分割されます)。 この場合、サンプルは次のように呼ばれます。 階層化された(さもないと、 階層化された、典型的な、地域化された);

4. 方法 シリアル選択範囲は形成に使用されます シリアルまたは 巣のサンプル。 これらは、「ブロック」または一連のオブジェクト (たとえば、商品のバッチ、特定のシリーズの製品、または国の領土行政区画の人口など) を一度に調査する必要がある場合に便利です。 シリーズの選択は、純粋にランダムまたは機械的に行うことができます。 この場合、商品の特定のバッチ、または地域単位 (住宅の建物または街区) 全体の完全な検査が実行されます。

5. 組み合わせた(段階的) 選択では、複数の選択方法を一度に組み合わせることができます (たとえば、層化とランダム、またはランダムと機械的)。 このようなサンプルはと呼ばれます 組み合わせた.

選択の種類

による 個人、グループ、および組み合わせた選択が区別されます。 で 個別の選択一般集団の個々の単位がサンプル集団に選択されます。 グループ選択- 質的に均一なユニットのグループ (シリーズ)、および 組み合わせた選択最初のタイプと 2 番目のタイプの組み合わせが含まれます。

による 方法選択が区別される 繰り返されるものとそうでないものサンプル。

繰り返しのないサンプルに含まれるユニットが元の集団に戻らず、さらなる選択に参加しない選択と呼ばれます。 一方、一般人口の単位数は N選考過程で減額されます。 で 繰り返された選択 つかまったサンプルでは、​​登録後のユニットは一般集団に戻されるため、他のユニットとともにさらなる選択手順で使用される平等な機会が保持されます。 一方、一般人口の単位数は Nは変更されません(この方法は社会経済研究ではほとんど使用されません)。 ただし、大きいものでは、 N(N→∞)の公式 繰り返し可能な選択は、 繰り返された選択と後者の方が実際にはより頻繁に使用されます ( N = 定数).

一般母集団と標本母集団のパラメータの基本特性

研究の統計的結論は、確率変数の分布と観察値に基づいています。 (x 1、x 2、...、x n)確率変数の実現と呼ばれます バツ(n はサンプルサイズです)。 一般集団における確率変数の分布は理論的で理想的な性質を持ち、そのサンプル類似物は次のようになります。 経験的な分布。 いくつかの理論的な分布は分析的に指定されています。 彼らの オプション確率変数の可能な値の空間内の各点での分布関数の値を決定します。 サンプルの場合、分布関数を決定するのは難しく、場合によっては決定できないため、 オプションは経験的データから推定され、理論的な分布を記述する分析式に代入されます。 この場合、仮定(または 仮説) 分布の種類については、統計的に正しい場合もあれば、誤っている場合もあります。 しかし、いずれの場合でも、サンプルから再構成された経験的分布は、実際の分布を大まかに特徴づけるだけです。 最も重要な分布パラメータは次のとおりです。 期待値そして分散。

ディストリビューションはその性質上、 継続的なそして 離散。 最もよく知られている連続分布は次のとおりです。 普通。 パラメータの類似例としては、平均値と経験的分散があります。 社会経済研究における離散的なものの中で最も頻繁に使用される 代替(二分法)分布。 この分布の数学的期待パラメータは相対値 (または 共有) 研究対象の特性を持つ集団の単位 (文字で示されます)。 この特性を持たない人口の割合は、文字で示されます。 q (q = 1 - p)。 代替分布の分散にも経験的な類似点があります。

分布の種類と人口単位の選択方法に応じて、分布パラメータの特性は異なる方法で計算されます。 理論的分布と経験的分布の主な分布を表に示します。 9.1.

サンプルフラクション k nサンプル母集団のユニット数と一般母集団のユニット数の比率は次のように呼ばれます。

kn = n/N.

サンプルフラクション w研究対象の特性を持つユニットの比率です バツサンプルサイズまで n:

w = n n /n.

例。 1000 ユニットを含む商品のバッチで、5% のサンプルを含む サンプルシェア k n絶対値では 50 単位です。 (n = N*0.05); このサンプルで 2 つの不良品が見つかった場合、 サンプル不良率wは 0.04 (w = 2/50 = 0.04 または 4%) になります。

サンプル母集団は一般母集団とは異なるため、 サンプリングエラー.

表 9.1 一般母集団と標本母集団の主なパラメータ

サンプリングエラー

いずれの場合(継続的および選択的)でも、登録と代表性という 2 つのタイプのエラーが発生する可能性があります。 エラー 登録持てる ランダムそして 系統的キャラクター。 ランダムエラーはさまざまな制御不能な原因で構成されており、意図的ではなく、通常は相互にバランスがとれています (たとえば、室内の温度変動によるデバイスのパフォーマンスの変化など)。

系統的誤差は、サンプルの対象物を選択するためのルールに違反するため偏っています (たとえば、測定装置の設定を変更したときの測定値の偏差)。

例。市の人口の社会的状況を評価するために、25%の家族を対象に調査が計画されています。 4 つおきのアパートの選択がその番号に基づいている場合、1 つのタイプ (たとえば、ワンルーム アパート) のみのアパートをすべて選択する危険があり、系統的なエラーが発生し、結果が歪められます。 アパート番号をロットで選択する方が、誤差がランダムになるため、より望ましいです。

代表性の誤りそれらはサンプルの観察にのみ固有のものであり、避けることはできず、サンプル母集団が一般母集団を完全には再現しないという事実の結果として発生します。 サンプルから得られた指標の値は、一般集団の同じ値の指標(または継続的な観察によって得られた指標)とは異なります。

サンプリングバイアス母集団のパラメータ値とそのサンプル値の差です。 量的特性の平均値の場合は に等しく、シェア (代替特性) の場合は - に等しくなります。

標本誤差は標本観測にのみ固有です。 これらの誤差が大きくなるほど、経験的な分布が理論的な分布と大きく異なります。 経験的分布のパラメータは確率変数であるため、サンプリング誤差も確率変数であり、サンプルごとに異なる値をとる可能性があるため、計算するのが通例です 平均誤差.

平均サンプリング誤差は、数学的期待値からの標本平均の標準偏差を表す量です。 この値は、ランダム選択の原理に従い、主にサンプル サイズと特性の変動の程度に依存します。特性 (したがって値) の変動が大きくなるほど、または小さくなるほど、平均サンプリング誤差は小さくなります。 。 一般母集団と標本母集団の分散間の関係は、次の式で表されます。

それらの。 十分に大きい場合は、 と仮定できます。 平均サンプリング誤差は、一般的な母集団パラメーターからのサンプル母集団パラメーターの偏差の可能性を示します。 テーブル内 表9.2に、観測を組織化するさまざまな方法での平均サンプリング誤差を計算するための式を示します。

表 9.2 さまざまな種類のサンプルのサンプル平均と比率の平均誤差 (m)

ここで、 は連続属性のグループ内サンプル分散の平均です。

割合のグループ内分散の平均。

— 選択したシリーズの数、 — シリーズの総数;

,

ここで、 は 番目の系列の平均です。

— 連続特性のサンプル母集団全体の全体平均。

,

ここで、 は th 系列における特性のシェアです。

— サンプル母集団全体にわたる特性の合計シェア。

ただし、平均誤差の大きさは、ある確率 P (P ≤ 1) でのみ判断できます。 リャプノフ A.M. 一般母集団の平均が有限で分散が限られていると仮定すると、十分に大きな数の標本平均の分布、したがって一般平均からの偏差は正規分布の法則にほぼ従うことが証明されました。

数学的には、平均に関するこのステートメントは次のように表されます。

シェアの場合、式 (1) は次の形式になります。

どこ - がある 限界サンプリング誤差、これは平均サンプリング誤差の倍数です。 , 多重度係数は、W.S. によって提案されたスチューデントの検定 (「信頼係数」) です。 ゴセット(仮名「学生」)。 さまざまなサンプルサイズの値は特別なテーブルに保存されます。

t の一部の値に対する関数 Ф(t) の値は次と等しくなります。

したがって、式 (3) は次のように解釈できます。 P = 0.683 (68.3%)サンプルと一般的な平均の差は、平均誤差の 1 つの値を超えないと主張できます。 m(t=1)、確率的に P = 0.954 (95.4%)- 2 つの平均誤差の値を超えないこと m (t = 2) 、確率的に P = 0.997 (99.7%)- 3 つの値を超えてはなりません m (t = 3) 。したがって、この差が平均誤差の 3 倍を超える確率は次のように決定されます。 エラーレベルそしてそれ以上にはならない 0,3% .

テーブル内 最大サンプリング誤差の計算式を9.3に示します。

表 9.3 さまざまな種類のサンプル観察の平均に対するサンプルの限界誤差 (D) と比率 (p)

サンプル結果を母集団に一般化する

標本観察の最終目標は、一般集団の特徴を明らかにすることです。 サンプルサイズが小さいと、パラメータ ( および ) の経験的推定値が真の値 ( および ) から大幅に逸脱する可能性があります。 したがって、パラメータ ( および ) のサンプル値の真の値 ( および ) が存在する境界を確立する必要があります。

信頼区間一般集団の任意のパラメーターの θ は、このパラメーターの値のランダムな範囲であり、1 に近い確率で ( 信頼性) には、このパラメータの真の値が含まれます。

限界誤差サンプル Δ 一般集団の特性の限界値とその限界値を決定することができます。 信頼区間、これらは等しい:

結論 信頼区間引き算で得られる 最大誤差サンプルの平均値 (シェア) から、それを加算して上位のものを求めます。

信頼区間平均については最大サンプリング誤差が使用され、特定の信頼レベルについては次の式で決定されます。

つまり、一定の確率で R、これは信頼水準と呼ばれ、値によって一意に決定されます。 t、平均の真の値は以下の範囲にあると主張できます。 、シェアの真の価値は以下の範囲にあります。

3 つの標準信頼水準の信頼区間を計算する場合 P = 95%、P = 99%、P = 99.9%値は によって選択されます。 自由度の数に応じた用途。 サンプルサイズが十分に大きい場合、これらの確率に対応する値は tは同じ: 1,96, 2,58 そして 3,29 。 したがって、限界サンプリング誤差により、母集団の特性の限界値とその信頼区間を決定することができます。

社会経済研究におけるサンプル観察の結果の一般人口への分布には、そのすべてのタイプとグループを完全に表現する必要があるため、独自の特徴があります。 このような分布の可能性の根拠は次の計算です。 相対誤差:

どこ Δ % - 相対最大サンプリング誤差。 、。

標本観察結果を母集団まで拡張するには、主に次の 2 つの方法があります。 直接再計算と係数法.

エッセンス 直接変換は、標本平均!!\overline(x) に母集団のサイズを乗算することで構成されます。

。 市内の幼児の平均数をサンプリング法によって推定し、1 人に相当するとします。 市内に 1000 人の若い家族がいる場合、市立保育園に必要な場所の数は、この平均に一般人口のサイズ N = 1000 を乗算することによって得られます。 席数は1200席となります。

オッズ法連続観測のデータを明確にするために選択観測を行う場合に使用するとよいでしょう。

次の式が使用されます。

ここで、すべての変数は母集団のサイズです。

必要なサンプルサイズ

表 9.4 さまざまな種類のサンプル観察組織に必要なサンプルサイズ (n)

許容サンプリング誤差の所定の値を使用してサンプル観測を計画する場合、必要なサンプリング誤差を正確に推定する必要があります。 サンプルサイズ。 この量は、誤差レベルの許容値を保証する所定の確率に基づくサンプル観察時の許容誤差に基づいて決定できます(観察を組織化する方法を考慮して)。 必要なサンプル サイズ n を決定する式は、最大サンプリング誤差の式から直接簡単に取得できます。 したがって、限界誤差の式は次のようになります。

サンプルサイズは直接決定されます n:

この式は、最大サンプリング誤差が減少するにつれて、 Δ 必要なサンプル サイズは大幅に増加しますが、これは分散とスチューデントの t 検定の二乗に比例します。

観察を組織化する特定の方法では、必要なサンプル サイズが表に示されている式に従って計算されます。 9.4.

実践的な計算例

例 1. 連続的な定量的特性の平均値と信頼区間の計算。

債権者との和解の速度を評価するために、銀行で 10 枚の支払書類のランダム サンプルが実行されました。 それらの値は等しいことが判明しました(日数):10; 3; 15; 15; 22; 7; 8; 1; 19; 20.

確率的に必要 P = 0.954限界誤差を決定する Δ サンプル平均値と平均計算時間の信頼限界。

解決。平均値は表の計算式を使用して計算されます。 サンプル母集団の場合は 9.1

分散は表の式を使用して計算されます。 9.1.

その日の平均二乗誤差。

平均誤差は次の式を使用して計算されます。

それらの。 平均は x ± m = 12.0 ± 2.3 日.

平均値の信頼性は

表の式を使用して最大誤差を計算します。 母集団のサイズが不明であるため、反復サンプリングの場合は 9.3、 P = 0.954自信のレベル。

したがって、平均値は `x ± D = `x ± 2m = 12.0 ± 4.6、つまり その真の値は 7.4 ~ 16.6 日の範囲にあります。

Student の T テーブルを使用します。 このアプリケーションにより、n = 10 - 1 = 9 自由度の場合、得られた値は £ 0.001 の有意水準で信頼できると結論付けることができます。 結果として得られる平均値は 0 とは大きく異なります。

例 2. 確率 (一般シェア) の推定 p.

1000世帯の社会的地位を機械的にサンプリングして調査したところ、低所得世帯の割合が低いことが明らかになった。 w = 0.3 (30%)(サンプルは 2% 、つまり n/N = 0.02)。 信頼レベルで必須 p = 0.997指標を決める Rこの地域全体の低所得世帯。

解決。提示された関数値に基づいて Ф(t)与えられた信頼水準を見つける P = 0.997意味 t = 3(式 3 を参照)。 分数の限界誤差 w表から計算式で求めます。 9.3 非反復サンプリングの場合 (機械的サンプリングは常に非反復です):

最大相対サンプリング誤差 % は次のようになります:

この地域における低所得世帯の確率(一般的な割合)は、 р=w±Δw、信頼限界 p は二重不等式に基づいて計算されます。

w — Δ w ≤ p ≤ w — Δ w、つまり p の真の値は次の範囲内にあります。

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

したがって、確率 0.997 で、この地域の全世帯に占める低所得世帯の割合は 28.6% から 31.4% の範囲であると言えます。

例 3.区間系列で指定された離散特性の平均値と信頼区間の計算。

テーブル内 9.5。 企業による注文の実装のタイミングに応じて、注文を生産するためのアプリケーションの配布が指定されます。

表 9.5 出現時間別の観測値の分布

解決。 注文を完了するまでの平均時間は、次の式を使用して計算されます。

平均期間は次のようになります。

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23.1 か月。

テーブルの最後から 2 番目の列の p i のデータを使用しても、同じ答えが得られます。 9.5、次の式を使用します。

なお、最後の階調の間隔の中間は、前の階調の間隔の幅である60 - 36 = 24か月を人為的に補うことによって求められる。

分散は次の式を使用して計算されます。

どこ x i- インターバルシリーズの真ん中。

したがって!!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4) となり、平均二乗誤差は となります。

平均誤差は月次式を使用して計算されます。 平均値は!!\overline(x) ± m = 23.1 ± 13.4 です。

表の式を使用して最大誤差を計算します。 繰り返し選択の場合は 9.3、母集団のサイズが不明であるため、信頼水準が 0.954 の場合:

したがって、平均は次のようになります。

それらの。 その真の値は 0 ~ 50 か月の範囲にあります。

例4.商業銀行における N = 500 法人の債権者との和解速度を決定するには、ランダムで非反復的な選択方法を使用してサンプル研究を行う必要があります。 試行推定値で標準偏差 s が 10 日であることが示された場合、確率 P = 0.954 でサンプル平均の誤差が 3 日を超えないように、必要なサンプル サイズ n を決定します。

解決。 必要なスタディの数 n を決定するには、テーブルからの非反復選択の式を使用します。 9.4:

その中で、t 値は P = 0.954 の信頼水準から決定されます。 これは 2 に等しくなります。二乗平均値は s = 10、母集団サイズは N = 500、平均値の最大誤差は次のとおりです。 Δ x = 3。これらの値を式に代入すると、次のようになります。

それらの。 必要なパラメーター、つまり債権者との和解速度を推定するには、41 社のサンプルを収集するだけで十分です。

研究は通常、事実に基づくテストを必要とする何らかの仮定から始まります。 この仮定、つまり仮説は、特定のオブジェクトのセットにおける現象や特性の関係に関連して定式化されます。 このような仮定を事実に照らしてテストするには、その仮定の根拠となる対応する特性を測定する必要があります。 しかし、たとえば、すべての青少年の不安を測定することは不可能です。 したがって、研究を実施するときは、関連する人々の集団を代表する比較的少数のグループのみに限定されます。

人口- これは、研究仮説が定式化される関連するオブジェクトのセット全体です。 理論的には、人口の規模は無制限であると考えられています。 実際には、一般母集団の量は常に限られており、観察の対象や心理学者が解決しなければならない課題によって異なります。 通常、一般集団には、大学生、学童、企業従業員、年金受給者など、非常に多くのオブジェクトが含まれます。 一般集団を完全に研究することは非常に困難であるため、原則として、標本集団またはサンプルと呼ばれる一般集団のごく一部が研究されます。

サンプリング -これは、その特性を研究するために一般集団から特別に選ばれた、限られた数の対象物(心理学では被験者、回答者)です。 したがって、標本を使用して母集団の特性を研究することをサンプリング調査と呼びます。 ほとんどすべての心理学研究は選択的であり、その結論は一般集団にも適用されます。

多くの必須要件がサンプルに適用され、主に研究の目標と目的によって決定されます。 サンプル研究の結果の一般化、つまり一般化、一般集団への拡大が正当化されるようなものでなければなりません。

サンプルは次の条件を満たしている必要があります。



1. これは研究に利用できるオブジェクトのグループです。 サンプルサイズは、観察と実験のタスクと能力によって決まります。

2. 事前に指定された集団の一部である。

3. これは、母集団内のどの項目もサンプルに含まれる可能性が等しいように、ランダムに選択されたグループです。

研究結果の妥当性に関する主な基準は、サンプルの代表性と(経験的)結果の統計的信頼性です。

代表性 -言い換えれば、その代表性とは、対応する集団を一定の精度と十分な信頼性で特徴付ける能力です。 被験者のサンプルがその特徴において一般集団を代表するものであれば、その研究から得られた結果を一般集団全体に拡張する理由があります。

理想的には、代表的なサンプルは、心理学者によって研究された主要な特性、性質、性格特性などのそれぞれが、一般集団のこれらの同じ特徴に比例してその中で表されるようなものである必要があります。

代表性エラーは次の 2 つの場合に発生します。

1. 一般集団を特徴付ける小さなサンプル。

2. サンプルの特性 (パラメーター) と一般母集団のパラメーター間の不一致。

統計的有意性研究結果の統計的有意性は、統計的推論手法を使用して決定されます。 これらの方法については、「仮説のテスト」のトピックで詳しく説明します。 サンプルのサイズまたはサイズに特定の要件が課されることに注意してください。

診断技術を開発する場合には、200 人から 1,000 ~ 2,500 人という最大のサンプル サイズが必要になります。

2 つのサンプルを比較する必要がある場合、その合計数は少なくとも 50 人でなければなりません。 比較されるサンプルの数はほぼ同じである必要があります。

何らかの特性間の関係を研究する場合、サンプル サイズは少なくとも 30 ~ 35 人である必要があります。

研究対象の特性の変動が大きいほど、サンプルサイズを大きくする必要があります。 したがって、性別や年齢などによるサンプルの均一性を高めることで、ばらつきを減らすことができます。 これにより、結論を一般化する可能性が自然に減少します。

依存サンプルと独立サンプル。一般的な研究状況は、研究者にとって関心のある特性が、さらに比較する目的で 2 つ以上のサンプルで研究される場合です。 これらのサンプルは、組織化の手順に応じて、異なる割合になる可能性があります。 独立したサンプルは、1 つのサンプルで被験者が選択される確率が、他のサンプルでの被験者の選択に依存しないという事実によって特徴付けられます。 逆に、依存サンプルは、あるサンプルの各被験者が、別のサンプルの被験者によって特定の基準に従って照合されるという事実によって特徴付けられます。

独立したサンプルの最も典型的な例は、たとえば、知能に関する男性と女性の比較です。

代表性の概念。 概念的なオブジェクトと人口。 デザインされたオブジェクト。 設計上の人口と実際の人口。

私たちは、社会学が生命の流動的な即時性を扱うのではなく、特徴の空間内で特定の規則に従って編成されたデータを扱うことを知っています。 データとは、学習単位、つまりオブジェクトに割り当てられた変数の値を意味します。 これらのオブジェクト (コミュニティ、機関、人々、文章、物) は、属性の空間で多様で、しばしば奇妙な構成を形成し、研究者に現実について一般的な判断を下す機会を与えます。

現実について話してみると、厳密に言えば、取得されたデータは登録書類(アンケート、インタビューフォーム、観察プロトコルなど)にのみ関連していることがわかります。 研究室の窓の外(たとえば、体重計の反対側)の現実が変わらないという保証はありません。 私たちはまだサンプリング手順に到達していませんが、データの代表性の問題はすでに生じています。調査中に得られた情報を、私たちの特定の経験の外側にあるオブジェクトに拡張することは可能でしょうか? 答えは明らかです。できるのです。 そうでなければ、私たちの観察は「今、ここ」の全体性を超えることはできません。 それらはモスクワ人には適用されず、モスクワで電話でインタビューを受けたばかりの人々に適用される。 ネデリヤ新聞の読者ではなく、記入済みの切り取りクーポンを編集者に郵送した人に送られました。 調査を完了した後、私たちは「白雲母」と「読者」の両方が同じままであると想定せざるを得ません。 科学的観測により驚くべき不変性が明らかになったので、私たちは世界の安定を信じています。

単一の観察はより広い観察領域に拡張され、表現の問題は、調査対象の母集団のパラメータとオブジェクトの「実際の」特性との間の一致の度合いを確立することです。 サンプリング手順は、個々の瞬間的な観察から実際の研究対象と一般集団を再構成することを正確に目的としています。

サンプルの代表性の概念は、外部妥当性の概念に近いです。 前者の場合のみ、同じ特性がより広範な単位セットに外挿され、後者の場合には、ある意味コンテキストから別の意味コンテキストへの移行が行われます。 サンプリング手順は各人によって 1 日に 1,000 回実行されますが、観測値の代表性については誰も真剣に考えません。 経験は計算に取って代わります。 お粥が十分に塩漬けされているかどうかを確認するために、鍋全体を食べる必要はまったくありません。ここでは、スポットチェックを含む非破壊検査方法がより効果的です。スプーン1杯を試す必要があります。 同時に、お粥がよく混合されていることを確認する必要があります。 お粥の混合が不十分な場合は、1回の測定ではなく、一連の測定、つまり鍋のさまざまな場所で試してみるのが理にかなっています。これはすでにサンプルです。 試験での生徒の答えが自分の知識を表しており、偶然の成功または不合格ではないことを確認することはさらに困難です。 これを行うために、いくつかの質問が行われます。 学生がある主題に関して考えられるすべての質問に答えた場合、結果は「真実」、つまり実際の知識を反映していると想定されます。 しかし、それでは誰も試験に合格できなくなります。



サンプリング手順の基礎は常に「if」です。つまり、観測値の外挿によって得られる結果は大きく変わらないという仮定です。 したがって、母集団はサンプル母集団の「客観的な可能性」として定義できます。

研究の対象が何を意味するのかを理解すると、問題はもう少し複雑になります。 かなり多くの人々を研究した社会学者は、「急進主義と保守主義」の変数は年齢と正の相関があるという結論に達しました。特に、古い世代は革新的というよりも保守的です。 しかし、調査対象であるサンプル母集団は、それ自体としては現実には存在しません。 それは回答者の選択とインタビューの実施という手順によって構築され、その後すぐに消え、配列の中に溶けてしまいます。 実際、データが直接「削除」されるサンプル母集団はこの手順によって生成されますが、同時にそれはより大きな母集団に溶解され、それはさまざまな程度の精度と信頼性で表現または表現されます。 社会学的結論は、先週調査した回答者には適用されず、理想化された対象、つまり「年配の世代」、「若者」、「急進主義」や「保守主義」を示す人たちに適用される。 私たちは、時空間的状況に制限されないカテゴリー的な一般化について話しています。 この点で、選択的手順は観察から自分を解放し、アイデアの世界に移行するのに役立ちます。

このようにして、私たちは研究の対象と一般の人々を区別する機会を得ることができます。対象とは単なる単位の集合ではなく、研究単位の特定と選択がそれに従って行われる概念です。 この点において、その概念に対応する存在のみを真とみなすというヘーゲルの命令は正しい。 理論的には、研究の対象を表す概念の量は、一般集団の量に対応する必要があります。 ただし、そのような対応が達成されることは非常にまれです。

コンセプトが必要になります 概念的なオブジェクト -トピックの枠組みを示す理想的な構造。 「ロシア人」、「中央新聞の読者」、「有権者」、「民主的大衆」 - これらは社会学者の典型的な研究対象です。 間違いなく、完全に現実の一般集団が概念的な対象に対応する必要があります。 これを行うには、別の研究対象を提供する必要があります。 デザインされたオブジェクト。設計されたオブジェクトは、研究者が利用できるユニットのセットです。 課題は、データ収集のためにアクセスできない、またはアクセスが難しいグループを特定することです。

「ロシア人」と指定された対象を調査することがほぼ不可能であることは明らかです。 ロシア人の中には、刑務所、矯正労働施設、公判前拘置所など、面接官が近づきにくい場所にいる人も少なくない。 このグループは、設計されたオブジェクトから「減算」する必要があります。 精神科病院の多くの患者、子供、一部の高齢者も「減額」されなければならないだろう。 民間社会学者が軍人をサンプルに含める通常の機会を提供できる可能性は低い。 同様の問題は、読者、有権者、小さな町の住民、劇場来場者を対象とした調査にも伴う。

ここに挙げた困難は、社会学者が研究の現場段階で直面する、しばしば乗り越えられない障害のほんの一部にすぎません。 専門家はこれらの困難を予測し、設計されたオブジェクトの完全な実装について幻想を抱かないようにする必要があります。 そうでないと彼はがっかりするでしょう。

したがって、地域の地図がその地域自体と一致しないのと同じように、研究対象は一般の人々と一致しません。

私たちは長い間考え、考えました、将軍たちはすべてを大きな紙に書きました。 紙の上では滑らかだったが、彼らは渓谷のことを忘れ、そして渓谷に沿って歩いていた -

アパートからアパートへと歩かなければならないことを考えると、老兵士の歌のこれらの言葉はサンプル デザインに非常に当てはまります。

もちろん、母集団はユニットが抽出される母集団です。 しかし、そう見えるだけです。 サンプルは、実際の回答者の選択に使用される母集団から抽出されます。 彼女に電話しましょう 本物。予測人口と実際の人口の違いは、「予測」回答者のリストと実際にインタビューされた回答者のリストを比較することで、直接見ることができます。

本当の対象は、入手可能な一次社会学的情報の制限を考慮して、フィールド調査の段階で形成された全体性です。 捕虜、軍人、病人に加えて、特に調査が秋に実施される場合、交通機関から離れた村の住民がサンプルに含まれる可能性は低くなります。 原則として家にいない人、見知らぬ人と話す気がない人など。面接官がコントロールの欠如を利用して、自分の義務を正確に遂行することを怠り、面接すべき人に面接しないことが起こります。指示に従って面接を受けますが、より「取得」しやすい人。 例えば、面接官は、自宅にいる人を見つけやすい夕方に回答者のアパートを訪問するよう命じられた。 たとえば研究が11月に実施された場合、ロシア中部では夕方5時には街は完全に暗くなる。 多くの都市では、通りの名前や家番号が記載された標識はあまり見られません。 面接官の職務が地元の教育機関の学生によって行われている場合、実際のオブジェクトが設計されたものからどの程度乖離しているかが想像できます。 場合によっては、研究者が自分自身でアンケートに記入するという、さらに単純な方法で調査を行うこともあります。 これらの問題は、いわゆるサンプリング バイアスの原因の 1 つです。

アンケートの完了を制御する非常に効果的な方法と、サンプルを修復する方法、特に回答者の主要な類型グループを「重み付け」する非常に効果的な方法があります。つまり、欠落しているグループが増加し、過剰なグループが減少します。 このようにして、実際の配列が設計された配列に合わせて調整され、これは非常に正当化されます。

http://www.hi-edu.ru/e-books/xbook096/01/index.html?part-011.htm– とても便利なサイトです!

研究のサンプリング方法は主な統計方法です。 研究対象のオブジェクトの量は通常無限であるため、これは当然のことです (たとえ有限であっても、すべてのオブジェクトを分類するのは非常に困難です。オブジェクトの一部、つまり選択だけで満足する必要があります)。

一般集団とサンプル集団

一般母集団とは、特定の実験で研究されたすべての要素の合計です。

サンプル母集団 (またはサンプル) は、母集団からランダムに選択されたオブジェクトの有限の集合です。

母集団 (サンプルまたは一般) の体積は、この母集団内のオブジェクトの数です。

一般母集団と標本母集団の例

黄金比に関連して特定のセグメントを分割する人の心理的傾向を研究しているとします。 黄金分割の概念自体の起源は人体の人体計測によって決定されるため、この場合、一般集団とは、肉体的に成熟し、最終的なプロポーションを獲得した人為的な生き物、つまり全体の体積を獲得したものであることは明らかです。人間の大人の部分。 このコレクションの量は事実上無限です。

この素因が芸術環境のみで研究されている場合、一般集団はデザインに直接関係する人々、つまりアーティスト、建築家、デザイナーということになります。 このような人々も多数存在し、この場合の一般人口の体積も無限であると想定できます。

どちらの場合でも、研究のためには、技術的専門の学生(芸術の世界から遠く離れた人々として)またはデザインの学生(芸術の世界に直接関係する人々として)をどちらかの母集団の代表として選択し、妥当なサンプルサイズに制限する必要があります。世界の芸術的なイメージ)。

代表性

サンプリング法の主な問題は、研究のために一般母集団から選択された対象が、研究対象の一般母集団の特徴をどの程度正確に表すかという問題、つまりサンプルの代表性の問題です。

したがって、サンプルが一般母集団の量的関係を十分に正確に表す場合、そのサンプルは代表的と呼ばれます。

もちろん、曖昧な表現の背後に何が隠されているのかを正確に言うことは困難です かなり正確に。 一般に、代表性の問題は、あらゆる実験研究において最も議論の余地があります。 サンプルの代表性が不十分なために実験者が不合理な結果を導いた例は、すでに古典的になっていますが、たくさんあります。

原則として、科学界が研究の正しさに関して権威ある専門家グループの見解を受け入れる場合、代表性の問題は専門家の評価を通じて解決されます。

代表性の例

セグメントを分割する例に戻りましょう。 サンプルの代表性の問題は、ここでの研究のまさに根幹にあります。私たちは、いかなる状況においても、芸術的環境に属していることに基づいて主題のグループを混合すべきではありません。

観察された特性の統計的分布

観測値の頻度

サンプルボリュームでのテストの結果、観察された属性が次の値を取るとします。その値は 1 回観察され、その値は 1 回観察され、その値は 1 回観察されました。 次に、観測された値の頻度は数値と呼ばれ、値は数値などと呼ばれます。

観測値の相対頻度

観測値の相対頻度は、頻度とサンプル サイズの比です。

観察された特性の周波数の合計がサンプルサイズを与えることは明らかです。

そして、相対周波数の合計は 1 を与えるはずです。

これらの考慮事項は、統計テーブルを作成する際の制御に使用できます。 等式が満たされない場合は、実験結果の記録時にエラーが発生したことになります。

観測値の統計分布

観察された特性の統計的分布は、特性の観察値と対応する頻度 (または相対頻度) との対応関係です。

原則として、統計分布は2行の表の形式で書かれ、特性の観測値が1行目に示され、対応する頻度(または相対頻度)が2行目に示されます。ライン:

したがって、研究対象の確率変数が影響を受けるパターンは、その観察 (または実験) のための実際の一連の条件によって物理的に完全に決定され、対応する確率空間によって、または同じことですが、対応する確率空間によって数学的に指定されます。確率分布の法則。 ただし、統計調査を行う場合、一般母集団の概念に関連する別の用語の方が多少便利であることがわかります。

一般母集団とは、実際に与えられた一連の条件下で行われる可能性のあるすべての考えられる観察 (または、観察が「取得」される、私たちが興味を持っているタイプの精神的に可能なすべてのオブジェクト) の総和です。 この定義は精神的に可能なすべての観察(またはオブジェクト)を扱うため、一般母集団の概念は条件付きで数学的で抽象的な概念であり、統計研究の対象となる実際の母集団と混同すべきではありません。 したがって、サブ産業のすべての企業を特徴付ける技術的および経済的指標の値を記録するという観点から調査したとしても、調査対象の母集団は、仮説的に考えられるより広い企業母集団の代表としてのみ考えることができます。同じ実際の一連の条件内で動作する可能性がある

実際の作業では、選択を観察対象の特性に関連付けるのではなく、観察対象に関連付けた方が便利です。 私たちは研究のために機械、地質サンプル、人を選択しますが、機械、サンプル、人の特性の値は選択しません。 一方、数学理論では、オブジェクトとその一連の特性に違いはなく、導入された定義の二重性は消滅します。

ご覧のとおり、「一般人口」という数学的概念は、「確率空間」、「確率変数」、「確率分布法則」の概念と同様に、対応する実際の一連の条件によって物理的に完全に決定されます。これら 4 つの数学的概念は、ある意味では同義語と見なすことができます。 考えられるすべての観測値の集合が有限であるか無限であるかに応じて、母集団は有限または無限と呼ばれます。

この定義から、連続集団 (連続的な性質の兆候の観察からなる) は常に無限であることがわかります。 離散的な一般集団は、無限または有限のいずれかになります。 たとえば、N 個の製品のバッチがグレードについて分析される場合 (4.1.3 項の例を参照)、各製品が 4 つのグレードのいずれかに割り当てられる場合、調査対象の確率変数は、次の製品からランダムに抽出された製品のグレード番号になります。バッチ、および可能な値のセットの確率変数はそれぞれ 4 つの点 (1、2、3、および 4) で構成されます。その場合、明らかに、母集団は有限になります (考えられる観測値は N 個のみ)。

無限の母集団という概念は、確率変数の測定を無限回繰り返すことができるという考えと同様に、数学的な抽象化です。 与えられた実際の条件セットによって生成されるオブジェクトの数が無限に増加する場合、ほぼ無限の一般集団は有限集団の限定的なケースとして解釈できます。 したがって、今挙げた例で、製品のバッチではなく、同じ製品の継続的な大量生産を考慮すると、無限の一般人口の概念に到達します。 実際には、このような変更は次の要件と同等です。

特定の母集団からのサンプルは、確率変数の限定された一連の観察の結果です。 サンプルは、一般母集団の一種の経験的類似物と考えることができます。これは、一般母集団全体を調査することは労働集約的すぎるか (N が大きい場合)、根本的に不可能であるため、実際に私たちが最も頻繁に扱うものです。 (無限の一般集団の場合)。

サンプルを構成する観測値の数はサンプルサイズと呼ばれます。

サンプルサイズが大きく、1 次元の連続値 (または、取り得る値の数が非常に多く、たとえば 10 を超える 1 次元の離散値) を扱っている場合、多くの場合、観測結果のさらなる統計処理を簡素化する観点から、いわゆる「グループ化された」サンプルデータに進む方が便利です。 この移行は通常、次のように実行されます。

a) サンプル内の最小値と最大値が記録されます。

b) 調査範囲全体が、一定数の 5 つの等しいグループ化間隔に分割されます。 この場合、間隔 s の数は 8 ~ 10 未満であってはならず、20 ~ 25 を超える必要があります。間隔の数の選択はサンプル サイズに大きく依存します。選択 5 のおおよその方向については、次を使用できます。近似式

これはむしろ s のより低い推定値として解釈されるべきです (特に大規模な場合)

c) 各間隔の極点とその中間点が昇順でマークされます。

d) 各間隔に該当するサンプル データの数がカウントされます。(当然のことですが)。 区間の境界に該当するサンプル データは、2 つの隣接する区間に均等に分散されるか、一方の区間 (たとえば、左側) にのみ割り当てられることが合意されています。

問題の具体的な内容に応じて、このグループ化スキームにいくつかの変更が加えられる場合があります (たとえば、場合によっては、グループ化間隔の長さが等しいという要件を放棄することが賢明です)。

サンプル データを使用した以降のすべての議論では、今説明した表記法から進めていきます。

統計的手法の本質は、一般母集団の特定の部分 (つまり、サンプル) を使用して、全体としての特性について判断することであることを思い出してください。

データの統計処理の結果として得られる結論の信頼性を決定する解決策の成功により最も重要な問題の 1 つは、サンプルの代表性の問題です。 私たちが興味を持っている、分析された一般集団の特性の表現の完全性と適切性の問題。 実際の作業では、研究のために採取された同じオブジェクトのグループを、さまざまな一般集団からのサンプルとみなすことができます。 したがって、詳細な社会学的調査のために、都市地区の 1 つの住宅維持管理局 (ZhEK) のコーポラティブ ハウスから無作為に選択された家族グループは、一般の家族集団 (協同組合の協力を得て) からのサンプルとしても考慮できます。住宅の形態)、この ZhEK の、特定の地域の一般人口家族からのサンプルとして、都市のすべての家族の一般人口からのサンプルとして、そして最後に、すべての家族の一般人口からのサンプルとしてコーポラティブハウスに住む市内の家族。 検査結果の有意義な解釈は、選択した家族グループがどの一般集団の代表であると考えられるか、また、このサンプルがどの一般集団の代表であると考えられるかに大きく依存します。 この質問に対する答えは、多くの要因によって異なります。 特に上記の例では、家族が特定の住宅事務所または地区全体に所属することを決定する特別な (おそらく隠された) 要因の有無に依存します (そのような要因は、たとえば、家族の一人当たりの平均収入、市内の地区の地理的位置、その地域の「年齢」など)。