메뉴
무료로
등록
 /  수포진/ 일반 모집단 및 인형 샘플링. 일반 모집단과 표본 모집단. 대표성의 개념

인형의 모집단 및 샘플링. 일반 모집단과 표본 모집단. 대표성의 개념

강의 6. 요소 수학적 통계

지식을 통제하고 주어진 강의를 요약하는 질문

1. 확률변수를 정의합니다.

2. 이산형 및 연속형 확률변수의 수학적 기대값과 분산에 대한 공식을 작성합니다.

3. 라플라스의 국소 적분 극한 정리 정의

4. 이항 분포, 초기하 분포, 포아송 분포, 균일 분포 및 정규 분포를 정의하는 공식을 작성합니다.

목표: 수리통계의 기본 개념을 공부한다.

1. 모집단 및 표본

2. 표본의 통계적 분포. 다각형. 막대 차트 .

3. 표본을 기반으로 한 일반 모집단의 매개변수 추정

4. 일반 및 표본 평균. 계산 방법.

5. 일반 및 표본 분산.

6. 지식을 통제하고 강의 내용을 요약하기 위한 질문

우리는 통계 데이터를 수집하고 처리하기 위한 과학적 기반 방법을 개발하는 수학적 통계 요소를 연구하기 시작합니다.

1. 일반 모집단 및 표본.동질적인 객체 세트를 연구해야 합니다(이 세트를 통계 집계)이러한 개체를 특징짓는 일부 질적 또는 양적 특징에 관한 것입니다. 예를 들어, 부품 배치가 있는 경우 부품의 표준은 정성적 기호로 사용될 수 있고, 부품의 제어된 크기는 정량적 기호로 사용될 수 있습니다.

완전한 검사를 수행하는 것이 가장 좋습니다. 각 개체를 검사합니다. 그러나 대부분의 경우 여러 가지 이유로 이를 수행할 수 없습니다. 완전한 검사를 방해할 수 있음 큰 숫자객체, 접근 불가능성. 예를 들어, 실험용 배치의 포탄이 폭발할 때 분화구의 평균 깊이를 알아야 하는 경우 전체 검사를 수행하여 전체 배치를 파괴합니다.

전체 조사가 불가능할 경우 전체 모집단에서 개체의 일부를 선택하여 연구합니다.

객체의 일부가 선택된 통계적 모집단을 호출합니다. 일반 인구.모집단에서 무작위로 선택된 개체 집합을 호출합니다. 견본 추출.

모집단과 표본의 개체 수를 각각 호출합니다. 용량일반 인구와 용량견본.

예제 10.1.한 나무의 열매(200개)를 검사하여 이 품종 특유의 맛이 있는지 확인합니다. 이를 위해 10개의 작품이 선택되었습니다. 여기서 200은 모집단의 크기이고 10은 표본의 크기입니다.

샘플이 한 번에 하나의 개체를 선택하면 검사되어 반환됩니다. 일반 인구, 샘플이 호출됩니다. 반복.표본 개체가 더 이상 모집단에 반환되지 않으면 표본이 호출됩니다. 반복 가능.



실제로는 비반복 샘플링이 더 자주 사용됩니다. 표본 크기가 모집단 크기의 작은 부분인 경우 반복 표본과 비복제 표본 간의 차이는 무시할 수 있습니다.

표본에 있는 개체의 속성은 모집단에 있는 개체의 속성을 정확하게 반영해야 합니다. 또는 그들이 말하는 대로 표본은 다음과 같아야 합니다. 대표(대표). 모집단의 모든 개체가 표본에 포함될 확률이 동일하면 표본이 대표성 있는 것으로 간주됩니다. 즉, 무작위로 선택됩니다. 예를 들어, 향후 수확량을 추정하기 위해 아직 익지 않은 일반 과일 모집단에서 표본을 만들고 그 특성(무게, 품질 등)을 조사할 수 있습니다. 전체 표본을 하나의 나무에서 채취하면 대표성이 없습니다. 대표 표본은 무작위로 선택된 나무에서 무작위로 선택된 과일로 구성되어야 합니다.

2. 표본의 통계적 분포. 다각형. 막대 차트.일반 모집단에서 표본을 추출하고, 엑스 1명이 관찰됨 N 1회, 엑스 2 - n 2한 번, ..., xk-n k번 그리고 N 1 +N 2 +…+ 엔케이= 피 -표본의 크기. 관찰된 값 엑스 1 , 엑스 2 , …, xk~라고 불리는 옵션,오름차순으로 작성된 변형 시퀀스는 다음과 같습니다. 변형 시리즈.관측치 수 N 1 , N 2 , …, 엔케이~라고 불리는 주파수,그리고 표본 크기와의 관계, , ..., - 상대 주파수.상대 빈도의 합은 1과 같습니다. .

통계적 표본 분포옵션 목록과 해당 빈도 또는 상대 빈도를 호출합니다. 통계 분포는 일련의 간격과 해당 빈도(연속 분포)로 지정할 수도 있습니다. 이 간격 내에 속하는 변이의 빈도의 합은 간격에 해당하는 빈도로 간주됩니다. 통계 분포를 그래픽으로 표시하려면 다음을 사용하십시오. 다각형그리고 히스토그램.

축에 다각형을 구성하려면 값 연기 옵션 엑스나, 축에 OU -빈도 값 나는 (상대 주파수).

예제 10.2.그림에서. 10.1은 다음 분포의 다각형을 보여줍니다.

다각형은 일반적으로 옵션 수가 적은 경우에 사용됩니다. 변형 수가 많고 속성이 연속적으로 분포하는 경우 히스토그램이 구성되는 경우가 많습니다. 이를 위해 속성의 관찰된 모든 값이 포함된 간격을 길이의 여러 부분 간격으로 나눕니다. 시간각 부분 간격에 대해 찾습니다. 아니 나는, - 다음에 포함된 변형의 빈도의 합 -간격. 그런 다음 베이스와 마찬가지로 이러한 간격에 높이가 있는 직사각형이 만들어집니다(또는 피 -표본의 크기).

정사각형 부분 직사각형은 다음과 같습니다. , (또는 ).

결과적으로 히스토그램의 면적은 모든 빈도(또는 상대 빈도)의 합과 같습니다. 표본 크기(또는 단위).

예제 10.3.그림에서. 그림 10.2는 연속적인 부피 분포의 히스토그램을 보여줍니다. N= 다음 표에 100이 나와 있습니다.

수학적 통계에는 모집단과 표본이라는 두 가지 기본 개념이 있습니다.
세트는 연구자가 관심을 갖는 일부 개체 또는 요소의 거의 셀 수 있는 세트입니다.
컬렉션의 속성은 컬렉션의 일부 요소가 공유하는 실제 또는 상상의 품질입니다. 속성은 무작위이거나 무작위가 아닐 수 있습니다.
모집단 매개변수는 상수나 변수로 정량화할 수 있는 속성입니다.
간단한 세트의 특징은 다음과 같습니다.
별도의 재산(예: 러시아의 모든 학생)
상수 또는 변수 형태의 별도 매개변수(모든 여학생)
중첩되지 않는(호환되지 않는) 속성 시스템, 예: 블라디보스토크 학교의 모든 교사와 학생.
복잡한 집합의 특징은 다음과 같습니다.
적어도 부분적으로 중복되는 속성의 시스템(금메달을 받고 학교를 졸업한 극동 주립 대학의 심리학 및 수학 학부 학생)
총체적인 독립 및 종속 매개변수 시스템; 종합적인 성격 연구에서.
동종 또는 동종은 집합이며, 그 모든 특성은 각 요소에 내재되어 있습니다.
이종 또는 이종은 특성이 요소의 별도 하위 집합에 집중되어 있는 모집단입니다.
중요한 매개 변수는 인구의 양, 즉 인구를 구성하는 요소의 수입니다. 볼륨의 크기는 인구 자체가 어떻게 정의되는지, 그리고 우리가 특별히 관심을 갖는 질문이 무엇인지에 따라 달라집니다. 1학년 학생이 학기 중 특정 시험을 치르는 기간 동안의 감정 상태에 관심이 있다고 가정해 보겠습니다. 그러면 인구는 30분 안에 소진됩니다. 전체 1학년 학생들의 감정 상태에 관심이 있다면 그 총합은 훨씬 더 커질 것이고, 특정 대학의 모든 1학년 학생들의 감정 상태를 취한다면 그 전체는 더욱 커질 것입니다. 대규모 인구는 선택적으로만 연구할 수 있다는 것이 분명합니다.
표본은 일반 인구의 특정 부분으로 직접 연구되는 것입니다.
표본은 대표성, 크기, 선정방법, 시험설계에 따라 분류된다.
대표성(Representative) - 질적, 양적 측면에서 일반 인구를 적절하게 반영하는 표본입니다. 표본은 모집단을 적절하게 반영해야 합니다. 그렇지 않으면 결과가 연구 목표와 일치하지 않을 것입니다.
대표성은 부피에 따라 달라지며, 부피가 클수록 샘플의 대표성이 높아집니다. 선택 방법에 따라.
Random - 요소가 무작위로 선택된 경우입니다. 대부분의 수리통계 방법은 무작위 표본추출의 개념을 기반으로 하기 때문에 표본추출은 당연히 무작위이어야 합니다.
비무작위 샘플링:
기계적 선택, 전체 모집단을 표본에 계획된 단위만큼 많은 부분으로 나눈 다음 각 부분에서 하나의 요소를 선택하는 경우;
일반적인 선택 - 모집단을 균질한 부분으로 나누고 각 부분에서 무작위 표본을 추출합니다.
연속 선택 - 모집단을 다양한 크기의 시리즈로 나눈 다음 하나의 특정 시리즈의 샘플을 만듭니다.
결합 선택 - 고려 중인 선택 유형이 여러 단계에서 결합됩니다.
테스트 설계에 따라 샘플은 독립적일 수도 있고 종속적일 수도 있습니다. 표본 크기에 따라 표본을 소형과 대형으로 나눕니다. 작은 표본에는 요소 수가 n 200이고 평균 표본이 조건 30을 충족하는 표본이 포함됩니다. 작은 표본은 이미 연구된 모집단의 알려진 특성을 통계적으로 제어하는 ​​데 사용됩니다.
대규모 표본은 모집단의 알려지지 않은 특성과 매개변수를 설정하는 데 사용됩니다.

주제 1.3에 대해 자세히 알아보십시오. 모집단 및 표본:

  1. 7.2 표본과 모집단의 특성
  2. 1.6. 정규 분포 모집단의 상관 계수에 대한 점 및 구간 추정

샘플 연구를 수행해야 하는 이유는 다음과 같습니다.

    연구 중인 현상에 대한 완전한 연구는 종종 비용이 너무 많이 들고 시간 소모적입니다.

    때로는 전체 연구에서 얻은 정보를 준비 과정이 완료되기 전에 사용할 기회가 소진될 수 있습니다.

    어떤 경우에는 제품의 품질을 확인한 결과 연구 대상이 파기되는 경우도 있습니다.

예:

    모집단이 학교의 모든 학생(20개 학급 600명, 각 학급 30명)이라고 가정합니다. 연구 주제는 흡연에 대한 태도입니다.

인구정보를 얻는 데 필요한 개체 집합입니다.

일반 모집단은 연구자가 관심을 갖는 특성과 속성을 가진 모든 개체로 구성됩니다. 때로는 일반 인구가 특정 지역의 전체 성인 인구인 경우도 있습니다(예: 후보자에 대한 잠재적 유권자의 태도를 연구할 때). 대부분 연구 대상을 결정하는 몇 가지 기준이 지정됩니다. 예를 들어, 특정 브랜드의 핸드 크림을 일주일에 한 번 이상 사용하고 가족 구성원당 소득이 최소 5,000루블인 10~89세 여성입니다.

견본인구에서 추출된 작은 개체 집합입니다.

표본 모집단은 일반 모집단에서 특정 절차를 사용하여 선택된 결과(사례, 피험자, 대상, 사건, 표본)를 연구하는 데 필요한 최소한의 모집단입니다.

예:

    혁신에 대한 회사 고객의 반응을 식별합니다. 회사의 모든 고객은 일반 대중을 대표합니다. 전화를 받은 고객이 샘플을 구성합니다.

    거래 수가 많은 회사를 감사할 때는 선택된 거래 수를 연구하는 것으로 만족해야 합니다. 회사의 모든 거래는 일반 대중을 구성하고 선택된 거래는 표본을 구성합니다.

    일반 인구는 특정 연도의 모든 징집병으로 구성됩니다.

    특정 기업에서 일정 기간 동안 생산된 모든 램프는 일반 인구를 구성합니다. 제어를 위해 선택된 램프가 선택됩니다.

표본은 대표성 또는 비대표성으로 간주될 수 있습니다. 표본은 대규모 그룹을 조사할 때 대표성이 있으며, 이 그룹 내에 다른 하위 그룹의 대표자가 있는 경우 이것이 올바른 결론을 도출할 수 있는 유일한 방법입니다. .

대표성은 표본 특성이 모집단 또는 전체 모집단의 특성과 일치하는 것입니다.대표성은 특정 표본을 사용한 연구 결과를 표본이 수집된 전체 모집단에 일반화할 수 있는 정도를 결정합니다.

대표성은 연구 목적의 관점에서 중요한 일반 모집단의 매개변수를 대표하는 표본 모집단의 속성으로 정의될 수도 있습니다.

예: 60명의 고등학생으로 구성된 표본은 각 학년에서 3명의 학생을 포함하는 동일한 60명의 표본보다 모집단을 훨씬 덜 잘 나타냅니다. 그 주된 이유는 학급의 불평등한 연령 분포 때문입니다. 결과적으로 첫 번째 경우에는 표본의 대표성이 낮고, 두 번째 경우에는 대표성이 높다(다른 조건은 모두 동일). .

작업 1. 253,000명의 적격 유권자가 있는 도시에서 미래 유권자의 정치적 성향을 조사합니다.

해결책

    샘플은 15번째 구매자마다 인터뷰를 통해 큰 금액을 남기는 방식으로 구성될 수 있습니다. 쇼핑 센터. 이러한 표본은 쇼핑몰 방문자의 견해를 반영하지만 모든 도시 거주자의 견해를 대변하지는 않습니다.

    표본을 구성하는 또 다른 방법은 도시의 모든 100번째 주민을 대상으로 전화번호부에서 번호를 뽑아 전화 설문조사를 실시하는 것입니다. 이 체계적인 샘플링은 전화를 가지고 있고, 집에 있고, 전화를 받는 사람들 그룹의 견해에 대한 정보를 제공합니다. 하지만 서울시민 전체의 의견이 반영된 것은 아니다.

    표본을 구성하는 또 다른 방법은 여러 사람들이 조직한 집회에서 참가자들을 인터뷰하는 것입니다. 정당. 이러한 샘플은 적극적으로 참여하는 주민들에 대한 정보를 제공합니다. 정치 생활도시.

따라서 전체 모집단을 대표할 수 있는 표본을 구성하는 방법이 필요합니다. 즉, 표본은 대표성(대표성)이어야 합니다.

작업 2.표본이 대표적인지 여부를 확인합니다.

1) 해당 연도의 도시 사고에 대한 통계 보고서를 작성하는 데 필요한 경우 6월의 자동차 사고 건수

2) 국가의 1인당 자동차 수를 계산할 때 도시 거주자;

3) 청소년 텔레비전 프로그램의 시청률을 결정할 때 40~50세인 사람.

해결책

1) 표본은 대표성이 없습니다. 여름에는 도로에 눈이나 얼음이 없으며 이는 사고의 주요 원인 중 하나입니다.

2) 표본은 대표성이 없습니다. 시골 지역보다 도시에 자동차가 더 많은 것은 분명합니다. 이 점을 고려해야 합니다.

3) 표본은 대표성이 없습니다. 40~50세의 사람들은 청소년 시청자를 대상으로 하는 프로그램에 관심을 보이지 않을 것입니다. 이러한 샘플을 사용하면 등급이 크게 떨어질 수 있지만 이는 실제 상황을 반영하지 않습니다. 표본 모집단을 형성하기 위해 그들은 다음을 사용합니다. 다양한 방법선택. 통계는 사용될 수 있는 방식으로 제시되어야 한다.

모집단 및 표본 매개변수

N은 일반 인구로, 계층 N 1, N 2 등으로 구분됩니다.

지층통계적 특성 측면에서 동질적인 개체를 나타냅니다. 예를 들어 인구는 다음과 같은 계층으로 나뉩니다. 연령대또는 사회적 소속; 기업-산업별). 이 경우 샘플을 계층화라고 합니다.

N - 표본 크기.

연구의 통계적 결론은 무작위 변수 X의 분포를 기반으로 하며, 관찰된 값 x 1, x 2, x 3을 무작위 변수 x의 실현이라고 합니다.

일반 모집단에서 확률 변수 X의 분포는 이론적이고 이상적인 성격을 가지며 샘플 유사체는 경험적 분포입니다.

표본의 경우 분포함수를 결정하는 것이 어렵고 때로는 불가능하기 때문에 경험적 데이터로부터 모수를 추정한 후 이론적 분포를 설명하는 분석식으로 대체합니다. 이 경우 분포 유형에 대한 가정은 통계적으로 정확할 수도 있고 오류가 있을 수도 있습니다.

그러나 어떤 경우에도 표본에서 재구성된 경험적 분포는 실제 분포의 특징을 대략적으로만 나타냅니다.

분포의 가장 중요한 매개변수는 수학적 기대치입니다.및 분산 σ 2- 데이터 분산 측정.

표준 편차σ - 관찰 데이터 또는 세트가 평균값에서 벗어난 정도.

작업 3. Mikhail과 그의 친구들은 개들의 키(시들 때)를 측정하기로 결정했습니다. 찾기: 평균값; 성장 편차.

해결책

    수학적 기대값 또는 평균값은 다음 공식을 사용하여 찾을 수 있습니다.


    이제 평균 또는 수학적 기대치로부터 각 개의 키의 편차를 계산해 보겠습니다. 즉, 분산을 계산해 보겠습니다.


표준편차는 바로 제곱근분산에서.

σ \ = 147,32

따라서 아는 것은 표준 편차우리는 "정상 키"가 무엇을 의미하는지, 그리고 매우 키가 큰 개와 매우 작은 개를 구성하는 요소가 무엇인지 알고 있습니다.

답변: 394, 21,704; 147.32.

작업 4.공장에서 생산된 동일한 전력의 대규모 램프 배치에서 무작위로 추출한 동일한 전력의 전기 램프 50개의 유효 기간을 제어 실험실에서 관찰한 결과 확립된 보증 위반에 대한 다음 데이터가 도출되었습니다.연소 시간:

편차 시간

실제 편차를 반영하는 10개의 작은 분포 보증에서 전구의 연소 기간.

해결책.

평균 편차

따라서 원하는 정규 분포는 다음과 같은 특징을 갖습니다. 다음 값으로매개변수: a = 0.4;σ 2 = 318; σ = 17.8.

따라서 확률 밀도는 다음과 같습니다.

이 밀도에 해당하는 분포 함수는 다음과 같습니다.

확률변수의 분포에는 해당 변수의 통계적 특성에 대한 모든 정보가 포함되어 있습니다. 분포를 구성하려면 확률 변수의 값을 몇 개나 알아야 합니까? 그러기 위해서는 탐색이 필요하다 일반 인구.

모집단은 주어진 무작위 변수가 취할 수 있는 모든 값의 집합입니다.

모집단의 단위 수를 부피라고 합니다. N. 이 값은 유한하거나 무한할 수 있습니다. 예를 들어, 특정 도시의 주민 증가를 조사하면 인구 규모는 해당 도시의 주민 수와 같습니다. 만약에 어떠한 물리적 실험, 그러면 일반 인구의 양은 무한할 것입니다. 왜냐하면 물리적 매개변수의 가능한 모든 값의 수는 무한대와 같습니다.

일반 인구를 대상으로 연구하는 것이 항상 가능하거나 권장되는 것은 아닙니다. 인구수가 무한하다면 불가능하다. 그러나 제한된 양의 경우에도 많은 시간과 노력이 필요하고 일반적으로 결과의 절대적인 정확성이 필요하지 않기 때문에 완전한 연구가 항상 정당화되는 것은 아닙니다. 일반 인구의 일부만을 연구하면 덜 정확한 결과를 얻을 수 있지만 훨씬 적은 노력과 비용으로 얻을 수 있습니다. 이러한 연구를 샘플링이라고 합니다.

모집단의 일부만을 대상으로 한 통계적 연구를 표본추출이라 하고, 모집단 중 연구 대상인 부분을 표본이라 한다.

그림 7.2는 모집단과 표본을 집합과 그 부분집합으로 상징적으로 보여줍니다.

그림 7.2 모집단과 표본

종종 그 중 중요하지 않은 부분을 구성하는 주어진 인구의 특정 하위 집합을 사용하여 우리는 실제 목적에 있어 매우 만족스러운 정확도의 결과를 얻습니다. 모집단의 더 많은 부분을 연구하면 정확도가 높아질 뿐이지만 통계적 관점에서 표본을 올바르게 채취하면 결과의 본질이 바뀌지 않습니다.

표본이 모집단의 특성을 반영하고 결과를 신뢰할 수 있으려면 다음과 같아야 합니다. 대표(대표).

일부 일반 인구의 경우 특성상 어느 부분이든 대표성을 갖습니다. 그러나 대부분의 경우 대표 샘플을 보장하기 위해 특별한 조치를 취해야 합니다.

하나현대 수학 통계의 주요 성과 중 하나는 무작위 샘플링 방법의 이론과 실제를 개발하여 데이터 선택의 대표성을 보장한다는 것입니다.

표본 연구는 전체 모집단을 대상으로 한 연구에 비해 항상 정확성이 떨어집니다. 그러나 오류의 크기가 알려진 경우 이는 조정될 수 있습니다. 분명히 표본 크기가 모집단 크기에 가까울수록 오류는 더 작아집니다. 이로부터 통계적 추론의 문제는 작은 표본으로 작업할 때 특히 관련성이 있다는 것이 분명합니다( N ? 10-50).

이는 확률 이론의 방법을 기반으로 통계 데이터를 체계화하고 처리하여 과학적이고 실용적인 결론을 얻는 과학입니다.

통계자료 특정 특성을 가진 개체의 수에 대한 정보를 나타냅니다. .

어떤 질적 또는 양적 특성에 따라 결합된 개체 그룹을 호출합니다. 통계적 총체성 . 컬렉션에 포함된 객체를 요소라고 하며, 컬렉션의 총 개수는 컬렉션입니다. 용량.

일반 인구주어진 실제 조건 또는 더 엄밀하게 말하면 다음과 같이 가능한 모든 관찰의 집합입니다. 일반 모집단은 확률 변수 x와 관련 확률 공간(W, Á, P)입니다.

확률 변수 x의 분포는 다음과 같습니다. 인구 분포(예를 들어 정규 분포 또는 단순히 정규 모집단에 대해 이야기합니다.)

예를 들어, 무작위 변수에 대해 여러 번의 독립적인 측정이 수행된 경우 엑스,그러면 일반 모집단은 이론적으로 무한합니다(즉, 일반 모집단은 조건부로 추상적입니다. 수학적 개념); N개 제품 배치에서 결함이 있는 제품의 수를 확인하면 이 배치는 볼륨 N의 유한 일반 모집단으로 간주됩니다.

사회경제적 연구의 경우 볼륨 N의 일반 인구는 도시, 지역, 국가의 인구일 수 있으며, 측정된 특성은 개인의 소득, 지출 또는 저축액일 수 있습니다. 일부 속성이 질적 성격(예: 성별, 국적, 사회적 지위, 직업 등)이지만 유한한 옵션 집합에 속하는 경우 설문지에서 흔히 수행되는 것처럼 숫자로 인코딩할 수도 있습니다. ).

개체 수 N이 충분히 크면 포괄적인 조사를 수행하는 것이 어렵고 때로는 물리적으로 불가능할 수도 있습니다(예: 모든 카트리지의 품질 확인). 그런 다음 전체 모집단에서 제한된 수의 개체를 무작위로 선택하여 연구 대상으로 삼습니다.

표본 모집단 또는 단순히 견본 추출볼륨 n은 독립적으로 동일하게 분포된 확률 변수의 수열 x 1 , x 2 , ..., x n이며, 각각의 분포는 확률 변수 x의 분포와 일치합니다.

예를 들어, 랜덤 변수의 처음 n개 측정 결과는 다음과 같습니다. 엑스무한한 모집단에서 크기 n의 표본으로 간주하는 것이 일반적입니다. 얻은 데이터를 이라고 합니다. 확률변수의 관측 x, 그들은 또한 확률 변수 x가 x 1, x 2, …, x n의 "값을 취한다"고 말합니다.


수학적 통계의 주요 임무는 하나 이상의 알려지지 않은 확률 변수의 분포 또는 이들 간의 관계에 대해 과학적 기반의 결론을 내리는 것입니다. 표본의 성질과 특성을 바탕으로 확률변수(일반 모집단)의 수치적 특성과 분포법칙에 대해 결론을 내리는 방법을 말한다. 선택적 방법.

표본추출방법으로 얻은 확률변수의 특성이 객관적이 되기 위해서는 표본이 대표 저것들. 연구된 양을 아주 잘 표현했습니다. 법의 힘으로 큰 숫자표본이 무작위로 수행되면 대표성이 있다고 주장할 수 있습니다. 모집단의 모든 개체는 표본에 포함될 확률이 동일합니다. 이를 위해 다른 종류샘플 선택.

1. 단순한무작위 샘플링은 전체 모집단에서 개체를 한 번에 하나씩 선택하는 선택입니다.

2. 층화 (층화) 선택은 볼륨 N의 원래 모집단이 하위 집합(지층) N 1, N 2,...,N k로 나누어져 N 1 + N 2 +...+ N k = N이 되는 것입니다. 결정된 각각으로부터 볼륨 n 1, n 2, ..., n k의 단순 무작위 샘플이 추출됩니다. 층화 선택의 특별한 경우는 일반 선택으로, 개체가 전체 모집단에서 선택되는 것이 아니라 모집단의 각 전형적인 부분에서 선택됩니다.

결합 선택여러 유형의 선택을 한 번에 결합하여 형성 다른 단계샘플 조사. 다른 샘플링 방법이 있습니다.

샘플이 호출됩니다. 반복 , 다음 개체를 선택하기 전에 선택한 개체가 모집단에 반환되는 경우. 샘플이 호출됩니다. 반복 가능 , 선택한 개체가 모집단에 반환되지 않는 경우. 유한한 모집단의 경우, 복귀가 없는 무작위 선택은 각 단계에서 개별 관측치의 의존성을 초래하고, 복귀가 있는 무작위 동등 가능 선택은 관측치의 독립으로 이어집니다. 실제로 우리는 일반적으로 비반복적인 샘플을 다룹니다. 그러나 모집단 크기 N이 표본 크기 n보다 몇 배 더 큰 경우(예: 수백 또는 수천 배) 관측값의 종속성을 무시할 수 있습니다.

따라서 무작위 표본 x 1, x 2, ..., x n은 일반 모집단을 나타내는 확률 변수 ξ에 대한 순차적이고 독립적인 관측의 결과이며 표본의 모든 요소는 원래 확률 변수와 동일한 분포를 갖습니다. 엑스.

우리는 분포 함수 F x (x)와 확률 변수 x의 기타 수치적 특성을 호출합니다. 이론적 인, 같지 않은 샘플 특성 , 이는 관찰 결과에 따라 결정됩니다.

표본 x 1, x 2, ..., x k를 확률 변수 x에 대한 독립적인 관찰의 결과라고 하고, x 1은 n 1번, x 2 - n 2번, ..., x k - n k번 관찰되었습니다. , 따라서 n i = n - 표본 크기입니다. n개의 관측값에 x i 값이 몇 번 나타나는지 나타내는 숫자 n i를 호출합니다. 빈도 주어진 값과 비율 n i /n = 나- 상대 빈도. 분명 숫자는 나는 합리적이고…

특성의 오름차순으로 배열된 통계적 모집단을 이라고 합니다. 변형 시리즈 . 그 구성원은 x (1), x (2), ... x (n)으로 표시되며 다음과 같이 불립니다. 옵션 . 변형 시리즈라고 합니다. 이산적인, 해당 구성원이 특정 격리된 값을 취하는 경우. 통계적 분포 이산 확률 변수 샘플링 엑스옵션 목록과 해당 상대 빈도라고 함 나. 결과 테이블이 호출됩니다. 통계적으로 가깝습니다.

엑스(1) x(2) ... xk(k)
와 1 와 2 ... Ωk

가장 크고 가장 작은 값변형 계열은 x min 및 x max로 표시되며 다음과 같이 불립니다. 변주 시리즈의 익스트림 멤버.

연속 확률 변수를 연구하는 경우 그룹화는 관찰된 값의 간격을 k개의 부분 간격으로 나누는 것으로 구성됩니다. 같은 길이 h, 그리고 이러한 구간에 속하는 관측치의 수를 계산합니다. 결과 숫자는 빈도 n i(새로운, 이미 이산적인 임의 변수의 경우)로 간주됩니다. 간격의 중간 값은 일반적으로 옵션 x i의 새 값으로 사용됩니다(또는 간격 자체가 표에 표시됨). Sturges 공식에 따르면 권장되는 분할 간격 수는 k » 1 + log 2입니다. N이고, 부분 구간의 길이는 h = (x max - x min)/k와 같습니다. 전체 구간은 다음과 같은 형식을 갖는다고 가정합니다.

그래픽적으로 통계 시리즈는 다각형, 히스토그램 또는 누적 빈도 그래프의 형태로 표시될 수 있습니다.

주파수 다각형점 (x 1, n 1), (x 2, n 2), ..., (x k, n k)을 연결하는 세그먼트인 파선이라고 합니다. 다각형 상대도수 점(x 1, 1), (×2, 2), …, (xk, 케이). 다각형은 일반적으로 이산확률변수의 경우 표본을 나타내는 역할을 합니다(그림 7.1.1).

쌀. 7.1

.1.

상대도수 히스토그램밑면이 길이 h의 부분 간격이고 높이가 있는 직사각형으로 구성된 계단형 도형이라고 합니다.

동일한 나/h.

히스토그램은 일반적으로 연속 확률 변수의 경우 샘플을 묘사하는 데 사용됩니다. 히스토그램의 면적은 1과 같습니다(그림 7.1.2). 상대도수 히스토그램의 중간점을 연결하면 위쪽직사각형이면 결과 파선은 상대 빈도의 다각형을 형성합니다. 따라서 히스토그램은 그래프로 볼 수 있습니다. 경험적(표본) 분포 밀도 fn(x). 이론적 분포에 유한 밀도가 있는 경우 경험적 밀도는 이론적 밀도의 일부 근사치입니다.

누적 주파수 그래프는 직사각형의 높이를 계산할 때 단순한 직사각형을 취하지 않고 직사각형의 높이를 계산한다는 점을 제외하고 히스토그램과 유사하게 구성된 도형이다. 누적된 상대도수, 저것들. 수량. 이 값은 감소하지 않으며 누적 주파수 그래프는 계단형 "계단"(0에서 1까지) 형태를 갖습니다.

축적된 빈도의 그래프는 이론적 분포 함수를 근사화하기 위해 실제로 사용됩니다.

일.이 지역의 100개 중소기업 샘플을 분석했습니다. 이번 조사의 목적은 i번째 기업별 차입금과 자기자본 비율(xi)을 측정하는 것이다. 결과는 표 7.1.1에 제시되어 있다.

테이블기업의 부채 및 자기 자본 비율.

5,56 5,45 5,48 5,45 5,39 5,37 5,46 5,59 5,61 5,31
5,46 5,61 5,11 5,41 5.31 5,57 5,33 5,11 5,54 5,43
5,34 5,53 5,46 5,41 5,48 5,39 5,11 5,42 5,48 5,49
5,36 5,40 5,45 5,49 5,68 5,51 5,50 5,68 5,21 5,38
5,58 5,47 5,46 5,19 5,60 5,63 5,48 5,27 5,22 5,37
5,33 5,49 5,50 5,54 5,40 5.58 5,42 5,29 5,05 5,79
5,79 5,65 5,70 5,71 5,85 5,44 5,47 5,48 5,47 5,55
5,67 5,71 5,73 5,05 5,35 5,72 5,49 5,61 5,57 5,69
5,54 5,39 5,32 5,21 5,73 5,59 5,38 5,25 5,26 5,81
5,27 5,64 5,20 5,23 5,33 5,37 5,24 5,55 5,60 5,51

누적된 빈도의 히스토그램과 그래프를 구성합니다.

해결책. 일련의 관찰을 그룹화해 보겠습니다.

1. 샘플에서 x min = 5.05 및 x max = 5.85를 결정해 보겠습니다.

2. 전체 범위를 k개의 등간격으로 나눕니다. k » 1 + log 2 100 = 7.62; k = 8이므로 간격의 길이는 다음과 같습니다.

표 7.1.2.그룹화된 일련의 관찰

간격 번호 간격 구간 x i의 중간점 fn(x)
5,05-5,15 5,1 0,05 0,05 0,5
5,15-5,25 5,2 0,08 0,13 0,8
5,25-5,35 5,3 0,12 0,25 1,2
5,35-5,45 5,4 0,20 0,45 2,0
5,45-5,55 5,5 0,26 0,71 2,6
5,55-5,65 5,6 0,15 0,86 1,5
5,65-5,75 5,7 0,10 0,96 1,0
5,75-5,85 5,8 0,04 1,00 0,4

그림에서. 표 7.1.2의 데이터에 따라 구축된 7.1.3과 7.1.4는 누적 주파수의 히스토그램과 그래프를 나타낸다. 곡선은 데이터에 "적합된" 밀도 및 정규 분포 함수에 해당합니다.

따라서 표본 분포는 모집단 분포의 일부 근사치입니다.