Menu
Gratuitement
Inscription
maison  /  À propos de la maladie/ Dans quels cas la population générale est-elle concernée par l'étude. Populations générales et échantillons. Le concept de représentativité

Dans quels cas la population générale est-elle concernée par l'étude. Populations générales et échantillons. Le concept de représentativité

Population statistique- un ensemble d'unités qui ont un caractère de masse, une typicité, une homogénéité qualitative et la présence de variation.

La population statistique est constituée d'objets matériellement existants (Employés, entreprises, pays, régions), est un objet.

Unité de population— chaque unité spécifique d'une population statistique.

La même population statistique peut être homogène dans une caractéristique et hétérogène dans une autre.

Uniformité qualitative- similarité de toutes les unités de la population sur certaines bases et dissemblance sur toutes les autres.

Dans une population statistique, les différences entre une unité de population et une autre sont souvent de nature quantitative. Les changements quantitatifs dans les valeurs d'une caractéristique de différentes unités d'une population sont appelés variation.

Variation d'un trait- un changement quantitatif d'une caractéristique (pour une caractéristique quantitative) lors du passage d'une unité de la population à une autre.

Signe- c'est une propriété caractéristique ou autre caractéristique d'unités, d'objets et de phénomènes qui peuvent être observés ou mesurés. Les signes sont divisés en quantitatifs et qualitatifs. La diversité et la variabilité de la valeur d'une caractéristique dans les unités individuelles d'une population sont appelées variation.

Les caractéristiques attributives (qualitatives) ne peuvent pas être exprimées numériquement (composition de la population par sexe). Les caractéristiques quantitatives ont expression numérique(composition de la population par âge).

Indice- il s'agit d'une caractéristique quantitative et qualitative généralisatrice de toute propriété d'unités ou d'agrégats dans leur ensemble dans des conditions de temps et de lieu spécifiques.

fiche d'évaluation est un ensemble d'indicateurs qui reflètent globalement le phénomène étudié.

Par exemple, le salaire est étudié :
  • Signe - salaires
  • Population statistique - tous les salariés
  • L'unité de population est chaque employé
  • Homogénéité qualitative - salaires accumulés
  • Variation d'un signe - une série de nombres

Population et échantillon de celle-ci

La base est un ensemble de données obtenues à la suite de la mesure d'une ou plusieurs caractéristiques. Un ensemble d'objets véritablement observés, représenté statistiquement par un certain nombre d'observations d'une variable aléatoire, est échantillonnage, et l'existant hypothétique (conjectural) - population générale. La population peut être finie (nombre d'observations N = const) ou infini ( N = ∞), et un échantillon de population est toujours le résultat d’une série limitée d’observations. Le nombre d'observations formant un échantillon est appelé taille de l'échantillon. Si la taille de l'échantillon est suffisamment grande ( n → ∞) l'échantillon est considéré grand, sinon cela s'appelle un échantillonnage volume limité. L'échantillon est considéré petit, si lors de la mesure d'une variable aléatoire unidimensionnelle, la taille de l'échantillon ne dépasse pas 30 ( n<= 30 ), et lors de la mesure de plusieurs simultanément ( k) caractéristiques dans l'espace relationnel multidimensionnel nÀ k ne dépasse pas 10 (n/c< 10) . Les exemples de formulaires série de variations, si ses membres sont statistiques ordinales, c'est-à-dire des exemples de valeurs de la variable aléatoire X sont classés par ordre croissant (classés), les valeurs de la caractéristique sont appelées choix.

Exemple. Presque le même ensemble d'objets sélectionnés au hasard - les banques commerciales d'un district administratif de Moscou, peut être considéré comme un échantillon de la population générale de toutes les banques commerciales de ce district et comme un échantillon de la population générale de toutes les banques commerciales de Moscou. , ainsi qu'un échantillon des banques commerciales du pays, etc.

Méthodes de base d'organisation de l'échantillonnage

La fiabilité des conclusions statistiques et l'interprétation significative des résultats dépendent de représentativité des échantillons, c'est-à-dire l'exhaustivité et l'adéquation de la représentation des propriétés de la population générale, par rapport auxquelles cet échantillon peut être considéré comme représentatif. L'étude des propriétés statistiques d'une population peut être organisée de deux manières : en utilisant continu Et pas continu. Observation continue prévoit l'examen de tous unitésétudié totalité, UN observation partielle (sélective)- seulement des parties.

Il existe cinq manières principales d’organiser l’observation des échantillons :

1. sélection aléatoire simple, dans lequel les objets sont sélectionnés de manière aléatoire parmi une population d'objets (par exemple, à l'aide d'un tableau ou d'un générateur de nombres aléatoires), chacun des échantillons possibles ayant une probabilité égale. De tels échantillons sont appelés en fait aléatoire;

2. sélection simple utilisant une procédure régulière est réalisée à l'aide d'un élément mécanique (par exemple, date, jour de la semaine, numéro d'appartement, lettres de l'alphabet, etc.) et les échantillons ainsi obtenus sont appelés mécanique;

3. stratifié la sélection consiste dans le fait que la population générale du volume est divisée en sous-populations ou couches (strates) du volume de telle sorte que . Les strates sont des objets homogènes en termes de caractéristiques statistiques (par exemple, la population est divisée en strates par tranches d'âge ou par classe sociale ; les entreprises par secteur d'activité). Dans ce cas, les échantillons sont appelés stratifié(sinon, stratifié, typique, régionalisé);

4. méthodes en série la sélection est utilisée pour former en série ou échantillons de nids. Ils sont pratiques s'il est nécessaire d'examiner un « bloc » ou une série d'objets à la fois (par exemple, un lot de marchandises, des produits d'une certaine série ou la population d'une division territoriale-administrative du pays). La sélection des séries peut se faire de manière purement aléatoire ou mécaniquement. Dans ce cas, une inspection complète d'un certain lot de marchandises, ou d'une unité territoriale entière (un immeuble ou un immeuble d'habitation), est effectuée ;

5. combiné la sélection (étagée) peut combiner plusieurs méthodes de sélection à la fois (par exemple, stratifiée et aléatoire ou aléatoire et mécanique) ; un tel échantillon est appelé combiné.

Types de sélection

Par esprit on distingue la sélection individuelle, de groupe et combinée. À sélection individuelle des unités individuelles de la population générale sont sélectionnées dans la population échantillon, avec sélection de groupe- des groupes (séries) d'unités qualitativement homogènes, et sélection combinée implique une combinaison du premier et du deuxième types.

Par méthode la sélection se distingue répété et non répétitiféchantillon.

Sans répétition appelé sélection dans laquelle une unité incluse dans l'échantillon ne retourne pas à la population d'origine et ne participe pas à une sélection ultérieure ; tandis que le nombre d'unités dans la population générale N est réduit au cours du processus de sélection. À répété sélection attrapé dans l'échantillon, une unité après enregistrement est restituée à la population générale et conserve ainsi une chance égale, avec d'autres unités, d'être utilisée dans une procédure de sélection ultérieure ; tandis que le nombre d'unités dans la population générale N reste inchangé (la méthode est rarement utilisée dans les recherches socio-économiques). Cependant, avec de grandes N (N → ∞) formules pour répétable la sélection se rapproche de celle des répété sélection et ces dernières sont pratiquement plus souvent utilisées ( N = const).

Caractéristiques de base des paramètres de la population générale et de l'échantillon

Les conclusions statistiques de l'étude sont basées sur la distribution de la variable aléatoire et les valeurs observées (x 1, x 2, ..., xn) sont appelés réalisations de la variable aléatoire X(n est la taille de l’échantillon). La distribution d'une variable aléatoire dans la population générale est de nature théorique et idéale, et son analogue d'échantillon est empirique distribution. Certaines distributions théoriques sont spécifiées analytiquement, c'est-à-dire leur choix déterminer la valeur de la fonction de distribution en chaque point de l'espace des valeurs possibles de la variable aléatoire. Pour un échantillon, la fonction de distribution est difficile et parfois impossible à déterminer, donc choix sont estimés à partir de données empiriques, puis ils sont substitués dans une expression analytique décrivant la distribution théorique. Dans ce cas, l'hypothèse (ou hypothèse) sur le type de distribution peut être statistiquement correct ou erroné. Mais de toute façon, la distribution empirique reconstituée à partir de l’échantillon ne caractérise que grossièrement la vraie. Les paramètres de distribution les plus importants sont valeur attendue et la variance.

De par leur nature, les distributions sont continu Et discret. La distribution continue la plus connue est normale. Des exemples d'analogues des paramètres et pour cela sont : la valeur moyenne et la variance empirique. Parmi les plus discrets dans la recherche socio-économique, les plus fréquemment utilisés alternative (dichotomique) distribution. Le paramètre d'espérance mathématique de cette distribution exprime la valeur relative (ou partager) unités de la population qui possèdent la caractéristique étudiée (elle est indiquée par la lettre) ; la proportion de la population qui ne possède pas cette caractéristique est désignée par la lettre q (q = 1 -p). La variance de la distribution alternative a également un analogue empirique.

Selon le type de distribution et la méthode de sélection des unités de population, les caractéristiques des paramètres de distribution sont calculées différemment. Les principales distributions théoriques et empiriques sont données dans le tableau. 9.1.

Fraction d'échantillon k n Le rapport entre le nombre d'unités de la population échantillon et le nombre d'unités de la population générale s'appelle :

kn = n/N.

Fraction d'échantillon w est le rapport des unités possédant la caractéristique étudiée Xà la taille de l'échantillon n:

w = n n /n.

Exemple. Dans un lot de marchandises contenant 1000 unités, avec un échantillon de 5% part d'échantillon k n en valeur absolue est de 50 unités. (n = N*0,05) ; si 2 produits défectueux sont trouvés dans cet échantillon, alors taux de défauts de l'échantillon w sera de 0,04 (w = 2/50 = 0,04 ou 4 %).

Puisque la population échantillonnée est différente de la population générale, il existe erreurs d'échantillonnage.

Tableau 9.1 Principaux paramètres de la population générale et de l'échantillon

Erreurs d'échantillonnage

Dans tous les cas (continus et sélectifs), des erreurs de deux types peuvent survenir : l'enregistrement et la représentativité. les erreurs inscription peut avoir aléatoire Et systématique personnage. Aléatoire Les erreurs ont de nombreuses causes incontrôlables, sont involontaires et s'équilibrent généralement (par exemple, des modifications des performances de l'appareil dues à des variations de température dans la pièce).

Systématique les erreurs sont biaisées car elles violent les règles de sélection des objets pour l'échantillon (par exemple, les écarts de mesures lors de la modification des paramètres de l'appareil de mesure).

Exemple. Pour évaluer la situation sociale de la population de la ville, il est prévu d'interroger 25 % des familles. Si la sélection d'un appartement sur quatre est basée sur son numéro, il existe alors un risque de sélectionner tous les appartements d'un seul type (par exemple, les appartements d'une pièce), ce qui entraînerait une erreur systématique et fausserait les résultats ; il est préférable de choisir un numéro d'appartement par tirage au sort, car l'erreur sera aléatoire.

Erreurs de représentativité ne sont inhérents qu'à l'observation d'un échantillon, ils ne peuvent être évités et résultent du fait que la population de l'échantillon ne reproduit pas complètement la population générale. Les valeurs des indicateurs obtenus à partir de l'échantillon diffèrent des indicateurs de mêmes valeurs dans la population générale (ou obtenus par observation continue).

Biais d'échantillonnage est la différence entre la valeur du paramètre dans la population et sa valeur d'échantillon. Pour la valeur moyenne d'une caractéristique quantitative elle est égale à : , et pour la part (caractéristique alternative) - .

Les erreurs d’échantillonnage sont inhérentes uniquement aux observations d’échantillons. Plus ces erreurs sont importantes, plus la distribution empirique diffère de la distribution théorique. Les paramètres de la distribution empirique sont des variables aléatoires, par conséquent, les erreurs d'échantillonnage sont également des variables aléatoires, elles peuvent prendre des valeurs différentes pour différents échantillons et il est donc d'usage de calculer erreur moyenne.

Erreur d'échantillonnage moyenne est une quantité exprimant l'écart type de la moyenne de l'échantillon par rapport à l'espérance mathématique. Cette valeur, soumise au principe de sélection aléatoire, dépend principalement de la taille de l'échantillon et du degré de variation de la caractéristique : plus la variation de la caractéristique (et donc de la valeur) est grande et faible, plus l'erreur d'échantillonnage moyenne est faible. . La relation entre les variances de la population générale et de l'échantillon est exprimée par la formule :

ceux. lorsqu'il est suffisamment grand, nous pouvons supposer que . L'erreur d'échantillonnage moyenne montre les écarts possibles du paramètre de la population échantillon par rapport au paramètre de la population générale. Dans le tableau Le tableau 9.2 montre les expressions permettant de calculer l'erreur d'échantillonnage moyenne pour différentes méthodes d'organisation de l'observation.

Tableau 9.2 Erreur moyenne (m) de la moyenne de l'échantillon et proportion pour différents types d'échantillons

Où est la moyenne des variances de l'échantillon au sein du groupe pour un attribut continu ;

Moyenne des variances intra-groupe de la proportion ;

— nombre de séries sélectionnées, — nombre total de séries;

,

où est la moyenne de la ème série ;

— la moyenne globale pour l'ensemble de la population échantillonnée pour une caractéristique continue;

,

où est la part de la caractéristique dans la ème série ;

— la part totale de la caractéristique dans l’ensemble de la population échantillonnée.

Cependant, l’ampleur de l’erreur moyenne ne peut être jugée qu’avec une certaine probabilité P (P ≤ 1). Lyapunov A.M. a prouvé que la distribution des moyennes de l'échantillon, et donc leurs écarts par rapport à la moyenne générale, pour un nombre suffisamment grand, obéit approximativement à la loi de distribution normale, à condition que la population générale ait une moyenne finie et une variance limitée.

Mathématiquement, cette affirmation pour la moyenne s'exprime comme suit :

et pour le partage, l'expression (1) prendra la forme :

- Il y a erreur d'échantillonnage marginale, qui est un multiple de l'erreur d'échantillonnage moyenne , et le coefficient de multiplicité est le test de Student (« coefficient de confiance »), proposé par W.S. Gosset (pseudonyme « Étudiant ») ; les valeurs pour différentes tailles d'échantillon sont stockées dans un tableau spécial.

Les valeurs de la fonction Ф(t) pour certaines valeurs de t sont égales à :

L’expression (3) peut donc se lire comme suit : avec probabilité P = 0,683 (68,3 %) on peut affirmer que la différence entre l'échantillon et la moyenne générale ne dépassera pas une valeur de l'erreur moyenne m(t=1), avec probabilité P = 0,954 (95,4 %)- qu'il ne dépassera pas la valeur de deux erreurs moyennes m (t = 2) , avec probabilité P = 0,997 (99,7 %)- ne dépassera pas trois valeurs m (t = 3) . Ainsi, la probabilité que cette différence dépasse trois fois l’erreur moyenne est déterminée par niveau d'erreur et ne représente rien de plus 0,3% .

Dans le tableau 9.3 montre les formules pour calculer l'erreur d'échantillonnage maximale.

Tableau 9.3 Erreur marginale (D) de l'échantillon pour la moyenne et proportion (p) pour différents types d'observation de l'échantillon

Généralisation des résultats de l'échantillon à la population

Le but ultime de l’observation d’un échantillon est de caractériser la population générale. Avec de petites tailles d'échantillon, les estimations empiriques des paramètres ( et ) peuvent s'écarter considérablement de leurs valeurs réelles ( et ). Par conséquent, il est nécessaire d'établir des limites dans lesquelles se situent les vraies valeurs ( et ) pour les exemples de valeurs des paramètres ( et ).

Intervalle de confiance de tout paramètre θ de la population générale est la plage aléatoire de valeurs de ce paramètre, qui avec une probabilité proche de 1 ( fiabilité) contient la vraie valeur de ce paramètre.

Erreur marginaleéchantillons Δ permet de déterminer les valeurs limites des caractéristiques de la population générale et leurs intervalles de confiance, qui sont égaux :

Conclusion Intervalle de confiance obtenu par soustraction erreur maximaleà partir de la moyenne de l'échantillon (part) et de la moyenne supérieure en l'ajoutant.

Intervalle de confiance pour la moyenne, il utilise l'erreur d'échantillonnage maximale et pour un niveau de confiance donné, il est déterminé par la formule :

Cela signifie qu'avec une probabilité donnée R., appelé niveau de confiance et déterminé uniquement par la valeur t, on peut affirmer que la vraie valeur de la moyenne se situe dans la plage allant de , et la valeur réelle de l'action est comprise entre

Lors du calcul de l'intervalle de confiance pour trois niveaux de confiance standard P = 95 %, P = 99 % et P = 99,9 % la valeur est sélectionnée par . Applications en fonction du nombre de degrés de liberté. Si la taille de l'échantillon est suffisamment grande, alors les valeurs correspondant à ces probabilités t sont égaux: 1,96, 2,58 Et 3,29 . Ainsi, l'erreur marginale d'échantillonnage permet de déterminer les valeurs limites des caractéristiques de la population et leurs intervalles de confiance :

La distribution des résultats de l'observation d'échantillons à la population générale dans la recherche socio-économique a ses propres caractéristiques, car elle nécessite une représentation complète de tous ses types et groupes. La base de la possibilité d'une telle distribution est le calcul erreur relative:

Δ % - erreur d'échantillonnage maximale relative ; , .

Il existe deux méthodes principales pour étendre une observation d’échantillon à une population : recalcul direct et méthode des coefficients.

Essence conversion directe consiste à multiplier la moyenne de l'échantillon!!\overline(x) par la taille de la population.

Exemple. Supposons que le nombre moyen de jeunes enfants dans la ville soit estimé par la méthode d'échantillonnage et s'élève à une personne. S'il y a 1000 jeunes familles dans la ville, alors le nombre de places nécessaires dans les crèches municipales s'obtient en multipliant cette moyenne par la taille de la population générale N = 1000, soit aura 1200 places.

Méthode des cotes Il est conseillé de l'utiliser dans le cas où une observation sélective est effectuée afin de clarifier les données d'observation continue.

La formule suivante est utilisée :

où toutes les variables sont la taille de la population :

Taille de l'échantillon requise

Tableau 9.4 Taille d'échantillon requise (n) pour différents types d'organisation d'observation d'échantillons

Lors de la planification d'une observation d'échantillon avec une valeur prédéterminée de l'erreur d'échantillonnage tolérée, il est nécessaire d'estimer correctement la valeur requise taille de l'échantillon. Ce volume peut être déterminé sur la base de l'erreur tolérée lors de l'observation de l'échantillon en fonction d'une probabilité donnée qui garantit la valeur admissible du niveau d'erreur (en tenant compte du mode d'organisation de l'observation). Les formules permettant de déterminer la taille d'échantillon n requise peuvent être facilement obtenues directement à partir des formules d'erreur d'échantillonnage maximale. Ainsi, à partir de l'expression de l'erreur marginale :

la taille de l'échantillon est directement déterminée n:

Cette formule montre qu'à mesure que l'erreur d'échantillonnage maximale diminue Δ la taille de l'échantillon requise augmente considérablement, ce qui est proportionnel à la variance et au carré du test t de Student.

Pour une méthode spécifique d'organisation de l'observation, la taille de l'échantillon requise est calculée selon les formules données dans le tableau. 9.4.

Exemples de calcul pratiques

Exemple 1. Calcul de la valeur moyenne et de l'intervalle de confiance pour une caractéristique quantitative continue.

Pour évaluer la rapidité de règlement avec les créanciers, un échantillon aléatoire de 10 documents de paiement a été réalisé à la banque. Leurs valeurs se sont avérées égales (en jours) : 10 ; 3 ; 15 ; 15 ; 22 ; 7; 8 ; 1; 19 ; 20.

Nécessaire avec probabilité P = 0,954 déterminer l'erreur marginale Δ moyenne de l'échantillon et limites de confiance du temps de calcul moyen.

Solution. La valeur moyenne est calculée à l'aide de la formule du tableau. 9.1 pour la population échantillon

L'écart est calculé à l'aide de la formule du tableau. 9.1.

Erreur quadratique moyenne du jour.

L'erreur moyenne est calculée à l'aide de la formule :

ceux. la moyenne est x ± m = 12,0 ± 2,3 jours.

La fiabilité de la moyenne était

Nous calculons l'erreur maximale en utilisant la formule du tableau. 9.3 pour un échantillonnage répété, puisque la taille de la population est inconnue, et pour P = 0,954 niveau de confiance.

Ainsi, la valeur moyenne est `x ± D = `x ± 2m = 12,0 ± 4,6, c'est-à-dire sa vraie valeur se situe entre 7,4 et 16,6 jours.

Utilisation de la table T d'un étudiant. L'application nous permet de conclure que pour n = 10 - 1 = 9 degrés de liberté, la valeur obtenue est fiable avec un niveau de signification de £ 0,001, soit la valeur moyenne résultante est significativement différente de 0.

Exemple 2. Estimation de probabilité (part générale) p.

Au cours d'une méthode d'échantillonnage mécanique d'enquête sur le statut social de 1 000 familles, il a été révélé que la proportion de familles à faible revenu était w = 0,3 (30%)(l'échantillon était 2% , c'est à dire. n/N = 0,02). Obligatoire avec niveau de confiance p = 0,997 déterminer l'indicateur R. familles à faible revenu dans toute la région.

Solution. Basé sur les valeurs de fonction présentées Ф(t) trouver pour un niveau de confiance donné P = 0,997 signification t = 3(voir formule 3). Erreur marginale de fraction w déterminer par la formule du tableau. 9.3 pour l'échantillonnage non répétitif (l'échantillonnage mécanique est toujours non répétitif) :

Erreur d'échantillonnage relative maximale dans % sera:

La probabilité (part générale) de familles à faible revenu dans la région sera р=w±Δw, et les limites de confiance p sont calculées sur la base de la double inégalité :

w — Δ w ≤ p ≤ w — Δ w, c'est à dire. la vraie valeur de p se situe entre :

0,3 — 0,014 < p <0,3 + 0,014, а именно от 28,6% до 31,4%.

Ainsi, avec une probabilité de 0,997, on peut affirmer que la part des familles à faible revenu parmi l'ensemble des familles de la région varie de 28,6 % à 31,4 %.

Exemple 3. Calcul de la valeur moyenne et de l'intervalle de confiance pour une caractéristique discrète spécifiée par une série d'intervalles.

Dans le tableau 9.5. la répartition des demandes de réalisation des commandes selon le calendrier de leur mise en œuvre par l'entreprise est précisée.

Tableau 9.5 Répartition des observations selon l'heure d'apparition

Solution. Le délai moyen d'exécution des commandes est calculé à l'aide de la formule :

La durée moyenne sera :

= (3*20 + 9*80 + 24*60 + 48*20 + 72*20)/200 = 23,1 mois.

Nous obtenons la même réponse si nous utilisons les données sur p i de l'avant-dernière colonne du tableau. 9.5, en utilisant la formule :

A noter que le milieu de l'intervalle de la dernière gradation est trouvé en le complétant artificiellement par la largeur de l'intervalle de la gradation précédente égale à 60 - 36 = 24 mois.

La variance est calculée à l'aide de la formule

x je- le milieu de la série d'intervalles.

Par conséquent !!\sigma = \frac (20^2 + 14^2 + 1 + 25^2 + 49^2)(4), et l'erreur quadratique moyenne est .

L'erreur moyenne est calculée à l'aide de la formule mensuelle, c'est-à-dire la valeur moyenne est !!\overline(x) ± m = 23,1 ± 13,4.

Nous calculons l'erreur maximale en utilisant la formule du tableau. 9,3 pour une sélection répétée, puisque la taille de la population est inconnue, pour un niveau de confiance de 0,954 :

La moyenne est donc :

ceux. sa vraie valeur se situe entre 0 et 50 mois.

Exemple 4. Pour déterminer la rapidité des règlements avec les créanciers de N = 500 entreprises dans une banque commerciale, il est nécessaire de mener une étude par sondage en utilisant une méthode de sélection aléatoire non répétitive. Déterminez la taille d'échantillon requise n de sorte qu'avec une probabilité P = 0,954, l'erreur sur la moyenne de l'échantillon ne dépasse pas 3 jours si les estimations des essais montraient que l'écart type s était de 10 jours.

Solution. Pour déterminer le nombre d'études requises n, nous utiliserons la formule de sélection non répétitive du tableau. 9.4 :

Dans ce document, la valeur t est déterminée à partir d’un niveau de confiance de P = 0,954. Elle est égale à 2. La valeur quadratique moyenne est s = 10, la taille de la population est N = 500 et l'erreur maximale de la moyenne est Δ x = 3. En substituant ces valeurs dans la formule, nous obtenons :

ceux. Il suffit de constituer un échantillon de 41 entreprises pour estimer le paramètre requis : la rapidité des règlements avec les créanciers.

La recherche commence généralement par une hypothèse qui nécessite d’être testée avec des faits. Cette hypothèse - une hypothèse - est formulée en relation avec la connexion de phénomènes ou de propriétés dans un certain ensemble d'objets. Pour tester de telles hypothèses par rapport aux faits, il est nécessaire de mesurer les propriétés correspondantes de leurs porteurs. Mais il est impossible de mesurer, par exemple, l’anxiété chez tous les adolescents. Par conséquent, lors de la réalisation de recherches, elles sont limitées à un groupe relativement restreint de représentants des populations concernées.

Population- il s'agit de l'ensemble des objets par rapport auxquels une hypothèse de recherche est formulée. Théoriquement, on considère que la taille de la population est illimitée. En pratique, le volume de la population générale est toujours limité et peut varier en fonction du sujet d'observation et de la tâche que le psychologue doit résoudre. En règle générale, la population générale comprend un très grand nombre d'objets - étudiants universitaires, écoliers, employés d'entreprises, retraités, etc. Une étude complète des populations générales est extrêmement difficile, c'est pourquoi, en règle générale, une petite partie de la population générale est étudiée, appelée échantillon de population ou échantillon.

Échantillonnage - il s'agit d'un nombre limité d'objets (en psychologie - sujets, répondants), spécialement sélectionnés parmi la population générale pour étudier ses propriétés. En conséquence, l'étude des propriétés d'une population à l'aide d'un échantillon est appelée recherche par échantillonnage. Presque toutes les études psychologiques sont sélectives et leurs conclusions s'étendent à la population générale.

Un certain nombre d'exigences obligatoires sont appliquées à l'échantillon, déterminées principalement par les buts et objectifs de l'étude. Il doit être tel que la généralisation des résultats d'une étude par sondage soit justifiée - généralisation, extension à la population générale.

L'échantillon doit satisfaire aux conditions suivantes :



1. Il s'agit d'un groupe d'objets disponibles pour l'étude. La taille de l'échantillon est déterminée par les tâches et les capacités d'observation et d'expérimentation.

2. Il fait partie d’une population pré-désignée.

3. Il s'agit d'un groupe sélectionné au hasard afin que tout élément de la population ait une chance égale d'être inclus dans l'échantillon.

Les principaux critères de validité des résultats de la recherche sont la représentativité de l'échantillon et la fiabilité statistique des résultats (empiriques).

Représentativité - autrement dit, sa représentativité est la capacité à caractériser la population correspondante avec une certaine précision et une fiabilité suffisante. Si l'échantillon de sujets est représentatif de la population générale dans ses caractéristiques, il y a alors lieu d'étendre les résultats obtenus de son étude à l'ensemble de la population générale.

Idéalement, un échantillon représentatif devrait être tel que chacune des principales caractéristiques, traits, traits de personnalité, etc. étudiés par un psychologue y soit représenté proportionnellement à ces mêmes caractéristiques dans la population générale.

Des erreurs de représentativité surviennent dans deux cas :

1. Un petit échantillon caractérisant la population générale.

2. Écart entre les propriétés (paramètres) de l'échantillon et les paramètres de la population générale.

Signification statistique La signification statistique des résultats d'une étude est déterminée à l'aide de méthodes d'inférence statistique. Ces méthodes seront abordées plus en détail dans la rubrique « Test des hypothèses ». Notez qu'ils imposent certaines exigences sur la taille ou la taille de l'échantillon.

La plus grande taille d'échantillon est requise lors du développement d'une technique de diagnostic - de 200 à 1 000-2 500 personnes.

S'il est nécessaire de comparer 2 échantillons, leur nombre total doit être d'au moins 50 personnes ; le nombre d’échantillons comparés doit être approximativement le même.

Si la relation entre des propriétés est étudiée, la taille de l'échantillon doit être d'au moins 30 à 35 personnes.

Plus la variabilité de la propriété étudiée est grande, plus la taille de l’échantillon doit être grande. Par conséquent, la variabilité peut être réduite en augmentant l’homogénéité de l’échantillon, par exemple selon le sexe, l’âge, etc. Cela réduit naturellement la possibilité de généraliser des conclusions.

Échantillons dépendants et indépendants. Une situation de recherche courante est celle où une propriété qui intéresse un chercheur est étudiée sur deux échantillons ou plus à des fins de comparaison plus approfondie. Ces échantillons peuvent être dans des proportions différentes, selon la procédure de leur organisation. Les échantillons indépendants se caractérisent par le fait que la probabilité de sélection d'un sujet dans un échantillon ne dépend de la sélection d'aucun des sujets dans l'autre échantillon. Au contraire, les échantillons dépendants se caractérisent par le fait que chaque sujet d'un échantillon est apparié selon un certain critère à un sujet d'un autre échantillon.

L’exemple le plus typique d’un échantillon indépendant est, par exemple, une comparaison d’hommes et de femmes en termes d’intelligence.

Le concept de représentativité. Objet conceptuel et population. Objet conçu. Population conçue et réelle.

Nous savons que la science sociologique ne traite pas de l’immédiateté fluide de la vie, mais de données organisées selon certaines règles dans l’espace des traits. Par données, nous entendons les valeurs des variables attribuées aux unités d'étude - les objets. Ces objets - communautés, institutions, personnes, textes, choses - forment des configurations diverses et souvent bizarres dans l'espace des attributs, donnant au chercheur la possibilité de porter des jugements généralisants sur la réalité.

Dès que l'on parle de réalité, il s'avère que les données obtenues ne concernent à proprement parler que les documents d'inscription (questionnaires, fiches d'entretien, protocoles d'observation, etc.). Rien ne garantit que la réalité en dehors des fenêtres du laboratoire (par exemple, de l’autre côté de la balance) ne sera pas différente. Nous n'en sommes pas encore à la procédure d'échantillonnage, mais la question de la représentativité des données se pose déjà : est-il possible d'étendre les informations obtenues lors de l'enquête à des objets situés en dehors de notre expérience spécifique ? La réponse est claire : vous le pouvez. Autrement, nos observations n’iraient pas au-delà de la totalité ici-maintenant. Elles ne s'appliqueraient pas aux Moscovites, mais à ceux qui venaient d'être interviewés par téléphone à Moscou ; non pas aux lecteurs du journal Nedelya, mais à ceux qui ont envoyé par courrier un coupon détachable complété au rédacteur en chef. Après avoir répondu à l'enquête, nous sommes obligés de supposer que les « Moscovites » et les « lecteurs » sont restés les mêmes. Nous croyons à la stabilité du monde car les observations scientifiques révèlent une étonnante constance.

Toute observation unique s'étend à un champ d'observation plus large, et le problème de la représentation est d'établir le degré de correspondance entre les paramètres de la population interrogée et les caractéristiques « réelles » de l'objet. La procédure d'échantillonnage vise précisément à reconstruire l'objet réel d'étude et la population générale à partir d'observations individuelles momentanées.

Le concept de représentativité de l'échantillon est proche du concept de validité externe ; ce n'est que dans le premier cas qu'il y a une extrapolation de la même caractéristique à un ensemble plus large d'unités, et dans le second, une transition d'un contexte sémantique à un autre. La procédure d'échantillonnage est réalisée par chaque personne mille fois par jour, et personne ne pense vraiment à la représentativité des observations. L'expérience remplace le calcul. Pour savoir si la bouillie est bien salée, il n'est pas du tout nécessaire de manger la poêle entière - les méthodes de contrôle non destructifs sont ici plus efficaces, y compris les contrôles ponctuels : il faut essayer une cuillère. Dans le même temps, vous devez vous assurer que la bouillie est bien mélangée. Si la bouillie est mal mélangée, il est logique de prendre non pas une mesure, mais une série, c'est-à-dire d'essayer à différents endroits de la casserole - c'est déjà un échantillon. Il est plus difficile de s'assurer que la réponse de l'étudiant à l'examen représente ses connaissances et ne constitue pas un succès ou un échec aléatoire. Pour ce faire, plusieurs questions sont posées. On suppose que si un étudiant répondait à toutes les questions possibles sur un sujet, le résultat serait « vrai », c’est-à-dire refléterait une connaissance réelle. Mais alors personne ne pourrait réussir l’examen.



La base de la procédure d'échantillonnage est toujours « si » - l'hypothèse selon laquelle l'extrapolation des observations ne modifiera pas de manière significative le résultat obtenu. Par conséquent, la population peut être définie comme la « possibilité objective » de la population échantillon.

Le problème devient un peu plus compliqué si l’on comprend ce que l’on entend par objet d’étude. Après avoir étudié une population assez large, le sociologue arrive à la conclusion que la variable « radicalisme-conservatisme » est positivement corrélée à l'âge : en particulier, les générations plus âgées sont plus conservatrices que révolutionnaires. Mais l’objet étudié – la population échantillon – n’existe pas en réalité en tant que tel. Elle est construite par la procédure de sélection des répondants et de conduite des entretiens, puis disparaît aussitôt, se dissout dans le tableau. En effet, l’échantillon de population dont les données sont directement « supprimées » est généré par la procédure, mais en même temps il est dissous dans une population plus large, qu’il représente ou représente avec des degrés variables d’exactitude et de fiabilité. Les conclusions sociologiques ne s’appliquent pas aux personnes interrogées la semaine dernière, mais à des objets idéalisés : les « générations plus âgées », les « jeunes », ceux qui font preuve de « radicalisme » ou de « conservatisme ». Nous parlons de généralisations catégoriques qui ne sont pas limitées par des circonstances spatio-temporelles. À cet égard, la procédure sélective permet de s'affranchir des observations et d'entrer dans le monde des idées.

Ainsi, nous avons la possibilité de distinguer l'objet de recherche de la population générale : un objet n'est pas seulement un ensemble d'unités, mais un concept selon lequel s'effectue l'identification et la sélection des unités de recherche. À cet égard, l’injonction de Hegel de considérer comme vrai seulement l’être qui correspond à son concept est correcte. Théoriquement, le volume du concept désignant l'objet d'étude devrait correspondre au volume de la population générale. Cependant, une telle correspondance est extrêmement rare.

Nous aurons besoin d'un concept objet conceptuel - construction idéale désignant le cadre du sujet. « Russes », « public des journaux centraux », « électorat », « public démocrate » - tels sont les objets typiques d'intérêt de recherche des sociologues. Sans aucun doute, à l’objet conceptuel doit correspondre une population générale tout à fait réelle. Pour ce faire, il faut prévoir un autre objet d'étude - objet conçu. L'objet conçu est un ensemble d'unités à la disposition du chercheur. Le défi consiste à identifier les groupes inaccessibles ou difficiles d’accès pour la collecte de données.

Il est évident qu'il est quasiment impossible d'examiner un objet désigné comme « Russes ». Parmi les Russes, de nombreuses personnes se trouvent dans les prisons, les établissements pénitentiaires, les centres de détention provisoire et d'autres endroits difficiles d'accès pour l'intervieweur. Ce groupe devra être « soustrait » de l'objet conçu. De nombreux patients des hôpitaux psychiatriques, des enfants et certaines personnes âgées devront également être « soustraits ». Il est peu probable qu’un sociologue civil soit en mesure de donner des chances normales au personnel militaire d’être inclus dans l’échantillon. Des problèmes similaires accompagnent les enquêtes auprès des lecteurs, des électeurs, des habitants des petites villes et des visiteurs des théâtres.

Les difficultés énumérées ne représentent qu’une petite partie des obstacles souvent insurmontables auxquels un sociologue est confronté sur le terrain. Le spécialiste doit anticiper ces difficultés et ne pas se faire d'illusions sur la réalisation complète de l'objet conçu. Sinon, il sera déçu.

Ainsi, l’objet d’étude ne coïncide pas avec la population générale, de la même manière qu’une carte d’une zone ne coïncide pas avec la zone elle-même.

Nous avons longuement réfléchi et réfléchi : les généraux écrivaient tout sur une grande feuille de papier. C'était lisse sur le papier, mais ils ont oublié les ravins, et en marchant le long d'eux -

Ces paroles tirées d'une vieille chanson de soldat sont tout à fait applicables au plan d'échantillonnage, étant donné que vous devrez marcher d'appartement en appartement.

Bien entendu, la population est la population à partir de laquelle les unités sont échantillonnées. Cependant, il semble que ce soit le cas. L'échantillon est tiré de la population à partir de laquelle est effectuée la sélection effective des répondants. Appelons-la réel. Les différences entre les populations projetées et réelles peuvent être constatées directement en comparant les listes de répondants « projetés » et ceux réellement interrogés.

L'objet réel est la totalité qui s'est formée au stade de la recherche sur le terrain, en tenant compte des limites de la disponibilité des informations sociologiques primaires. Outre les prisonniers, les militaires et les malades, les habitants des villages éloignés des transports sont moins susceptibles d'être inclus dans l'échantillon, surtout si l'enquête est réalisée à l'automne ; ceux qui, en règle générale, ne sont pas à la maison, ne sont pas enclins à parler avec des inconnus, etc. Il arrive que les enquêteurs, profitant du manque de contrôle, négligent de remplir avec précision leurs tâches et n'interrogent pas ceux qui sont censés être interviewés selon les instructions, mais ceux qui sont plus faciles à « obtenir ». Par exemple, les enquêteurs ont reçu l’ordre de visiter les appartements des répondants le soir, lorsqu’il est plus facile de les retrouver chez eux. Si l’étude est réalisée, par exemple, en novembre, à cinq heures du soir, dans le centre de la Russie, la rue est complètement sombre. Dans de nombreuses villes, on ne trouve pas souvent de panneaux indiquant les noms de rues et les numéros de maison. Si les tâches d'enquêteurs sont exercées par des étudiants d'un institut pédagogique local, on peut imaginer le degré d'écart entre l'objet réel et celui conçu. Parfois, les chercheurs font encore plus simple : ils remplissent eux-mêmes les questionnaires. Ces difficultés sont l’une des sources de ce que l’on appelle le biais d’échantillonnage.

Il existe des moyens assez efficaces de contrôler le remplissage des questionnaires et des méthodes de reconstitution de l'échantillon, notamment en « pesant » les principaux groupes typologiques de répondants : les groupes de ceux qui manquent augmentent, et les groupes excédentaires diminuent. De cette façon, le tableau réel est ajusté à celui conçu, ce qui est tout à fait justifié.

http://www.hi-edu.ru/e-books/xbook096/01/index.html?part-011.htm– site très utile !

La méthode d'échantillonnage de la recherche est la principale méthode statistique. Cela est naturel, puisque le volume des objets étudiés est généralement infini (et même s'il est fini, il est très difficile de trier tous les objets ; il faut se contenter d'une partie seulement d'entre eux, d'une sélection).

Populations générales et échantillons

La population générale est la totalité de tous les éléments étudiés dans une expérience donnée.

Un échantillon de population (ou échantillon) est une collection finie d’objets sélectionnés au hasard dans une population.

Le volume d'une population (échantillon ou générale) est le nombre d'objets dans cette population.

Exemple de populations générales et d'échantillons

Disons que nous étudions la prédisposition psychologique d’une personne à diviser un segment donné par rapport au nombre d’or. Puisque l'origine du concept même de nombre d'or est dictée par l'anthropométrie du corps humain, il est clair que dans ce cas la population générale est toute créature anthropique ayant atteint la maturité physique et acquis les proportions finales, c'est-à-dire l'ensemble de la population. partie adulte de l’humanité. Le volume de cette collection est pratiquement infini.

Si cette prédisposition est étudiée exclusivement dans le milieu artistique, alors la population générale est constituée de personnes directement liées au design : artistes, architectes, designers. Il y a aussi beaucoup de ces personnes, et on peut supposer que le volume de la population générale dans ce cas est également infini.

Dans les deux cas, pour la recherche, nous sommes obligés de nous limiter à des tailles d'échantillon raisonnables, en choisissant comme représentants de l'une ou l'autre population des étudiants de spécialités techniques (en tant que personnes éloignées du monde artistique) ou des étudiants en design (en tant que personnes directement liées au monde artistique). images artistiques du monde).

Représentativité

Le principal problème de la méthode d'échantillonnage est la question de savoir avec quelle précision les objets sélectionnés dans la population générale pour la recherche représentent les caractéristiques étudiées de la population générale, c'est-à-dire la question de la représentativité de l'échantillon.

Ainsi, un échantillon est dit représentatif s’il représente de manière suffisamment précise les relations quantitatives de la population générale.

Bien sûr, il est difficile de dire ce qui se cache exactement derrière cette formulation vague. assez précisément. Les questions de représentativité sont généralement les plus controversées dans toute étude expérimentale. Il existe de nombreux exemples, déjà devenus classiques, où une représentativité insuffisante de l'échantillon a conduit les expérimentateurs à des résultats absurdes.

En règle générale, les problèmes de représentativité sont résolus par le biais d'une évaluation d'experts, lorsque la communauté scientifique accepte le point de vue d'un groupe d'experts faisant autorité concernant l'exactitude de l'étude.

Exemple de représentativité

Revenons à l'exemple de la division d'un segment. Les questions de représentativité des échantillons sont ici à la base même de l'étude : il ne faut en aucun cas mélanger des groupes de sujets en fonction de leur appartenance au milieu artistique.

Distribution statistique de la caractéristique observée

Fréquence de la valeur observée

Supposons qu'à la suite d'un test dans un volume d'échantillon, l'attribut observé prenne les valeurs,, ..., et la valeur a été observée une fois, la valeur a été observée une fois, etc., la valeur a été observée une fois. Ensuite, la fréquence de la valeur observée est appelée un nombre, les valeurs sont des nombres, etc.

Fréquence relative de la valeur observée

La fréquence relative d’une valeur observée est le rapport entre la fréquence et la taille de l’échantillon :

Il est clair que la somme des fréquences de la caractéristique observée devrait donner la taille de l'échantillon.

et la somme des fréquences relatives devrait donner l'unité :

Ces considérations peuvent être utilisées à des fins de contrôle lors de l'élaboration de tableaux statistiques. Si les égalités ne sont pas respectées, une erreur a été commise lors de l'enregistrement des résultats de l'expérience.

Distribution statistique de la valeur observée

La distribution statistique d'une caractéristique observée est la correspondance entre les valeurs observées de la caractéristique et les fréquences correspondantes (ou fréquences relatives).

En règle générale, la distribution statistique est écrite sous la forme d'un tableau à deux lignes, dans lequel les valeurs observées de la caractéristique sont indiquées dans la première ligne et les fréquences correspondantes (ou fréquences relatives) sont indiquées dans la seconde. doubler:

Ainsi, les modèles auxquels est soumise la variable aléatoire étudiée sont physiquement entièrement déterminés par l'ensemble réel des conditions de son observation (ou expérience), et sont mathématiquement spécifiés par l'espace de probabilité correspondant ou, ce qui revient au même, par l'espace de probabilité correspondant. loi de distribution de probabilité. Cependant, lors de la réalisation de recherches statistiques, une autre terminologie associée au concept de population générale s'avère un peu plus pratique.

La population générale est la totalité de toutes les observations imaginables (ou de tous les objets mentalement possibles du type qui nous intéresse, à partir desquels les observations sont « tirées ») qui pourraient être faites dans un ensemble réel de conditions données. Étant donné que la définition traite de toutes les observations (ou objets) mentalement possibles, le concept de population générale est un concept abstrait et conditionnellement mathématique et ne doit pas être confondu avec des populations réelles soumises à des recherches statistiques. Ainsi, après avoir examiné même toutes les entreprises de la sous-industrie du point de vue de l'enregistrement des valeurs des indicateurs techniques et économiques qui les caractérisent, nous ne pouvons considérer la population interrogée que comme un représentant d'une population d'entreprises plus large hypothétiquement possible. qui pourrait fonctionner dans le même ensemble de conditions réelles

Dans les travaux pratiques, il est plus commode d'associer le choix aux objets d'observation plutôt qu'aux caractéristiques de ces objets. Nous sélectionnons des machines, des échantillons géologiques, des personnes à étudier, mais pas les valeurs des caractéristiques des machines, des échantillons, des personnes. En revanche, en théorie mathématique, les objets et l'ensemble de leurs caractéristiques ne diffèrent pas et la dualité de la définition introduite disparaît.

Comme nous le voyons, le concept mathématique de « population générale » est physiquement complètement déterminé, ainsi que les concepts d'« espace de probabilité », de « variable aléatoire » et de « loi de distribution de probabilité », par l'ensemble réel correspondant de conditions, et donc tous ces quatre concepts mathématiques peuvent être considérés dans un certain sens comme synonymes. Une population est dite finie ou infinie selon que la collection de toutes les observations imaginables est finie ou infinie.

De la définition il résulte que les populations continues (constituées d'observations de signes de nature continue) sont toujours infinies. Les populations générales discrètes peuvent être infinies ou finies. Par exemple, si un lot de N produits est analysé pour la qualité (voir exemple dans la clause 4.1.3), lorsque chaque produit peut être attribué à l'une des quatre qualités, la variable aléatoire étudiée est le numéro de qualité d'un produit extrait aléatoirement de le lot et l'ensemble des valeurs possibles de la variable aléatoire se composent respectivement de quatre points (1, 2, 3 et 4), alors, évidemment, la population sera finie (seulement N observations imaginables).

Le concept de population infinie est une abstraction mathématique, tout comme l’idée selon laquelle la mesure d’une variable aléatoire peut être répétée un nombre infini de fois. Une population générale approximativement infinie peut être interprétée comme un cas limite d’une population finie, lorsque le nombre d’objets générés par un ensemble réel de conditions augmente indéfiniment. Ainsi, si dans l’exemple qui vient d’être donné, au lieu de lots de produits, nous considérons une production de masse continue des mêmes produits, alors nous arriverons au concept de population générale infinie. En pratique, une telle modification équivaut à l’exigence

Un échantillon d'une population donnée est le résultat d'une série limitée d'observations d'une variable aléatoire. Un échantillon peut être considéré comme une sorte d'analogue empirique d'une population générale, ce que nous traitons le plus souvent dans la pratique, car enquêter sur l'ensemble de la population générale peut être soit trop laborieux (dans le cas d'un grand N), soit fondamentalement impossible. (dans le cas de populations générales infinies).

Le nombre d’observations qui forment un échantillon est appelé taille de l’échantillon.

Si la taille de l'échantillon est grande et que nous avons affaire à une valeur continue unidimensionnelle (ou à une valeur discrète unidimensionnelle dont le nombre de valeurs possibles est assez grand, disons plus de 10), alors il est souvent plus pratique, du point de vue de la simplification du traitement statistique ultérieur des résultats d'observation, de passer aux données d'échantillon dites « groupées ». Cette transition s'effectue généralement de la manière suivante :

a) les valeurs les plus petites et les plus grandes de l'échantillon sont notées ;

b) l'ensemble de l'aire de répartition étudiée est divisé en un certain nombre de 5 intervalles de regroupement égaux ; dans ce cas, le nombre d'intervalles s ne doit pas être inférieur à 8-10 et supérieur à 20-25 : le choix du nombre d'intervalles dépend significativement de la taille de l'échantillon ; pour une orientation approximative dans le choix 5, vous pouvez utiliser la formule approximative

qui devrait plutôt être considérée comme une estimation inférieure pour s (en particulier pour les grands

c) les points extrêmes de chacun des intervalles sont marqués par ordre croissant, ainsi que leurs milieux

d) le nombre de données d'échantillon tombant dans chacun des intervalles est compté : (évidemment) ; les données d'échantillon qui tombent sur les limites des intervalles sont soit réparties uniformément sur deux intervalles adjacents, soit il est convenu qu'elles ne sont attribuées qu'à l'un d'entre eux, par exemple celui de gauche.

En fonction du contenu spécifique du problème, certaines modifications peuvent être apportées à ce schéma de regroupement (par exemple, dans certains cas, il est conseillé d'abandonner l'exigence de longueurs égales d'intervalles de regroupement).

Dans tous les autres arguments utilisant des exemples de données, nous partirons de la notation qui vient d’être décrite.

Rappelons que l'essence des méthodes statistiques est d'utiliser une certaine partie de la population générale (c'est-à-dire un échantillon) pour porter des jugements sur ses propriétés dans son ensemble.

L'une des questions les plus importantes, dont la solution réussie détermine la fiabilité des conclusions obtenues à la suite du traitement statistique des données, est la question de la représentativité de l'échantillon, c'est-à-dire la question de l'exhaustivité et de l'adéquation de sa représentation aux propriétés de la population générale analysée qui nous intéresse. Dans les travaux pratiques, le même groupe d'objets pris pour étude peut être considéré comme un échantillon provenant de différentes populations générales. Ainsi, un groupe de familles sélectionnées au hasard dans les maisons coopératives d'un des bureaux d'entretien du logement (ZhEK) d'un des quartiers de la ville pour une enquête sociologique détaillée peut être considérée à la fois comme un échantillon de la population générale des familles (avec une coopérative forme de logement) de ce ZhEK, et comme échantillon de la population générale des familles d'une zone donnée, et comme échantillon de la population générale de toutes les familles de la ville, et, enfin, comme échantillon de la population générale de toutes familles de la ville vivant dans des maisons coopératives. L'interprétation significative des résultats des tests dépend de manière significative du représentant de la population générale pour laquelle nous considérons le groupe de familles sélectionné, pour quelle population générale cet échantillon peut être considéré comme représentatif. La réponse à cette question dépend de nombreux facteurs. Dans l'exemple ci-dessus, en particulier, cela dépend de la présence ou de l'absence d'un facteur spécial (peut-être caché) qui détermine l'appartenance de la famille à un bureau de logement donné ou au quartier dans son ensemble (un tel facteur pourrait être, par exemple, le revenu moyen par habitant de la famille, situation géographique du quartier dans la ville, « âge » du quartier, etc.).