Test Du χ² - Wikipédia

Page d’aide sur l’homonymie

Pour la loi de probabilité, voir Loi du χ2.

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.
Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article ne cite pas suffisamment ses sources (mai 2010).

Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».

En pratique : Quelles sources sont attendues ? Comment ajouter mes sources ?
Densité de la loi du χ2 en fonction du nombre k de degrés de liberté.

En statistique, le test du khi carré, aussi dit du khi-deux[1], d’après sa désignation symbolique χ2, est un test statistique où la statistique de test suit une loi du χ2 sous l'hypothèse nulle.

Par exemple, il permet de tester l'adéquation d'une série de données à une famille de lois de probabilité ou de tester l'indépendance entre deux variables aléatoires.

Histoire

[modifier | modifier le code] Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue ! Comment faire ?

Ce test a été proposé par le statisticien Karl Pearson en 1900[2].

Principe

[modifier | modifier le code]

Tout test de statistique classique vise à vérifier une hypothèse, en particulier par rapport à l'hypothèse nulle, notée H0, qui postule qu'une différence entre des jeux de données est due au hasard[N 1]. L'hypothèse alternative que l'on vérifie suppose que les données considérées proviennent de variables aléatoires qui suivent une loi de probabilité donnée, et l'on souhaite tester la validité de cette hypothèse.

Ces données ayant été réparties en classes, il faut :

  • calculer algébriquement la distance entre les données observées et les données théoriques attendues ;
  • se donner a priori un risque d'erreur, celle consistant à rejeter l'hypothèse, alors qu'elle est vraie (la valeur 5 % est souvent choisie par défaut[réf. nécessaire]) ;
  • déterminer le nombre de degrés de liberté du problème à partir du nombre de classes, et à l'aide d'une table de χ2[3], déduire, en tenant compte du nombre de degrés de liberté, la distance critique qui a une probabilité de dépassement égale à ce risque.

Si la distance calculée entre les données observées et théoriques est supérieure à la distance critique, on conclut que le résultat n'est pas dû seulement aux fluctuations d'échantillonnage, et que l'hypothèse nulle H0 doit être rejetée. Le risque choisi au départ est celui de donner une réponse fausse lorsque les fluctuations d'échantillonnage sont seules en cause. Le rejet est évidemment une réponse négative dans les tests d'adéquation et d'homogénéité mais il apporte une information positive dans les tests d'indépendance. Pour ceux-ci, il montre le caractère significatif de la différence, ce qui est intéressant en particulier dans les tests de traitement d'une maladie.

Test du χ2 d'adéquation

[modifier | modifier le code]

Le test du χ2 d'adéquation (dénommé aussi test du χ2 de conformité ou test du χ2 d'ajustement) permet de vérifier si un échantillon d'une variable aléatoire Y donne des observations comparables à celles d'une loi de probabilité P définie a priori dont on pense, pour des raisons théoriques ou pratiques, qu'elle devrait être la loi de Y. L’hypothèse nulle (H0) est donc la suivante : la variable aléatoire Y suit la loi de probabilité P.

En termes de valeur-p, l'hypothèse nulle (l'observation est suffisamment proche de la théorie) est généralement rejetée lorsque p ≤ 0,05.

Test d'adéquation à une loi multinomiale

[modifier | modifier le code]

On observe un échantillon de données y1, ..., yN d'une variable aléatoire Y qui prend un nombre fini J de valeurs distinctes v1, ..., vJ. On veut tester l'hypothèse nulle suivante : « la probabilité que Y prenne la valeur vj vaut pj, pour j allant de 1 à J, avec ∑ j = 1 J p j = 1 {\displaystyle \sum _{j=1}^{J}p_{j}=1} . »

On appelle p j ^ {\displaystyle {\hat {p_{j}}}} la probabilité empirique que Y prenne la valeur vj, c'est-à-dire le nombre nj d'observations yi qui prennent la valeur vj dans l'échantillon divisé par le nombre total N d'observations :

p j ^ = 1 N ∑ i = 1 N 1 y i = v j   avec   1 y i = v j = { 1 si  y i = v j 0 sinon {\displaystyle {\hat {p_{j}}}={\frac {1}{N}}\sum _{i=1}^{N}1_{y_{i}=v_{j}}\ {\textrm {avec}}\ 1_{y_{i}=v_{j}}={\begin{cases}1&{\text{si }}y_{i}=v_{j}\\0&{\text{sinon}}\end{cases}}}

On peut alors définir la statistique du χ2 :

T = ∑ j = 1 J ( N p j ^ − N p j ) 2 N p j = ∑ j = 1 J ( n j − N p j ) 2 N p j   {\displaystyle T=\sum _{j=1}^{J}{\frac {(N{\hat {p_{j}}}-Np_{j})^{2}}{Np_{j}}}=\sum _{j=1}^{J}{\frac {(n_{j}-Np_{j})^{2}}{Np_{j}}}\ } n j = N p j ^ = ∑ i = 1 N 1 y i = v j   {\displaystyle n_{j}=N{\hat {p_{j}}}=\sum _{i=1}^{N}1_{y_{i}=v_{j}}\ }

Sous l'hypothèse nulle, cette statistique suit asymptotiquement une loi du χ2 à (J – 1) degrés de liberté[4]. On peut donc construire un test de niveau α en rejetant l'hypothèse nulle lorsque la statistique de test T est plus grande que le quantile d'ordre 1 – α de la loi du χ2 à (J – 1) degrés de liberté :

TF–1χ2(J – 1)(1 – α) avec F–1χ2(J – 1)(1 – α) le quantile d'ordre 1 – α de la loi du χ2 à (J – 1) degrés de liberté. Démonstration

On ne donnera que les arguments principaux avec lesquels on montre[5] que, sous l'hypothèse nulle, la loi de T converge vers une loi du χ2 à (J – 1) degrés de liberté. Avec les notations précédentes, soit donc Y une variable aléatoire telle que, pour j variant de 1 à J, P(Y = j) = pj. On considère le vecteur aléatoire suivant :

Z = ( [ Y = 1 ] − p 1 p 1 , [ Y = 2 ] − p 2 p 2 , … , [ Y = J ] − p J p J ) {\displaystyle Z=\left({\frac {[Y=1]-p_{1}}{\sqrt {p_{1}}}},{\frac {[Y=2]-p_{2}}{\sqrt {p_{2}}}},\ldots ,{\frac {[Y=J]-p_{J}}{\sqrt {p_{J}}}}\right)}

avec comme ci-dessus :

[ Y = j ] = { 1 si  Y = j 0 sinon {\displaystyle [Y=j]={\begin{cases}1&{\text{si }}Y=j\\0&{\text{sinon}}\end{cases}}}

Si on note (Z(1), ..., Z(J)) les composantes de Z, on vérifie que :

pour tout i, E ( Z ( i ) ) = 0 {\displaystyle \mathbb {E} (Z^{(i)})=0} pour tout i, Var ( Z ( i ) ) = 1 − p i {\displaystyle {\textrm {Var}}(Z^{(i)})=1-p_{i}} pour tout i différent de j, C o v ( Z ( i ) , Z ( j ) ) = − p i p j {\displaystyle {\rm {Cov}}(Z^{(i)},Z^{(j)})=-{\sqrt {p_{i}p_{j}}}}

Autrement dit, Z est un vecteur aléatoire centré dont la matrice de covariance est Γ = I J − p ( t p ) {\displaystyle \Gamma =I_{J}-{\sqrt {p}}{\rm {}}\,\,(^{t}{\sqrt {p}})} , où l'on a posé p {\displaystyle {\sqrt {p}}} la colonne de composantes p i {\displaystyle {\sqrt {p_{i}}}} .

Si l'on dispose d'un échantillon y1, ..., yN de la variable Y, on en déduit un échantillon Z1, ..., ZN de la variable Z. Le théorème central limite permet alors de conclure que la loi de Z 1 + … + Z N N {\textstyle {\frac {Z_{1}+\ldots +Z_{N}}{\sqrt {N}}}} converge vers une loi normale centrée de matrice de covariance Γ quand N tend vers l'infini. Mais cette loi n'est autre que celle du projeté d'un vecteur aléatoire de R J {\displaystyle \mathbb {R} ^{J}} suivant une loi normale centrée réduite sur l'hyperplan orthogonal à p (espace de dimension J – 1). D'après le théorème de Cochran, le carré de ce projeté suit alors une loi du χ2 à (J – 1) degrés de liberté. C'est la loi limite du carré de Z 1 + … + Z N N {\textstyle {\frac {Z_{1}+\ldots +Z_{N}}{\sqrt {N}}}} qui n'est autre que T.

Cas général

[modifier | modifier le code]

Il s'agit de juger de l'adéquation entre une série de données statistiques et une loi de probabilité définie a priori. Dans le cas général, cette loi peut être celle d'une variable aléatoire Y prenant un nombre dénombrable de valeurs (comme une loi de Poisson ou une loi géométrique par exemple), ou bien une variable aléatoire continue (comme une loi exponentielle ou une loi normale).

Pour appliquer la méthode précédente pour laquelle Y prend un nombre fini J de valeurs, on découpe l'ensemble des valeurs que peut prendre y en J classes. Par exemple, pour tester l'adéquation avec une loi de Poisson, on pourra prendre les classes {0}, {1}, ..., {J-2}, {n>J-2}. On note alors p j ^ {\displaystyle {\hat {p_{j}}}} la probabilité empirique que Y appartienne à la classe j, et p j {\displaystyle p_{j}} la probabilité théorique d'y appartenir. On peut alors appliquer le test précédent. Les classes doivent être assez nombreuses pour ne pas perdre trop d'information mais, à l'inverse, pour satisfaire les conditions requises par la méthode, elles ne doivent pas être trop petites. En théorie, il faudrait que les effectifs soient infinis pour que la loi normale s'applique mais il est généralement admis qu'il faut 5 éléments dans chaque classe. Cette règle a été très discutée et celle qui semble recueillir le plus de suffrages est due à Cochran : 80 % des classes doivent satisfaire la règle des cinq éléments tandis que les autres doivent être non vides.

Le critère porte sur les Npi déduits de la loi de référence et non sur les ni des données analysées. Il est souvent satisfait sans difficulté car, à la différence de la construction d'un histogramme, il est possible de jouer sur la largeur des classes.

Si la loi de probabilité théorique dépend de paramètres (moyenne, variance...) inconnus au moment du test, les données peuvent être utilisées pour estimer ceux-ci, ce qui facilite l'adéquation. Il faut alors diminuer le nombre de degrés de liberté du nombre de paramètres estimés. S'il y a s paramètres inconnus, le nombre de degrés de liberté sera Js – 1. Ainsi, dans l'exemple de l'adéquation à une loi de Poisson de paramètre inconnu, on pourra estimer la valeur de ce paramètre par la moyenne empirique de Y, mais la loi du χ2 à appliquer aura un nombre de degrés de liberté égal à J – 2 au lieu de J – 1[6].

Exemple 1 : détermination de l'équilibrage d'un dé

[modifier | modifier le code]
Est-ce que le dé est bien équilibré ?

On souhaite tester l'hypothèse selon laquelle un dé à six faces n'est pas truqué, avec un risque α = 0,05. L'hypothèse que l'on souhaite rejeter (qu'on appelle hypothèse nulle et qu'on note H 0 {\displaystyle H_{0}} ) est donc ici : « Le dé est équilibré ». Pour cela, le dé est lancé 600 fois de suite. S'il est équilibré, on s'attend que sur ces 600 jets, chaque chiffre tombe 100 fois. Supposons que notre expérience donne les résultats suivants :

numéro tiré 1 2 3 4 5 6
effectifs 88 109 107 94 105 97

c'est-à-dire nous avons obtenu 88 fois le chiffre 1, 109 fois le chiffre 2, etc. En considérant l'hypothèse nulle vraie, la variable T définie précédemment vaut : ( 88 − 100 ) 2 100 + ( 109 − 100 ) 2 100 + ( 107 − 100 ) 2 100 + ( 94 − 100 ) 2 100 + ( 105 − 100 ) 2 100 + ( 97 − 100 ) 2 100 = 3 , 44 {\displaystyle {\frac {(88-100)^{2}}{100}}+{\frac {(109-100)^{2}}{100}}+{\frac {(107-100)^{2}}{100}}+{\frac {(94-100)^{2}}{100}}+{\frac {(105-100)^{2}}{100}}+{\frac {(97-100)^{2}}{100}}=3,\!44} .

Le nombre de degrés de liberté est de 6 – 1 = 5. En effet, 88 + 109 + 107 + 94 + 105 + 97 = 600 et si l'on connaît par exemple les nombres de fois où l'on obtient les chiffres 1 à 5, on connaît le nombre de fois où l'on obtient le chiffre 6 : 600 – (88 + 109 + 107 + 94 + 105) = 97.

Ainsi, la statistique T suit la loi du χ2 à cinq degrés de liberté. Cette loi du χ2 donne la valeur en deçà de laquelle on considère le tirage comme conforme avec un risque α = 0,05 : P(T < 11,07) = 0,95. Puisque 3,44 < 11,07, on ne peut pas rejeter l'hypothèse nulle : ces données statistiques ne permettent pas de considérer que le dé est truqué.

Par contre, supposons que notre expérience donne le tirage suivant :

numéro tiré 1 2 3 4 5 6
effectifs 89 131 93 92 104 91

Dans ce cas, la variable T définie précédemment vaut :

( 89 − 100 ) 2 100 + ( 131 − 100 ) 2 100 + ( 93 − 100 ) 2 100 + ( 92 − 100 ) 2 100 + ( 104 − 100 ) 2 100 + ( 91 − 100 ) 2 100 = 12 , 92 {\displaystyle {\frac {(89-100)^{2}}{100}}+{\frac {(131-100)^{2}}{100}}+{\frac {(93-100)^{2}}{100}}+{\frac {(92-100)^{2}}{100}}+{\frac {(104-100)^{2}}{100}}+{\frac {(91-100)^{2}}{100}}=12,\!92} .

Puisque 12,92 > 11,07, on peut cette fois rejeter l'hypothèse nulle : ces données statistiques permettent de considérer que le dé est truqué.

Exemple 2 : adéquation avec la loi de Poisson

[modifier | modifier le code]

On considère une variable aléatoire Y prenant des valeurs entières positives ou nulles. Un échantillonnage de 100 valeurs de cette variable se répartit comme suit :

valeurs 0 1 2 3 4
effectifs constatés 31 45 16 7 1

On souhaite tester l'hypothèse selon laquelle Y suit une loi de Poisson, avec un risque α = 0,05. La valeur du paramètre de cette loi de Poisson est obtenue en calculant l'espérance empirique de Y, ce qui donne ici λ = 1,02. Ce paramètre étant ici l'objet d'une estimation, on diminuera le nombre de degré de liberté d'une unité. Les effectifs attendus pour une loi de Poisson de paramètre λ sont :

valeurs 0 1 2 3 ou plus
effectifs attendus 36,06 36,78 18,76 8,40

On regroupe les effectifs supérieurs ou égaux à 3 dans une même classe, ceux supérieurs à 4 étant trop petits. La statistique du χ2, définie plus haut, et notée T, prend alors la valeur 2,97. Or, la loi du χ2 à deux degrés de liberté donne P(T < 5,99) = 0,95. Donc, on ne rejette pas l'hypothèse que la variable aléatoire Y suive une loi de Poisson, au risque d'erreur de 5 %.

Test du χ2 d'homogénéité

[modifier | modifier le code]

Il s'agit ici de se demander si deux listes de nombres de même effectif total N peuvent dériver de la même loi de probabilité. L'hypothèse nulle (H0) est la suivante : les deux échantillons proviennent de deux variables aléatoires suivant la même loi.

En termes de valeur p, l'hypothèse nulle est généralement rejetée lorsque p ≤ 0,05.

La méthode précédente s'applique en remplaçant le terme Npi relatif à la loi de probabilité par n'i relatif à la seconde liste et le χ2 est donné par ∑ i = 1 J ( n i − n i ′ ) 2 n i ′ {\displaystyle \sum _{i=1}^{J}{\frac {(n_{i}-n'_{i})^{2}}{n'_{i}}}} .

Cette notation s'inspire de celle utilisée pour le test d'adéquation, elle-même déduite de la notation classique de la loi multinomiale. Ici, comme dans le test d'indépendance, la notion de probabilité n'apparaît plus de manière explicite. De nombreux utilisateurs préfèrent donc adopter la notation qui utilise les symboles Oi pour les valeurs observées et Ei pour les valeurs espérées, ce qui conduit à l'expression ∑ i = 1 J ( O i − E i ) 2 E i {\displaystyle \sum _{i=1}^{J}{\frac {(O_{i}-E_{i})^{2}}{E_{i}}}} .

Dans le cas où l'on dispose de plusieurs listes de nombres, chacune d'effectif différent, et qu'on veuille tester si ces listes suivent une même loi de probabilité, on appliquera le test d'indépendance, décrit ci-après. Il s'agit en effet de tester si les diverses modalités Y de la loi de probabilité sont indépendantes des listes X en présence.

Test du χ2 d'indépendance

[modifier | modifier le code]

Ce test permet de vérifier l'absence de lien statistique entre deux variables X et Y. Les deux sont dites indépendantes lorsqu'il n'existe aucun lien statistique entre elles, dit autrement, la connaissance de X ne permet en aucune manière de se prononcer sur Y. L'hypothèse nulle (H0) de ce test est la suivante : les deux variables X et Y sont indépendantes.

En termes de valeur p, l'hypothèse nulle est généralement rejetée lorsque p ≤ 0,05.

Problème

[modifier | modifier le code]

On considère ici deux variables aléatoires X et Y et on souhaite tester le fait que ces deux variables sont indépendantes. Par exemple, X désigne une catégorie de population (salarié, employé, agriculteur, cadre supérieur, chômeur...) et Y un critère particulier (par exemple, le revenu réparti dans diverses tranches). L'hypothèse à tester est l'indépendance entre la population d'appartenance X de l'individu et la valeur Y du critère. L'hypothèse affirme donc que le fait de connaître la catégorie de population d'un individu n'influence pas la valeur des critères.

X et Y sont censées prendre un nombre fini de valeurs, I pour X, J pour Y. On dispose d'un échantillonnage de N données. Notons Oij l'effectif observé de données pour lesquelles X prend la valeur i et Y la valeur j. Sous l'hypothèse d'indépendance, on s'attend à une valeur espérée Eij définie comme suit :

E i j = O i + × O + j N {\displaystyle E_{ij}={\frac {O_{i+}\times O_{+j}}{N}}}

O i + = ∑ j = 1 J O i j {\displaystyle O_{i+}=\sum _{j=1}^{J}{O_{ij}}} (nombre de données pour lesquelles X = i)

et

O + j = ∑ i = 1 I O i j {\displaystyle O_{+j}=\sum _{i=1}^{I}{O_{ij}}} (nombre de données pour lesquelles Y = j)

On calcule la distance entre les valeurs observées Oij (ou valeurs empiriques) et les valeurs attendues s'il y avait indépendance Eij (ou valeurs théoriques) au moyen de la formule :

T = ∑ i , j ( O i j − E i j ) 2 E i j {\displaystyle T=\sum _{i,j}{\frac {(O_{ij}-E_{ij})^{2}}{E_{ij}}}}

On montre que la loi de T suit asymptotiquement une loi du χ2 à (I – 1)(J – 1) degrés de liberté.

Démonstration

[modifier | modifier le code]

Le test d’indépendance du tableau de I × J cases équivaut au test d’adéquation à une loi multinomiale de probabilités Epij estimées par pij = Eij/N = pi+ p+j selon H0, ce qui demande donc d’estimer I – 1 valeurs parmi p1+, ..., pI+ (la Ie est forcée par ∑ i = 1 I p i + = 1 {\displaystyle \textstyle \sum _{i=1}^{I}p_{i+}=1} ) et J – 1 valeurs parmi p+1, ..., p+J (la Je est forcée par ∑ j = 1 J p + j = 1 {\displaystyle \textstyle \sum _{j=1}^{J}p_{+j}=1} ). On a donc au départ I × J – 1 degrés de liberté pour remplir les I × J cases du tableau, valeur de laquelle il faut retrancher les (I – 1) + (J – 1) estimations de paramètres (voir dernier paragraphe de la section #Cas général ci-dessus), ce qui donne un nombre total de degrés de liberté de (I × J – 1) – (I – 1) – (J – 1) = I × JIJ + 1 = (I – 1)(J – 1)[7].

Exemple

[modifier | modifier le code]

Considérons par exemple deux variables X et Y, X prenant les valeurs A ou B et Y prenant les valeurs entières de 1 à 4. Les lois de A et de B sont-elles différentes ? Une représentation sur une table de contingence des occurrences des variables permet d'illustrer la question.

1 2 3 4 Total
A 50 70 110 60 290
B 60 75 100 50 285
Total 110 145 210 110 575

Dans cet exemple, on remarque que les effectifs de B sont supérieurs à ceux de A dans les classes de faible valeur Y, et inférieur dans celles à haute valeur Y. Cette différence (c’est-à-dire cette dépendance entre les variables) est-elle statistiquement significative ? Le test du χ2 aide à répondre à cette question.

On a ici I = 2 et J = 4, donc la loi du χ2 utilisée aura trois degrés de liberté. Si on se donne un risque de se tromper (rejeter à tort l'hypothèse nulle) égal à 5 %, la valeur critique trouvée dans les tables est 7,81. Le calcul de la variable T donne comme résultat 2,42. Étant inférieure à la distance critique (7,81), les données recueillies ne permettent pas de remettre en cause l'indépendance de X et de Y, c'est-à-dire le fait que la répartition des valeurs de Y ne dépend pas de la valeur de X, avec un risque de se tromper égal à 5 %.

Conditions du test

[modifier | modifier le code]

Plusieurs auteurs proposent des critères pour savoir si un test est valide, voir par exemple [PDF] The Power of Categorical Goodness-Of-Fit Test Statistics p. 19 (p. 11 du ch. 2), Michael C. Steele. On utilise en général le critère de Cochran de 1954 selon lequel toutes les classes i, j doivent avoir une valeur théorique non nulle (E i, j ≥ 1), et que 80 % des classes doivent avoir une valeur théorique supérieure ou égale à 5 :

E i , j ⩾ 5 {\displaystyle E_{i,j}\geqslant 5}

Lorsque le nombre de classes est petit, cela revient à dire que toutes les classes doivent contenir un effectif théorique supérieur ou égal à 5.

D'autres valeurs ont été proposées pour l'effectif théorique minimal : 5 ou 10 pour tous (Cochran, 1952), 10 (Cramér, 1946) ou 20 (Kendall, 1952). Dans tous les cas, ces valeurs sont arbitraires.

Certains auteurs ont proposé des critères basés sur des simulations, par exemple :

  • effectif théorique supérieur à 5r/k pour chaque classe, où r est le nombre de classes ayant un effectif supérieur ou égal à 5 et k est le nombre de catégories (Yarnold, 1970) ;
  • N2/k ≥ 10, où N est l'effectif total et k est toujours le nombre de catégories (Koehler et Larntz, 1980) ;
  • des recommandations plus récentes se trouvent, par exemple, dans P. Greenwood et M. Nikulin, A Guide to Chi-Squared Testing, (1996), John Wiley and Sons.

Tests apparentés

[modifier | modifier le code]

Test du χ2 de Pearson

[modifier | modifier le code] Article détaillé : Test du χ² de Pearson.

Il s'agit du test du χ2 le plus communément utilisé.

Une fois l'association entre deux variables établie, on peut utiliser le coefficient V de Cramer afin de mesurer l'intensité de l'association[8] :

V = T N × ( min ( I , J ) − 1 ) {\displaystyle V={\sqrt {\frac {T}{N\times (\min(I,J)-1)}}}}

Il est compris entre 0 et 1 : V = 0 si et seulement si on est en cas d'indépendance parfaite ; plus V est proche de 1, plus l'association est forte.

Test du rapport de vraisemblance

[modifier | modifier le code] Article détaillé : Test du rapport de vraisemblance.

Le développement des méthodes bayésiennes – seules utilisables lorsqu'on n'a que peu de données sous la main – a dégagé un test de vraisemblance nommé le psi-test, dont Myron Tribus fait remarquer qu'il devient asymptotiquement identique au χ2 à mesure que le nombre de données augmente[9]. Le test du rapport de vraisemblance est donc un test asymptotique qui devient identique au χ2. Il teste s'il existe des preuves de la nécessité de passer d'un modèle simple à un modèle plus complexe (autrement dit si le modèle simple est imbriquée dans un modèle plus complexe).

Test exact de Fisher

[modifier | modifier le code] Article détaillé : Test exact de Fisher.

Il s'agit d'un test exact qui peut s'apparenter à un test du χ2.

Test du χ2 de Yates

[modifier | modifier le code] Article détaillé : Test du χ² de Yates.

L'utilisation de la loi du χ2 pour interpréter un test du χ2 de Pearson nécessite de supposer que la loi discrète des fréquences binomiales peut être estimée par la loi continue du χ2. Cette hypothèse n'est pas tout à fait correcte et introduit une erreur.

Pour réduire l'erreur d'approximation, Frank Yates a suggéré une correction pour la continuité qui modifie légèrement la formule du test du χ2 de Pearson en soustrayant 0,5 de la différence entre chaque valeur observée et sa valeur attendue dans un tableau de contingence 2x2. Ceci réduit la valeur du χ2 obtenue et augmente ainsi sa valeur p.

Autres tests du χ2

[modifier | modifier le code]
  • Test du χ² de Cochran-Mantel-Haenszel
  • Test de McNemar
  • Test d'additivité de Tukey
  • Test du porte-manteau

Notes et références

[modifier | modifier le code]

Notes

[modifier | modifier le code]
  1. Les méthodes bayésiennes, pour leur part, ne font que remplacer cette valeur arbitraire unique par une distribution de probabilité qui sera ensuite affinée par les observations successives[réf. nécessaire].

Références

[modifier | modifier le code]
  1. « Le test du khi-deux », sur jmp.com (consulté le 2 janvier 2022).
  2. (en) Stephen Stigler, « Karl Pearson’s theoretical errors and the advances they inspired », Statistical Science, no 23,‎ 2008, p. 261–271 (lire en ligne, consulté le 28 décembre 2011).
  3. « Valeurs tabulées du χ2 », sur Conservation et développement durable.
  4. Cameron et Trivedi 2005, p. 266.
  5. Didier Dacunha-Castelle, Marie Duflo, Probabilités et statistiques, t. 1, Problèmes à temps fixe, Paris/New York/Barcelone, Masson, 1982, 286 p. (ISBN 2-225-74547-1), p. 134-135
  6. Didier Dacunha-Castelle, Marie Duflo, Probabilités et statistiques, t. 2, Problèmes à temps mobile, Paris/New York/Barcelone, Masson, 1983, 286 p. (ISBN 2-225-76989-3), p. 110-111
  7. (en) « Statistics Online - STAT ONLINE », sur PennState: Statistics Online Courses (consulté le 11 novembre 2023).
  8. « Module 6 : Deux variables sont-elles liées ? » [PDF] (consulté le 18 novembre 2022), partie 3 : « Le test de Cramer : mesurer l’intensité des relations entre variables ».
  9. Myron Tribus, Décisions rationnelles dans l'incertain, traduction française de Jacques Pézier, Masson, 1974.

Voir aussi

[modifier | modifier le code]

Sur les autres projets Wikimedia :

  • Test du χ², sur Wikiversity

Bibliographie

[modifier | modifier le code]
  • (en) Colin Cameron et Pravin Trivedi, Microeconometrics : Methods And Applications, Cambridge University Press, 2005, 1056 p. (ISBN 978-0-521-84805-3, lire en ligne).
  • (en) P. E. Greenwood et M. S. Nikulin, A Guide to Chi-Squared Testing, John Wiley & Sons, 1996.

Articles connexes

[modifier | modifier le code]
  • Loi du χ2
  • Test statistique
  • Valeur p

Liens externes

[modifier | modifier le code]
  • Module 6 : Deux variables sont-elles liées ? [PDF], lms.fun-mooc.fr, « Capsule 2 : Le khi2 calculé et son interprétation ».
  • Document d'introduction au test du χ2
  • Notices d'autoritéVoir et modifier les données sur Wikidata :
    • LCCN
    • Israël
  • Notices dans des dictionnaires ou encyclopédies généralistesVoir et modifier les données sur Wikidata :
    • Britannica
    • Den Store Danske Encyklopædi
v · mTests statistiques
Tests de comparaison d'une seule variable
Pour un échantillon
  • Test Z
  • Test t pour un échantillon
  • Test des signes
  • Test des rangs signés de Wilcoxon
  • Estimateur de Hodges-Lehmann
Pour deux échantillons
  • Test F
  • Test de Student
  • Test t de Welch
  • Test U de Mann-Whitney
  • Test du χ² d'homogénéité
  • Test de McNemar
  • Test de la médiane
Pour 3 échantillons ou plus
  • Analyse de la variance (ANOVA)
  • Test de Kruskal-Wallis
  • ANOVA de Friedman
  • Test de Bartlett
  • Test de Levene
  • Test de Brown-Forsythe
Tests de comparaison de deux variables
Deux variables quantitatives : Tests de corrélation
  • Corrélation de Pearson
  • Corrélation de Spearman
  • Corrélation de Kendall
Deux variables qualitatives
  • Test exact de Fisher
  • Test du χ² d'indépendance
  • Test Gamma
Plus de deux variables
  • Concordance de Kendall
  • Analyse de variance multivariée
  • Test Q de Cochran
Tests d'adéquation à une loi
  • Test de Kolmogorov-Smirnov
  • Test du χ² d'adéquation
  • Test de Jarque-Bera
  • Test de Lilliefors
  • Test d'Anderson-Darling
  • Test de D'Agostino
  • Test de Cramer-Von Mises
Tests d'appartenance à une famille de lois
  • Test de Shapiro-Wilk
Autres tests
  • Test du rapport de vraisemblance
  • Tests non-paramétriques
  • Tests paramétriques
  • Table d'utilisation des tests statistiques
v · mIndex du projet probabilités et statistiques
Théorie des probabilités
Bases théoriques
Principes généraux
  • Axiomes des probabilités
  • Espace mesurable
  • Probabilité
  • Événement
  • Bon article Tribu
  • Indépendance
  • Variable aléatoire
  • Espérance
  • Bon article Variables iid
Convergence de lois
  • Théorème central limite
  • Loi des grands nombres
  • Théorème de Borel-Cantelli
Calcul stochastique
  • Marche aléatoire
  • Chaîne de Markov
  • Processus stochastique
  • Processus de Markov
  • Martingale
  • Mouvement brownien
  • Équation différentielle stochastique
Lois de probabilité
Lois continues
  • Loi exponentielle
  • Bon article Loi normale
  • Loi uniforme
  • Loi de Student
  • Loi de Fisher
  • Loi du χ²
Lois discrètes
  • Loi de Bernoulli
  • Bon article Loi binomiale
  • Loi de Poisson
  • Loi géométrique
  • Loi hypergéométrique
Mélange entre statistiques et probabilités
  • Intervalle de confiance
Interprétations de la probabilité
  • Bayésianisme
Théorie des statistiques
Statistiques descriptives
Bases théoriques
  • Une statistique
  • Caractère
  • Échantillon
  • Erreur type
  • Intervalle de confiance
  • Fonction de répartition empirique
  • Théorème de Glivenko-Cantelli
  • Inférence bayésienne
  • Régression linéaire
  • Méthode des moindres carrés
  • Analyse des données
  • Corrélation
Tableaux
  • Tableau de contingence
  • Tableau disjonctif complet
  • Table de Burt
Visualisation de données
  • Histogramme
  • Diagramme à barres
  • Graphique en aires
  • Diagramme circulaire
  • Treemap
  • Boîte à moustaches
  • Diagramme en violon
  • Nuage de points
  • Graphique à bulles
  • Diagramme en cascade
  • Graphique en entonnoir
  • Diagramme de Kiviat
  • Corrélogramme
  • Graphique en forêt
  • Diagramme branche-et-feuille
  • Heat map
  • Sparkline
Paramètres de position
  • Moyenne arithmétique
  • Mode
  • Médiane
  • Quantile
    • Quartile
    • Décile
    • Centile
Paramètres de dispersion
  • Étendue
  • Écart moyen
  • Variance
  • Écart type
  • Déviation absolue moyenne
  • Écart interquartile
  • Coefficient de variation
Paramètres de forme
  • Coefficient d'asymétrie
  • Coefficient d'aplatissement
Statistiques inductives
Bases théoriques
  • Hypothèse nulle
  • Estimateur
  • Signification statistique
  • Sensibilité et spécificité
  • Courbe ROC
  • Nombre de sujets nécessaires
  • Valeur p
  • Contraste (statistiques)
  • Statistique de test
  • Taille d'effet
  • Puissance statistique
Tests paramétriques
  • Test d'hypothèse
  • Test de Bartlett
  • Test de normalité
  • Test de Fisher d'égalité de deux variances
  • Test d'Hausman
  • Test d'Anderson-Darling
  • Test de Banerji
  • Test de Durbin-Watson
  • Test de Goldfeld et Quandt
  • Test de Jarque-Bera
  • Test de Mood
  • Test de Lilliefors
  • Test de Wald
  • Test T pour des échantillons indépendants
  • Test T pour des échantillons appariés
  • Test de corrélation de Pearson
Tests non-paramétriques
  • Test U de Mann-Whitney
  • Test de Kruskal-Wallis
  • Test exact de Fisher
  • Test de Kolmogorov-Smirnov
  • Test de Shapiro-Wilk
  • Test de Chow
  • Test de McNemar
  • Test de Spearman
  • Tau de Kendall
  • Test Gamma
  • Test des suites de Wald-Wolfowitz
  • Test de la médiane
  • Test des signes
  • ANOVA de Friedman
  • Concordance de Kendall
  • Test Q de Cochran
  • Test des rangs signés de Wilcoxon
  • Test de Sargan
Application
  • Économétrie
  • Mécanique statistique
  • Jeu de hasard
  • Biomathématique
  • Biostatistique
  • Mathématiques financières
  • icône décorative Portail des probabilités et de la statistique

Từ khóa » Khi Deux