En ce moment je me passionne pour The Good Wife, une série qui raconte l’histoire d’une femme au foyer devenue avocate après que son mari-procureur ait été jeté en prison pour corruption.
L’épisode 10 de la première saison a particulièrement attiré mon attention car il y est question « d’analyse par régression ». Des avocats qui font de l’économétrie ? Voilà qui mérite qu’on s’y intéresse.
Mais pourquoi le juge est-il si méchant ?
Dans cet épisode, Alicia Florrick — l’héroïne — défend un gamin qui a cassé le nez d’un camarade en lui jetant un livre au visage. Alors que la défense et l’accusation se sont accordées sur une peine mineure (un blâme, des excuses et une période de probation), le juge décide d’une peine d’emprisonnement, ce qui est plutôt incongru.
L’avocate décide de rechercher les raisons qui se cachent derrière cette décision et pour cela elle étudie les derniers cas jugés par ce juge. En regardant les photos des adolescents jugés, la vérité lui saute aux yeux : quasiment tous ceux qui ont été emprisonnés sont afro-américains ; le juge est donc raciste !
Le raisonnement d’Alicia
Grâce à certains plans de l’épisode, il est possible de reconstruire les données à disposition des avocats. Sur la capture ci-dessous, l’avocate a réuni à gauche les adolescents qui ont été condamnés à de la prison et à droite ceux qui ne l’ont pas été.
Schématiquement, cela donne ça :
Ca saute aux yeux ! Quasiment tous les condamnés à de la prison sont afro-américains tandis que la plupart des non-condamnés ne le sont pas. On a donc très envie de conclure qu’il existe une relation entre la couleur de peau et les condamnations. Cependant, comme l’échantillon est très petit on ne peut pas exclure a priori la possibilité que l’apparente dépendance entre condamnation et appartenance ethnique soit en réalité due au hasard.
Comme on a ici deux variables qualitatives, on peut trancher la question de la dépendance entre elles à l’aide d’un « test du chi-deux ». Dans notre cas, ce test indique que si il n’y avait pas de relation entre condamnation et appartenance ethnique, alors il y aurait moins d’une chance sur 500 pour qu’on observe de telles données ! Autrement dit, il y a très peu de chances que le déséquilibre ethnique entre les condamnés et les non-condamnés soit dû au hasard.
Il est donc vraisemblable que l’appartenance ethnique influence les décisions du juge. Ce dernier serait raciste !
Fin de l’histoire ?
Ceteris Paribus
Le problème dans le raisonnement d’Alicia est qu’il est possible que les condamnés et les non-condamnés diffèrent par une caractéristique autre que la couleur de peau mais qui est corrélée à cette dernière. Dit d’une manière statistique, Alicia ne raisonne pas « toutes choses étant égales par ailleurs » ou encore « ceteris paribus ».
Il est par exemple possible que les condamnés aient commis des délits plus violents que les autres et que pour une raison quelconque les Afro-américains aient tendance à commettre des crimes plus graves. Au final, la proportion d’Afro-américains parmi les condamnés serait plus importante, même si l’appartenance ethnique n’a pas d’effet direct sur la décision du juge.
Cary Agos — le jeune partenaire d’Alicia — envisage quant à lui deux autres facteurs : l’âge et la situation familiale. Pourquoi ces deux variables ? Sans doute parce que l’on ne commet pas les mêmes délits selon qu’on a 12 ans ou 17 ans ou que l’on vit avec ses deux parents ou non. Peut-être aussi qu’un juge pourrait considérer qu’une peine d’emprisonnement est peu adaptée à un adolescent trop jeune ou qu’elle peut être bénéfique à un adolescent n’ayant qu’un seul parent — lequel n’arrive pas à assumer l’éducation de son enfant. Une dernière explication pour ce choix est que ces deux variables sont relativement faciles à observer.
En tous les cas, Cary intègre ces deux données à son « analyse par régression » et conclut que l’appartenance ethnique n’y est pour rien dans les décisions du juge puis à la question « qu’est-ce qui rend le juge si sévère ? » il répond :
« je peux vous dire ce que ce n’est pas, mais je ne peux pas vous dire ce que c’est ! »
L’Analyse par régression
Je ne suis pas certain du raisonnement suivi par Cary, mais lorsqu’il tente de l’expliquer à sa partenaire il reprend la méthode de celle-ci : il sépare dans un premier les photos des adolescents vivant avec un seul parent et ceux vivant avec leurs deux parents, puis il sépare ceux qui ont plus de 14 ans et ceux qui ont moins de 14 ans. Enfin il conclut par cette assertion étrange : « les ratios sont les mêmes ».
J’ai l’impression que ce qu’il a voulu dire, c’est que d’accord il y a 90 % de noirs parmi les condamnés, mais il y a aussi 90 % de noirs parmi les plus de 14 ans et il y a 90 % de noirs parmi ceux qui n’ont qu’un seul parent. Si c’est bien le cas, alors son analyse est complètement fausse ! Le fait que tous ces ratios soient identiques n’apporte strictement aucune information sur le fait que la race est la cause ou non de la sévérité du juge.
A l’aide des captures ci-dessus, j’ai reconstruit les données qu’a utilisées Cary et j’ai réalisé ma propre analyse à l’aide d’une régression logistique. Cette méthode permet de mesurer séparément l’impact de différentes variables sur la probabilité d’un évènement (ici être condamné à de la prison). Les résultats sont reportés dans le tableau ci-dessous.
Estimate | Std. Error | z value | Pr(> |z|) | |
---|---|---|---|---|
(Intercept) | -1.65 | 1.76 | -0.94 | 0.35 |
afroAmerican | 3.29 | 1.59 | 2.08 | 0.04 |
singleParent | 0.98 | 1.67 | 0.58 | 0.56 |
underFourteen | -0.98 | 1.67 | -0.58 | 0.56 |
Dans cette régression, la population de référence est celle des blancs vivant avec leurs deux parents et ayant plus de 14 ans. Par rapport à cette population, le fait d’être afro-américain augmente les chances d’être condamné, de même que le fait de ne vivre qu’avec un seul parent. Au contraire, le fait d’avoir moins de 14 ans diminue cette probabilité.
Mais ces effets sont-ils significatifs ? Pour répondre, il faut regarder la dernière colonne du tableau : elle mesure grosso modo la probabilité que l’effet d’une variable soit statistiquement non significatif. Or ici, la seule variable à avoir un impact significatif est l’appartenance ethnique. 0,04 c’est une chance sur 25 ; c’est loin du une chance sur 500 de la partie précédente, mais c’est tout de même beaucoup trop élevé pour qu’on écarte l’hypothèse que le juge est raciste.
Et donc en fait le juge est raciste ?
Cary s’est planté non seulement dans son raisonnement mais aussi dans ses conclusions. Compte tenu des données dont il disposait, il n’aurait pas dû écarter la possibilité que le juge soit raciste — en tout cas, pas avec autant de certitude (« je peux dire ce que ce n’est pas »).
La régression logistique utilisée ne prouve pas que le juge est raciste ; au mieux elle représente un indice. Un indice fragile car il n’est pas impossible que l’on trouve une variable autre que l’âge et la structure familiale et qui une fois intégrée à la régression annule l’effet de l’appartenance ethnique.
Cet indice est d’autant plus fragile que l’échantillon utilisé est petit, très petit (16 observations). Je montrerai dans un autre article les problèmes que cela peut poser.
Le Code R
Voici le code permettant de reconstruire les données :
data <- data.frame(id = 1:23, jail = c(rep(TRUE, 12), rep(FALSE, 11)), afroAmerican = c(1,1,1,1,1,1,1,0,1,1,1,1,0,0,0, 0,0,0,0,1,0,0,1), singleParent = c(0,NA,1,1,NA,1,1,1,NA,0,1,NA,0, 1,0,0,0,NA,0,1,0,NA,NA), underFourteen = c(1,NA,0,0,NA,1,0,0,NA,0,0,NA, 0,1,1,1,1,NA,1,0,1,NA,NA) )
Pour construire un tableau de contingence, le représenter graphiquement et effectuer un test du chi-deux dessus :
# Les deux lignes suivantes servent juste à modifier l'ordre dans lequel # apparaissent les catégories dans le tableau. Rôle purement esthétique. prison <- ordered(data$jail, levels = c(TRUE, FALSE)) afro <- ordered(data$afroAmerican, levels = c(1, 0)) tab <- table(prison,afro) # On modifie le nom des catégories pour le graphique dimnames(tab)[[1]] <- c("Prison","Pas prison") dimnames(tab)[[2]] <- c("Afro-américain", " Autres") #Graphique plot(tab) #Test du chi-deux chisq.test(tab)
Enfin la régression logistique se fait à l’aide de la commande suivante :
reg <- glm(jail~ afroAmerican+singleParent+underFourteen, data=data, family=binomial(link="logit"))
Et pour afficher les résultats :
summary(reg)