Perturbateurs endocriniens et troubles du comportement L’art d’alarmer la population sur des bases incertaines
par Catherine Hill (*)
Il est extraordinairement facile de trouver des résultats alarmants à tort.
La recette est simple : il suffit par exemple de doser une vingtaine de substances chez des sujets à un moment t, et de mesurer 25 caractéristiques ultérieures de ces sujets afin d’étudier les effets de l’exposition à ces 20 substances sur ces 25 caractéristiques.
On compare ensuite pour chaque caractéristique les valeurs moyennes de la caractéristique chez les sujets plus exposés et chez les sujets moins exposés à chaque substance, soit 500 comparaisons au total (25 x 20). Par convention, un résultat qui a moins de 5 chances sur 100 d’être observé sous l’effet du hasard est dit statistiquement significatif. Dans notre exemple, le hasard va intervenir 500 fois (sur chacune des 500 comparaisons).
Supposons, toujours dans notre exemple, qu’en réalité il n’y a aucun effet des expositions aux substances sur les caractéristiques observées. Alors, seul le hasard va intervenir et l’on s’attend à observer 25 résultats sur les 500 qui, pris isolément, sembleraient trop extrêmes et seraient donc considérés comme « statistiquement significatifs », mais en réalité, ne sont que le produit normal du hasard.
Il est ensuite très facile de produire une explication a posteriori pour les résultats observés.
Il existe de multiples façons d’améliorer encore les « chances » d’observer un résultat statistiquement significatif à tort. On peut, par exemple, restreindre l’analyse à un sous-groupe de sujets et conclure que globalement, l’exposition n’augmente pas le risque, mais que l’augmentation est significative chez les hommes (ou les femmes, ou les hommes de plus de 50 ans…).
Le nombre de sous-groupes qu’on peut étudier étant considérable, on est quasi certain d’en trouver un dans lequel l’augmentation est statistiquement significative.
Pour se prémunir de cet énorme risque d’erreur, on peut, soit énoncer à l’avance une hypothèse parmi les 500, et attribuer alors un risque d’erreur de 5 % au résultat significatif observé, ou bien être beaucoup plus exigeant pour chacune des 500 comparaisons, par exemple en utilisant la méthode False Discovery Rate (FDR1).
C’est ainsi qu’un récent article [2] a été interprété à tort comme démontrant un lien entre perturbateurs endocriniens dans les urines de femmes enceintes et comportement de garçons issus de ces grossesses, aux âges de 3 ou 5 ans.
En réalité, le contrôle du risque global d’erreur, que les auteurs mentionnent pourtant dans leur article, montre que les résultats observés sont totalement compatibles avec l’effet du hasard.
Ils ont en effet contrôlé le risque global de faux positif par le FDR et écrivent qu’« aucune des associations reportées dans la partie “résultats” ne reste significative ».
Pourtant, les auteurs concluent que les expositions à plusieurs phénols et phtalates sont associées à de moins bons scores sur des sections du questionnaire « points forts – points faibles » à 3 et 5 ans. Et ils présentent l’analyse qui contrôle le risque d’erreur global comme une « analyse de sensibilité ».
Les résultats sont donc parfaitement compatibles avec l’effet du hasard. Mais cette étude va connaître un énorme retentissement médiatique.
Une extraordinaire saga médiatique
Comment passer d’une étude qui ne montre rien à un projet de loi demandant des pictogrammes sur des produits de consommation ?
Le premier glissement, et non des moindres, est opéré par les auteurs eux-mêmes, le résumé de la publication (l’abstract) ne mentionne pas la réserve (résultats non significatifs) indiquée dans le corps du texte, mais affirme simplement qu’une association avec les troubles du comportement a été trouvée (“was positively associated with the relationship problems”).
Et les auteurs invitent à la réalisation d’autres études « nécessaires pour quantifier le fardeau de santé publique que ces associations pourraient éventuellement représenter ».
Dans la presse, le vocabulaire utilisé par Rémy Slama, le responsable de l’étude, est nettement moins nuancé : « on a des signaux d’alerte » (France Info, 01/10/2017), « C’est une preuve de plus de l’effet de ces perturbateurs endocriniens » (AFP, 30/09/2017).
Le second glissement est opéré par le service de communication de l’Inserm qui décide la diffusion d’un communiqué de presse [1] dont le chapeau annonce qu’« une étude épidémiologique menée par l’Inserm […] montre que l’exposition pendant la grossesse à certains phénols et phtalates est associée à des troubles du comportement des garçons entre 3 et 5 ans »1.
L’AFP relaie alors l’information (29/09/2017) : « Le comportement des petits garçons affecté par les perturbateurs endocriniens », « L’étude montre que l’exposition au bisphénol A était associée à une augmentation des troubles relationnels à 3 ans et des comportements de type hyperactif à 5 ans ».
Logiquement, quasiment tous les médias reprennent les termes de l’agence de presse, presque mot pour mot.
Quelques rares médias se sont néanmoins penchés sur l’article initial avec un peu de sens critique.
Ainsi, par exemple, sur Europe 1, la journaliste Géraldine Woessner indique dans sa chronique « Le vrai-faux de l’info » (04/10/2017) qu’affirmer que cette étude prouverait l’effet des perturbateurs endocriniens sur le comportement des garçons est « très outrancier ».
Elle ajoute que « cette étude ne prouve rien scientifiquement. Il suffit de la lire d’ailleurs, pour s’en apercevoir. Mais elle met en lumière des signaux d’alerte faibles, mais intéressants, qu’il sera indispensable d’approfondir » [2].
Couronnement de cette spirale, le 24 octobre 2017, 23 députés déposent une proposition de loi [3] qui s’appuie explicitement et principalement sur l’étude (« les travaux de cette étude épidémiologique menés par l’Inserm (panel de 500 garçons nés entre 2003 et 2005) montrent que l’exposition pendant la grossesse à certains phénols et phtalates est associée à des troubles du comportement des garçons entre 3 et 5 ans ») pour demander « de marquer d’un pictogramme “déconseillé aux femmes enceintes” tous les produits contenant des substances à caractère perturbateur endocrinien ».
Les perturbateurs endocriniens font l’objet de nombreuses recherches, des résultats sont obtenus et des réglementations se mettent en place.
Une approche rigoureuse et sereine est nécessaire tout au long de la chaîne de production de l’information vers le public en évitant toute médiatisation intempestive.
[1] « Exposition prénatale aux perturbateurs endocriniens et troubles du comportement des enfants », Communiqué de l’INSERM, 29 septembre 2017. Sur le site presse.inserm.fr
[2] Géraldine Woessner, « Les perturbateurs endocriniens ont-ils un effet sur le comportement des garçons ? ». Chronique Le vrai-faux de l’info, Europe 1, 4 octobre 2017, sur le site www.europe1.fr.
[3] www.assemblee-nationale.fr/15/propositions/pion0325.asp
L’enfer des résultats faux contient beaucoup de ces résultats médiatisés qui ont ensuite été infirmés. Dans le cas de la publication évoquée plus haut, les résultats n’ont pas encore été infirmés, mais on ne peut certainement pas les considérer comme démontrés.
Une étude publiée en 2005 dans The Lancet [3] donnait les exemples suivants de résultats d’essais de médicaments observés dans des sous-groupes et réfutés par la suite (l’article donne également les références des réfutations).
- L’aspirine en prévention secondaire des AVC est inefficace chez les femmes.
- Le traitement antihypertenseur en prévention primaire est inefficace chez les femmes.
- Le traitement antihypertenseur est inefficace ou dangereux chez les personnes âgées.
- Les inhibiteurs de l’enzyme de conversion de l’angiotensine ne réduisent pas la mortalité et le risque d’hospitalisation chez les patients souffrant d’insuffisance cardiaque qui prennent également de l’aspirine.
- Les bêtabloquants sont inefficaces après un infarctus aigu du myocarde chez les personnes âgées et chez les patients avec un infarctus de la paroi inférieure du myocarde.
- La thrombolyse n’est pas efficace si elle est faite plus de 6 h après le début de l’infarctus du myocarde.
- La thrombolyse de l’infarctus aigu du myocarde est inefficace ou dangereuse en cas d’antécédent d’infarctus du myocarde.
- Le citrate de tamoxifène est inefficace chez les femmes atteintes d’un cancer du sein qui ont moins de 50 ans.
- L’avantage de l’endartériectomie carotidienne pour une sténose symptomatique est réduit chez les patients prenant uniquement de l’aspirine à faible dose en raison d’un risque opératoire accru.
- L’amlodipine réduit la mortalité chez les patients atteints d’insuffisance cardiaque chronique si cette insuffisance est due à une cardiomyopathie non-ischémique mais pas si elle est due à une cardiomyopathie ischémique.
Chacune de ces affirmations a été réfutée par la suite.
Une autre étude publiée dans The British Medical Journal [4] en 2014 examine 894 protocoles d’essais thérapeutiques contrôlés randomisés soumis à six comités d’éthique.
Elle compare les analyses de sous-groupes prévues dans les protocoles et celles rapportées dans les publications des résultats des essais. Les auteurs concluent que « les analyses de sous-groupes sont insuffisamment décrites dans les protocoles » et que plus d’un tiers des affirmations portant sur des sous-groupes dans les publications « n’avaient aucune documentation dans les protocoles correspondants ».
Un jugement définitif sur la crédibilité des effets revendiqués est « impossible sans l’accès aux protocoles et aux plans d’analyse des essais ». En conclusion, les auteurs rappellent que, sans une pré-spécification de l’analyse des sous-groupes, la crédibilité des effets allégués est très faible.
Ces affirmations fausses fondées sur l’étude de sous-groupes peuvent conduire à refuser des soins potentiellement bénéfiques ou à recommander des traitements potentiellement dangereux.
L’étude des liens entre alimentation et risque de maladie fournit aussi beaucoup de résultats faux-positifs. Ayant étudié en détail l’alimentation passée d’un groupe de patients atteints d’une maladie (car la maladie peut entraîner un changement alimentaire) et l’alimentation d’un groupe de témoins, on compare alors leur consommation en prenant les aliments et les nutriments un par un.
Les malades ont-ils une consommation différente de viande, de viande rouge, de charcuteries, de fruits, de légumes, de lait, de beurre, de produits laitiers, de crucifères, de soda, de vitamine C, de vitamine A, de protéines animales, de légumes secs, d’alcool, de vin, de vin rouge, etc. ?
On trouve forcément une caractéristique de l’alimentation qui est « statistiquement et significativement » différente chez les malades et chez les témoins. Reste à publier ce résultat qui va se répandre très rapidement dans les médias.
Les médias adorent ces résultats faussement positifs, et c’est ainsi que les idées fausses se propagent à la vitesse de la lumière, alors qu’il faut beaucoup plus d’énergie pour les réfuter.
__
(*) Catherine Hill est épidémiologiste et biostatisticienne, spécialiste de l’étude de la fréquence et des causes du cancer, et de l’évaluation des dépistages et des traitements. Chercheuse à l’Institut de cancérologie Gustave Roussy, elle a également fait partie du conseil scientifique de l’Agence du médicament.
Références
[1] Benjamini Y, Hochberg Y, “Controlling the False Discovery Rate : A Practical and Powerful Approach to Multiple Testing”, Journal of the Royal Statistical Society, Series B (Methodological), 1995, 57:289–300.
[2] Philippat C et al., “Prenatal Exposure to Nonpersistent Endocrine Disruptors and Behavior in Boys at 3 and 5 Years”, Environ Health Perspect, 2017, doi:10.1289/EHP1314.
[3] Rothwell PM, “Subgroup analysis in randomised controlled trials : importance, indications, and interpretation”, The Lancet, 2005, 365:176–86.
[4] Kasenda B et al., “Subgroup analyses in randomised controlled trials : cohort study on trial protocols and journal publications”, The British Medical Journal, 2014, 349:g4921.
1 Contacté par SPS, Rémy Slama indique que « à la lumière des connaissances et hypothèses a priori » on s’attend à trouver l’effet observé, le test FDR n’est donc pour lui qu’« une analyse de sensibilité » et il verse au dossier, pour preuve, un texte de la FDA (Food and Drug Administration) et une synthèse des données disponibles, documents qui ne prouvent absolument rien sur les liens entre perturbateurs endocriniens et troubles du comportement.