Translate

mardi 11 février 2014

OVNI & Nucléaire. L'étude statistique de Donald A. Johnson : Quelques réflexions.

Version de Travail / Draft
Copyright Feb. 2014.




Une des thématiques assez récurrente au sein du microcosme ufologique est celle du lien (ou non) entre les OVNI et le nucléaire. 
Les personnes intéressées par cette thématique trouveront, sans doute, une analyse critique de cette question et de ce qu'il se dit dans le microcosme ufologique sur ce sujet du forum UFO-Scepticisme.

Mais ce court billet a pour objet de s'arrêter sur une étude particulière. Donald A. Johnson a réalisé une étude statistique intitulée Do Nuclear Facilities attract UFO? qui est parfois citée ici ou là comme mettant assez clairement en évidence un lien, une corrélation positive : en ce sens, il y aurait plus d'observations d'OVNI sur ou autour des sites nucléarisés, civils ou bien militaires, en comparaison des observations sur ou autour des sites non-nucléarisés. Que vaut-elle ?

La méthodologie de l'investigateur Johnson (pertinente et astucieuse de prime abord) est la suivante : en partant de la base de données UFOCAT (2002), Johnson se propose de comparer le nombre d'observations d'OVNI entre 164 comtés "nucléarisés" avec celui d'un groupe contrôle de 164 comtés "non nucléarisés" (N=328). Les deux groupes sont donc appareillés (selon l'auteur). "Mieux encore", le chercheur tient compte d'une variable "population au sein des comtés" et discrimine alors, toujours en vue de montrer (ou non) ce lien, cinq groupes, les comtés de plus de 500 000 habitants (N=66, soit deux groupes de 33 comtés), ceux entre 225 000 et 500 000 (N=62), ceux entre 101 000 et 225 000 (N=50), de 50 000 à 101 000 (N=68) et enfin de moins de 50 000 habitants (N=84). Curieusement, on ne retrouve pas N= 328, mais N=330...

Le Problème de la Fiabilité des Bases de Données OVNI

Nous avions déjà "alerté" dans un précèdent billet sur le problème de la fiabilité et la "solidité" des cas recensés "OVNI" dans ces bases "titanesques" de données. 
Ces bases de données recensent en effet un très très grand nombre de cas : rien que pour cette étude et si l'on ne prend que les cas OVNI retenus pour ces 328 comtés (laissant de côté la variable "rencontres rapprochées"), nous avons ici presque... 14 000 cas ! Wow! 
Autrement dit, sur les cas OVNI retenus ici, il est indéniable qu'un (très) grand nombre de cas serait et est retenu ici et catégorisé "OVNI" simplement parce qu'il n'a pas été possible, par manque de données et de ressources à allouer, d'identifier le stimulus prosaïque ; Ou bien encore qu'il s'agit ou s'agirait dans la plupart des cas que de simples dépôts de témoignages et qu'aucune enquête ou investigation digne de ce nom a ou aurait été menée (enquêter de façon digne de ce nom sur presque 14 000 cas relève de l'impossible !). 
Aussi, alors que le chercheur penserait travailler sur des cas "OVNI", un très grand nombre de ces cas entrés dans l'analyse ne seraient (et sont sans doute) des OVI (c'est à dire un très grand nombre de cas qui, après enquête, se seraient révélés n'être que des stimuli conventionnels non identifiés pour ce qu'ils étaient). C'est certainement le plus gros bémol que l'on peut faire à ce genre d'étude statistique, et cela, hélas, ne donne guère envie d'aller plus loin... Difficile de dire au combien cet "artefact" participe ou non à la tendance obtenue...

D'autant plus qu'au sein de la communauté ufologique, certains se sont efforcés à classer et construire des bases de données OVNI où un critère ou classement qualitatif est injecté pour chaque cas de la base de données. C'est à dire que les cas sont examinés, "épurés" en fonction de certains critères et indicés ensuite. Parmi ces critères qualitatifs, on trouvera par exemple : l'observation est-elle à témoins multiples ou bien un seul ; La profession des témoins (on favorise - fallacieusement à notre avis, mais ce serait un autre débat - les observations impliquant militaires ou pilotes) ; On tient compte et on construit un indice d'étrangeté (a priori le cas a ou n'a pas dans la description donnée par le ou les témoins un équivalent/candidat conventionnel ; La profondeur et l'existence ou non d'une enquête pour le cas, etc. Ce billet ne discutera pas de la validité ou de la pertinence de telles bases de données ou de ces critères, mais au minimum, il serait sans doute plus valide d'utiliser de telles bases de données que des bases de cas "bruts" où les cas injectés dans l'analyse sont sujets à caution pour les raisons évoquées plus haut et où la quantité prime sur la qualité des cas... A ma connaissance, la base UFOCAT classe justement les cas en fonction de leur étrangeté (8 types), de très faible à très forte. L'auteur ne semble pas avoir tenu compte de ce critère qualitatif du niveau d'étrangeté des cas (qu'il soit subjectif ou non est une autre affaire, voir par exemple mon précèdent billet sur le cas de Yukon).

Nous avions également proposé dans un précèdent billet consacré aux vagues d'OVNI que ce genre d'étude devrait, selon nous, produire et réaliser la même analyse et utiliser la même méthodologie, mais cette fois-ci à partir de cas OVI et des bases OVI (IFO en Anglais). Si le chercheur adoptait la même approche et méthodologie sur les cas OVNI identifiés (OVI), que trouverait-il comme tendance ? 
Si, par exemple, une même tendance était relevée et puisque ces cas sont OVI, une telle analyse permettrait alors d'explorer d'autres variables "cachées" (ou latentes) qui expliqueraient ou pourraient expliquer cette tendance. C'est assez dommage, à notre opinion, de négliger ainsi ou continuellement les bases OVI car de telles analyses "symétriques" OVI/OVNI pourraient peut-être fournir de fécondes pistes de réflexion.

Notons également que l'étude ne s'arrête qu'à l'analyse descriptive (montrant descriptivement plus de cas OVNI pour les sites nucléarisés que non-nucléarisés). Une analyse inférentielle, afin de déterminer si ces différences de moyennes sont significatives ou non (c'est à dire imputable au simple hasard, ou non) eut été pertinente. Ceci dit, pour avoir appliqué quelques outils statistiques en ce sens et sur les données, nous pensons qu'elles sont significatives (c'est logique vu le nombre titanesque d'observations injectées).

Les Possibles Biais d'Appariement, d’Échantillonnage (Sélection) et les Possibles Artefacts Statistiques




328 Comtés ont été retenus dans cette étude. Rappelons qu'aux USA, un comté (county) est une forme de gouvernement local, une division territoriale plus petite qu'un État mais plus grande qu'une ville ou une municipalité, dans un État ou un territoire. 
Ce chiffre de 328 comtés peut paraître beaucoup de prime abord, mais il faut savoir qu'il existe plus de 3100 comtés dans ce pays. 
Autrement dit, l'étude ne porte que sur un peu plus de 10 % des comtés du pays (représentant environ un tiers de la population américaine). La question est toujours la même : ne tire-t-on pas des conclusions et des corrélations (illusoires ?) sur des échantillons ou groupes inadéquats, biaisés ou trop petits, non-représentatifs ?
En outre, nous n'avons pas le fichier brut, et nous n'avons pas idée ou chiffre du nombre de comtés total "nucléarisés" ou non, aux Etats-Unis. Difficile alors de se faire une idée de quels autres appariements comtés nucléarisées / non nucléarisés sont ou seraient possibles. Ceux retenus par le chercheur sont-ils représentatifs, ou il y a t-il d'autres appariements qui donneraient une tendance contraire ? Il y a t-il un ou des biais de sélection au sein de ces échantillons (les comtés retenus jouant dans le sens de l'hypothèse) ?
Ainsi, si par exemple pour les 42 comtés non-nucléarisés de moins de 50 000 habitants, le chercheur n'a retenu, consciemment ou non, que des comtés qui jouaient en faveur de son hypothèse (c'est à dire qu'il aurait retenu les 42 comtés non-nucléarisés pour lesquels il y avait le moins d'observations d'OVNI par comparaison à tous les autres comtés non-nucléarisés de moins de 50 000 habitants), un biais serait induit dans l'étude et pour cette comparaison inter-groupes.
Et sans le fichier brut, le lecteur/chercheur ne peut vérifier si tel est le cas (ici quels sont les 42 comtés de moins de 50 000 habitants non nucléarisés qui ont été retenus eu égard à la liste de tous les comtés non nucléarisés de moins de 50 000 habitants à disposition; ces 42 comtés sont-ils représentatifs, en moyenne, quant au nombre d'observations déposées, en ce qui concerne tous les comtés non nucléarisés de moins de 50 000 habitants ou bien ces 42 comtés jouent dans le sens de l'hypothèse ? En choisir d'autres aurait-il joué contre l'hypothèse, la tendance attendue ? Pourquoi avoir choisi ces 42 là et pas d'autres ?).
Disposer du fichier brut et de telles données, nous aurait peut-être permis de voir toutes les combinaisons possibles (appariements) ou d'autres combinaisons possibles, et de vérifier si les appariements retenus ne sont pas biaisés (c'est à dire qu'ils jouent en faveur de l'hypothèse).
Est-ce qu'en procédant à un autre appariement comtés nucléarisés versus comtés non-nucléarisés, nous arriverions à la même tendance que celle relevée par le chercheur ? Ou bien en faisant "notre propre cuisine" concernant les appariements, nous aurions obtenu un résultat contraire ?

Au total, bien que cette étude soit assez souvent pointée comme montrant un lien entre OVNI et nucléaire, je la trouve, et à ce stade, guère convaincante eu égard à
 1) La non fiabilité des bases de données OVNI. A lui-seul, ce problème devrait amener le lecteur face à de telles études statistiques consacrés aux OVNI, très prudent quant aux conclusions, tendances dégagées, etc. Pareil pour le chercheur qui s'aventure dans de telles études ou analyses.
 2) L'impossibilité de vérifier ce qui se passerait en procédant à d'autres appariements, du fait de l'absence du fichier brut. La question de possibles biais d'échantillonnage ne peut être levée. D'ailleurs, toute étude "statistique" dans le domaine académique se doit de fournir le fichier brut "aux pairs" et d'être un peu plus explicite quant à la méthode d'appariement des groupes.




Copyright February 2014.

3 commentaires:

Tim Hebert a dit…

Gilles,

I reviewed Johnson's paper/report and I'm curious as to the date of his paper. Further, what counties/states are listed in the report? Saying that one has n=164 may seem like a reasonable research number, but not providing a region by region description of the sampling tends to hide pertinent facts.

How are we to know precisely that a UFO was attracted solely to a missile launch site, storage facility, etc? Perhaps an adjacent rail line or farm house was the true attraction? I say this in a sarcastic manner because we are talking about a vast geographical landscape with the intent to "pinpoint" an exact landmark as the attraction or lure for a UFO.

I would propose the use of random sampling of counties as an alternative. This sampling could be done by regions within the US.

Anyways, an interesting post on your blog.

Kind regards,

Tim Hebert

Gilles Fernandez a dit…

Greetings Tim,

Thank you for the comment!

Yes, there are among the "methodological" problems I adressed here. Without providing the "raw file", many things cant be verified, including your pertinent remark.

For your sarcastic remark, I done a "similar" one yesterday in French. Something like "OK, suppose (2s for me) that the + 14 000 cases of this study are manifestations of ET craft (or other Fortean candidats): How do you know that the UFO sighted on non-nuclear sites are not currently observing, remotely, via instruments nuclear sites? And vice versa?" ^^

Regards,

Gilles

Gilles Fernandez a dit…

PS: I dunno the exact date the paper was released, but taking into account the bibliography mentionning a 2001 book, as the use of UFOCAT 2002 Data base, it was probably post 2001/2002 "for sure".