Statistical analysis

Pour la plupart, les statistiques sont une méthode d'investigation qui est utilisée lorsque d'autres méthodes sont sans résultat; c'est souvent un dernier recours et un mince espoir M. J. Moroney,Facts from Figures.

L'analyse statistique peut etre décrite comme le traitement quantitatif de l'incertitude. Au sens large, c'est certainement plus que cela. Pour de nombreuses personnes le terme "statistiques" est synonyme de "données" et une grande partie de ceux qui font des analyses statistiques sont eux-mêmes préoccupés par la collecte et la récapitulation de données. Mais lorsque les données ainsi traitées sont utilisées pour formuler et tester des hypothèses, la probabilité est immédiatement impliquée et commence le traitement quantitatif de l'incertitude.

Le malaise engendré lorsque que l'on a affaire à l'incertitude et une connaissance insuffisante des statistiques illustre le point de vue exprimé par Moroney. De nombreuses personnes, dont des scientifiques, ne sont pas à l'aise avec l'incertitude (même si, sans en être conscients, il la cotoient constamment) et leur opinion sur les statistiques en est par conséquent quelque peut impreignée.

Nous sommes ici intéressés par savoir si, oui ou non, l'analyse statistique de rapports d'observations d'ovnis pourrait être informative sur ce que sont ces phénomènes mais pas sur comment ils sont rapportés. Nous faisons la distinction, à l'origine, entre l'étude des phénomènes ovnis et l'étude de la manière dont les gens signalent des ovnis. Il est probable que les deux ne peuvent être complètement démêlés et, plus encore, que la première soit impossible sans une idée de la dernière. Cependant, des tentatives ont été faites et seront probablement faites dans le futur pour utiliser un rassemblement de données de rapports d'observations pour étudier les phénomènes ovnis parce que la source de données est certainement la plus grande et la plus complète de toutes celles dont nous disposons pour s'attaquer au problème. Tout au long de ce chapitre nous nous préoccuperons, alors, du rôle de la méthodologie statistique dans l'étude des phénomènes ovnis.

Les statistiques traitant de l'incertitude, elles peuvent représenter une candidate séduisante pour une méthodologie centrale dans la recherche sur les ovnis. Le but de ce chapitre est de discuter la place de l'analyse statistique au sein de l'étude du problème ovni. Nous nous interresserons en particulier au test des hypothèses et aux procédures de décision et pas simplement à l'aggrégation des données.

La nature du problème ovni, liée à la nature de la méthodologie statistique, avant tout, résulte en des questions posées dans les hypothèses qui pourraient ne pas être particulièrement satisfaisantes. Par exemple, nous pourrions demander Y a-t-il 95 % (ou 90 % ou 99 %) de chances que les signalements d'observations d'ovnis incluent des observations d'objets d'origine non terrestre ? Mais de par la nature des données nous sommes forcés de poser des questions telles que Y a-t-il 95 % (etc.) de chances que les caractéristiques des rapports classés comme "connus" diffèrent de ceux pour lesquels aucune explication n'a été suggérée ?

Une des raisons de cette incapacité à poser les questions ou établir les hypothèses spécifiquement orientées vers la résolution du problème des phénomènes ovnis est qu'ils interviennent dans la nature et hors de notre contrôle direct. A l'exception peut-être d'études psychologiques, nous ne pouvons placer "le problème ovni" dans un laboratoire et l'étudier — nous devons l'accepter tel qu'il intervient. En termes statistiques, nous ne pouvons concevoir d'expériences statistiques pour tester cette question particulière.

La seconde et plus profonde difficulté est constituée par le fait plutôt évident qu'il est impossible de formuler des déclarations, questions, ou hypothèses au sujet de manifestations de phénomènes inconnus. Nous pouvons, bien sûr, examiner les données et voir quelles manifestations il existe dans les données de l'échantillon, mais nous sommes sévèrement limités quant à la nature des conclusions que nous pouvons établir, encore une fois, en raison de la nature inconnue du phénomène. La différence est ici subtile, peut-être, mais importante.

Une manière instructive, mais certainement pas unique, de considérer cette différence est d'invoquer la dichotomie traditionnelle entre raisonnement déductif et inductif en science. L'approche déductive opérerait en, disons, supposant que les ovnis sont une manifestation d'une Intelligence Extra Terrestre ; ou, peut-être, en représentant simplement une classe de phénomènes atmosphériques optiques ou électromagnétiques inconnus. Etant donné une ou l'autre de ces considérations s'ensuivrait la construction d'hypothèses sur les caractéristiques des signalement d'ovnis. Mais parce que dans les deux cas de ces considérations nous avons affaire avec quelque chose d'inconnu, comment nous y prendrions-nous pour mettre en place de telles hypothèses ? Une telle approche d'un point de vue statistique en tous cas semble si difficile à poursuivre qu'elle semble essentiellement dénuée de valeur.

Une approche inductive serait, dans ce cas, quelque chose comme suit. Aggrégeons un échantillon de rapports d'ovnis et examinons leurs caractéristiques avec l'objectif d'établir au-delà de tout doute raisonnable que les caractéristiques sont celle-ci etc. De là nous devons essayer d'élaborer une théorie expliquant ces caractéristiques.

Pratiquement toutes les sciences opèrent en pratique par une combinaison et une alternance de méthodes inductives et déductives et dans les deux les statistiques sont généralement utilisées en tant qu'outil de recherche. Cependant il existe des différences importantes en méthode statistique entre le fait que nous regardions les données ou les preuves pour forumuler une hypothèse et celui que nous souhaitions établir un degré de fiabilité pour la validité de ce que nous hypothésons. Peut-être l'abus le plus courant en statistiques est représenté par les efforts de faire les deux en même temps.

En langage statistique, l'expression de la formation des hypothèses après le fait, après avoir examiner les données, est appelé formation d'hypothèses a posteriori. La construction d'une hypothèse avant que les données soient examinées est appelée formation a priori. La première suit plutôt facilement comme le résultat d'une approche inductive et la dernière de la méthode déductive. La formation d'hypothèse a posteriori, à moins d'être correctement testée, représente la tentative précédemment mentionnée de formuler une hypothèse et d'établir sa signification en même temps.

En plus des difficultés dans la formation des hypothèses présentées par le problème ovni, il y a un autre problème qui devrait être discuté. Ce problème, presque toujours crucial et non spécifique au problème ovni comme le seul mentionné, est le problème de l'échantillonnage. Etant donné que des hypothèses sont formulées soit a priori soit a posteriori, nous devons alors tester les hypothèses sur un échantillon de données pris au hasard. Nous ne pouvons entrer ici dans une discussion complète sur la sélection aléatoire d'un échantillon, mais devons juste mettre en avant que si nous espérons établir la véritable signification statistique d'une hypothèse la sélection de rapports d'observations ne peut être biaisée en faveur ou contre cette hypothèse à tester.

Par exemple, supposons que nous voulions tester l'hypothèse que les signalements d'observations d'ovnis contiennent un nombre significatif (dans un sens statistique) dans lequel la vitesse apparente estimée dépasse la vitesse sonique ou d'un avion. Une telle expérience pourrait être mise en place et un échantillon de données de rapports collecté pour tester l'hypothèse. Cependant, à moins qu'une grande précaution soit prise pour sélectionner les cas à inclure dans l'échantillon, il est probable que l'on rencontre un composant non aléatoire. Ceci parce qu'il est très probablement que c'est précisément parce que l'ovni montrait ce qui pour quelqu'un était une vitesse supersonique qu'il a été signalé et inclus dans les dossiers ovnis d'une sorte ou d'une autre. Un tel biais dans l'échantillon va à l'encontre de la possibilité d'une réponse statistiquement fiable à la question existant dans l'hypothèse.

L'exemple précédent amène un problème très déroutant. Qu'est-ce qui devrait constituer la population des rapports d'ovnis ? Devrions-nous inclure l'ensemble des signalements d'ovnis indépendamment de leur explication probable, ou juste ces rapports pour lesquels aucune explication rationnelle ne peut être fournie ? Il semble intuitivement évident qu'une observation qui est presque certainement, par exemple, Vénus ne devrait pas être incluse dans la population des ovnis. Mais les dangers possibles de biaiser l'échantillon des rapports examinés par un tel raisonnement intuitif semblent sérieux, sans parler du problème de déterminer la division entre les cas connus et les cas inconnus. Encore une fois, il semble que la nature inconnue des phénomènes pose des questions sérieuses quant à la définition de la population et par conséquent sur le type de questions que nous pourrions oiser sur les données des rapports.

On trouve dans la littérature ovni l'utilisation d'aggrégats de données de rapports pour rechercher des "tendances" ou "motifs", de manière implicite ou explicite.

La supposition de base semble avoir été que les tendances et motifs dans les rapports d'ovnis pourraient fournir des informations sur la nature du phenomène. Cette approche semble être en majeure partie inductive — ce qui n'est peut-être pas surprenant au regard des difficultés de l'approche déductive dans la problématique ovni.

Il y a 2 commentaires importants sur cette supposition. Le 1er est que tout examen de données de rapports est liée à révéler un motif — on serait plutôt surpris si les rapports n'avaient aucune caractéristique. Le 2nd est que, comme dit précédemment, puisque les motifs ont été détectés dans l'échantillon en main une procédure est nécessaire pour tester la signification des motifs sur des échantillons de données indépendantes.

Les Vallées (1966) recommendent une recherche des motifs spatiaux et temporels dans les données de rapports. Ils rapportent :

une tendance prétendue à rapporter des positions dans un jour calendaire donné situées dans des motifs qui peuvent être joints pas des réseaux de lignes droites (l'hypothèse controversée de l'"orthoténie"),
une différence dans la variation diurne des différents types de rapports d'ovnis, et
une périodicité de 26-mois (ajustée pour validation annuelle) dans les donneés de rapports.

Seul le premier élement amène les Vallees à signaler tout test comme la signreport any test as to the statistical significance of the claimed pattern. Ils établissent des critères basiques donnant la distribution du nombre de points déterminant les lignes droites pour joindre des réseaux de points lorsque les points sont distribués au hasard dans l'espace. Ils ne signalent pas, cependant, avoir testé l'hypothèse des lignes droites sur un échantillon de données autre que celui utilisé pour formuler l'hypothèse d'orthoténie.

Pour le moment, supposons que l'ensemble des 3 caractéristiques peut être testé suivant la méthodologie de test d'hypothèse statistique et any one proves significant -- that is, l'hypothèse nulle de

une distribution spatiale aléatoire des lieux de signalements journaliers, ou
aucune différence dans la variation diurne des types d'observations, ou
une distribution temporelle aléatoire du nombre total mensuel de rapports

est rejetée au niveau de, disons, 95 %. En conséquence, nous concluons avec un risque de 95 % qu'une variation spatile ou temporelle non aléatoire intervient dans les données de signalements d'observations. Ce "niveau de risque" est une mesure du niveau de confiance que l'on peut avoir quant à rejeter l'hypothèse nulle lorsqu'elle est en réalité vraie. La plupart des tests statistiques sont de ce type basique.

Cependant il y a un autre type d'erreur statistique inhérent dans ce type de test d'hypothèse qui pour parler de manière générale devrait être pris en compte. Nous devrions (si possible) essayer de déterminer quel est le risque d'accepter l'hypothèse nulle lorsqu'elle est en fait fausse. Normalement ce type d'erreur est évitée en formulant le problème de manière à ce que le status quo soit représenté par l'hypothèse nulle. La raison de ce choix est qu'il est préférable d'errer du côté conservateur, puisque généralement le risque d'accepter le status quo (l'hypothèse nulle) lorsqu'il est en fait faux est plus grand que le risque de le rejeter lorsqu'il est en fait vrai. La formulation complète du problème en ces termes serait un excercie en théorie de la décision. En raison de l'intérêt éveillé par le problème des ovnis, à la fois d'intérêt scientifique et social, il apparaît qu'un exercice plus intéressant et attirant serait de tenter de formuler des problèmes en terme de théorie de la décision.

Même en considérant que la problème de la décision peut être attaqué et résolu et que l'on accepte le rejet de l'une des hypothèses nulles, qu'avons-nous appris ? A l'évidence nous faisons face avec des preuves solides qu'il y a quelque chose de très particulier dans la distribution dans l'espace et le temps des signalements d'ovnis. Mais l'exploitation que nous pourrions faire de cette particularité dans l'élaboration de conclusions sur la nature des ovnis serait limitée en raison des nombreuses explications alternatives d'une distribution particulière des rapports. Un raisonnement statistique dans cette situation hypothétique pourrait nous indiquer que les rapports sont significativement non aléatoires dans leur distribution spatiale ou temporelle et que la probabilité est grande qu'il y ait là quelque chose à investiguer, mais le raisonnement statistique ne pourrait rien nous dire sur comment interpréter cet aspect non aléatoire. De plus le mot "significatif" est utilisé au sens statistique et n'a aucune connotation avec "importance".

Une analogie utile ici pourrait être le rapport entre fumer la cigarette et la cancer du poumon qui est a également été le cœur d'une tempête polémique. La significativité statistique d'un lien entre les deux a été établie comme très élevée et presque chacun accepte le niveau de significativité statistique comme indicateur d'une relation. Cependant, cette significativité ne prouve en rien un lien causal entre le fait de fumer et le cancer du poumon — c'est simplement une explication parmi d'autres du résultat statistique. La plupart des gens, en outre, accepterons le niveau de significativité comme comme l'indice qu'il y a certainement quelque chose à investiguer. L'utilisation d'indice statistiques pour choisir ce que l'on peut faire par la suite plutôt que de choisir entre des actes terminaux implique la théorie de la décision, plutôt que le test classique d'hypothèse statistique. Ce type d'analyse a déjà été mentionné ci-dessus.

Pour résumer, le phénomène ovni présente des problèmes ardus et défiants pour la méthodologie statistique. Nous avons affaire à des phénomènes inconnus, au moins en partie, qui se manifestent par rapports subjectifs, qualitatifs de la part d'observateurs disposant d'un large spectre de capacité à signaler ce qu'ils voient. Nous ne pouvons placer les phénomènes dans le laboratoire pour les étudier et concevoir des expériences sur eux. Il existe des problèmes particulièrement fondamentaux tels que la définition de la population à utiliser dans les études statistiques, et la formulation des hypothèses sur les caractéristiques ou les données de rapports a posteriori et la tentative de les interpréter comme des manifestations de phénomènes inconnus.

Le physicien familier avec les statistiques et la méthodologie statistique arrivera probablement à l'une des 2 conclusions sur la possibilité d'une utilisation productive des statistiques sur le problème ovni. Considérant les difficultés décrites ci-dessus il pourrait conclure que la méthodologie d'analyse statistique n'offre pas de réponses satisfaisantes aux questions importantes et centrales des phénomènes ovnis, et que des efforts devraient être dirigés vers l'accroissement de la compréhension de l'optique atmosphérique, etc. ou en tentant de faire une mesure d'une quantité physique associée à un ovni. Ou il pourrait prendre la position selon laquelle les difficultés de l'analyse statistique dans ce cas ne devraient pas empêcher les efforts pour effectuer des analyses, parce que le risque de mettre de côté des informations de valeur en ignorant des données de rapports d'observations ne devrait pas être surestimé. Cette position doit être considérée avec précaution, car ce serait le prendre comme "un dernier recours et un mince espoir" comme le dit Moroney.

Le sociologue, d'un autre côté, pourrait tenir une position différente. Au lieu d'être intéressé par les rapports observations en tant que mesure d'un phénomène physique il pourrait être attiré par les données en tant que source d'information sur les problèmes psychologiques et socio-psychologiques de perception, signalement, etc. Nous ne nous considérons pas qualifiés pour développer ce point plus avant. Mention en a été faite au début de chapitre et une discussion supplémentaire peut être trouvée en Section 4 dans les chapitres 1 et 2.

En résultat de considérer le problème du rôle de l'analyse statistique des données des rapports dans l'investigation sur les phénomène ovnis nous concluons que de très graves difficultés sont présentes et impliquant des aspect plutôt fondamentaux de la méthodologie statistique. Notre sentiment est que peu de valeur pour les sciences physiques résutleront de la "recherche" dans les données de rapports des caractéristiques "significatives".

Nous qualifions cette vision de 2 manières : d'abord, nous sommes incapables, bien sûr, de voir le futur et il se peut très bien qu'un travailleur innovant prêtant une attention toute particulière aux demandes de la méthodologie puisse produire une étude qui représente une véritable avancée dans la connaissance des ovnis. Nous devrions à cet égard give the decision-theory approach some thought : nous devrions essayer d'évaluer les conséquences d'une erreur statistique dans les deux cas et considérer les problèmes posés par la question du type où allons nous maintenant ?. Ensuite, les efforts pour enquêter sur les rapports d'ovnis plutôt que sur les phénomènes ovnis semblent offrir une base fertile pour une étude future.