Réduction des données à une forme pour traitement automatisé

BMI: ATIC, jeudi 5 mai 1955

Tels que reçus par le Centre de Renseignement Technique de l'Air, les rapports d'observations n'étaient pas sous une forme adaptée même pour une étude quasi-scientifique. Un examen préliminaire des données indiqua le besoin de procédures d'interrogation standardisées et de formulaires supplementaires pour la réduction des données actuellement détenues et acquises par la suite sous une forme adaptée à une approche scientifique.

Le plan de réduction des données à une forme exploitable a consisté en un programme de développement comprenant 4 étapes majeures :

  1. un listage systématique des facteurs nécessaires à l'évaluation de l'observateur et son rapport, et pour identifier l'objet inconnu observé ;
  2. un schéma standard pour le transfert de données vers un système de traitement automatisé ;
  3. un moyen ordonné de relier les données d'origine à l'ensemble des formulaires qui suivront ; et
  4. une procédure cohérente pour l'identification du phénomène décrit par les données d'origine.

Questionnaire

Les 1ers rapports reçus par l'ATIC ont largement varié en complétude et en qualité. La Lettre de l'Air Force 200-5 s1[qui donne responsabilité à l'Air Force des enquêtes, signalement et analyse des objets aériens non identifiés. Cette lettre est datée du 29 avril 1952] et le Formulaire 112 de l'Air Force n1[une version modifiée du formulaire 112 de l'Air Force liste des questions pertinentes auxquelles répondre dans le cadre d'une observation d'objet non identifié] ont été des tentatives de spécifier la responsabilité et améliorer la qualité des rapports d'observations. Afin de coordonner les efforts passés et de fournir une standardisation à l'avenir, il a été impératif de développer un formulaire de questionnaire listant les facteurs nécessaires à l'évaluation de l'observateur et de son rapport, et à l'identification des objets inconnus. De plus, il a été décidé qu'un tel questionnaire devrait être conçu comme un guide pour l'interrogateur, ainsi qu'un formulaire que l'observateur lui-même puisse remplir lorsqu'une interrogation en personne n'était pas possible ou réalisable.

Idéalement, un questionnaire pour les buts poursuivis devait contenir des questions touchant à l'ensemble des détails techniques considérés comme essentiels pour l'approche statistique, et devait servir à obtenir un maximum d'informations de l'individu moyen ayant fait une observation dans le passé ou qui serait susceptible de signaler des observations dans le futur. A côté des faits discrets, une description écrite intégrée d'une observation serait demandée, permettant ainsi de corroborer les faits rapportés. Egalement, une description narrative pourrait permettre des questions subtiles auxquelles il faudrait répondre concernant la capacité de l'observateur, telles que des questions indirectes qui révéleraient sa capacité de raisonnement, sa suggestibilité et son attitude mentale générale. Dans son ensemble, alors, l'information contenue dans un questionnaire devrait rendre possible la classification et l'évaluation de l'observation, l'évaluation de l'observateur, la probabilité de précision des faits rapportés, et l'identification de ce qui a été rapporté par l'observateur comme non identifié.

Au cours de ce projet, 3 formulaires de questionnaires ont été développés, chacun visant à être une version améliorée du précédent. Les améliorations ont été suggérées et confirmées par des membres du panel de consultants liés à ce projet.

Le formulaire d'origine a débouché du 1er travail du panel des consultants sur ce projet. Il visait à permettre de commencer la réduction des rapports à des données discrètes, et a été immédiatement soumis à un examen étendu et à une révision par le panel. Le (second) formulaire révisé a été soumis à un test d'essai avant d'être adopté. L'ATIC a envoyé une copie aux observateurs signalant des observations, en leur demandant de compléter le formulaire et de le retourner. Sur les 300 premiers questionnaires retournés en juillet et août 1952, 168 ont été analysés par un psychologue consultant. Sur la base de cette analyse, en plus de l'expérience acquise en travaillant sur les rapports passés, le formulaire de questionnaire final de Feuille d'Information Technique de l'U. S. Air Force fut développé. Des copies des 3 formulaires du questionnaire, dans l'ordre de leur développement, sont présentés comme pièces B1, B2 et B3 de l'Annexe B.

Afin de réaliser la transcription des données à partir des rapports d'observations passées, chaque formulaire successif a été mis en utilisation dès son développement et approbation. En conséquence, une expérience a été obtenue avec chacun des formulaires en relation avec les données passées, un facteur important pour l'amélioration de la qualité et la complétude des derniers rapports inclus dans cette étude.

Système de codage et feuille de travail

La réduction des données non-numériques à une forme numérique est obligatoire pour la traitement des données par la machine. Ainsi, la sélection du système de cartes perforées IBM pour l'analyse des données à contraint à l'adoption d'un plan de codage de référence. Comme il n'était pas envisageable de transférer des données détaillées d'une nature exacte du questionnaire sur la carte IBM, une forme de transfert intermédiaire, coordonnée avec le code de référence, a été nécessaire.

La plan de codage de référence a évolué au cours des premières étapes de l'analyse préliminaire des données, et a été revu par le panel des consultants avant d'être exploité. Il a été reconnu que ce système de codage constituerait le cœur de l'analyse, c'est-à-dire que l'étude dépendrait de la complétude du dispositif de traduction des données. En conséquence, tout facteur imaginable qui pourrait influencer l'identification d'objets aériens non identifiés a été inclu, ainsi qu'une large gamme de variations pour chaque facteur. Le système de codage d'origine (avec des corrections mineures) a été exploité tout au long de la traduction des données d'origine avec un succès marqué. Une copie de ce système, nommé codes, est incluse comme pièce B4 de l'annexe B.

Afin de faciliter la préparation du résumé sur carte perforée, une forme intermédiaire nommée feuille de travail (plus tard, bible des cartes) a été développée. Referenced to both the données du questionnaire et the système d'identification de rapport, la feuille de travail a permis une transcription ordonnées des données simultanément par plusieurs personnes. En conjonction avec les codes, la feuille de travail a été exploitée au cours de la réduction des données d'origine sous la forme codée nécessaire au transfert sur cartes perforées. Un exemple est inclus en pièce B5, annexe B.

Après que l'analyse ait été mise en route, est est devenu apparent que la mécanique de la machine traitante pourrait être améliorée en incorporant dans le système de cartes IBM des classifications de groupes de certains facteurs nécessitant plus de 1 colonne pour les expressions discrètes. De plus, l'inclusion de certaines données relatives à l'évaluation et l'orientation du Soleil par rapport à l'observateur a été considérée nécessaire. Finalement, un examen critique de certains segments de donneés a indiqué le besoin de définir un nouveau facteur relatif aux manœuvres de l'objet ou des objets observés. Avant le démarrage de l'étude analytique, il avait été supposé qu'une combinaison de facteurs indiqués définirait, par inférence, le schéma de manœuvre.

Tous ces ajouts ont été incorporés dans un ensemble révisé des codes et de la bible de cartes illustrés en pièces B6 et B7, annexe B. Cependant, au moment où le facteur de manœuvre a été déterminé comme étant critique, il était physiquement irréalisable d'effectuer les définitions nécessaire et de réévaluer les données d'origine. Par conséquent, aucun code pour la maneuverabilité n'a été inclus dans les codes, bible de cartes, ou cartes IBM.

Identification des documents de travail

La réduction effective des données sous forme de carte perforée IBM a présenté un problème de transfert de masse des chiffres par plusieurs employés. Reconnaissant qu'un système ordonné permettant de mettre en relation les données d'origine avec le questionnaire, la feuille travail et la carte IBM était impératif, un schéma de numéros de série a été développé pour répondre à ce besoin.

Les premières données ont consisté en une série de dossiers d'archivage de lettres identifiés par année et lieu de ou des observations qu'ils contenaient. Le nombre de rapports d'observations dans un seul dossier variait de 1 à plus de 20. Dans ces conditions, il y avait de grande possibilité de d'erreurs de transcription des données, de duplication de transcription, ou de mauvais placement des formulaires intermédiaires. Further, il a été considéré souhaitable de relier l'ensemble des observations du même ou des mêmes objets les unes avec les autres. Le concept d'un numéro de série à 4 chiffres (majeur), suivi d'un numéro de série à 2 chiffres (mineur), a répondu à ces besoins de manière adéquate.

Pour ne pas retarder le traitement des données, des numéros de série temporaires ont été affectés en attendant que chaque signalement ait été évalué et que le phénomène ait été placé dans une catégorie d'identification. L'utilisation de numéros de série temporaires a permis la consolidation des signalements dupliqués de sources apparemment diverses, tels qu'un message télétype et un formulaire 112 de l'Air Force. Cependant, cette consolidation a été effectuée seulement lorsqu'il a pu être trouvé de manière probante que les sources de 2 documents étaient uniques et les mêmes. Les facteurs de localisation de l'observateur, date et heure de l'observation, description du phénomène et finalement, le nom de l'observateur ont été considérés. De cette manière, l'affectation de numéros de série majeurs et mineurs dans des séries continues a été fait seulement pour les rapports acceptés pour l'étude statistique. Il est considéré que les rapports acceptés représentent des cas d'observations uniques et non dupliqués.

Dans l'établissement du système de numéro de série, il a été nécessaire de définir certains termes, de sorte qu'une interprétation standard puisse être effectuée. Les termes et définitions correspondantes ont été :

Un numéro de série majeur (4 chiffres) a été affecté à chaque observation, séparant l'année d'occurrence par sélection des limites de chaque année, comme suit :

0001 to 0500 reservé pour 1947
0501 to 1000 reservé pour l'année suivante
1001 to 1500 reservé pour l'année suivante
1501 to 2000 reservé pour l'année suivante
2001 to 2500 reservé pour l'année suivante
2501 to 4900 reservé pour 1952

Alors que ce schéma servirait à identifier toute observation individuelle, l'identification de chaque rapport et de ses formulaires ultérieurs a été nécessaire. Les numéros de sous-série (2 chiffres) ont répondu à ce besoin. Pour l'ensemble des observations uniques, un numéro de série majeur suivi de deux (2) zéros, par exemple, 2759.00, a été une identification suffisante pour des observations multiples, le numéro de série majeur suivi par une série de nombres à 2 chiffres allant de 00 à 99 a été utilisé pour identifié les rapports individuels. En général, le rapport le plus complet de l'observateur le plus fiable de cette observation multiple a été identifié par le numéro de sous-série .00. Par exemple, une observation multiple consistant en 6 rapports d'observations aurait les numéros de série suivants :

1132.00 représentant le meilleur rapport et observateur
1132.01 représentant un observateur supplémentaire
1132.02 représentant un observateur supplémentaire
1132.03 représentant un observateur supplémentaire
1132.04 représentant un observateur supplémentaire
1132.05 représentant un observateur supplémentaire

Au cours de la transcription des données sous forme de carte pour machine, il est devenu évident que certain signalements auraient pu être des observations indépendantes du même phénomène. Donc, si la présentation d'une analyse basée sur un signalement pour chaque observation était valide (le concept d'observations unitaires), une présentation d'une analyse basée sur 1 rapport pour chaque phénomène devait être valide également. De plus, l'examen des données relatif au véritable nombre de phénomènes a été considéré comme étant la base adéquate pour évaluer la probabilité de développement technologiques hors de portée de la connaissance scientifique actuelle. Par conséquent une désignation observations d'objets a été établie, avec la définition suivante :

En résumé, toutes observations se réfère à l'ensemble des rapports, observations unitaires se réfère aux véritables observations et observations d'objets se réfère au nombre supposé de phénomènes.

Il doit être reconnu que le processus d'identification des observations d'objets a été déductif, tandis que celui pour les observations unitaires a été definitif. Une approche conservatrice a été adoptée dans la détermination des observations d'objets, en utilisant les facteurs de date et heure des observations, localisation des observateurs, durée des observations, et portée, orientation, direction de track et identification des phénomènes. Toute erreur de sélection d'observations d'objets tendra à être en direction de la réduction du véritable nombre de phénomènes observés (plusieurs cas d'observations unitaires qui pourraient être une observation d'objet ont été notées, mais les indices n'étaient pas suffisamment concluants pour justifier une consolidation des rapports).

Suite à la détermination des observations d'objets, une série de numéros de série, appelée numéros de série d'incidents, a été établie pour faciliter toute étude future d'une observation d'un objet spécifique. Chaque observations rapportée liée à une observation d'objet a reçu le même numéro de série d'incident, un code à 4 chiffres en parallèle des numéros de série majeurs.

Pour manipulation sur machine, il a été souhaitable d'être capable de sélectionner l'échantillon de cartes (tous les rapports, toutes les observations, ou tous les phénomènes) à inclure dans une étude particulière. Le concept d'un numéro d'identification d'observation a été développé pour répondre à ce souhait. En utilisant une colonne de la carte IBM, et les documents de travail corrélés, le code pour cette fonction a été développé. Des perforations multiples ont éliminé le besoin d'utiliser plusieurs colonnes pour une expression discrète des variations. Une sélection du nombre adéquat dans cette colonne a ainsi permi une sélection de l'échantillon désiré de cartes.

Evaluation de rapports individuels

L'évaluation des rapports d'observation a été reconnue être une étape cruciale dans la préparation des donnés pour traitement statistique ; des évaluations incohérentes auraient invalidé toutes conclusions à dériver de cette étude. Une méthode d'évaluation a été, par conséquent, déterminée simultanément avec le développement du questionnaire, du système de codage et de la feuille de travail. Il est souligné que l'ensemble des phases d'évaluation, même y compris la préparation fastidieuse des données d'origine pour traitement statistique, ont été confiées uniquement à des scientifiques et ingénieurs sélectionnés et spécialement qualifiés.

L'évaluation a consisté en une procédure standardisée à suivre pour :

  1. la déduction de faits discrets à partir de données dépendant sur des impressions humaines plutôt que sur des mesures scientifiques
  2. l'évaluation de l'observateur et de son signalement tel que déterminé d'après l'information disponible, et
  3. la détermination de l'identification probable du phénomène observé.

Les catégories d'identification, établies sur la base de l'expérience antérieure, ont été les suivantes :

La 1ère étape dans l'évaluation, la déduction de faits discrets à partir de données subjectives, à nécessité certains calculs basés sur les informations disponibles dans le rapport d'observation. Un exemple a été la détermination de la vitesse angulaire approximative et l'accéleration de l'objet ou des objets observés. Un grand soin a été porté lors de cette phase du travail pour se prémunir de déductions de faits discrets non confirmables par les données d'origine. Ainsi, même s'il y eut une absence totale de toute preuve valide consistant en de la matière physique dans un cas quelconque d'objet aérien non identifié rapporté, this was not assumed to be prima facie evidence that "flying saucers" did not exist.

Dans les cas où une tentative de réduire l'information à un niveau factuel a échoué complètement, le rapport a été éliminé de toute autre considération, et donc non inclus dans l'analyse statistique. Près de 800 rapports d'observations ont été éliminés ou rejetés de cette manière. La plupart de ces rapports ont été rejeté parce qu'ils étaient extrêmement nébuleux ; le reste a été rejeté parce qu'ils contenaient des déclarations hautement contradictoires.

La 2nde étape dans l'évaluation, l'évaluation de l'observateur et de son rapport, a suivi logiquement la 1ère étape, la réduction des données à une forme exploitable. Les évaluations ont été affectées sur la base des facteurs d'information suivants, considérés en relation les uns avec les autres :

  1. l'expérience de l'observateur, déduite de ses occupation, âge et formation ;
  2. la cohérence parmi les portions séparées de la description de l'observation ;
  3. la qualité générale et la complétude du rapport ;
  4. la considération de la capacité et de l'attitude de l'observateur en rapportant les faits, tels que dévoilés par sa manière de décrire l'observation.

Dans les cas pour lesquels les informations disponibles étaient insuffisantes pour faire un jugement de l'observateur ou du rapport, aucun n'a été fait, mais le rapport a été accepté pour l'étude statistique.

La 3ᵉ étape dans le processus d'évaluation, la tentative d'identification de l'objet ou des objets observés, a été effectuée par 2 fois, d'abord par l'individu qui a fait la transcription des données (l'identification préliminaire), et par la suite (l'identification finale) par une conférence de 4 personnes, 2 représentants de l'ATIC et 2 du panel de consultants. Bien que les representants de l'ATIC aient participaté à effectuer les identifications final, il doit être souligné que toute identification antérieure d'une observation par l'ATIC n'a pas été introduite ou référrée de quelque manière que ce soit.

Dans le système de codage, les choix fournis pour les identifications finales ont été basés sur l'expérience antérieure de l'ATIC dans l'analyse des données. Ils ont trouvé que la majorité des observations pouvaient être classées comme de mauvaises interprétations d'objets courants ou de phénomènes naturels. En conséquence, les catégories pour les objets les plus fréqumment présents dans l'air ont été fournies. Ballons, appareils, corps astronomiques (tels que météores), oiseaux et nuages ou poussière ont été reconnues comme les catégories principales. Les objets moins fréquents mais courants, tels que cerfs-volants, feux d'artifice, reflets, fusées, contrails et phénomènes météorologiques tels que de petites tornades, ont été rassemblés dans une catégorie nommée autres. Une catégorie séparée pour les phénomènes naturels non communs associés aux reflets ou réfractions de lumières, tels que mirages, faux soleils, images de couches d'inversions et distortions provoquées par de la glace aérienne, a été établie avec le titre de phénomène lumineux. Les catégories d'informations insuffisantes, manifestations psychologiques et inconnus ont été fournies pour les observations qui ne correspondaient pas aux identifications précédentes. Une explication de leur utilisation suit :

Pour les objectifs de cette étude, 2 groupes d'identifications ont été reconnus : les connus (comprenant l'ensemble des catégories d'identification sauf les inconnus) et les inconnus.

L'ensemble des identifications possibles fournies par le système de code, à l'exception d'informations insuffisantes et inconnus, pourrait être affecté selon les 2 degrés de certitude designés "Certaine" et "Douteuse".

Une identification "Certaine" a indiqué a minimum amount of doubt concernant la validité de l'évaluation. By "rule-of-thumb" reasoning, la probabilité de l'identification d'être correcté était de plus de 95 %. Une identification "Douteuse" a indiqué que le choix était moins catégorique, mais qu'il y avait a better than even chance d'être correcte.

Il est à nouveau souligné que, comme cela a été vrai pour d'autres phases d'évaluation, l'identification préliminaire et finale a été confiée uniquement à des scientifiques et ingénieurs qui, en plus de leur large expérience scientifique, ont reçu une instruction, lorsque cela a été nécessaire, dans des sujets spécialisés. Le panel de consultants a fourni des informations de fond aux fins de cette instruction. Nombre des cas présentant des caractéristiques ou manœuvres inhabituelles ont été soumis à et discutées avec divers membres du panel des consultants avant l'identification finale.

La cohérence dans l'application de la connaissance nécessaire à faire des identifications a été maintenue par une collaboration fréquence parmi le personnel impliqué, et des contrôles ponctuels systématiques du travail. En plus du fondement de connaissance général nécessaire pour identifier de manière satisfaisante un objet aérien non identifié, une tentative a été faite de corréler des données spécifiques telles que des plans de vols d'appareils, enregistrements de lâchers de ballons, conditions météo et un almanac astronomique avec l'observation rapportée.

La procédure suivie pour marquer les identifications finales mérite une explication en raison de l'importance considérée de l'identification comme base pour le traitement statistique. Comme cela a été mentionné, une conférence de 4 personnes qualifiées, 2 de l'ATIC et 2 du panel de consultants, a décidé de l'identification finale de chaque rapports d'observation. Ce travail a été effectué à l'ATIC, périodiquement, à mesure que les rapports devenaient prêts.

Au cours d'une conférence d'identification, chaque rapport d'observation était d'abord étudié, à partir des données d'origine, par 1 personne. Si cette personne arrivait à une décision, elle était contrôlée par rapport à l'identification préliminaire ; si les 2 identifications étaient les mêmes, le rapport était marqué en conséquence et considéré comme terminé. Si les 2 identifications ne s'accordaient pas, le rapport était pris en considération par la suite par tous ceux participant à la conférence jusqu'à ce qu'une décision de groupe soit prise.

Si un évaluateur était incapable de catégoriser le rapport comme l'un des objets communs ou phénomène naturel, et que son opinion était que l'observation devrait être enregistrée comme inconnue, une décision de groupe était également requise sur ce rapport avant qui soit considéré comme terminé. Une décision de groupe était nécessaire sur l'ensemble des rapports finalement enregistrés comme inconnus, indépendamment de ce qu'avait pu être l'identification préliminaire. Dans les cas où une décision de groupe n'était pas prise en un temps raisonnable, le rapport était placé de côté et soumis plus tard à certains membres du panel de consultants pour obtenir leurs opinions. Si, après cela, un désaccord continuait à exister, le rapport de l'observation était identifié comme inconnu.

A l'achêvement des identification finales, l'ensemble des données ont été transférées sur cartes IBM, préparatoires à l'analyse.