Original size 2480x3508

Наблюдения НЛО (1941–2014 гг.)

14

Вступление

В качестве материала для анализа я выбрала данные о наблюдениях НЛО из датасета UFO Sightings с платформы Kaggle. Он содержит более 80 000 отчетов за последний век, включая данные о дате и времени, городе, штате, стране, форме объекта, длительности наблюдения, комментариях очевидцев, дате публикации и географических координатах.

Наверняка тема НЛО привлекала многих еще с детства своей загадочностью и таинственностью — в поп-культуре она всегда была окружена яркими образами и легендами. Об НЛО сняты десятки фильмов, сериалов и создано множество игр, а в детстве истории о них воспринимались как захватывающие страшилки — пугающие, но манящие своей загадочностью. Даже если большинство образованных людей относятся к реальным наблюдениям НЛО с изрядной долей скепсиса, мне все равно было интересно взглянуть на эту тему с объективной точки зрения: как жители разных стран, городов и штатов описывали свои встречи с необъяснимым, как менялось восприятие этого феномена с течением времени и какие закономерности можно обнаружить в этих данных

Для визуализации анализа данных я выбрала несколько типов диаграмм.

Линейный график (Line Plot) — позволяет проследить динамику изменений во времени.

Диаграмма с областями (Stacked Area Chart) — дает представление о том, какие значения были наиболее популярны в разные периоды.

Облако слов (Word Cloud) — понятно показывает, какие слова чаще всего используются в комментариях очевидцев.

Гистограмма (Bar Chart) — наглядно визуализирует сравнение количества наблюдений в разных странах и делает акцент на различиях в данных.

Точечная карта (Dot Density Map) — дает детализированное представление о том, какие регионы были особенно «уфологически активны».

Цветная точечная карта (Scatter Plot on Map) — подобно предыдущему графику, позволяет наглядно увидеть, какие цвета НЛО встречались в разных регионах.

Стиль графиков был вдохновлён классической эстетикой «зеленых человечков» и футуризма. Основные цвета — глубокий черный и неоновый зеленый — отсылка к классическим инопланетным темам, футуристичным интерфейсам IBM и компьютерной графике 80-х

big
Original size 3508x1418

Предварительная подготовка

В первую очередь я подключила все библиотеки, которые мне понадобятся позже, а также загрузила и прочитала файл с датасетом

Original size 3508x753

Далее я указываю шрифт и путь к нему

Original size 3508x255

Теперь я визуально анализирую датасет. С помощью кода вывожу первые 10 строк и 10 случайных строк колонок со страной и штатом

Original size 3508x249

Я заметила, что значения в колонке страны не приведены к общему значению, иногда страна вовсе написана в скобках в колонке города. Чтобы это не мешало дальнейшему анализу, я решила оформить эти проблемные колонки. Для начала мы берем строки в «городе», в которых встречаются скобки, и извлекаем их содержание в колонку страны, при этом удаляя сами скобки. Если скобок больше одной, информацию о стране берем из последней. Игнорируем, если длина строки в скобках больше 2 или если есть символы. Если скобок нет и нет значения в country — остается пустая строка. Далее некоторые страны приводим к единому формату (например, страны, записанные как uk, gb, scotland, wales и т. д. обозначаем как gb)

Original size 3508x1418

В некоторых строках в колонке с комментариями встречаются HTML-коды символов, которые мешают прочтению, удаляем их

Original size 3508x243

Оформляем значения в колонке со странами. Удаляем все, что в скобках и сами скобки в city. Приводим строки в country к нижнему регистру. Заменяем gb на UK. Если длина страны равна или больше 2 слов, пишем каждое слово с заглавной буквы. Если страна — это 2-3 символа, пишем их заглавными буквами. Остальные страны пишем просто с заглавной буквы. Выводим 10 рандомных значений для проверки

Original size 3508x1028

Заполняем пропуски строковых значений во всех колонках и проверяем

Original size 3508x309

Линейный график

Линейный график показывает динамику сообщений о наблюдениях НЛО с первой половины XX века по 2014 год

0

Основные тренды: небольшое количество наблюдений до середины 1990-х, далее резкий рост и экспоненциальный скачок после 2010 года. Скорее всего такие скачки коррелируют с развитием цифровых технологий, распространением Интернета, популяризацией темы в медиа и как следствие ростом общественного интереса к теме НЛО

Диаграмма с областями

Диаграмма с областями показывает изменение частоты встречаемости 10 основных форм НЛО в наиболее активный период

0

Топ форм остаётся стабильным: абстрактный «свет» лидирует во все годы, за ним следуют формы «треугольника», «шара», «сигары». Доминирование «света» как формы говорит о том, что многие наблюдения — это нечеткие визуальные аномалии без явной структуры. Возможно, что часть сообщений — это ошибки идентификации известных объектов, например, самолетов или погодных аэростатов

Облако слов

Облако слов визуализирует наиболее частые термины в описаниях очевидцев НЛО. Размер слова отражает частоту его употребления

0

Чаще всего упоминаются слова, связанные со светом («свет», «яркий»), формой («шар», «треугольник», «диск») и цветом («красный», «оранжевый», «зеленый»). Доминируют описания динамики («летит», «движется», «завис») что указывает на нестандартное поведение объектов. Редко встречаются технические термины — описания эмоциональны и субъективны

Столбчатая диаграмма

Столбчатая диаграмма отображает топ-5 стран по количеству зарегистрированных наблюдений НЛО. Высота столбцов пропорциональна числу случаев

0

На США приходится подавляющее большинство наблюдений, остальные страны имеют крайне низкие показатели — их столбцы близки к 0. Такой тренд, вероятно, связан с развитой в штатах инфраструктурой для фиксации летающих объектов или с культурными факторами и популяризацией темы в медиа, фильмах, книгах и сериалах

Точечная карта

Картограмма США с точками наблюдений НЛО отражает частоту сообщений в разных штатах. График фокусируется на континентальной части страны, исключая Аляску и Гавайи

0

Наибольшая активность в Калифорнии, Флориде, Техасе, Вашингтоне, Нью Йорке — штатах с высокой плотностью населения и развитой инфраструктурой. Отсутствие явной корреляции с зонами военно-промышленных комплексов (например, в Неваде) вопреки стереотипам о «Зоне 51». Низкая плотность в сельских районах может объясняться недостатком наблюдателей, НЛО — это в первую очередь городской феномен

Цветная точечная карта

Цветная точечная картограмма США, где, подобно предыдущему графику, каждая точка соответствует наблюдению НЛО, а ее цвет — это цвет, упомянутый очевидцем в его комментарии, который с большой долей вероятности относится к характеристике увиденного объекта

0

Основные цвета из комментариев: красный (~30%), оранжевый (~28%), белый (~19%), зеленый (~10%)

Подведение итогов

Ключевые выводы:

  1. Рост сообщений о НЛО после 1990-х, вероятно, связан с развитием технологий, а не с реальным увеличением аномальной активности.

  2. Самые распространенные формы НЛО — шар и треугольник, цвета — красный, оранжевый и белый.

  3. Эмоциональные и субъективные описания объектов могут отражать культурные стереотипы из поп-культуры, а не уникальные характеристики, что указывает на ошибки идентификации известных явлений, а стабильность этих паттернов за десятилетия указывает на шаблонность мышления наблюдателей и психологическую природу многих случаев.

  4. Большинство наблюдений сконцентрированы в США, особенно в густонаселенных штатах, что подчеркивает связь статистики с доступностью инструментов фиксации таких событий.

Данные выводы не отрицают возможность аномальных явлений, но подчеркивают необходимость критического анализа источников и отделения фактов от интерпретаций

Описание применения генеративной модели

В рамках работы над проектом я использовала ChatGPT и DeepSeek для оптимизации решения некоторых задач и при возникновении технических проблем, связанных в основном с написанием кода. Основные цели применения: консультация по логике кода, поиск и решение ошибок, поиск релевантных библиотек под конкретный запрос, оформление цветовой палитры в код и поиск HEX-кодов

Наблюдения НЛО (1941–2014 гг.)
14