Original size 1664x2496

Анализ данных о распространении COVID-19

PROTECT STATUS: not protected
The project is taking part in the competition

ВВЕДЕНИЕ

В данном анализе представлены визуализации данных о распространении COVID-19, адаптированные для изучения эпидемиологических показателей. Графики демонстрируют распределение случаев заражения, смертности и выздоровления по регионам, временным периодам и демографическим характеристикам.

Код автоматически адаптируется под структуру загруженного датасета https://www.kaggle.com/datasets/shraddha4ever20/covid-19-patient-symptoms-and-diagnosis-dataset, определяя подходящие колонки для количественных метрик (Cases, Confirmed, Deaths, Recovered) и категориальных признаков (Country_Region, Province_State, Gender, Date).

АКТУАЛЬНОСТЬ

Анализ данных о COVID-19 остается крайне важным в 2025 году, несмотря на завершение активной фазы пандемии. Понимание динамики распространения вируса необходимо для подготовки к будущим вспышкам, понимания эффективности мер защиты и разработки постпандемических действий здравоохранения.

ПОЧЕМУ Я ВЫБРАЛА ЭТУ ТЕМУ?

Поскольку тема является не самой лёгкой, но очень важной для общества и нашего будущего, я выбрала эту тему для того, чтобы рассказать о ситуации подробно. Но оформить ее наиболее приятным способом, чтобы воспринимать информацию было проще. Также анализ данных может быть интересен, потому что содержит научную и практическую ценность, эпидемиологическую статистику и отслеживание динамики распространения.

ВИДЫ ГРАФИКОВ

Для проекта были выбраны разные типы визуализаций: гистограмма, круговая диаграмма, горизонтальная столбчатая диаграмма, тепловая таблица, пузырьковая диаграмма.

ПАЛИТРА

Для графиков использованы цвета 344E41, 588157, A3B18A, DAD7CD и похожие, что позволило добиться визуальной целостности и читаемости инфографики. Также они позитивно влияют на восприятие информации, глядя на нежные оттенки зелёного, появляется ощущение безопасности.

Original size 2146x950

РАБОТА С ДАННЫМИ

Для работы с данными были подключены библиотеки: Kaggle и Pandas — для анализа, Google Colab — для визуализации и Perplexity — для помощи.

Original size 2146x782

Данные были загружены с компьютера и прочитаны с помощью pandas. Для первичного анализа были выведены первые строки, типы данных и базовая статистика.

Original size 2146x896

ГРАФИК № 1

Столбчатый график демонстрирует распределение данных по 15 основным категориям в наборе данных о COVID-19.

Original size 1389x890

Видно, что распределение случаев по регионам неравномерно. Несмотря на наличие 81 региона, большинство случаев (89.8%) сконцентрировано за пределами наиболее поражённых областей, что указывает на формирование локальных источников инфекции.

ГРАФИК № 2

Эта программа создает круговую диаграмму, показывающую распределение случаев COVID-19 по регионам. Также выявляет регионы с наибольшей нагрузкой и наглядно представляет долю значимых регионов по сравнению с остальными.

Original size 2146x950

Код plt.pie () является главным, потому что он трансформирует данные в визуальную форму (цифры в график) и определяет тип визуализации. Без него вся программа теряет смысл.

Original size 1189x890

Существует значительный разброс в количестве случаев между регионами (от 5 до 85). Среднее значение (23.3) существенно ниже максимума, а стандартное отклонение сопоставимо со средним.

ГРАФИК № 3

Данный код сравнивает три ключевые статистические меры (среднее, максимум и минимум) из набора данных об эпидемии, визуализируя их в виде горизонтальных столбцов разного цвета.

Original size 2146x752

Превращает вычисленные числа (mean_val, max_val, min_val) в структурированный набор для визуализации sns.barplot () — функция, которая непосредственно рисует столбцы на графике Все остальное (оформление, подписи, легенда) — это «упаковка» вокруг этих двух строк

Original size 1190x690

ГРАФИК № 4

Ключевые выводы из данных: температурный диапазон, возрастное распределение, гендерный баланс. Читать данный график можно с такими подсказками: высокие пузыри вверху значат пациенты с высокой температурой, широкие пузыри справа значат пациенты старшего возраста, крупные пузыри значат более высокая температура и цветовая дифференциация значит разделение по полу.

Ядром программы является создание самого пузырькового графика.

Original size 2146x984
Original size 1589x1189

Лихорадка наблюдается у пациентов всех возрастных групп (от 20 до 70 лет) и обоих полов практически одинаково. Диапазон температуры широк, что отражает разнообразие иммуннитета.

ГРАФИК № 5

Последний график в виде тепловой карты успешно выявляет не только общие цифры, но и временные паттерны, которые могут быть не видны на остальных графиках.

Original size 2146x890

Практическая ценность тепловой карты: выявление временных паттернов, то есть, когда были пики заболеваемости, сравнение групп, то есть, как болезнь распространяется в разных демографических группах, планирование ресурсов, то есть, когда ожидать наибольшую нагрузку на систему здравоохранения.

Original size 1098x790

Тепловая карта показывает, что общее количество случаев среди мужчин и женщин почти идентично. Однако выявлены различия во временной динамике: пики заболеваемости у разных полов не совпадают, что может указывать на особенности социального поведения или времени обращения за тестированием.

ЗАКЛЮЧЕНИЕ

Данные подтверждают, что пандемия характеризуется неравномерным распространением с формированием регионов повышенной нагрузки. При этом клиническое проявление и общее заболевание не зависят от пола или возраста, подчёркивая универсальный характер угрозы. Полученные данные важны для планирования всеобщей защиты и распределения медицинских ресурсов, если подобный вирус когда-либо появится.

ССЫЛКА НА МАТЕРИАЛЫ

СЛЕДИТЕ ЗА МЕРАМИ БЕЗОПАСНОСТИ И БУДЬТЕ ЗДОРОВЫ!)