
ВВЕДЕНИЕ
В данном анализе представлены визуализации данных о распространении COVID-19, адаптированные для изучения эпидемиологических показателей. Графики демонстрируют распределение случаев заражения, смертности и выздоровления по регионам, временным периодам и демографическим характеристикам.
Код автоматически адаптируется под структуру загруженного датасета https://www.kaggle.com/datasets/shraddha4ever20/covid-19-patient-symptoms-and-diagnosis-dataset, определяя подходящие колонки для количественных метрик (Cases, Confirmed, Deaths, Recovered) и категориальных признаков (Country_Region, Province_State, Gender, Date).
АКТУАЛЬНОСТЬ
Анализ данных о COVID-19 остается крайне важным в 2025 году, несмотря на завершение активной фазы пандемии. Понимание динамики распространения вируса необходимо для подготовки к будущим вспышкам, понимания эффективности мер защиты и разработки постпандемических действий здравоохранения.
ПОЧЕМУ Я ВЫБРАЛА ЭТУ ТЕМУ?
Поскольку тема является не самой лёгкой, но очень важной для общества и нашего будущего, я выбрала эту тему для того, чтобы рассказать о ситуации подробно. Но оформить ее наиболее приятным способом, чтобы воспринимать информацию было проще. Также анализ данных может быть интересен, потому что содержит научную и практическую ценность, эпидемиологическую статистику и отслеживание динамики распространения.
ВИДЫ ГРАФИКОВ
Для проекта были выбраны разные типы визуализаций: гистограмма, круговая диаграмма, горизонтальная столбчатая диаграмма, тепловая таблица, пузырьковая диаграмма.
ПАЛИТРА
Для графиков использованы цвета 344E41, 588157, A3B18A, DAD7CD и похожие, что позволило добиться визуальной целостности и читаемости инфографики. Также они позитивно влияют на восприятие информации, глядя на нежные оттенки зелёного, появляется ощущение безопасности.
РАБОТА С ДАННЫМИ
Для работы с данными были подключены библиотеки: Kaggle и Pandas — для анализа, Google Colab — для визуализации и Perplexity — для помощи.
Данные были загружены с компьютера и прочитаны с помощью pandas. Для первичного анализа были выведены первые строки, типы данных и базовая статистика.
ГРАФИК № 1
Столбчатый график демонстрирует распределение данных по 15 основным категориям в наборе данных о COVID-19.
Видно, что распределение случаев по регионам неравномерно. Несмотря на наличие 81 региона, большинство случаев (89.8%) сконцентрировано за пределами наиболее поражённых областей, что указывает на формирование локальных источников инфекции.
ГРАФИК № 2
Эта программа создает круговую диаграмму, показывающую распределение случаев COVID-19 по регионам. Также выявляет регионы с наибольшей нагрузкой и наглядно представляет долю значимых регионов по сравнению с остальными.
Код plt.pie () является главным, потому что он трансформирует данные в визуальную форму (цифры в график) и определяет тип визуализации. Без него вся программа теряет смысл.
Существует значительный разброс в количестве случаев между регионами (от 5 до 85). Среднее значение (23.3) существенно ниже максимума, а стандартное отклонение сопоставимо со средним.
ГРАФИК № 3
Данный код сравнивает три ключевые статистические меры (среднее, максимум и минимум) из набора данных об эпидемии, визуализируя их в виде горизонтальных столбцов разного цвета.
Превращает вычисленные числа (mean_val, max_val, min_val) в структурированный набор для визуализации sns.barplot () — функция, которая непосредственно рисует столбцы на графике Все остальное (оформление, подписи, легенда) — это «упаковка» вокруг этих двух строк
ГРАФИК № 4
Ключевые выводы из данных: температурный диапазон, возрастное распределение, гендерный баланс. Читать данный график можно с такими подсказками: высокие пузыри вверху значат пациенты с высокой температурой, широкие пузыри справа значат пациенты старшего возраста, крупные пузыри значат более высокая температура и цветовая дифференциация значит разделение по полу.
Ядром программы является создание самого пузырькового графика.
Лихорадка наблюдается у пациентов всех возрастных групп (от 20 до 70 лет) и обоих полов практически одинаково. Диапазон температуры широк, что отражает разнообразие иммуннитета.
ГРАФИК № 5
Последний график в виде тепловой карты успешно выявляет не только общие цифры, но и временные паттерны, которые могут быть не видны на остальных графиках.
Практическая ценность тепловой карты: выявление временных паттернов, то есть, когда были пики заболеваемости, сравнение групп, то есть, как болезнь распространяется в разных демографических группах, планирование ресурсов, то есть, когда ожидать наибольшую нагрузку на систему здравоохранения.
Тепловая карта показывает, что общее количество случаев среди мужчин и женщин почти идентично. Однако выявлены различия во временной динамике: пики заболеваемости у разных полов не совпадают, что может указывать на особенности социального поведения или времени обращения за тестированием.
ЗАКЛЮЧЕНИЕ
Данные подтверждают, что пандемия характеризуется неравномерным распространением с формированием регионов повышенной нагрузки. При этом клиническое проявление и общее заболевание не зависят от пола или возраста, подчёркивая универсальный характер угрозы. Полученные данные важны для планирования всеобщей защиты и распределения медицинских ресурсов, если подобный вирус когда-либо появится.
ССЫЛКА НА МАТЕРИАЛЫ
СЛЕДИТЕ ЗА МЕРАМИ БЕЗОПАСНОСТИ И БУДЬТЕ ЗДОРОВЫ!)