
https://ourworldindata.org/grapher/life-expectancy
Это открытый и свободно доступный датасет, поддерживаемый организацией Our World inData - лидирующей платформой для глобальных исследований.
Концепция
Взаимосвязь между экономическим развитием и состоянием здравоохранения в разных странах, выявляя закономерности, сходства и различия. Датасет позволяет изучать факторы, влияющие на долголетие и глобальное развитие здравоохранения.
Мне было интересно изучить разницу между развивающимися странами, странами первого и третьего мира.

Для анализа данных были выбраны тепловая карта (легко считывать низкие и высокие показатели), линейный график (удобен для изображения прогресса или регресса в течение времени), CAGR + Box Plot (комбинированные данные), точечная диаграмма с указанием тренда (для отдельных данных).
Также данные были проанализированы методами Shapiro-Wilk (нормальность распределения данных), корреляция Пирсона (определение влияния предиктора (времени)).

Измерение абсолютных изменений для нескольких стран датасета
Датасет, собранный из данных организации, содержит информацию об ожидаемой продолжительности жизни при рождении для 15 крупных стран мира, охватывая период с 1980 по 2020 года с интервалом в 10 лет.
15 стран: Афганистан, Албания, Алжир, Австралия, Бразилия, Канада, Китай, Франция, Германия, Индия, Япония, Нигерия, Россия, Южная Африка, США 5 временных периодов: 1980, 1990, 2000, 2010, 2020 Всего 75 записей: 15 стран × 5 периодов Основной показатель: Ожидаемая продолжительность жизни в годах
Этапы работы
Для начала работы я импортировала все необходимые библиотеки.
Данные на сайте не были в табличной форме, поэтому я вручную перевела их в табличный вид.
Созданы два формата CSV файлов: - Long Format (75 строк × 3 столбца): Оптимален для анализа временных рядов и статистических тестов - Wide Format (15 строк × 5 столбцов): Удобен для сравнения стран и корреляционного анализа
Применены основные методы анализа:
Описательная статистика: mean = 68.75 лет, std = 11.39, диапазон 37.5–83.5 лет
Группировка и агрегация: По годам, странам, категориям развития
Pivot таблицы: Для корреляционного анализа (0.94+ консистентность)
Временной анализ: Тренды по декадам, CAGR для каждой страны.
С написанием кода для более сложных вычислений помогал Perplexity
В начале работы я в общем проанализировала имеющиеся данные с помощью статистических методов и быстрой визуализации (для наглядности).
Графики стилизованы под хитмапы, это помогает в быстрой считываемости данных.
Принципы визуализации данных
Явное включение статистики: Формулы, корреляции, p-values на графиках
Информативное цветовое кодирование: Зелёный (развитые), жёлтый (средний), красный (развивающиеся)
Аннотации исторических событий (ВИЧ, войны)
Главные результаты выделены, детали доступны
Только необходимые элементы (Tufte principle)
Страны организованы по типам развития
Визуализация данных
С написанием кода для финальной визуализации данных помогал Perplexity: промпт включал в себя способ организации данных и стилистику.
Тепловая карта: 15 стран × 5 лет, цветовой градиент Red-Yellow-Green (30-85 лет)
Комплексный анализ мировой ожидаемой продолжительности жизни (1980-2020): Интерактивная инфографика с хитмапом, распределением, трендами роста и квартильным анализом.
Япония лидирует с показателем 83.5 года, развивающиеся страны демонстрируют наибольший прогресс.
Траектории каждой страны (1980 vs 2020), цветовая кодировка по развитию
Наклонный график эволюции ожидаемой продолжительности жизни: Изменение с 1980 по 2020 для всех стран.
Все страны показывают рост ожидаемой продолжительности жизни.
CAGR и распределение
Статистический анализ: CAGR и распределение продолжительности жизни во времени.
Медиана выросла на 9 лет, но вариация данных снизилась более чем на 40.
Регрессионный анализ конвергенции
Регрессионный анализ: Связь между исходным уровнем развития (1980) и темпом роста (1980-2020).
Более низкие показатели вначале склонны к более высоким уровням роста в дальнейшем.
Изучающий и объясняющий формат визуализации данных для выбранной темы
На основе моих запросов о написании кода для конкретных расчетов и таблиц Perplexity подсказал, как именно визуализация повлияла на считываемость информации
Полученные данные интересны раскрытием глобальных закономерностей развития здравоохранения за 40 лет (1980-2020) на примере 15 контрастных стран.
Тепловая карта мгновенно показала бимодальность (две группы стран) — то, что Shapiro-Wilk выявил статистически (p=0.000006).
Наклонный график визуально подтвердил конвергенцию: крутые зеленые линии снизу (Афганистан), пологие сверху (Япония).
CAGR + Box Plot одним взглядом показал: 1) темпы роста (Афганистан лидер), 2) сужение разброса (std стабилизировалось).
Регрессионный анализ четко продемонстрировал отрицательную корреляцию (r=-0.65): низкий старт → высокий процентный рост.
Визуализация превратила «сухие числа» в историю глобального здравоохранения с практическими выводами.
Статистические методы
Анализ данных о продолжительности жизни включал 7 ключевых статистических методов, примененных с помощью Pandas и SciPy.
Описательная статистика Назначение: Суммаризация характеристик датасета (75 наблюдений). Методы: mean (68.75 лет), std (11.39), min/max (37.5/83.5), квартили (Q1=62.75, Q2=73.0, Q3=77.0). Результат: Выявлен широкий разброс (46 лет) и бимодальное распределение.
Shapiro-Wilk тест (нормальность) Формула: Гипотезы: H₀ — нормальное распределение, H₁ — нет. Результат: p-value = 0.000006 < 0.05 → данные НЕ нормальны (две группы стран).
Линейная регрессия (глобальный тренд) Применение: Зависимость продолжительности жизни от времени (десятилетия). Результат: время объясняет 4,84% вариации.
Также я попросила Peprlexity интерпретировать полученные мною данные и собрать их в таблицу
Однофакторный ANOVA Гипотезы: H₀ — все страны имеют одинаковую среднюю, H₁ — различаются. Результат: F = 57.72, p = 1,98×10⁻²⁹ → различия статистически значимы.
Парный t-тест (развитые vs развивающиеся) Группы: Развитые (78.00±2.74, n=30) vs развивающиеся (58.70±11.70, n=25). Результат: t = 8.77, p < 0.05 → разница 19.3 года значима.
Корреляция Пирсона Применение: Связь между годом и продолжительностью (r = 0.22, слабая). Дополнительно: Корреляция между годами > 0.94 (консистентность ранжирования).
CAGR (среднегодовой темп роста) Применение: Для каждой страны за 4 периода (1980-2020). Результат: Топ — Афганистан (5.525%), низ — Южная Африка (-1.077%).
Индивидуальная регрессия (по странам) Применение: Линейная регрессия для каждой из 15 стран отдельно. Результат: Коэффициенты корреляции 0.97-0.999, все тренды положительные кроме ЮАР.
Выводы из данных
Парадокс конвергенции: Развивающиеся страны растут быстрее в процентах (Афганистан +24%), но абсолютный разрыв остается (~20 лет)
Статистическая значимость: Все различия p < 0.001, разница между группами 19.3 года (t = 8.77)
Биологический потолок: Развитые страны приблизились к максимуму (~85 лет), дальнейший рост затруднен
Консистентность: Корреляция между годами > 0.94 — топ-страны остаются топом
Экзогенные потрясения: Южная Африка (-4.24%) — единственная с отрицательным CAGR из-за ВИЧ/СПИДа
Код
Ссылка на файл с кодом: https://drive.google.com/drive/folders/1t-vI45SLGsu6lDCafpdupXocGuCELeKY?usp=sharing