Original size 1140x1600

Ожидаемая продолжительность жизни. Анализ опыта 15 стран

PROTECT STATUS: not protected
The project is taking part in the competition

https://ourworldindata.org/grapher/life-expectancy

Это открытый и свободно доступный датасет, поддерживаемый организацией Our World inData - лидирующей платформой для глобальных исследований.

Концепция

Взаимосвязь между экономическим развитием и состоянием здравоохранения в разных странах, выявляя закономерности, сходства и различия. Датасет позволяет изучать факторы, влияющие на долголетие и глобальное развитие здравоохранения.

Мне было интересно изучить разницу между развивающимися странами, странами первого и третьего мира.

big
Original size 1176x842

Для анализа данных были выбраны тепловая карта (легко считывать низкие и высокие показатели), линейный график (удобен для изображения прогресса или регресса в течение времени), CAGR + Box Plot (комбинированные данные), точечная диаграмма с указанием тренда (для отдельных данных).

Также данные были проанализированы методами Shapiro-Wilk (нормальность распределения данных), корреляция Пирсона (определение влияния предиктора (времени)).

big
Original size 1176x842

Измерение абсолютных изменений для нескольких стран датасета

Датасет, собранный из данных организации, содержит информацию об ожидаемой продолжительности жизни при рождении для 15 крупных стран мира, охватывая период с 1980 по 2020 года с интервалом в 10 лет.

15 стран: Афганистан, Албания, Алжир, Австралия, Бразилия, Канада, Китай, Франция, Германия, Индия, Япония, Нигерия, Россия, Южная Африка, США 5 временных периодов: 1980, 1990, 2000, 2010, 2020 Всего 75 записей: 15 стран × 5 периодов Основной показатель: Ожидаемая продолжительность жизни в годах

Этапы работы

Original size 906x114

Для начала работы я импортировала все необходимые библиотеки.

Original size 928x754

Данные на сайте не были в табличной форме, поэтому я вручную перевела их в табличный вид.

Созданы два формата CSV файлов: - Long Format (75 строк × 3 столбца): Оптимален для анализа временных рядов и статистических тестов - Wide Format (15 строк × 5 столбцов): Удобен для сравнения стран и корреляционного анализа

Original size 1124x232

Применены основные методы анализа:

Описательная статистика: mean = 68.75 лет, std = 11.39, диапазон 37.5–83.5 лет

Группировка и агрегация: По годам, странам, категориям развития

Pivot таблицы: Для корреляционного анализа (0.94+ консистентность)

Временной анализ: Тренды по декадам, CAGR для каждой страны.

С написанием кода для более сложных вычислений помогал Perplexity

0

В начале работы я в общем проанализировала имеющиеся данные с помощью статистических методов и быстрой визуализации (для наглядности).

Original size 1024x669

Графики стилизованы под хитмапы, это помогает в быстрой считываемости данных.

Принципы визуализации данных

Явное включение статистики: Формулы, корреляции, p-values на графиках

Информативное цветовое кодирование: Зелёный (развитые), жёлтый (средний), красный (развивающиеся)

Аннотации исторических событий (ВИЧ, войны)

Главные результаты выделены, детали доступны

Только необходимые элементы (Tufte principle)

Страны организованы по типам развития

Визуализация данных

С написанием кода для финальной визуализации данных помогал Perplexity: промпт включал в себя способ организации данных и стилистику.

Original size 2400x1600

Тепловая карта: 15 стран × 5 лет, цветовой градиент Red-Yellow-Green (30-85 лет)

Комплексный анализ мировой ожидаемой продолжительности жизни (1980-2020): Интерактивная инфографика с хитмапом, распределением, трендами роста и квартильным анализом.

Япония лидирует с показателем 83.5 года, развивающиеся страны демонстрируют наибольший прогресс.

Original size 2400x1600

Траектории каждой страны (1980 vs 2020), цветовая кодировка по развитию

Наклонный график эволюции ожидаемой продолжительности жизни: Изменение с 1980 по 2020 для всех стран.

Все страны показывают рост ожидаемой продолжительности жизни.

Original size 2400x1600

CAGR и распределение

Статистический анализ: CAGR и распределение продолжительности жизни во времени.

Медиана выросла на 9 лет, но вариация данных снизилась более чем на 40.

Original size 2400x1600

Регрессионный анализ конвергенции

Регрессионный анализ: Связь между исходным уровнем развития (1980) и темпом роста (1980-2020).

Более низкие показатели вначале склонны к более высоким уровням роста в дальнейшем.

Изучающий и объясняющий формат визуализации данных для выбранной темы

Original size 896x278

На основе моих запросов о написании кода для конкретных расчетов и таблиц Perplexity подсказал, как именно визуализация повлияла на считываемость информации

Полученные данные интересны раскрытием глобальных закономерностей развития здравоохранения за 40 лет (1980-2020) на примере 15 контрастных стран.

0

Тепловая карта мгновенно показала бимодальность (две группы стран) — то, что Shapiro-Wilk выявил статистически (p=0.000006).

Наклонный график визуально подтвердил конвергенцию: крутые зеленые линии снизу (Афганистан), пологие сверху (Япония).

CAGR + Box Plot одним взглядом показал: 1) темпы роста (Афганистан лидер), 2) сужение разброса (std стабилизировалось).

Регрессионный анализ четко продемонстрировал отрицательную корреляцию (r=-0.65): низкий старт → высокий процентный рост.

Визуализация превратила «сухие числа» в историю глобального здравоохранения с практическими выводами.

Статистические методы

Анализ данных о продолжительности жизни включал 7 ключевых статистических методов, примененных с помощью Pandas и SciPy.

Описательная статистика Назначение: Суммаризация характеристик датасета (75 наблюдений). Методы: mean (68.75 лет), std (11.39), min/max (37.5/83.5), квартили (Q1=62.75, Q2=73.0, Q3=77.0). Результат: Выявлен широкий разброс (46 лет) и бимодальное распределение.

Shapiro-Wilk тест (нормальность) Формула: Гипотезы: H₀ — нормальное распределение, H₁ — нет. Результат: p-value = 0.000006 < 0.05 → данные НЕ нормальны (две группы стран).

Линейная регрессия (глобальный тренд) Применение: Зависимость продолжительности жизни от времени (десятилетия). Результат: время объясняет 4,84% вариации.

Original size 960x434

Также я попросила Peprlexity интерпретировать полученные мною данные и собрать их в таблицу

Однофакторный ANOVA Гипотезы: H₀ — все страны имеют одинаковую среднюю, H₁ — различаются. Результат: F = 57.72, p = 1,98×10⁻²⁹ → различия статистически значимы.

Парный t-тест (развитые vs развивающиеся) Группы: Развитые (78.00±2.74, n=30) vs развивающиеся (58.70±11.70, n=25). Результат: t = 8.77, p < 0.05 → разница 19.3 года значима.

Корреляция Пирсона Применение: Связь между годом и продолжительностью (r = 0.22, слабая). Дополнительно: Корреляция между годами > 0.94 (консистентность ранжирования).

CAGR (среднегодовой темп роста) Применение: Для каждой страны за 4 периода (1980-2020). Результат: Топ — Афганистан (5.525%), низ — Южная Африка (-1.077%).

Индивидуальная регрессия (по странам) Применение: Линейная регрессия для каждой из 15 стран отдельно. Результат: Коэффициенты корреляции 0.97-0.999, все тренды положительные кроме ЮАР.

Выводы из данных

Парадокс конвергенции: Развивающиеся страны растут быстрее в процентах (Афганистан +24%), но абсолютный разрыв остается (~20 лет)

Статистическая значимость: Все различия p < 0.001, разница между группами 19.3 года (t = 8.77)

Биологический потолок: Развитые страны приблизились к максимуму (~85 лет), дальнейший рост затруднен

Консистентность: Корреляция между годами > 0.94 — топ-страны остаются топом

Экзогенные потрясения: Южная Африка (-4.24%) — единственная с отрицательным CAGR из-за ВИЧ/СПИДа

Код