Original size 1140x1600

Анализ всемирного счастья

PROTECT STATUS: not protected

Концепция

Для своего проекта я выбрала датасет World Happiness, который я взяла с популярного сайта Kaggle. Эти данные заинтересовали меня, поскольку в них присутствует информация не только о степени счастья в различных странах, но также о различных факторах, влияющих на уровень счастья. Этот объем данных представляется мне достаточно интересным, поскольку благодаря нему можно выяснить, какие факторы оказывают особое влияние на общую оценку счастья в различных регионах.

Я изначально создавала графики с определенными стилистическими характеристиками, поскольку заранее определилась с ними. Выбранные цвета ассоциируются у меня с притоком эндорфина, то есть истинного счастья.

Виды графиков

— Гистограмма уровня счастья, представляющая изначальные данные; — Скрипичная диаграмма, показывающая распределение данных по каждому показателю, используемому при расчете уровня счастья; — Линейный график с множественными сериями, показывающий средние значения отдельных показателей по регионам; — Корреляционная матрица уровня счастья и составляющих его показателей; — Диаграмма рассеяния с линией тренда, показывающая зависимость продолжительности жизни населения от благосостояния граждан (ВВП на душу населения).

Этапы работы

Первым делом я импортировала необходимые мне библиотеки и загрузила датасет с данными. Для своего проекта я взяла данные World Happiness Report за 2015 год, чтобы сравнить показатели регионов (после 2016 года в датасет перестали включать данные о принадлежности государств к тому или иному региону).

big
Original size 1429x635

Гистограмма, репрезентирующая уровень счастья

Original size 4158x1230
Original size 1341x307

В первую очередь я решила отразить уровень счастья в разных странах. На гистограмме видно, что самая счастливая страна — Швейцария (её показатель счастья превышает 7,5), а самая грустная — Того (показатель счастья — менее 3).

Скрипичная диаграмма

Original size 900x600
Original size 1353x507

Помимо этого, представляя изначальные данные, я построила скрипичные диаграммы показателей, составляющих уровень счастья. Эта диаграмма показывает распределение данных по каждому показателю, демонстрирует, в каких пределах изменяется показатель и какие наиболее популярные значения он принимает.

Линейный график с множественными сериями

Original size 1144x490
Original size 1346x344

На следующем этапе я произвела обработку данных, чтобы найти средние значения показателей для каждого региона. После этого я изобразила полученные результаты при помощи линейного графика, наглядно показывающего региональную специфику.

Корреляционная матрица

Original size 1806x977
Original size 1343x295

Также я заинтересовалась возможной взаимозависимостью показателей составляющих уровень счастья. Чтобы понять какие из них с большей вероятностью могут быть связаны, я построила корреляционную матрицу уровня счастья и всех показателей. Как видим из получившейся матрицы, больше всех коррелируют показатели здоровья (продолжительности жизни) и экономического благосостояния (ВВП на душу населения).

Построение модели линейной регрессии

Original size 1370x255

Заметив высокую корреляцию между показателями здоровья (продолжительности жизни) и благосостояния (ВВП на душу населения), я выдвинула гипотезу, что значение показателя здоровья зависит от значения показателя благосостояния (что в целом было бы логично). Выше я привожу код, в котором обучаю модель линейной регрессии и оцениваю её качество. На основе проделанных действий можно сделать вывод, что показатель здоровья действительно зависят от показателя благосостояния, а модель обладает высоким качеством.

Original size 1347x279
Original size 900x600

Представленная диаграмма рассеяния демонстрирует зависимость здоровья от благосостояния, а линия тренда — обученную модель. Мы можем убедиться, что модель достаточно хорошо отражает фактическую ситуацию.

Ссылки

Анализ всемирного счастья