Original size 1240x1754

Анализ данных

PROTECT STATUS: not protected

Типы созданных графиков: 1. Sankey график 2.Столбчатый график, интерактивный (библиотека plotly.express) 3. Хитмэп корреляций признаков 4. Линейный график зависимости 5. Стрипплот 6. regplot рисует диаграмму рассеяния с линией регрессии, показывающей тенденцию в данных.

Этапы работы: 1.Выбор данных, которые интересно проанализировать, предобработка данных 2.Анализ данных 3.Визуализация Оформление графиков: В оформлении графиков я использовала разноцветные точки, яркие цвета, так как удовлетворение жизнью именно про это!

Я выбрала для анализа этот датасет неслучайно, я всегда любила путешествовать по разным странам, но всегда была там как турист. Всегда интересовал вопрос, насколько люди довольны той или иной страной, будучи коренными жителями. датасет взят из ресурса Кэггл, куда дата загружена из OECD и IMF.

описание датасета:

Набор данных Индекса Лучшей Жизни 2024 предоставляет обширные показатели по различным измерениям благополучия для нескольких стран. Он охватывает такие факторы, как экономическое процветание, качество жилья, образование, здоровье, безопасность и общее удовлетворение жизнью.

Этот набор данных можно использовать для сравнения качества жизни в разных странах, выявления закономерностей и исследования корреляций между различными социо-экономическими факторами и субъективным благополучием людей.

Метка для прогнозирования: Удовлетворенность жизнью

предобработаю и первично проанализирую данные (импорт библиотек, поверхностный анализ и тд)

big
Original size 512x572
Original size 2894x1366

на этом этапе мне придется чистить данные, так как есть пропущенные значения, поменять название колонок, так как оно записано некорректно, группировать данные по стране и вычисление среднего значения удовлетворенности жизнью

Original size 2780x1518

посмотрим сначала на общую удовлетворенность жизнью. я попросила ChatGpt «стилизовать мне график в неонвые цвета"(промт)

Original size 1242x952

теперь посмотрим на корреляцию признаков, видно, что наиболее коррелируют признаки, которые окрашены более красным

Original size 1820x1586

теперь попробую посмотреть на сгруппированные по странам признаки природных факторов, чтобы вдальнейшем провести кластеризацию и построить график зависимости, я попросила ChatGpt «написать код, который сгруппирует признак Water quality и Air pollution по странам и визуализиурет их в одном линейном графике"(промт)

Original size 1004x1024

теперь я посмотрю. на удовлетворенность по странам, я попросила ChatGpt «стилизовать график в разноцветные символы, чтобы он смотрелся как конфетти"(промт)

Original size 1660x1134

выбираю визуализировать данные через интерактивный график. так как он более наглядный. «напиши код для интерактивного графика зависимости удовлетворенностью жизнью и странами"(промт)

финальный проект. анализ данных из ресурса kaggle Better Life Index 2024

самое интересное. кластеризую дату, чтобы визуализировать зависимость важных факторов жизни от удовлетворением жизни

Original size 1700x1536

итак, по всем графикам в совокупности можно сделать вывод, что наиболее комфортная страна для жизни это Финляндия. Анализ этих данных помог мне выбрать следующую страну для посещения!