Original size 1140x1600

Цена места и шансы на жизнь: визуальный анализ катастрофы «Титаника»

PROTECT STATUS: not protected
The project is taking part in the competition

Одним из моих любимых фильмов с детства был «Титаник». Но что лежит за красивой историей любви? Реальность трагична и несправедлива, я решила узнать больше о произошедшей катастрофе и выбрала дата-сет, содержащий исторические данные о выживаемости пассажиров затонувшего корабля.

Для анализа выбран датасет Titanic Dataset с платформы Kaggle (источник: https://www.kaggle.com/c/titanic/data) Данные удобны для анализа, потому что представлены в табличном формате CSV и содержат информацию о пассажирах: пол, возраст, класс, каюты, стоимость билета, порт посадки, факт выживания

Для иллюстраций были выбраны разные виды визуализаций под конкретную задачу: столбчатые диаграммы — сравнение категорий; гистограммы — распределение числовых данных; boxplot — анализ разброса и выбросов; линейные и составные графики — сравнительный анализ групп.

Этапы работы с данными

Первым шагом необходимо загрузить файл дата-сета и данные из него

0

Далее следует провести предобработку данных, чтобы исключить ошибки из-за пропусков в статистике, заполнить пропуски медианным значением при необходимости и привести данные к удобному виду, а также создать возрастные группы, которые буду использованы для визуализаций

big
Original size 1948x370

Создание визуализаций

Индивидуальный стиль основан на ассоциациях к морской теме, были выбраны голубые оттенки, белый и черный.

0
0
Original size 5200x3685

Вывод: женщины выживали значительно чаще мужчин. Вывод: большинство пассажиров — молодые взрослые. Вывод: медианный возраст выживших ниже. Вывод: социальный класс и пол существенно влияли на шансы выж

Используемые статистические методы

В проекте применялись: - описательная статистика (mean, median); - группировка данных (groupby); - агрегирование; - визуальный анализ распределений; - сравнение категориальных групп. Методы направлены не на прогнозирование, а на объяснение и интерпретацию данных