
Одним из моих любимых фильмов с детства был «Титаник». Но что лежит за красивой историей любви? Реальность трагична и несправедлива, я решила узнать больше о произошедшей катастрофе и выбрала дата-сет, содержащий исторические данные о выживаемости пассажиров затонувшего корабля.
Для анализа выбран датасет Titanic Dataset с платформы Kaggle (источник: https://www.kaggle.com/c/titanic/data) Данные удобны для анализа, потому что представлены в табличном формате CSV и содержат информацию о пассажирах: пол, возраст, класс, каюты, стоимость билета, порт посадки, факт выживания
Для иллюстраций были выбраны разные виды визуализаций под конкретную задачу: столбчатые диаграммы — сравнение категорий; гистограммы — распределение числовых данных; boxplot — анализ разброса и выбросов; линейные и составные графики — сравнительный анализ групп.
Этапы работы с данными
Первым шагом необходимо загрузить файл дата-сета и данные из него
Далее следует провести предобработку данных, чтобы исключить ошибки из-за пропусков в статистике, заполнить пропуски медианным значением при необходимости и привести данные к удобному виду, а также создать возрастные группы, которые буду использованы для визуализаций

Создание визуализаций
Индивидуальный стиль основан на ассоциациях к морской теме, были выбраны голубые оттенки, белый и черный.
Вывод: женщины выживали значительно чаще мужчин. Вывод: большинство пассажиров — молодые взрослые. Вывод: медианный возраст выживших ниже. Вывод: социальный класс и пол существенно влияли на шансы выж
Используемые статистические методы
В проекте применялись: - описательная статистика (mean, median); - группировка данных (groupby); - агрегирование; - визуальный анализ распределений; - сравнение категориальных групп. Методы направлены не на прогнозирование, а на объяснение и интерпретацию данных
Блокнот с кодом и дата-сет https://drive.google.com/drive/folders/10ZSCjUgItmpzlQnLhH-06SCj2LMc9WoW?usp=sharing