Original size 860x1280

Анализ факторов выживаемости пассажиров «Титаника»

PROTECT STATUS: not protected

Вводная часть

Для анализа был выбран датасет Titanic Dataset, содержащий информацию о пассажирах лайнера «Титаник», потерпевшего крушение в 1912 году. Датасет был взят с платформы Kaggle — открытого ресурса с наборами данных для анализа и обучения Data Science.

В таблице представлены следующие данные: - пол пассажира - возраст - класс каюты - стоимость билета - порт посадки - информация о выживании

Почему эти данные представляют интерес?

- содержат реальные исторические данные; - хорошо подходят для исследовательского анализа; - позволяют выявить социальные и демографические факторы, влияющие на вероятность выживания.

Какие типы графиков были выбраны и почему

В проекте использованы разные виды визуализаций: - столбчатые диаграммы — для сравнения долей выживших; - гистограммы — для анализа распределения возраста; - круговые диаграммы — для визуализации пропорций; - сравнительные графики — для объяснения влияния нескольких факторов одновременно.

Этапы работы

Для начала загрузили первичные данные

big
Original size 1619x174
0
Original size 479x411

Очистка и подготовка данных В ходе анализа было выявлено: наличие пропущенных значений в столбце Age; категориальные переменные (Sex, Embarked). Были выполнены следующие действия: пропущенные значения возраста заменены на медианное значение; данные приведены к удобному формату для анализа.

Анализ данных Выживаемость в зависимости от пола

post

Результат показал, что женщины имели значительно более высокую вероятность выживания, чем мужчины.

Original size 567x489

Выживаемость в зависимости от класса каюты

post

Пассажиры первого класса выживали заметно чаще, чем пассажиры второго и третьего классов.

Original size 567x450

Распределение возраста пассажиров

post

Возраст пассажиров имеет правостороннее распределение, с наибольшей концентрацией в диапазоне 20–40 лет.

Original size 571x455

Визуализация данных

Для визуализации использовались библиотеки Matplotlib, а также сам Google colab Были построены: столбчатая диаграмма выживаемости по полу; столбчатая диаграмма выживаемости по классу; гистограмма распределения возраста; круговая диаграмма долей выживших и погибших

Использование нейросетей

В ходе выполнения проекта использовалась генеративная модель ChatGPT (OpenAI) для: объяснения методов анализа данных; помощи в написании кода на Python; формулировки текстовых описаний для презентации. Промпты включали запросы на: примеры анализа данных в Pandas; объяснение статистических методов; идеи для визуализации данных.

Используемые статистические методы

В проекте применялись следующие методы: описательная статистика (среднее, медиана); группировка данных (groupby); анализ распределений; сравнение долей между группами. Эти методы позволили выявить закономерности и объяснить влияние различных факторов на вероятность выживания.

Итоговые графики

В результате были построены минимум 4 разных типа графиков: Столбчатая диаграмма выживаемости по полу Столбчатая диаграмма выживаемости по классу Гистограмма распределения возраста Круговая диаграмма соотношения выживших и погибших Все графики представлены в итоговой презентации.

Заключение

В ходе проекта был проведён анализ данных о пассажирах «Титаника» с использованием библиотеки Pandas и инструментов визуализации. Анализ показал, что пол и класс пассажира оказали наибольшее влияние на вероятность выживания, в то время как возраст играл вторичную роль. Проект продемонстрировал возможности анализа данных, визуализации и интерпретации результатов в понятном и объясняющем формате.