
Вводная часть
Для анализа был выбран датасет Titanic Dataset, содержащий информацию о пассажирах лайнера «Титаник», потерпевшего крушение в 1912 году. Датасет был взят с платформы Kaggle — открытого ресурса с наборами данных для анализа и обучения Data Science.
В таблице представлены следующие данные: - пол пассажира - возраст - класс каюты - стоимость билета - порт посадки - информация о выживании
Почему эти данные представляют интерес?
- содержат реальные исторические данные; - хорошо подходят для исследовательского анализа; - позволяют выявить социальные и демографические факторы, влияющие на вероятность выживания.
Какие типы графиков были выбраны и почему
В проекте использованы разные виды визуализаций: - столбчатые диаграммы — для сравнения долей выживших; - гистограммы — для анализа распределения возраста; - круговые диаграммы — для визуализации пропорций; - сравнительные графики — для объяснения влияния нескольких факторов одновременно.
Этапы работы
Для начала загрузили первичные данные

Очистка и подготовка данных В ходе анализа было выявлено: наличие пропущенных значений в столбце Age; категориальные переменные (Sex, Embarked). Были выполнены следующие действия: пропущенные значения возраста заменены на медианное значение; данные приведены к удобному формату для анализа.
Анализ данных Выживаемость в зависимости от пола

Результат показал, что женщины имели значительно более высокую вероятность выживания, чем мужчины.
Выживаемость в зависимости от класса каюты

Пассажиры первого класса выживали заметно чаще, чем пассажиры второго и третьего классов.
Распределение возраста пассажиров

Возраст пассажиров имеет правостороннее распределение, с наибольшей концентрацией в диапазоне 20–40 лет.
Визуализация данных
Для визуализации использовались библиотеки Matplotlib, а также сам Google colab Были построены: столбчатая диаграмма выживаемости по полу; столбчатая диаграмма выживаемости по классу; гистограмма распределения возраста; круговая диаграмма долей выживших и погибших
Использование нейросетей
В ходе выполнения проекта использовалась генеративная модель ChatGPT (OpenAI) для: объяснения методов анализа данных; помощи в написании кода на Python; формулировки текстовых описаний для презентации. Промпты включали запросы на: примеры анализа данных в Pandas; объяснение статистических методов; идеи для визуализации данных.
Используемые статистические методы
В проекте применялись следующие методы: описательная статистика (среднее, медиана); группировка данных (groupby); анализ распределений; сравнение долей между группами. Эти методы позволили выявить закономерности и объяснить влияние различных факторов на вероятность выживания.
Итоговые графики
В результате были построены минимум 4 разных типа графиков: Столбчатая диаграмма выживаемости по полу Столбчатая диаграмма выживаемости по классу Гистограмма распределения возраста Круговая диаграмма соотношения выживших и погибших Все графики представлены в итоговой презентации.
Заключение
В ходе проекта был проведён анализ данных о пассажирах «Титаника» с использованием библиотеки Pandas и инструментов визуализации. Анализ показал, что пол и класс пассажира оказали наибольшее влияние на вероятность выживания, в то время как возраст играл вторичную роль. Проект продемонстрировал возможности анализа данных, визуализации и интерпретации результатов в понятном и объясняющем формате.