
Описание проекта
Я выбрала датасет «Titanic: Machine Learning from Disaster» с платформы Kaggle. Данные содержат информацию о 891 пассажире Титаника: - Демографические данные (пол, возраст) - Социально-экономический статус (класс билета, стоимость) - Информация о посадке (порт) - Факт выживания
Этот датасет представляет историческую и социологическую ценность: - Позволяет исследовать социальное неравенство в экстремальной ситуации - Даёт понимание факторов, влиявших на шансы выживания
1. Столбчатые диаграммы — для сравнения категориальных данных 2. Гистограммы — для распределения непрерывных переменных 3. Boxplot — для анализа распределений с учётом выбросов 4. Тепловая карта — для визуализации корреляций 5. FacetGrid — для многомерного анализа
Основные цвета — голубой и синий, цвета моря, холода и ночи, сопровождавших трагедию Титаника
1CC2E0
1F389D
Анализ данных выбранной темы
1. Диаграмма типа boxplot демонстрирует распределение возраста пассажиров отдельно для выживших и погибших.
Наблюдения: Медианный возраст выживших ниже, чем у погибших. Также заметно, что среди выживших присутствует большее количество детей и подростков.
2. Столбчатая диаграмма отображает среднюю вероятность выживания пассажиров, сгруппированных по возрастным интервалам с шагом 10 лет.
Наблюдения: Наибольшая вероятность выживания наблюдается в младших возрастных группах. С увеличением возраста вероятность выживания последовательно снижается.
3. Столбчатая диаграмма показывает среднюю вероятность выживания пассажиров для каждого класса каюты
Наблюдения: Вероятность выживания максимальна у пассажиров первого класса, ниже у пассажиров второго класса и минимальна у пассажиров третьего класса.
4. Диаграмма рассеяния отражает связь между возрастом пассажира и стоимостью приобретённого билета.
Явной линейной зависимости между возрастом и стоимостью билета не наблюдается. Однако более высокие тарифы чаще встречаются у взрослых пассажиров, тогда как у детей стоимость билетов, как правило, ниже.
5. Столбчатая диаграмма отображает абсолютное количество пассажиров, выживших и погибших в результате катастрофы.
Число погибших существенно превышает число выживших, что указывает на выраженный дисбаланс классов в целевой переменной
Выводы
1.Социальное неравенство было ключевым фактором выживаемости 2. Дети имели приоритет при спасении 3. Пассажиры первого класса имели в 2.5 раза больше шансов выжить
Использование нейросетей ChatGPT для: - Создания аннотаций - Формулировки статистических выводов - Корректировки в коде