Original size 1140x1600

Анализ данных и визуализация

PROTECT STATUS: not protected
4

Вводная часть

Титаник является одной из самых известных трагедий в истории, и исследование выживания пассажиров может дать представление о социальных, экономических и демографических факторах, влияющих на шансы на выживание.

Анализ данных о выживших на Титанике может выявить паттерны и зависимости, такие как влияние класса (первый, второй, третий), возраста, пола и других факторов на вероятность выживания. Это позволяет глубже понять, как различные условия и обстоятельства могли повлиять на соблюдение жизни в критической ситуации.

Данные доступны в формате CSV (Comma-Separated Values) на платформе GitHub, что позволяет легко загружать и обрабатывать их в различных аналитических инструментах.

Данные содержат различные характеристики пассажиров, такие как имя, пол, возраст, класс, цена на билет, количество родителей/детей на борту и другие. Эти атрибуты позволяют проводить многопараметрический анализ, делая данные уникальными для изучения социальных динамик и кризисных ситуаций.

Я решила использовать следующие виды графиков:

Столбчатые графики  — Они идеально подходят для визуализации категориальных данных, таких как количество выживших и погибших по полу или классу. Столбчатые графики позволяют легко сравнивать между собой разные группы и акцентировать внимание на количественных различиях.

Круговая диаграмма  — Использую круговую диаграмму для отображения процентного соотношения выживших и погибших. Этот вид графика наглядно демонстрирует общий расклад — какой процент пассажиров выжил, а какой нет, что дает быстрое и понятное представление о ситуации на Титанике.

Тепловая карта  — Тепловая карта помогает визуализировать взаимосвязь между несколькими переменными, например, между возрастом, классом и вероятностью выживания. Она может продемонстрировать, как разные факторы влияют на шансы на выживание, добавляя дополнительный уровень анализа.

Этапы работы

big
Original size 1280x160

Анализ данных начинается с импорта необходимых библиотек для работы с данными и визуализацией, после чего задаётся URL-адрес для загрузки набора данных о Титанике в формате CSV. Затем данные из этого файла считываются и сохраняются в переменной, представляющей собой таблицу, что позволяет их далее анализировать и визуализировать.

Original size 1280x570

Далее производится комплексный анализ загруженного датасета о Титанике. Сначала выводятся первые строки таблицы, информация о структуре данных и описательная статистика для числовых и категориальных столбцов. Затем проверяются пропущенные значения, их количество и процент в каждом столбце. Также определяется количество уникальных значений в столбцах и конкретно рассматриваются уникальные значения для категорий пола и порта посадки. Далее анализируется распределение целевой переменной, рассчитывается процент выживших и погибших, средний возраст для различных групп, а также факторы, влияющие на выживание, такие как класс каюты, пол, порт посадки, стоимость билета и количество родственников. Все эти операции позволяют глубже понять данные и выявить зависимости между различными переменными.

Original size 1280x523

После чего начинается визуализация различных аспектов данных о пассажирах Титаника с помощью графиков. Сначала строится гистограмма для распределения возрастов пассажиров, затем создается круговая диаграмма, показывающая долю выживших и погибших. Проводится анализ зависимости возраста от выживаемости с помощью гистограммы и затем строится столбчатая диаграмма, иллюстрирующая выживаемость в зависимости от пола и класса каюты. Наконец, формируется скрипичный график, который показывает распределение возраста по полу с учетом выживаемости.

Итоговые графики

Original size 793x432
Original size 662x433
Original size 376x394
Original size 663x430
Original size 660x418
Original size 667x432
Original size 671x429

Ссылки

Анализ данных и визуализация
4