
Выбор данных
Для выполнения проекта был выбран классический датасет kaggle, содержащий информацию о гендерном распределение внутри рас в «Властелине колец».
Выбор этого датасета обусловлен несколькими причинами:
- данные являются структурированными и компактными, что удобно для первичного анализа
-в датасете присутствуют как числовые признаки, так и категориальная переменная (раса), что позволяет использовать разные типы визуализации.
Круговая диаграмма рас


Распределение персонажей по расам (Race Distribution)
Тип диаграммы: Круговая (pie chart) или горизонтальная столбчатая (bar chart) Данные: Поле race Идея: Показать, сколько персонажей принадлежит каждой расе — люди, эльфы, гномы, хоббиты, орки, маиар и т. д. Дополнительно: Можно выделить цветом основные «расы Средиземья» (люди, эльфы, гномы, хоббиты) и объединить остальных в «другие». Польза: Наглядно демонстрирует, на кого больше всего внимания уделено в каноне.
Горизонтальная групповая столбчатая диаграмма показывающая гендерное распределение среди рас
Гендерный баланс по расам (Gender Distribution Across Races)
Тип диаграммы: Групповая столбчатая диаграмма или тепловая карта (heatmap) Данные: Поля gender и race Идея: Для каждой расы показать, сколько мужчин и женщин представлено. Например:
Среди хоббитов — почти поровну
Среди гномов — почти все мужчины (по канону)
Среди эльфов — больше упомянутых женщин (Галадриэль, Лутиэн и др.)
Польза: Показывает гендерные особенности мира Толкина — например, «почему мало женщин-гномов».
Диаграмма средней продолжительности жизни по расам
Что показывает график:
Горизонтальная столбчатая диаграмма.
Каждый столбец — одна раса.
Длина столбца — средний возраст (в годах) представителей этой расы.
Цвет — соответствует канонической ассоциации (например, хоббиты — зелёные, гномы — золотые).
На конце каждого столбца — точное значение среднего возраста.
Показывает, какие расы живут дольше в мире Толкина. Подчёркивает разницу между людьми, полуэльфами и драконами. Визуально интуитивно понятен — чем длиннее столбец, тем дольше живёт раса.
Древовидная карта с распределением персонажей по королевствам
Что делает этот код:
Фильтрует персонажей без realm
Считает, сколько персонажей связано с каждым королевством
Объединяет редкие королевства (менее 3 персонажей) в «Other»
Строит Treemap, где:
Размер блока = количество персонажей
Подпись = название \+ число в скобках (например, «Gondor (42)»)
Цвета — из палитры tab20 (20 различных цветов)
В ходе выполнения проекта был проведён первичный анализ датасета kaggel. Были построены четыре различных типа графиков, каждый из которых позволил рассмотреть данные под разным углом: распределение значений, сравнение средних, анализ разброса и изучение взаимосвязей между признаками.
Полученные визуализации показали, как разнообразен мир Толкина. Это подтверждает, что визуальный анализ является важным этапом исследования данных и может служить основой для более сложных методов анализа и классификации.
Использование инструментов искусственного интеллекта при работе над проектом.
В процессе выполнения проекта использовались инструменты искусственного интеллекта, а именно ChatGPT и среда Google Colab, в качестве вспомогательных средств для отладки кода и устранения технических ошибок.