
В рамках данного проекта я провел комплексный анализ данных о супергеройских сериалах, используя информацию из базы IMDb. Меня интересовали ключевые тенденции в этом сегменте телевизионной индустрии: какие жанры преобладают, какие годы были наиболее продуктивными, и что влияет на зрительскую оценку.
Супергеройская тематика в последние десятилетия стала одним из доминирующих направлений в развлекательной индустрии. Особенно интересно проследить, как менялись тренды в сериальном формате, который предоставляет создателям больше времени для раскрытия персонажей и сюжетных линий в сравнении с полнометражными фильмами.
Для визуализации я выбрал комбинацию различных типов графиков: круговую диаграмму для представления распределения жанров, линейный график для отображения временной динамики, гистограмму для анализа рейтингов, горизонтальные столбчатые диаграммы для топ-рейтингов и диаграмму рассеяния для изучения корреляций. Этот набор инструментов позволяет наиболее полно раскрыть разные аспекты анализируемых данных.
Поиск и подготовка данных
Для анализа я выбрал датасет «Superhero TV Shows» с платформы Kaggle. Этот набор данных содержит информацию о сериалах супергеройской тематики, включая оценки IMDb, годы выпуска, жанры, возрастные ограничения и другие характеристики.
Работа с данными проходила в несколько этапов:
1. Загрузка и первичный анализ данных: Использовал библиотеку pandas для загрузки CSV-файла и изучения его структуры.

2. Предобработка данных: Преобразовал строковые значения в числовые для рейтингов IMDb, годов выпуска и количества голосов.
3. Исследовательский анализ: Изучил основные статистические характеристики данных, распределения значений и выявил ключевые зависимости.
Разработка визуализаций
Для создания визуализаций я использовал библиотеки matplotlib и seaborn, что позволило реализовать различные типы графиков с единым стилевым оформлением.
Основные шаги включали: 1. Разработка цветовой схемы: Я выбрал палитру из шести основных цветов, которые хорошо сочетаются между собой и создают единый визуальный стиль. 2. Настройка общих параметров отображения: Установил единый стиль для шрифтов, сеток, заголовков и подписей осей. 3. Создание шести различных визуализаций: Разработал разнообразные графики для наглядного представления различных аспектов данных.
Использование нейросетей
В процессе работы над проектом я активно использовал ChatGPT (версия GPT-4) для решения следующих задач:
● Подбор оптимальных параметров визуализации: Нейросеть помогла определить наиболее подходящие типы графиков для разных аспектов анализа.
● Исправление ошибок в коде: При возникновении проблем с отображением графиков, ChatGPT помогал идентифицировать и устранять ошибки.
● Улучшение стилизации: Получал рекомендации по улучшению визуального представления данных.
Основные промпты включали:
● «Как улучшить отображение круговой диаграммы с большим количеством категорий?»
● «Исправь ошибку в коде обработки строк с жанрами»
● «Как сделать единый стиль для всех графиков в matplotlib?»
Жанровое разнообразие
На первой визуализации представлено распределение основных жанров в супергеройских сериалах:
Как видно из диаграммы, жанр «Action» (Боевик) является доминирующим в супергеройской тематике, занимая 33,3% от общего числа. Это ожидаемый результат, учитывая динамичный характер супергеройских историй. Интересно, что «Adventure» (Приключения) и «Animation» (Анимация) занимают практически равные доли (26.5% и 26,0% соответственно), что указывает на значительную представленность анимационного формата в супергеройской тематике. Комедийные и драматические элементы представлены в меньшей степени (9% и 5,1%), но также играют важную роль в жанровом разнообразии.
Хронология выпуска
Динамика выпуска супергеройских сериалов по годам показывает интересные тенденции:
Выделяются несколько пиков активности в индустрии: в начале 1970-х, в 1988 году (5 сериалов), в начале 2000-х, и новый всплеск в 2018–2020 годах. Эти пики соответствуют периодам повышенного интереса к супергеройской тематике в массовой культуре. Особенно заметен рост в последние годы, что совпадает с общим бумом супергеройской тематики в кинематографе.
Распределение рейтингов
Гистограмма распределения рейтингов IMDb показывает общее качество супергеройских сериалов:
Большинство сериалов получили оценки в диапазоне от 6.5 до 7.5 баллов, со средним значением 7.01. Распределение имеет форму, близкую к нормальной, с небольшим смещением в сторону более высоких оценок. Это может указывать на общий высокий уровень качества и зрительского приятия супергеройских сериалов.
Лучшие сериалы
Топ-10 супергеройских сериалов по рейтингу IMDb представлен на следующей визуализации:
Лидируют анимационные проекты: «Avatar: The Last Airbender» (9.3), «Fullmetal Alchemist: Brotherhood» (9.1), и «Batman: The Animated Series» (9.0). Это может указывать на то, что анимационный формат особенно хорошо подходит для раскрытия супергеройской тематики, позволяя более свободно реализовывать фантастические элементы и визуальные эффекты. Среди лидеров также присутствуют как японские аниме («One Punch Man», «Dragon Ball Z»), так и западные анимационные и игровые сериалы.
Возрастные ограничения и рейтинги
Анализ среднего рейтинга IMDb по возрастным ограничениям показывает интересную зависимость:
Сериалы без возрастного ограничения («Not Rated») имеют самый высокий средний рейтинг (7.50), за ними следуют сериалы с ограничениями TV-PG и TV-14 (7.41). Интересно, что сериалы с наиболее строгими ограничениями ® имеют наименьший средний рейтинг (6.15). Это может указывать на то, что более «взрослый» контент не всегда находит отклик у зрительской аудитории в контексте супергеройской тематики.
Корреляция рейтинга и популярности
Диаграмма рассеяния показывает взаимосвязь между рейтингом IMDb и количеством голосов:
Наблюдается слабая положительная корреляция между рейтингом IMDb и количеством голосов, которая усиливается для сериалов с очень большим количеством голосов (более 100,000). Это может означать, что наиболее популярные сериалы, как правило, получают более высокие оценки, возможно, из-за более высокого бюджета или привлечения более талантливых создателей. Среди сериалов с наибольшим количеством голосов выделяются «Avatar: The Last Airbender», «The Boys» и «Daredevil».
Проведенный анализ позволяет сделать следующие ключевые выводы:
1. Жанровое разнообразие: Супергеройские сериалы охватывают различные жанры, но преобладают боевики, приключения и анимация. Важно отметить, что многие сериалы сочетают в себе несколько жанров.
2. Циклический интерес: Наблюдаются циклические пики в производстве супергеройских сериалов, с заметным ростом в последние годы, что отражает растущую популярность этой тематики.
3. Качество контента: Средний рейтинг супергеройских сериалов достаточно высок (7.01), что говорит о хорошем качестве контента и положительном восприятии зрителями.
4. Формат и аудитория: Анимационные сериалы занимают лидирующие позиции в рейтингах, демонстрируя, что анимация может быть наиболее эффективным форматом для супергеройских историй.
5. Возрастные ограничения и восприятие: Сериалы с более мягкими возрастными ограничениями или без них получают в среднем более высокие оценки, что может указывать на предпочтения аудитории в отношении тона и содержания супергеройских историй.
Этот анализ может быть полезен как для любителей супергеройских сериалов при выборе контента для просмотра, так и для создателей контента, стремящихся понять тенденции и предпочтения аудитории в этом сегменте.
В ходе работы над проектом я активно использовал генеративную модель ChatGPT (версия GPT-4) от компании OpenAI (https://chat.openai.com). Нейросеть была применена для следующих целей:
1. Оптимизация кода визуализаций: ChatGPT помог улучшить структуру кода и исправить ошибки в функциях построения графиков. 2. Рекомендации по стилизации: Получил советы по созданию единой цветовой схемы и стилевого оформления всех графиков. 3. Интерпретация данных: Модель помогла проанализировать полученные результаты и сформулировать выводы на основе визуализаций. 4. Структурирование текстовой части: Получил рекомендации по организации текстового описания проекта.
Использование нейросети значительно ускорило работу над проектом и позволило достичь более высокого качества как визуальной, так и текстовой составляющих.