
Концепция
В этом проекте анализируется сериал Breaking Bad на основе открытых данных IMDb. Цель исследования — понять, как менялось качество сериала по ходу выхода эпизодов, насколько стабильно оценивались сезоны и существует ли связь между популярностью эпизода и его рейтингом. Проект выполнен в формате изучающей и объясняющей визуализации данных с использованием Python и библиотеки Pandas.
Источник данных
Для анализа использованы два открытых датасета с платформы Kaggle: информация об эпизодах сериала (сезон, номер серии, название, дата выхода), данные IMDb (рейтинг эпизода и количество пользовательских голосов). После объединения датасетов каждая строка соответствует одному эпизоду сериала.
Почему выбран этот датасет: данные структурированы и хорошо подходят для анализа временной динамики, сериал имеет завершённую структуру, что позволяет анализировать весь жизненный цикл проекта, рейтинги IMDb отражают коллективное восприятие аудитории.
Исследовательские вопросы
В рамках проекта были поставлены следующие вопросы: Как менялся рейтинг эпизодов по мере выхода сериала? Какие сезоны получили наиболее высокие оценки? Насколько стабильным было качество внутри каждого сезона? Связана ли популярность эпизода с его рейтингом?
Подготовка данных
Основные этапы обработки данных: загрузка CSV-файлов в среде Google Colab, нормализация названий колонок, объединение таблиц по номеру сезона и эпизода, приведение рейтингов и голосов к числовому формату, обработка дат выхода, создание дополнительного признака — сквозного номера эпизода.
Все этапы обработки выполнены с помощью библиотеки Pandas.
Подготовка и объединение исходных данных с использованием библиотеки Pandas
Визуальный стиль
Цветовая палитра
Визуальный стиль графиков был задан программно. Использована ограниченная палитра и единые параметры оформления.
Графики
Построение динамики рейтингов эпизодов и сглаженного тренда.
По мере развития сериала рейтинги в целом растут, а в финальных сезонах становятся более стабильными, что указывает на укрепление качества и доверия аудитории.
Агрегация данных и визуализация среднего рейтинга по сезонам.
Каждый последующий сезон в среднем оценивался выше предыдущего. Особенно заметный рост наблюдается в последних сезонах, что подтверждает устойчивое развитие сериала.
Анализ распределения рейтингов эпизодов внутри сезонов.
Ранние сезоны имеют больший разброс оценок, тогда как финальные сезоны демонстрируют более стабильное качество эпизодов.
Связь между популярностью эпизодов и их рейтингом.
Высокая популярность не приводит к снижению рейтинга. Наиболее обсуждаемые эпизоды, как правило, также имеют высокие оценки.
Статистические методы
В рамках проекта были использованы базовые методы анализа данных, позволяющие не только визуализировать информацию, но и интерпретировать полученные результаты.
Описательная статистика Для оценки общего уровня и разброса рейтингов эпизодов были рассчитаны основные статистические показатели: среднее значение, медиана, минимальные и максимальные оценки. Это позволило понять типичный уровень качества сериала и выявить экстремальные значения.
Агрегация данных (groupby) Метод группировки использовался для объединения эпизодов по сезонам и расчёта средних рейтингов. Такой подход позволил сравнивать сезоны между собой и анализировать изменение восприятия сериала на более высоком уровне абстракции, чем отдельные эпизоды.
Анализ распределений (boxplot) Boxplot применялся для изучения распределения рейтингов внутри каждого сезона. Этот метод позволяет визуально оценить медиану, межквартильный размах и стабильность оценок, а также выявить сезоны с наибольшими колебаниями качества.
Корреляционный анализ (Spearman) Для оценки связи между популярностью эпизодов (количеством голосов IMDb) и их рейтингами использовалась корреляция Спирмена. Этот метод выбран, поскольку данные не обязательно имеют нормальное распределение, а связь между переменными может быть нелинейной.
Вывод
Рост качества по ходу сериала Рейтинги эпизодов Breaking Bad в целом увеличиваются по мере развития сюжета. Это редкий случай для многосезонного сериала, где качество не только не падает, но и стабильно растёт.
Стабилизация в финальных сезонах Финальные сезоны характеризуются не только высокими средними оценками, но и меньшим разбросом рейтингов. Это свидетельствует о более предсказуемом и устойчивом качестве эпизодов.
Популярность не снижает рейтинг Анализ связи между количеством голосов и рейтингом показывает, что более популярные эпизоды не получают более низкие оценки. Напротив, самые обсуждаемые серии зачастую имеют одни из самых высоких рейтингов.
Подтверждение статуса сериала Совокупность статистических показателей и визуальных паттернов подтверждает статус Breaking Bad как одного из самых высоко оценённых драматических сериалов, как с точки зрения аудитории, так и с точки зрения устойчивости качества.
Использованные генеративные модели
Chat GPT 5.2: помощь в доработке кода и проверки текста
Kaggle: датасет
AdobeColor: создание цветовой палитры