
ДА ЗДРАВСТВУЮТ СЕРИАЛЫ!
Мы живём в век технологий, век информации и перемен. Время для нас движется быстро, а количество поставленных задач нескончаемо растёт. Вечером почти каждый из нас, приходя домой, желает лишь отвлечься от этого шума и отдохнуть. А что расслабит лучше, чем серия лёгкого сериальчика под чай и любимые снеки?
Да, официально Netflix (одна из самых популярных стриминговых платформ в мире) ушёл из России, но его популярность всё растёт с каждым днём!. По данным на 2023 год, у Netflix более 230 миллионов подписчиков по всему миру, а контент охватывает более 190 стран.

Анализ данных о Netflix позволит нам понять, какие тенденции преобладают в индустрии развлечений, какие страны являются основными производителями контента и как меняется популярность различных рейтингов и жанров с течением времени.
ДАННЫЕ
Все данные для анализа были найдены на платформе Kaggle. Используемый датасет содержит различную информацию как о фильмах, так и сериалах, доступных на Netflix, включая такие параметры, как название, тип контента, страну производства, год выпуска, рейтинг, продолжительность и жанры.

ЭТАПЫ РАБОТЫ
Итак, прежде чем анализировать тонны информации и строить различные графики, следует тщательно подготовиться! В данном случае — импортировать сторонние библиотеки.
Pandas рагружает и обрабатывает данные, а также подготавливает их для визуализации. Matplotlib и Seaborn создают статические графики и позволяют настраивать их стиль и внешний вид. Plotly.express создает интерактивные графики для более глубокого анализа. Ну а Tabulate форматирует таблицы для удобного вывода в консоль.
Эта часть кода загружает наш csv документ и подготавиливает его для дальнейшей обработки: просматривает первые строки данных, проверяет на наличие пропущенных значений и анализирует описательную статистику.
Далее код удаляет строки, в которых отсутствуют значения в колонках, которые нам понадобятся далее: country, rating, release_year. Это помогает работать только с полными данными и избежать ошибок в расчётах. А также преобразует год выпуска в формат datetime и фильтрует данные, оставляя только строки с допустимыми рейтингами (то есть отбрасывает некорректные или неизвестные).
Ну а на этом этапе были проведены следующие действия:
Соотношение фильмов и сериалов Код считает количество фильмов и сериалов в колонке type и использует метод value_counts (), который возвращает количество уникальных значений в колонке.
Топ-10 стран по производству контента Считаем количество контента, произведенного в каждой стране и с помощью метода value_counts (), получаем количество контента по странам. А метод head (10) возвращает нам наш топ-10 стран.
Распределение контента по рейтингам Тут мы считаем количество контента для каждого рейтинга в соответствующей колонке rating, используя метод value_counts ().
Динамика выпуска контента по годам Считаем количество контента, выпущенного в каждый год. Метод dt.year извлекает год из колонки release_year. Метод value_counts () считает количество контента для каждого года. Метод sort_index () сортирует данные по годам (от старых к новым).
Последняя строка (sns.set_style («whitegrid»)) используется в библиотеке Seaborn для настройки стиля графиков. Мы поменяли цвет фона на белый.
ДИАГРАММЫ
Как можно заметить, все графики строятся по почти что одной схеме. Разберём некоторые из применяемых нами параметров:
Сначала берутся данные, например, content_type_counts — данные, содержащие количество фильмов и сериалов. Далее, в круговой диаграмме values — значения для каждого сегмента. names — Названия сегментов. title — Заголовок диаграммы. В некоторых графиках также присутствует параметр labels — Подписи осей. color_discrete_sequence или сolor_continuous_scale: цветовая схема (в данном случае используются красные оттенки, ассоциирующиеся с Netflix).
СОХРАНЕНИЕ
Если вдруг мы захотим вывести данные, то в папке, где находится скрипт, создается файл top_countries_netflix.csv, содержащий список стран и количество произведенного контента.
А теперь наводим красоту
Все графики, созданные с помощью библиотеки matplotlib или seaborn, сохраняются в файл изображения формата PNG. Параметр dpi=300 задает хорошее качество изображения. Параметр bbox_inches='tight' обрезает лишние поля вокруг графика, чтобы изображение выглядело аккуратно.
Последние строки кода высчитывают нужные данные по следующим формулам:
ЗАКЛЮЧЕНИЕ
Этот анализ данных Netflix позволил выявить некоторые из ключевых тенденций не только на самой платформе, но и во всей индустрии развлечений!
Во-первых, мы заметили, что большая часть контента это всё-таки фильмы, а не сериалы. США (как и ожидалось) остаются основным производителем этого самого контента. И также был обнаружен скачок роста производства фильм и сериалов после 2015 года, что косвенно связано и с ростом популярности самого Netflix.
БЛОКНОТ И ДАТАСЕТ https://disk.yandex.ru/d/pYwAUUwGAX60uA