Original size 1024x1434

Анализ фильмов по базе данных IMDb

PROTECT STATUS: not protected

Концепция

Для анализа были использованы данные с открытого набора данных IMDb, доступные по адресу https://datasets.imdbws.com/.

Я решила использовать для проекта данные IMDb, поскольку они предоставляют уникальную возможность исследовать и анализировать фильмы с разных точек зрения. Эта база данных актуальна и обширна, содержит подробную информацию о фильмах, их жанрах, рейтингах, годах выпуска, режиссерах, актерах. Все это позволит мне получить интересные и полезные инсайты о результатах работы и развития киноиндустрии.

Типы графиков: 1. Облако слов для названий фильмов 2. Круговая диаграмма для распределения по жанрам 3. Столбчатая диаграмма для режиссеров 4. Точечная диаграмма для детских мультфильмов

Эти виды графиков позволяют наиболее эффективно представить и интерпретировать данные под конкретную задачу, обеспечивая как количественный, так и качественный анализ аспектов киноиндустрии.

Предварительная подготовка

Для стилизации инфографики и создания цветовой палитры я опиралась на фирменные элементы стиля IMDb, указанные на сайте https://brand.imdb.com/imdb

big
Original size 2160x1450

Обработка данных

Для проекта были выбраны следующие файлы с данными:

title.basics.tsv: Содержит основную информацию о фильмах, включая их названия, годы выпуска, продолжительность, жанры. title.crew.tsv и name.basics.tsv : Включает информацию о режиссерах и сценаристах фильмов. title.ratings.tsv: содержит рейтинги фильмов IMDb.

1. Самые частые слова в названиях фильмов

Original size 1019x519
Original size 2159x2498

2. Распределение фильмов по жанрам

Original size 2013x1435
Original size 2707x1957

3. Топ-10 режиссеров по количеству фильмов (рейтинг IMBD 8.0+)

Original size 1269x678
Original size 2159x2335

4. Количество фильмов для детей

Original size 1014x532
Original size 2159x1450

Подводя итог, выяснилось, что самыми часто встречающимися словами в названиях стали «project», «untitled», «little», «american», «secret», «journey», «family», «documentary» и «christmas». Жанр драмы охватывает 41,0% всех фильмов и является самым распространенным. Режиссер Дилан Веррекия может похвастаться 30+ фильмами с высоким рейтингом (IMDb 8.0+). А количество детских фильмов за последние 10 лет успело как стремительно взлететь в показателях, так и значительно уменьшиться к 2025 году. Это указывает на то, что на данный момент дети не являются приоритетной аудиторией для киноиндустрии.

Описание применения генеративной модели

Обложка Recraft https://www.recraft.ai/projects prompt: a large golden IMDb logo The logo is surrounded by movie stills

Для редактирования кода и стилизации графиков, а также поиска и исправления ошибок был использован Open Ai 4.0 https://chatgpt.com/c/67dc19b2-d0a0-800e-8b35-038b811f1911

Анализ фильмов по базе данных IMDb