Original size 768x1152

TMDB 5000 Movie Dataset: визуализация данных с помощью диаграмм

PROTECT STATUS: not protected
63

Для анализа данных и визуализации я выбрала датасет «TMDB 5000 Movie Dataset». Этот датасет был найден на платформе Kaggle и содержит информацию о фильмах, включая сюжет, актерский состав, команду, бюджет и доходы.

Я выбрала этот датасет, так как индустрия кино всегда была интересна широкой аудитории, и анализ данных о фильмах может предоставить ценные инсайты как для профессионалов в индустрии развлечений, так и для киноманов.

Этот датасет включает более 4500 позиций и предоставляет разнообразные данные (сюжет, актеры, бюджет, доходы и т. д.), что позволяет проводить различные виды анализа и визуализации, делая проект более интересным и содержательным.

Отчасти данные позволяют исследовать, какие факторы влияют на успех фильма (например, бюджет, актерский состав, студия), что может быть полезно для продюсеров и аналитиков в киноиндустрии.

Для анализа данных и визуализации я планирую использовать следующие виды графиков:

Гистограмма: распределение оценок зрителей. Диаграмма рассеяния: зависимость доходов фильмов от оценок зрителей, зависимость оценок зрителей от бюджета фильмов. Линейный график: изменение доходов по годам. Круговая диаграмма: доля самых окупившихся фильмов по странам, диаграмма самых популярных жанров.

Анализ зависимости доходов, бюджета и оценок зрителей

big
Original size 850x547

Распределение оценок зрителей, тип графика Histogram

Original size 642x129

Код. Распределение оценок зрителей, тип графика Histogram

Слева — зависимость доходов фильмов от оценок зрителей, справа — зависимость оценок зрителей от бюджета фильмов

Original size 637x269

Код. Зависимость доходов фильмов от оценок зрителей. Scatter Plot

Original size 644x262

Код. Зависимость бюджета от оценок зрителей. Scatter Plot

Анализ изменения доходов по годам

Original size 856x547

Линейный график изменения доходов по годам

Original size 645x224

Код. Линейный график изменения доходов по годам

Доля самых окупившихся фильмов по странам

Original size 794x504

Доля самых окупившихся фильмов по странам, график

Original size 611x464

Код. Доля самых окупившихся фильмов по странам. График Pie

Диаграмма самых популярных жанров

Original size 794x509

Распределение фильмов из датасета по жанрам, график

Original size 682x623

Код. Распределение фильмов из датасета по жанрам. График Pie

Описание применения генеративной модели

Обложка была сгенерирована в Ideogram.ai.

Prompt

Create a vibrant cover for a data analysis project in the film industry. The cover should feature a central element of a film reel that tr

ansitions into various data graphs and charts. In the background, include silhouettes of movie theaters and film cameras to evoke the atmosphere of filmmaking. Use a bright and colorful palette to emphasize creativity and innovation. The overall design should be dynamic and visually engaging, suitable for a project on movie data analysis and visualization. Please ensure there is no text on the image.

Magic Prompt

A dynamic and colorful cover for a data analysis project in the film industry, featuring a central film reel that transitions seamlessly

into a variety of vibrant data graphs and charts. The reel sparks with energy, and the charts burst with hues of blue, green, and yellow. In the background, silhouettes of movie theaters with marquees and film cameras create a nostalgic atmosphere, highlighting the magic of filmmaking. The overall design is visually engaging, emphasizing creativity and innovation, making it perfect for a project on movie data analysis and visualization.

Original size 768x1152

Обложка проекта, сгенерированная в Ideogram.ai

Для успешного выполнения проекта я формулировала задачи и запросы, которые передавала ChatGPT, чтобы получать конкретные и точные ответы.

С его помощью я выполнила следующие задачи:

Анализ и корректировка кода: ChatGPT помог мне формулировать и корректировать код для анализа данных и создания графиков.

Например, при создании графика типа Pie по жанрам, мы вместе:

- Запросили написать код с необходимыми данными. - Скорректировали график, объединив жанры, занимающие менее 3% в категорию «Others». - Изменили цветовую гамму на градацию от голубого к фиолетовому для лучшего визуального восприятия.

Тестирование: Я проводила тестирование кода, запуская его на моих данных, чтобы удостовериться в корректности и эффективности визуализаций.

В процессе работы я внесла множество корректировок и изменений, чтобы обеспечить создание графиков с точными данными и четкой визуализацией. Полученные результаты стали ключевой частью моего исследования данных из киноиндустрии.

TMDB 5000 Movie Dataset: визуализация данных с помощью диаграмм
63