Original size 1140x1600

Анализ данных и визуализация. Популярность треков на Spotify

PROTECT STATUS: not protected

Введение

Для анализа я взяла информацию о популярности треков на стримминговой платформе Spotify. Мне было интересно изучить, какие факторы и музыкальные характеристики песни влияют на нее рейтинг среди слушателей. В датасете 114000 рядов с композициями и 20 колонок с их характеристиками. В качестве визуализации были выбраны гистограммы, так как они наглядно демонстрируют соотношения песен разных категорий, и диаграммы рассеивания, так как они позволяют показать, где сосредоточена основная масса треков. Данные были взяты с ресурса Kaggle.

Описание применения генеративной модели

При обработке данных я обращалась к ChatGPT, чтобы найти операции, позволяющие отформатировать информацию и сделать ее удобной для построения графиков. Промпты приведены ниже.

Обложка проекта была сгенерирована с помощью Leonardo.AI. Промпт: «‎simply drawn group of people dancing surrounded by some musical elements — sound waves, notes in green white and black colors»‎

Этапы работы

Подготовка данных

Я импортировала библиотеки, необходимые для создания графиков. Затем я перевела длительность треков из миллисекунд в секунды и убрала колонки, обратившись к ChatGPT. Промпт: «как убрать колонки из pandas dataframe».

big
Original size 635x262

Далее я закодировала данные, обратившись к ChatGPT. Промпт: «как заменить хеши id на цифры в pandas dataframe». В данных нет пропусков, которые могут повлиять на дальнейший анализ, поэтому на этом подготовительный этап закончился.

Original size 636x436
Original size 1538x662

Построение графиков

Для графиков я выбрала черный цвет и оттенки зеленого, так как это цветовая гамма, используемая Spotify.

Original size 763x86

Объектом исследования я выбрала факторы, влияющие на популярность трека. Сначала я построила график распределения популярности среди всех треков.

Original size 764x106
Original size 580x463

Из графика можно сделать вывод, что большая часть значений сосредоточена около 0 и значительно уменьшается при приближении к 100, следовательно при дальнейшем анализе нужно учитывать, что треков с высокой популярностью предельно мало и они могут быть случайностями.

Далее я рассмотрела взаимосвязь популярности трека и его длительности.

Original size 935x97
Original size 591x463

График показывает, что большая часть треков находится в пределах от 0 до 10 минут, а наиболее популярны треки с длительностью от 2 до 6 минут.

Затем я проанализировала связь популярности песни и наличия в ней вокальных партий. Песни со значением «1.0»‎ являются инструментальными и не имеют вокальных партий.

Original size 1040x89
Original size 581x463

Я пришла к выводу, что почти все песни с популярностью выше 80 имеют вокал.

Далее я рассмотрела зависимость популярности трека от его музыкального размера.

Original size 1053x89
Original size 581x463
Original size 748x108
Original size 580x463

Из двух графиков видно, что самыми популярными являются треки с размером ¾ или 4/4, однако это, скорее всего, связано с общим преобладанием этих размеров относительно всех остальных и, вероятно, не имеет сильного влияния на популярность.

Затем я построила график популярности песен по музыкальным жанрам.

Original size 924x317
Original size 673x467

Анализируя график можно сказать, что предельно высокую популярность (90+) получают треки таких жанров как dance, hip-hop, latin, latino, pop, reggae, reggaeton и rock. Однако стоит учитывать, что, как уже было сказано ранее, треков с очень высокой популярностью (90+) не так много, поэтому песни с популярностью 80+ и 70+ следует считать более стабильным показателем. По ним наиболее популярными жанрами становятся pop, dance, electro, house, rock, k-pop, metal, latino.

Анализ данных и визуализация. Популярность треков на Spotify
Project created at 25.09.2024