Original size 2480x3500

Spotify Global Music Dataset (2009–2025)

PROTECT STATUS: not protected

Описание

В поиске подходящего мне датасета на сайте kaggle.com, я нашла на интересные данные о популярных треках на стриминговой платформе Spotify. Цель данного проекта — проанализировать, какие факторы влияют на популярность музыкальных треков, используя глобальный датасет Spotify за период с 2009 по 2025 год.

Анализ позволит выявить закономерности в музыкальной индустрии и понять, почему одни песни становятся хитами, а другие остаются нишевыми.

Типы диаграмм:

В своей работе я использовала разнообразные графики: гистограмму, линейный график, точечный график, тепловую карту, боксплот и сдвоенную столбчую диаграмму.

Описание дата сета

В работе используется Spotify Global Music Dataset (2009–2025), содержащий информацию о тысячах треков, представленных на платформе Spotify. Я нашла его на сайте kaggle. Датасет включает следующие группы данных: -информация о треках (название, год релиза); -артисты и жанры; -показатель популярности трека (popularity score); -аудио-характеристики (danceability, energy, valence и др.).

Этапы работы

big
Original size 969x507

цветовая палитра

Цветовая палитра проекта вдохновлена фирменным стилем Spotify — фон диаграмм будет черным, акценты будут выполнены в ярко зеленом цвете, а типографика белым.

Original size 1064x402

шрифт

В качестве шрифта была выбрана Helvetica Bold, так как сама платформа на сайте руководства по фирменному стилю бренда рекомендует использовать этот шрифт в контексте приложения.

Графики

Original size 969x196

Для начала я решила узнать, большинство треков на платформе популярные или нишевые, и где находится медиана популярности?

Original size 989x590
0

Я выбрала гистограмму с медианой, так как целью было показать распределение, а не отдельные значения. Вертикальная линия медианы сразу даёт интерпретируемую опорную точку и позволяет корректно сравнивать левую и правую части распределения.

Какие выводы можно сделать из графика: Распределение неравномерное. Популярность треков распределена асимметрично: основная масса значений лежит в диапазоне примерно 50–80. Это означает, что большинство треков имеют среднюю или выше средней популярность.

Медиана ≈ 58 — ключевая точка. Вертикальная линия медианы показывает, что 50% треков имеют популярность ≤ 58, и 50% ≥ 58.

Видно заметное количество треков с очень низкой популярностью (вплоть до 0–10). Это может указывать на: новые или нишевые треки, треки без продвижения, особенности алгоритма Spotify (не все треки раскручиваются).

Экстремально популярные треки — редкость. Значения близкие к 90–100 встречаются значительно реже.

Суперхиты — статистическое исключение, а не норма.

Длина треков

Original size 969x196

Далее, я решила проанализировать, как влияет длительность трека на его популярность?

Original size 990x590
Original size 1338x646

Я выбрала такой график, потому что хотела показать зависимость, а не распределение, линейный график подчёркивает тренд, он позволяет легко отследить изменения.

Выводы из графика: Популярность растёт от коротких треков к средним и затем снижается, это сразу исключает гипотезу «чем длиннее, тем лучше». Оптимальный диапазон — 3–5 минут, а пик средней популярности приходится на 3–4 и 4–5 минут. Именно в этом интервале треки в среднем наиболее успешны.

Короткие треки (<2 мин) заметно менее популярны.

Слишком длинные треки (>5–6 мин) теряют популярность. Думаю, это согласуется с поведением пользователей стриминга: длинные треки чаще скипают.

Original size 969x196

Какой идеальный диапазон длины трека?

Original size 989x590
Original size 1338x828

Гистограмма показывает фактическое распределение данных, поэтому она идеально подходит чтобы показать распределение непрерывной переменной.

Выводы: Типичная длительность — около 3–4 минут, пик плотности приходится примерно на этот интервал. Именно такая длина является стандартом для большинства треков в выборке. Короткие и очень длинные треки встречаются довольно редко. Значения ниже ~2 минут и выше ~6 минут лежат в хвостах, это подтверждает, что экстремальные длительности — исключения. Наблюдается лёгкая асимметрия: длинные треки (6–8 минут) встречаются реже, но всё же присутствуют.

Популярность песен в альбомах

Original size 969x196

Как положение трека в альбоме влияет на его популярность?

Original size 986x390
Original size 1338x747

Как мне показалось, цвет лучше передаёт относительные различия. Разница между, условно, 52 и 55 на линейном графике читается хуже, чем контраст оттенков, здесь как раз важны именно относительные, а не абсолютные различия, поэтому я использовала такой график.

Какие выводы можно сделать: Эффект порядка треков все-таки присутствует. Средняя популярность зависит от номера трека в альбоме, то есть позиция композиции не нейтральна. Наиболее выгодная позиция — начало альбома.

Треки с номерами 2–6 имеют более высокую популярность. Середина альбома — не совсем стабильна.

В диапазоне 8–13 популярность колеблется, а конец альбома теряет внимание. После 16-го трека заметно падение средней популярности. Интересно, что 1 трек не является лидером по популярности.

Original size 969x196

Анализ того, как в больших альбомах трек, находящийся в середине альбома менее заметен, чем остальные.

Original size 990x590
Original size 1338x747

Линейный график подчёркивает направление зависимости (убывание) и одновременно показывает нестабильность на больших значениях, поэтому он идеально подошёл.

Выводы по нему: По мере увеличения количества треков средняя популярность в целом снижается, но связь не монотонная, тренд читается достаточно ясно.

Оптимальный диапазон — малые и средние альбомы (≈8–15 треков). В этом интервале средняя популярность максимальна (около 55–60).

Большие альбомы (>30 треков) демонстрируют резкое падение и высокую нестабильность. Видны сильные колебания и провалы вплоть до очень низких средних значений.

Original size 969x196

Становятся ли синглы чаще популярнее песен в альбомах?

Original size 989x590
Original size 1338x876

Я решила попробовать использовать боксплот, он подходит для корректного сравнения распределений по категориальной переменной и выявления различий в центральных тенденциях и вариативности.

Выводы:

Тип релиза действительно влияет на популярность треков! Распределения заметно различаются между single, album и compilation, следовательно формат выпуска — все-таки значимый фактор. Треки из альбомов в среднем самые популярные. У категории album самая высокая медиана (≈60) и верхние квартили. Это указывает на то, что альбомные треки чаще достигают высокой популярности.

Синглы — промежуточный вариант с большим разбросом. Медиана ниже, чем у альбомов (≈50), при этом разброс значительный: встречаются как очень успешные, так и почти незаметные треки.

Выбросы присутствуют во всех категориях. Это подчёркивает, что формат релиза не гарантирует успех: отдельные треки могут «выстрелить» независимо от типа альбома.

Качество > количество

Original size 969x196

Качество или количество песен влияет на популярность артиста?

Original size 1189x590
0

Нужно сравнить две разные метрики одновременно, плюс чёткое противопоставление «количество vs качество», поэтому я использую сдвоенный бар чарт.

Выводы: Количество треков ≠ средняя популярность. Видно, что артисты с наибольшим числом треков (например, Тэйлор Свифт) не обязательно имеют самую высокую среднюю популярность. Высокая средняя популярность возможна при умеренном объёме. Дрэйк, Лана дель Рей и Ариана Гранде показывают высокую среднюю популярность при сравнительно меньшем количестве треков. Это указывает на более стабильный «уровень» релизов. Также тут нет линейной зависимости.Если бы «больше треков = выше популярность», столбцы росли бы синхронно, но этого не наблюдается. Зависимость слабая и явно не монотонная.

Original size 969x196

Будет ли трек известного артиста гарантированно популярным?

Original size 989x590
Original size 1338x619

Выбрала этот график, потому что визуально красиво выглядит, также она позволяет увидеть силу зависимости и разброс.

Выводы: диаграмма демонстрирует сильную положительную зависимость между популярностью артиста и популярностью его треков. Хотя внутри каждой группы наблюдается значительный разброс, общая тенденция указывает на то, что популярность артиста является одним из ключевых факторов, определяющих ожидаемый уровень популярности трека. У малоизвестных артистов (низкая artist popularity) почти нет треков с высокой популярностью. У известных артистов диапазон шире: встречаются и хиты, и слабые треки. Даже у очень популярных артистов есть треки с низкой популярностью (точки внизу справа), получается, известность — не гарантия успеха каждого релиза, но сильное преимущество.