
Описание
В поиске подходящего мне датасета на сайте kaggle.com, я нашла на интересные данные о популярных треках на стриминговой платформе Spotify. Цель данного проекта — проанализировать, какие факторы влияют на популярность музыкальных треков, используя глобальный датасет Spotify за период с 2009 по 2025 год.
Анализ позволит выявить закономерности в музыкальной индустрии и понять, почему одни песни становятся хитами, а другие остаются нишевыми.
Типы диаграмм:
В своей работе я использовала разнообразные графики: гистограмму, линейный график, точечный график, тепловую карту, боксплот и сдвоенную столбчую диаграмму.
Описание дата сета
В работе используется Spotify Global Music Dataset (2009–2025), содержащий информацию о тысячах треков, представленных на платформе Spotify. Я нашла его на сайте kaggle. Датасет включает следующие группы данных: -информация о треках (название, год релиза); -артисты и жанры; -показатель популярности трека (popularity score); -аудио-характеристики (danceability, energy, valence и др.).
Этапы работы

цветовая палитра
Цветовая палитра проекта вдохновлена фирменным стилем Spotify — фон диаграмм будет черным, акценты будут выполнены в ярко зеленом цвете, а типографика белым.
шрифт
В качестве шрифта была выбрана Helvetica Bold, так как сама платформа на сайте руководства по фирменному стилю бренда рекомендует использовать этот шрифт в контексте приложения.
Графики
Для начала я решила узнать, большинство треков на платформе популярные или нишевые, и где находится медиана популярности?
Я выбрала гистограмму с медианой, так как целью было показать распределение, а не отдельные значения. Вертикальная линия медианы сразу даёт интерпретируемую опорную точку и позволяет корректно сравнивать левую и правую части распределения.
Какие выводы можно сделать из графика: Распределение неравномерное. Популярность треков распределена асимметрично: основная масса значений лежит в диапазоне примерно 50–80. Это означает, что большинство треков имеют среднюю или выше средней популярность.
Медиана ≈ 58 — ключевая точка. Вертикальная линия медианы показывает, что 50% треков имеют популярность ≤ 58, и 50% ≥ 58.
Видно заметное количество треков с очень низкой популярностью (вплоть до 0–10). Это может указывать на: новые или нишевые треки, треки без продвижения, особенности алгоритма Spotify (не все треки раскручиваются).
Экстремально популярные треки — редкость. Значения близкие к 90–100 встречаются значительно реже.
Суперхиты — статистическое исключение, а не норма.
Длина треков
Далее, я решила проанализировать, как влияет длительность трека на его популярность?
Я выбрала такой график, потому что хотела показать зависимость, а не распределение, линейный график подчёркивает тренд, он позволяет легко отследить изменения.
Выводы из графика: Популярность растёт от коротких треков к средним и затем снижается, это сразу исключает гипотезу «чем длиннее, тем лучше». Оптимальный диапазон — 3–5 минут, а пик средней популярности приходится на 3–4 и 4–5 минут. Именно в этом интервале треки в среднем наиболее успешны.
Короткие треки (<2 мин) заметно менее популярны.
Слишком длинные треки (>5–6 мин) теряют популярность. Думаю, это согласуется с поведением пользователей стриминга: длинные треки чаще скипают.
Какой идеальный диапазон длины трека?
Гистограмма показывает фактическое распределение данных, поэтому она идеально подходит чтобы показать распределение непрерывной переменной.
Выводы: Типичная длительность — около 3–4 минут, пик плотности приходится примерно на этот интервал. Именно такая длина является стандартом для большинства треков в выборке. Короткие и очень длинные треки встречаются довольно редко. Значения ниже ~2 минут и выше ~6 минут лежат в хвостах, это подтверждает, что экстремальные длительности — исключения. Наблюдается лёгкая асимметрия: длинные треки (6–8 минут) встречаются реже, но всё же присутствуют.
Популярность песен в альбомах
Как положение трека в альбоме влияет на его популярность?
Как мне показалось, цвет лучше передаёт относительные различия. Разница между, условно, 52 и 55 на линейном графике читается хуже, чем контраст оттенков, здесь как раз важны именно относительные, а не абсолютные различия, поэтому я использовала такой график.
Какие выводы можно сделать: Эффект порядка треков все-таки присутствует. Средняя популярность зависит от номера трека в альбоме, то есть позиция композиции не нейтральна. Наиболее выгодная позиция — начало альбома.
Треки с номерами 2–6 имеют более высокую популярность. Середина альбома — не совсем стабильна.
В диапазоне 8–13 популярность колеблется, а конец альбома теряет внимание. После 16-го трека заметно падение средней популярности. Интересно, что 1 трек не является лидером по популярности.
Анализ того, как в больших альбомах трек, находящийся в середине альбома менее заметен, чем остальные.
Линейный график подчёркивает направление зависимости (убывание) и одновременно показывает нестабильность на больших значениях, поэтому он идеально подошёл.
Выводы по нему: По мере увеличения количества треков средняя популярность в целом снижается, но связь не монотонная, тренд читается достаточно ясно.
Оптимальный диапазон — малые и средние альбомы (≈8–15 треков). В этом интервале средняя популярность максимальна (около 55–60).
Большие альбомы (>30 треков) демонстрируют резкое падение и высокую нестабильность. Видны сильные колебания и провалы вплоть до очень низких средних значений.
Становятся ли синглы чаще популярнее песен в альбомах?
Я решила попробовать использовать боксплот, он подходит для корректного сравнения распределений по категориальной переменной и выявления различий в центральных тенденциях и вариативности.
Выводы:
Тип релиза действительно влияет на популярность треков! Распределения заметно различаются между single, album и compilation, следовательно формат выпуска — все-таки значимый фактор. Треки из альбомов в среднем самые популярные. У категории album самая высокая медиана (≈60) и верхние квартили. Это указывает на то, что альбомные треки чаще достигают высокой популярности.
Синглы — промежуточный вариант с большим разбросом. Медиана ниже, чем у альбомов (≈50), при этом разброс значительный: встречаются как очень успешные, так и почти незаметные треки.
Выбросы присутствуют во всех категориях. Это подчёркивает, что формат релиза не гарантирует успех: отдельные треки могут «выстрелить» независимо от типа альбома.
Качество > количество
Качество или количество песен влияет на популярность артиста?
Нужно сравнить две разные метрики одновременно, плюс чёткое противопоставление «количество vs качество», поэтому я использую сдвоенный бар чарт.
Выводы: Количество треков ≠ средняя популярность. Видно, что артисты с наибольшим числом треков (например, Тэйлор Свифт) не обязательно имеют самую высокую среднюю популярность. Высокая средняя популярность возможна при умеренном объёме. Дрэйк, Лана дель Рей и Ариана Гранде показывают высокую среднюю популярность при сравнительно меньшем количестве треков. Это указывает на более стабильный «уровень» релизов. Также тут нет линейной зависимости.Если бы «больше треков = выше популярность», столбцы росли бы синхронно, но этого не наблюдается. Зависимость слабая и явно не монотонная.
Будет ли трек известного артиста гарантированно популярным?
Выбрала этот график, потому что визуально красиво выглядит, также она позволяет увидеть силу зависимости и разброс.
Выводы: диаграмма демонстрирует сильную положительную зависимость между популярностью артиста и популярностью его треков. Хотя внутри каждой группы наблюдается значительный разброс, общая тенденция указывает на то, что популярность артиста является одним из ключевых факторов, определяющих ожидаемый уровень популярности трека. У малоизвестных артистов (низкая artist popularity) почти нет треков с высокой популярностью. У известных артистов диапазон шире: встречаются и хиты, и слабые треки. Даже у очень популярных артистов есть треки с низкой популярностью (точки внизу справа), получается, известность — не гарантия успеха каждого релиза, но сильное преимущество.