Original size 1140x1600

Когда алгоритмы решают, что мы смотрим: анализ трендового контента YouTube

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция

В цифровой среде значительная часть контента, с которым мы сталкиваемся каждый день, отбирается и ранжируется алгоритмами рекомендаций. Платформы вроде YouTube, TikTok или Instagram формируют нашу медиареальность не напрямую через цензуру, а через статистические модели, оптимизированные под вовлеченность.

В рамках данного проекта я рассматриваю YouTube не как медиаплатформу, а как систему данных, в которой алгоритмы опираются на количественные параметры: длительность видео, количество просмотров, лайков, комментариев, дату публикации и категорию контента.

Цель

Цель проекта — понять, какие числовые характеристики видео чаще всего связаны с высокой популярностью, и каким образом это может влиять на то, что в итоге оказывается в рекомендациях.

Анализ

В поиске подходящего мне датасета на сайте Kaggle я наткнулась на данные о видео, попадающих в раздел Trending на YouTube. Поскольку значительная часть контента, который я смотрю каждый день, формируется алгоритмами рекомендаций, мне стало интересно разобраться, по каким признакам платформа решает, что именно показывать пользователю. Поэтому я решила взять этот датасет и попробовать посмотреть на YouTube не как на медиаплатформу, а как на набор чисел и статистических зависимостей.

В ходе работы я опиралась на метаданные видео: количество просмотров, лайков и комментариев, длительность видео, дату публикации и категорию контента. Эти параметры напрямую не описывают качество контента, но именно они чаще всего используются алгоритмами для оценки популярности и вовлеченности.

Типы диаграмм

В проекте были использованы следующие типы визуализаций:

(01) гистограмма (02) точечная диаграмма (03) столбчатая диаграмма (04) boxplot (ящик с усами)

Выбор пал на диаграммы, которые позволяют наглядно показать распределения значений, сравнить группы данных и визуально проследить зависимости между параметрами.

big
Original size 2673x712

В рамках проекта для создания визуального образа обложки была использована генеративная модель Ideogram. Модель применялась для генерации иллюстрации на основе текстового запроса, отражающего тематику проекта — влияние алгоритмов рекомендаций и данных на формирование медиапотока и пользовательского внимания.

Обработка данных

Для начала я импортировала необходимые библиотеки для анализа данных и визуализации: pandas, numpy и matplotlib.pyplot. После этого был считан CSV-файл с датасетом, загруженным с платформы Kaggle, содержащий информацию о видео, попадавших в раздел Trending на YouTube.

На первом этапе я провела предварительный осмотр данных: проверила структуру таблицы, названия столбцов и наличие пропущенных значений. Это позволило убедиться, что данные корректно загружены и подходят для дальнейшего анализа.

(1) Для начала я импортировала необходимые библиотеки

Original size 1152x103

(2) Загрузила CSV

Original size 1152x130

(3) Корректно обработала «битый» датасет с помощью альтернативного парсера

Original size 1152x181

После загрузки датасета я проанализировала структуру таблицы и выделила ключевые параметры, отражающие популярность и вовлеченность видео: количество просмотров, лайков и комментариев, категорию контента, а также даты публикации и попадания в тренды. Эти столбцы были использованы для дальнейшего анализа и визуализации данных.

Original size 1786x293

Гистограмма: типичный уровень просмотров трендовых видео

Для анализа распределения просмотров я использовала гистограмму. Однако из-за сильной асимметрии данных стандартная визуализация оказалась плохо читаемой: небольшое количество видео имеет экстремально высокие значения просмотров.

Чтобы корректно отразить структуру данных, я применила логарифмическое преобразование значений просмотров (log10(views + 1)). Это позволило визуально сравнить видео с разными порядками популярности и получить более наглядное распределение.

Original size 1068x727
Original size 1369x752

Данная гистограмма показывает распределение просмотров среди трендовых видео на YouTube. Наибольшее количество видео сосредоточено в диапазоне средних значений просмотров — около сотен тысяч. Это говорит о том, что для попадания в раздел трендов видео не обязательно должно быть экстремально популярным: большинство трендовых роликов имеют схожий, «типичный» уровень просмотров, тогда как видео с очень низкими или, наоборот, чрезвычайно высокими показателями встречаются значительно реже.

Точечная диаграмма: связь популярности и вовлеченности

После анализа распределения просмотров трендовых видео логично возникает вопрос о том, какие факторы связаны с их популярностью. Одним из ключевых показателей вовлеченности аудитории являются лайки, так как они отражают не просто факт просмотра, а активную реакцию зрителей на контент. Чтобы понять, существует ли связь между количеством просмотров и уровнем вовлеченности, я решила визуализировать зависимость между просмотрами и лайками у трендовых видео на YouTube.

Для этого была использована точечная диаграмма, позволяющая отразить каждое видео как отдельную точку и наглядно показать общую структуру зависимости между двумя параметрами.

Original size 1011x408
Original size 1184x752

Конечно, с ростом числа просмотров, как правило, увеличивается и количество лайков. При этом облако точек имеет заметную ширину, что указывает на различия в уровне вовлеченности аудитории — видео с сопоставимым количеством просмотров могут получать разное количество лайков. Это говорит о том, что популярность видео определяется не только охватом, но и качеством взаимодействия зрителей с контентом.

Столбчатая диаграмма: распределение видео по категориям

В процессе подготовки данных я обнаружила, что часть видео не имеет указания категории. Вместо удаления этих строк я привела значения category_id к числовому формату с обработкой пропусков и сопоставила идентификаторы категорий с их текстовыми названиями при помощи JSON-файла. Такой подход позволил сохранить максимум данных и корректно работать с категориальными признаками.

Original size 1152x133

После сопоставления идентификаторов категорий с их текстовыми названиями стало возможным перейти к анализу структуры контента, попадающего в раздел Trending. На первом этапе мне было важно понять, какие типы контента чаще всего оказываются в трендах YouTube.

Для этого была построена столбчатая диаграмма, показывающая количество трендовых видео в каждой категории. В анализ были включены десять категорий, наиболее часто встречающихся среди трендовых роликов.

Original size 1011x357
Original size 1184x676

График показывает, что лидером по количеству трендовых видео является категория People & Blogs. Это указывает на то, что YouTube чаще продвигает персональный, авторский и дневниковый контент, ориентированный на личность и индивидуальное высказывание, а не на строгий формат. На втором месте находится категория Entertainment, за которой следуют News & Politics и Comedy.

При этом образовательные и более нишевые категории, такие как Science & Technology и Howto & Style, представлены значительно реже. Это позволяет сделать вывод, что алгоритмы YouTube в первую очередь ориентированы на массовый и эмоционально вовлекающий контент, способный привлечь широкую аудиторию, тогда как специализированные и обучающие темы реже попадают в раздел трендов.

Boxplot: распределение просмотров по категориям

После анализа того, какие категории контента чаще всего попадают в раздел Trending, следующим шагом стало изучение того, как различается уровень популярности внутри этих категорий. Само по себе частое присутствие категории в трендах не обязательно означает более высокий охват отдельных видео. Поэтому для более глубокого понимания работы алгоритмов YouTube я решила сравнить распределение просмотров для наиболее популярных категорий контента.

Original size 1011x594
Original size 1165x820

Финальный график показывает, что разные категории трендовых видео имеют различные типичные уровни популярности. Несмотря на то что категории People & Blogs и Entertainment чаще всего представлены в трендах, видео из категории Music демонстрируют более высокие медианные значения просмотров.

Это указывает на то, что алгоритмы YouTube работают с разными сценариями популярности: одни категории обеспечивают стабильное присутствие в трендах, тогда как другие реже появляются, но при этом достигают более высокого охвата.

Выводы

В совокупности результаты исследования позволяют сделать вывод, что алгоритмы YouTube работают с несколькими сценариями популярности одновременно: одни категории обеспечивают стабильное присутствие в трендах за счёт регулярного производства контента, другие — достигают высокого охвата за счёт редких, но масштабных всплесков внимания. Таким образом, тренды формируются не только на основе максимальных показателей просмотров, но и за счёт баланса между вовлечённостью, типом контента и предсказуемостью пользовательской реакции.

Описание применения генеративной модели

В процессе работы над проектом я использовала генеративную модель ChatGPT (версия 5.2) в качестве вспомогательного инструмента. Модель применялась для консультаций по подготовке и обработке данных в среде Python, а также для подбора и настройки параметров визуализации. В частности, были уточнены методы очистки данных, логарифмического преобразования значений, включая настройку визуальных параметров финальных диаграмм. При этом все аналитические решения, интерпретация результатов и выводы были сформированы самостоятельно.

Промты: https://docs.google.com/document/d/1eLWa6NWFLEEzZt4gHNRVa319rnaveIQvUBDJP8HqdJ0/edit?tab=t.0#heading=h.hnn1wiuudk1j

Ссылка на модель: https://chatgpt.com/5.2