
Концепция
В цифровой среде значительная часть контента, с которым мы сталкиваемся каждый день, отбирается и ранжируется алгоритмами рекомендаций. Платформы вроде YouTube, TikTok или Instagram формируют нашу медиареальность не напрямую через цензуру, а через статистические модели, оптимизированные под вовлеченность.
В рамках данного проекта я рассматриваю YouTube не как медиаплатформу, а как систему данных, в которой алгоритмы опираются на количественные параметры: длительность видео, количество просмотров, лайков, комментариев, дату публикации и категорию контента.
Цель
Цель проекта — понять, какие числовые характеристики видео чаще всего связаны с высокой популярностью, и каким образом это может влиять на то, что в итоге оказывается в рекомендациях.
Анализ
В поиске подходящего мне датасета на сайте Kaggle я наткнулась на данные о видео, попадающих в раздел Trending на YouTube. Поскольку значительная часть контента, который я смотрю каждый день, формируется алгоритмами рекомендаций, мне стало интересно разобраться, по каким признакам платформа решает, что именно показывать пользователю. Поэтому я решила взять этот датасет и попробовать посмотреть на YouTube не как на медиаплатформу, а как на набор чисел и статистических зависимостей.
В ходе работы я опиралась на метаданные видео: количество просмотров, лайков и комментариев, длительность видео, дату публикации и категорию контента. Эти параметры напрямую не описывают качество контента, но именно они чаще всего используются алгоритмами для оценки популярности и вовлеченности.
Типы диаграмм
В проекте были использованы следующие типы визуализаций:
(01) гистограмма (02) точечная диаграмма (03) столбчатая диаграмма (04) boxplot (ящик с усами)
Выбор пал на диаграммы, которые позволяют наглядно показать распределения значений, сравнить группы данных и визуально проследить зависимости между параметрами.

В рамках проекта для создания визуального образа обложки была использована генеративная модель Ideogram. Модель применялась для генерации иллюстрации на основе текстового запроса, отражающего тематику проекта — влияние алгоритмов рекомендаций и данных на формирование медиапотока и пользовательского внимания.
Обработка данных
Для начала я импортировала необходимые библиотеки для анализа данных и визуализации: pandas, numpy и matplotlib.pyplot. После этого был считан CSV-файл с датасетом, загруженным с платформы Kaggle, содержащий информацию о видео, попадавших в раздел Trending на YouTube.
На первом этапе я провела предварительный осмотр данных: проверила структуру таблицы, названия столбцов и наличие пропущенных значений. Это позволило убедиться, что данные корректно загружены и подходят для дальнейшего анализа.
(1) Для начала я импортировала необходимые библиотеки
(2) Загрузила CSV
(3) Корректно обработала «битый» датасет с помощью альтернативного парсера
После загрузки датасета я проанализировала структуру таблицы и выделила ключевые параметры, отражающие популярность и вовлеченность видео: количество просмотров, лайков и комментариев, категорию контента, а также даты публикации и попадания в тренды. Эти столбцы были использованы для дальнейшего анализа и визуализации данных.
Гистограмма: типичный уровень просмотров трендовых видео
Для анализа распределения просмотров я использовала гистограмму. Однако из-за сильной асимметрии данных стандартная визуализация оказалась плохо читаемой: небольшое количество видео имеет экстремально высокие значения просмотров.
Чтобы корректно отразить структуру данных, я применила логарифмическое преобразование значений просмотров (log10(views + 1)). Это позволило визуально сравнить видео с разными порядками популярности и получить более наглядное распределение.
Данная гистограмма показывает распределение просмотров среди трендовых видео на YouTube. Наибольшее количество видео сосредоточено в диапазоне средних значений просмотров — около сотен тысяч. Это говорит о том, что для попадания в раздел трендов видео не обязательно должно быть экстремально популярным: большинство трендовых роликов имеют схожий, «типичный» уровень просмотров, тогда как видео с очень низкими или, наоборот, чрезвычайно высокими показателями встречаются значительно реже.
Точечная диаграмма: связь популярности и вовлеченности
После анализа распределения просмотров трендовых видео логично возникает вопрос о том, какие факторы связаны с их популярностью. Одним из ключевых показателей вовлеченности аудитории являются лайки, так как они отражают не просто факт просмотра, а активную реакцию зрителей на контент. Чтобы понять, существует ли связь между количеством просмотров и уровнем вовлеченности, я решила визуализировать зависимость между просмотрами и лайками у трендовых видео на YouTube.
Для этого была использована точечная диаграмма, позволяющая отразить каждое видео как отдельную точку и наглядно показать общую структуру зависимости между двумя параметрами.
Конечно, с ростом числа просмотров, как правило, увеличивается и количество лайков. При этом облако точек имеет заметную ширину, что указывает на различия в уровне вовлеченности аудитории — видео с сопоставимым количеством просмотров могут получать разное количество лайков. Это говорит о том, что популярность видео определяется не только охватом, но и качеством взаимодействия зрителей с контентом.
Столбчатая диаграмма: распределение видео по категориям
В процессе подготовки данных я обнаружила, что часть видео не имеет указания категории. Вместо удаления этих строк я привела значения category_id к числовому формату с обработкой пропусков и сопоставила идентификаторы категорий с их текстовыми названиями при помощи JSON-файла. Такой подход позволил сохранить максимум данных и корректно работать с категориальными признаками.
После сопоставления идентификаторов категорий с их текстовыми названиями стало возможным перейти к анализу структуры контента, попадающего в раздел Trending. На первом этапе мне было важно понять, какие типы контента чаще всего оказываются в трендах YouTube.
Для этого была построена столбчатая диаграмма, показывающая количество трендовых видео в каждой категории. В анализ были включены десять категорий, наиболее часто встречающихся среди трендовых роликов.
График показывает, что лидером по количеству трендовых видео является категория People & Blogs. Это указывает на то, что YouTube чаще продвигает персональный, авторский и дневниковый контент, ориентированный на личность и индивидуальное высказывание, а не на строгий формат. На втором месте находится категория Entertainment, за которой следуют News & Politics и Comedy.
При этом образовательные и более нишевые категории, такие как Science & Technology и Howto & Style, представлены значительно реже. Это позволяет сделать вывод, что алгоритмы YouTube в первую очередь ориентированы на массовый и эмоционально вовлекающий контент, способный привлечь широкую аудиторию, тогда как специализированные и обучающие темы реже попадают в раздел трендов.
Boxplot: распределение просмотров по категориям
После анализа того, какие категории контента чаще всего попадают в раздел Trending, следующим шагом стало изучение того, как различается уровень популярности внутри этих категорий. Само по себе частое присутствие категории в трендах не обязательно означает более высокий охват отдельных видео. Поэтому для более глубокого понимания работы алгоритмов YouTube я решила сравнить распределение просмотров для наиболее популярных категорий контента.
Финальный график показывает, что разные категории трендовых видео имеют различные типичные уровни популярности. Несмотря на то что категории People & Blogs и Entertainment чаще всего представлены в трендах, видео из категории Music демонстрируют более высокие медианные значения просмотров.
Это указывает на то, что алгоритмы YouTube работают с разными сценариями популярности: одни категории обеспечивают стабильное присутствие в трендах, тогда как другие реже появляются, но при этом достигают более высокого охвата.
Выводы
В совокупности результаты исследования позволяют сделать вывод, что алгоритмы YouTube работают с несколькими сценариями популярности одновременно: одни категории обеспечивают стабильное присутствие в трендах за счёт регулярного производства контента, другие — достигают высокого охвата за счёт редких, но масштабных всплесков внимания. Таким образом, тренды формируются не только на основе максимальных показателей просмотров, но и за счёт баланса между вовлечённостью, типом контента и предсказуемостью пользовательской реакции.
Описание применения генеративной модели
В процессе работы над проектом я использовала генеративную модель ChatGPT (версия 5.2) в качестве вспомогательного инструмента. Модель применялась для консультаций по подготовке и обработке данных в среде Python, а также для подбора и настройки параметров визуализации. В частности, были уточнены методы очистки данных, логарифмического преобразования значений, включая настройку визуальных параметров финальных диаграмм. При этом все аналитические решения, интерпретация результатов и выводы были сформированы самостоятельно.
Ссылка на модель: https://chatgpt.com/5.2