
Анализ данных бегового марафона в Бостоне 2024: исследование временных показателей и их зависимостей

Boston run marathon in blur, professional sport photo, James Garly style
Данный проект представляет собой анализ данных о бегунах, участвовавших в Бостонском беговом марафоне в 2024 году. Датасет был найден на Kaggle. В наборе данных содержится информация о 1000+ участниках, включая их возраст, пол, временные показатели на разных отрезках дистанции и другие параметры.
Почему беговой марафон?
В последнее время не только в нашей стране, но и по всему миру увеличивается количество людей, которые так или иначе следят за своим здоровьем и начитают заниматься спортом.
К 2024 году возник большой тренд на занятия бегом не только в любительском формате пробежки на улице, но и в профессиональном — марафонском забеге. Мне было бы интересно изучить этот тренд и узнать, действительно ли на забеге в Бостоне была значительная часть бегунов, которая присоединилась недавно. Проверить я это хочу с помощью временных показателей и их зависимости с другими характеристиками бегунов.
Почему эта тема интересно конкретно для меня? Мой молодой человек занимаемся бегом и в этом году мы ездили в Казань, где он принимал участие в полумарафоне. Лично мне спорт, конкретно бег, дается очень тяжело. Поэтому, мне кажется, что это исследование позволит мне чуточку больше погрузиться в тематику забегов и стать ближе к большой марафонской дистанции если не в качестве бегуна, то хотя бы в качестве исследователя.
Типы визуализаций:
Я старалась не просто обращаться к разным способам визуализации, но и старалась использовать действительно подходящий под каждый анализ тип визуализации. Так, в моем проекте есть: столбчатая диаграмма, точечная диаграмма, гистограмма обычная и с доджингом.
Этапы работы:
Загрузка данных
Мною были импортированы библиотеки, необходимые для анализа и визуализации данных: pandas, matplotlib.pyplot, seaborn, numpy, font_manager.
Константы стиля
(рис. 1) running man in blur in marathon, professional sport photo, James Garly style --style raw
Далее мною были выбраны и определены фирменные константы для проекта — я подобрала шрифт, кеглевый ритм и цвета, которые будут использоваться при визуализации датасета.
В качестве главного цвета я выбрала ярко-салатовый оттенок, который ассоциируется у меня с движением и спортом. Меня вдохновила картинка, сгенерированная для этого проекта (рис. 1), на которой у одного спортсмена ярко-зеленая майка.
(рис. 2) running tracks at the stadium in blur in marathon, professional sport photo, James Garly style
Также для визуализации данных я хотела найти стилистику, которая бы отражала спортивную наполненность датасета — так, главной метафорой визуализации стали беговые дорожки на стадионе.
В зависимости от типа визуализации оформление будет меняться, однако единый стиль будет сохраняться и не меняться от графика к графику.
— — — [СТАРТ] — — —
[01] Распределение участников марафона по полу и возрастным группам
[02] Распределение времени финиша по полу
[03]Средний положительный сплит по возрасту
[04] Динамика результатов по возрастным группам
[05] Сравнение результатов мужчин и женщин
[06] Распределение изменения темпа на дистанции
— — — [ФИНИШ] — — —
В заключение к проекту, я хочу отметить некоторые выводы по анализу данных:
— > большую часть участников марафона занимали мужчины в возрасте 20-39 лет
— > наблюдалась тенденция увеличения времени финиша с возрастом, где женщины в среднем финишировали лучше мужчин в своих возрастных группах
— > продолжая гендерные различия, женщины в среднем показывали более высокие результаты, но не очень значительные
— > у более молодых бегунов наблюдался более равномерный темп, что может указывать на лучшую тактику бега
- — -
— > мой личный вывод: заниматься спортом не поздно никогда. очень много людей добиваются высоких результатов. у других получается и я смогу!
Блокнот и ai
В проекте использовался deepseek для написания кода и midjourney для генерации изображений.