Original size 1140x1600

Анализ данных результатов гонок Formula 1

PROTECT STATUS: not protected
The project is taking part in the competition

It’s lights out and away we go!

big
Original size 748x421

Описание проекта

В качестве основы для анализа был выбран открытый датасет Formula 1 World Championship, опубликованный на платформе Kaggle и основанный на данных Ergast API. Датасет содержит структурированные табличные данные о гонках Формулы-1: результаты заездов, стартовые позиции, финишные позиции, информацию о пилотах, командах и сезонах.

Данные представлены в формате CSV, что позволяет удобно обрабатывать их с помощью библиотеки Pandas, а также объединять несколько таблиц для более глубокого анализа.

Многие верят, что исход гонки предопределён ещё на этапе квалификации. Но так ли это на самом деле? Статистика гонок даёт возможность проверить, насколько стартовая позиция определяет результат, а заодно сравнить, как ведут себя разные команды, пилоты и как менялась ситуация с годами.

big
Original size 2128x1200

Данные и источник

Для анализа я использовала открытые данные о гонках Формулы-1 в формате CSV. В работе задействованы четыре связанные таблицы:

races — календарь гонок и информация о сезонах, results — стартовые позиции и финишные результаты, drivers — данные о пилотах, constructors — данные о командах. Эти данные хорошо подходят для анализа по нескольким причинам. Во-первых, они достаточно объёмные и структурированные, что позволяет удобно работать с ними в Pandas — объединять таблицы и проводить различные преобразования. Во-вторых, наличие связей между таблицами даёт возможность строить выводы не на основе отдельных показателей, а с учётом взаимосвязей, что делает анализ более глубоким.

Исследовательские вопросы

Насколько стартовая позиция связана с финишным результатом?

Как часто пилоты отыгрывают или теряют позиции по ходу гонки?

Отличаются ли команды по типичному «отыгрышу позиций»?

Меняется ли связь «старт → финиш» от сезона к сезону?

Пошаговый план работы

1. Загрузка данных Загружены таблицы с результатами гонок, пилотами и командами Формулы-1 в формате CSV.

2. Объединение данных Таблицы объединены с помощью merge в единую аналитическую таблицу, содержащую сезон, гонку, пилота, команду, стартовую и финишную позиции.

3. Очистка и фильтрация Удалены строки с пропущенными значениями в ключевых колонках. Анализ ограничен сезонами 2021–2024.

4. Создание новой метрики Рассчитан показатель positions_gained — разница между стартовой и финишной позицией, отражающая отыгрыш или потерю позиций.

5. Анализ данных Выполнены группировки и агрегации (Pandas groupby), а также корреляционный анализ (Спирмен).

6. Визуализация результатов Построены 4 графика разных типов в едином визуальном стиле.

0
Original size 1308x736

Зависимость финишной позиции от стартовой (2021–2024)

Original size 2177x1297

Тип графика: диаграмма рассеяния с линией тренда.

Что показывает: этот график демонстрирует, насколько результат гонки зависит от стартовой позиции, полученной в квалификации. Каждая точка соответствует одному выступлению пилота в конкретной гонке.

Как интерпретировать: Если точки сгруппированы вдоль диагонали — это означает, что обгонов в гонках мало, и пилоты финишируют примерно на тех же позициях, с которых стартовали. Точки ниже диагонали — это успешные гонки с прорывом (например, старт с 20-го места, финиш на 10-м). Точки выше диагонали — это неудачные выступления: пилот потерял позиции или сошёл с дистанции. Линия тренда отражает общую закономерность. Чем ближе она к диагонали и чем она круче, тем сильнее влияние стартовой позиции на итоговый результат.

Original size 1990x1310

Гистограмма распределения отыгранных позиций

Original size 2200x1320

Тип графика: гистограмма.

Что показывает: график отображает частоту изменения позиций в гонках. Он помогает понять, как часто пилоты улучшают или теряют определённое количество мест относительно стартовой позиции.

Как интерпретировать:

Самый высокий столбец обычно находится на отметке 0 или ±1 — это означает, что в большинстве случаев пилоты финишируют примерно на той же позиции, с которой стартовали. Если график «растянутый» (много столбцов по краям с большими значениями) — гонки были динамичными, с множеством обгонов, инцидентов и сходов. Если график узкий и сконцентрирован в центре — гонки были предсказуемыми, без серьёзных изменений в позициях.

Original size 1552x864

Сравнение гоночного темпа топ-команд

Original size 2617x1297

Тип графика: ящичковая диаграмма (боксплот).

Что показывает: график позволяет сравнить не только средние показатели команд, но и стабильность их выступлений, а также диапазон изменения позиций в гонках.

Элементы графика:

Линия внутри прямоугольника (медиана) — типичный результат команды по изменению позиций. Высота прямоугольника (межквартильный размах) — показатель стабильности. Короткий прямоугольник означает, что команда выступает ровно от гонки к гонке. Длинный прямоугольник указывает на большой разброс: то прорывы, то провалы. Точки-выбросы — аномальные результаты, например, сход на первом круге или, наоборот, прорыв с конца пелотона.

Как интерпретировать:

Например, если у одной команды короткий прямоугольник с медианой около нуля — она стабильна и обычно финиширует близко к стартовой позиции. Если у другой команды длинный прямоугольник с большим разбросом — её результаты сильно зависят от особенностей трассы, стратегии или случайных факторов. Если прямоугольник целиком расположен выше нуля — команда в гонках систематически улучшает свои позиции относительно квалификации.

Original size 1888x1684

Динамика значимости квалификации (Корреляция Спирмена)

Original size 2200x1320

Тип графика: линейный график временного ряда.

Что показывает: график отображает динамику изменения связи между стартовой и финишной позициями на протяжении четырёх сезонов (2021–2024). Ось Y показывает силу корреляции между этими показателями (значения от 0 до 1).

Как интерпретировать:

Чем выше значение (ближе к 1,0) — тем сильнее зависимость результата от квалификации. Это указывает на то, что обгоны в гонках происходят редко, и стартовая позиция во многом определяет финишную. Чем ниже значение — тем слабее эта связь, что говорит о большем количестве обгонов и более непредсказуемом ходе гонок.

Возможные выводы:

На основе этого графика можно оценить, как изменился характер гонок после введения нового технического регламента в 2022 году. Если линия пошла вниз после 2022 года — это может свидетельствовать о том, что новые правила упростили обгоны и сделали гонки более зрелищными.

Original size 1922x1236
Original size 1200x675

Выводы

1. Стартовая позиция оказывает заметное влияние на результат гонки, но не определяет его полностью.

Анализ диаграммы рассеяния показывает положительную связь между стартовой и финишной позициями: пилоты, стартующие с более высоких мест, обычно и финишируют выше. Однако заметный разброс точек говорит о том, что стратегия, темп болида, инциденты на трассе и другие гоночные события могут серьёзно повлиять на итоговый результат.

2. Большинство гонок характеризуется минимальными изменениями позиций.

Гистограмма изменения позиций показывает, что чаще всего пилоты финишируют близко к своей стартовой позиции. Крупные прорывы или, наоборот, значительные потери мест встречаются реже и обычно связаны с нестандартными ситуациями: сходами, ошибками или удачными стратегическими решениями.

3. Команды различаются не только по среднему результату, но и по стабильности выступлений.

Ящичковая диаграмма демонстрирует, что одни команды показывают стабильные результаты с небольшим разбросом, в то время как у других наблюдается высокая вариативность — от значительных прорывов до серьёзных потерь позиций. Это отражает различия в надёжности техники, стратегическом подходе и способности адаптироваться к условиям конкретной гонки.

4. Связь между стартовой и финишной позицией меняется от сезона к сезону.

Анализ корреляции по годам показывает, что степень предсказуемости гонок непостоянна. Изменения могут быть связаны с техническими регламентами, плотностью пелотона и общим характером сезона.

5. В целом современная Формула-1 сочетает позиционную борьбу и элементы непредсказуемости.

Стартовая позиция остаётся важным фактором успеха, однако данные подтверждают, что в гонках регулярно возникают ситуации, когда квалификационный результат не гарантирует соответствующее место на финише.

Направления дальнейшего анализа:

В дальнейшем исследование можно расширить, включив данные о погодных условиях, штрафах, выездах машины безопасности и особенностях различных трасс. Это позволило бы точнее объяснить причины отклонений от общей закономерности.

Использование генеративных моделей

В ходе работы над проектом использовала следующие нейросетевые инструменты:

ChatGPT для уточнения формулировок исследовательских вопросов, структурирования анализа и улучшения текстовых описаний графиков. https://chat.openai.com

Google Gemini для помощи в отладке кода и поиска более эффективных решений при работе с библиотеками Pandas и Matplotlib. https://gemini.google.com