
Концепция
Мне было интересно поработать с данными в сфере с высокой конкуренцией, и пекарни — как раз такой пример. Цель этого исследования — понять, как распределены пекарни по районам Москвы и насколько рынок перенасыщен. Смысл в том, чтобы посмотреть какие районы уже перегружены пекарнями и где конкуренция слишком высокая, а где, наоборот, пекарен мало и рынок может быть менее конкурентным.
Данные
Данные были собраны с помощью парсинговой программы Parser2GIS из карт сервиса 2ГИС и сохранены в формате CSV
Датасет содержит информацию о наименованиях заведений, районах города, рейтингах, количестве отзывов, адресах и географических координатах.
Обработка
Для начала я импортировала библиотеки pandas и matplotlib.pyplot, для работы с данными и их визуализацией. После загрузки датасета я сформировала рабочую таблицу, оставив только те столбцы, которые необходимы для анализа: район расположения пекарни, рейтинг, количество отзывов, тип заведения, рубрики, а также географические координаты.

Я приступила к очистке и подготовке данных для анализа. Столбцы с рейтингом и количеством отзывов были приведены к числовому формату, чтобы их можно было корректно использовать при подсчётах и построении графиков. Все некорректные значения, которые не удалось преобразовать в числа, автоматически заменялись на пустые. Из таблицы были удалены строки без указания района или рейтинга, так как такие данные не подходят для анализа и не являются полными
Затем я определила топ-10 районов с наибольшим количеством пекарен. Для этого был выполнен подсчёт числа заведений в каждом районе, после чего выбраны районы с максимальными значениями.
На этом этапе я настроила визуальный стиль для всех графиков исследования. С помощью параметров rcParams была задана стандартная ширина и высота фигур, шрифт и размеры заголовков и подписей осей, а также фон графиков и области построения. Я определила цветовую палитру в тёплых оттенках.
Я написала вспомогательные функции для построения графиков в едином стиле: одна для столбчатых диаграмм, другая для круговых.
Визуализация
Топ 10 районов Москвы по количеству пекарен
На графике десять районов Москвы с самым большим числом пекарен. Он наглядно показывает, где рынок уже перегружен и конкуренция особенно высокая, из-за чего открывать новую пекарню там сложнее. Такой график помогает понять, как пекарни распределены по городу, и служит основой для дальнейшего анализа их качества и рейтингов.
В среднем количество пекарен на один район около десяти, но район Коммунарка почему-то выделяется. Меня заинтересовало, с чем связана такая высокая концентрация заведений, поэтому я построила круговую диаграмму с распределением пекарен в этом районе, предполагая, что дело в наличии определённой сети.
И мои догадки оказались верны. В районе Комунарка просто преобладает конкретная пекарная сеть.
Средний рейтинг по районам
График показывает, какие рейтинги чаще встречаются в определённых ранее десяти районах. Большинство пекарен имеют высокие оценки, низкие встречаются реже. При этом заведения с рейтингом 3.0 встречаются чаще, чем с 3.5, поэтому рынок не полностью занят сильными конкурентами, и новый бизнес может привлекать клиентов за счёт качества продукции.
Этот график уже более подробно показывает, как распределяются рейтинги пекарен по районам города. Он отражает колебания оценок и помогает понять в каких районах пекарни исключительно высоко оценены, а в каких рынок неоднороден
В противовес прошлым графикам, этот показывает районы Москвы с самым низким средним рейтингом пекарен. Он помогает увидеть территории, где качество заведений в среднем оценивается хуже всего. Для исследования рынка этот график помогает выделить районы, где существует потенциал для улучшения качества сервиса или появления новых, более конкурентоспособных пекарен.
Финальный график показывает расположение вообще всех пекарен Москвы на координатах, создавая своего рода карту, где каждая точка — это одна пекарня. Сразу видно, что в центре заведений много, и рынок перенасыщен а в Подмосковье их намного меньше.
Объясняющий формат визуализации данных
В проекте используется изучающий и объясняющий формат визуализации данных. Каждый график отвечает на конкретный вопрос и помогает постепенно разобраться в структуре рынка пекарен Москвы.
Сначала я анализирую общее распределение пекарен по районам, чтобы понять, какие территории уже перегружены заведениями, а какие остаются слабо представленными. Затем перехожу к анализу рейтингов и количества отзывов, что позволяет оценить не только плотность рынка, но и качество заведений в разных районах.
Отдельные визуализации помогают выявить аномалии — например, районы с неожиданно высоким числом пекарен и доминированием отдельных сетей.
Статистические методы
В ходе анализа были использованы базовые статистические методы. Для изучения структуры рынка применялся подсчёт количества пекарен по районам с помощью группировки данных.
Для оценки качества заведений рассчитывались средние значения рейтингов по районам, а также анализировалось распределение пекарен по рейтингам и количеству отзывов. Использование выборок позволило упростить анализ и сделать визуализации более наглядными.
Также применялись процентные соотношения для отображения долей заведений и выявления доминирующих сетей в отдельных районах.
Использование нейросетей
В процессе работы я использовала нейросеть ChatGPT как ассистента: для проверки логики анализа, для поиска идей, какие графики лучше подходят под данные, Для генерации обложки.