Original size 1140x1600

Машинное обучение в анализе Lada

PROTECT STATUS: not protected

ВВОДНАЯ ЧАСТЬ

Lada, основанная в 1966 году, является российским производителем автомобилей, который выпускает автомобили более 50 лет. Автомобили Lada известны своей доступностью, надежностью и простотой. Компания произвела широкий ассортимент моделей, от компактных седанов до внедорожников и фургонов.

Создание синтетического набора данных для автомобилей Lada

В этом коде мы создадим синтетический набор данных для автомобилей Lada с использованием библиотеки pandas. Мы сгенерируем случайные данные для 2000 автомобилей. Для каждого автомобиля мы случайным образом выберем следующие параметры:

Модель: модель автомобиля Lada (Niva, Granta, Samara, Kalina) Год: год производства (1990-2022) Цена: цена автомобиля (среднее значение 25000 рублей со стандартным отклонением 5000) Пробег: пробег автомобиля (среднее значение 80000 км со стандартным отклонением 20000) Цвет: цвет автомобиля Состояние: состояние автомобиля (новый или подержанный) Местоположение: местоположение автомобиля Коробка передач: тип коробки передач (механическая или автоматическая) Владельцы: количество владельцев (1-4) Тип кузова: тип кузова автомобиля (седан, хэтчбек, внедорожник) Опции: опции автомобиля (базовый, стандартный, премиум) Тип топлива: тип топлива (бензин или дизель)

Original size 2607x1526
Original size 2232x414

Распределение цветов автомобилей

Эта круговая диаграмма показывает распределение цветов автомобилей в наборе данных. Цвета представлены различными оттенками палитры viridis.

Original size 2713x337
Original size 850x547

Распределение автомобилей Lada по состоянию

Этот столбчатый график показывает распределение автомобилей Lada по их состоянию. График отображает количество автомобилей в состоянии «Новые» и «Б/У». Используемая цветовая палитра включает зеленый и желтый цвета, что помогает различить два состояния.

Original size 2753x346
Original size 859x547

Распределение автомобилей Lada по местоположению

Этот график показывает распределение автомобилей Lada по их местоположению. График отображает количество автомобилей в каждом месте, включая Москву, Санкт-Петербург, Казань и Екатеринбург. Для цветовой палитры используется комбинация зелёного, жёлтого, оранжевого и фиолетового цветов, что помогает различать разные местоположения. Ось x повернута на 45 градусов, чтобы разместить более длинные названия местоположений.

Original size 2753x334
Original size 850x612

3D Точечная Диаграмма Цен на Автомобили Lada в Зависимости от Года и Пробега

Объяснение: Эта 3D точечная диаграмма использует библиотеку plotly.express для визуализации взаимосвязи между годом выпуска, пробегом и ценой автомобилей Lada. Диаграмма окрашена в зависимости от модели автомобиля, причем четыре разных цвета представляют различные модели. Ось x представляет год выпуска, ось y — пробег, а ось z — цену автомобиля. Диаграмма выполнена в тёмной теме, что делает данные более заметными.

Original size 2757x632

Вот как это работает:

px.scatter_3d используется для создания 3D точечной диаграммы. Она принимает dataframe df_lada в качестве входных данных вместе с различными аргументами для настройки диаграммы. x='Year', y='Mileage' и z='Price' указывают столбцы в dataframe, которые используются для осей x, y и z соответственно. color='Model' указывает, что мы хотим окрашивать точки на диаграмме в зависимости от модели автомобиля. labels используется для задания пользовательских меток для каждой оси. color_discrete_sequence используется для указания списка цветов, которые будут использоваться для каждой модели. template='plotly_dark' используется для применения темной темы к диаграмме. fig.update_layout используется для настройки компоновки диаграммы. В данном случае мы задаем пользовательские названия для каждой оси и указываем ширину и высоту диаграммы. В целом, эта диаграмма предоставляет мощный инструмент для визуализации взаимосвязей между этими тремя переменными в нашем наборе данных.

Original size 1594x1090

Цена против Пробега для Моделей Lada

Этот точечный график использует библиотеку seaborn для визуализации зависимости между пробегом и ценой автомобилей Lada. График окрашен по моделям автомобилей, с четырьмя различными цветами, представляющими разные модели. Ось x представляет пробег автомобиля, а ось y — цену автомобиля. Легенда отображается в верхнем правом углу графика, показывая цвет, соответствующий каждой модели.

В целом, этот график обеспечивает быстрый и простой способ визуализации зависимости между пробегом и ценой для различных моделей Lada.

Original size 2751x294
Original size 868x547

Парные графики характеристик автомобилей Lada

Этот парный график использует библиотеку seaborn для визуализации взаимосвязей между различными характеристиками автомобилей Lada. График окрашен по моделям автомобилей, с четырьмя разными цветами, представляющими разные модели. Ось x и ось y представляют различные характеристики, такие как пробег, цена, год и цвет.

Парный график показывает взаимосвязи между различными парами переменных в датафрейме. Каждая переменная представлена диагональной подграфикой, а внедиагональные подграфики показывают взаимосвязь между каждой парой переменных. Цвет каждой точки на графике указывает, к какой модели автомобиля она относится.

Этот график предоставляет быстрый и простой способ визуализировать взаимосвязи между различными характеристиками автомобилей Lada и может помочь нам выявить закономерности или корреляции между этими переменными.

Original size 2714x110
Original size 1098x986

Распределение Моделей Автомобилей

Эта круговая диаграмма использует библиотеку matplotlib для визуализации распределения моделей автомобилей в наборе данных. Диаграмма показывает долю каждой модели автомобиля, где каждый сектор представляет отдельную модель. Цвета выбраны из палитры viridis, которая является равномерной и визуально привлекательной цветовой схемой.

Этот график предоставляет быстрый и легкий способ визуализировать распределение моделей автомобилей в наборе данных и помогает определить, какие модели наиболее распространены, а какие менее популярны.

Original size 2716x260
Original size 720x658

Распределение автомобилей Lada по типу трансмиссии

Эта круговая диаграмма использует библиотеку matplotlib для визуализации распределения типов трансмиссий в наборе данных. Круговая диаграмма показывает долю каждого типа трансмиссий в наборе данных, где каждый сектор круга представляет определённый тип трансмиссии. Используемые цвета взяты из палитры viridis, которая является равномерной с точки зрения восприятия цветовой карты и предназначена для того, чтобы быть визуально привлекательной.

Этот график предоставляет быстрый и удобный способ визуализировать распределение типов трансмиссий в наборе данных и может помочь нам определить, какие типы наиболее распространены, а какие — менее распространены.

Original size 2714x254
Original size 640x658

Распределение автомобилей Lada по состоянию

Этот график с помощью библиотеки seaborn визуализирует распределение пробега для каждого состояния (новый или б/у) в наборе данных. Ось x представляет состояние, а ось y — пробег. Каждая коробка на графике представляет интерквартильный размах (IQR) пробега для данного состояния, с линией, обозначающей медианный пробег. Усики представляют диапазон значений, которые находятся в пределах 1,5 IQR от медианы.

Этот график предоставляет быстрый и простой способ визуализации распределения пробега для каждого состояния в наборе данных и может помочь нам выявить различия между новыми и подержанными автомобилями.

Original size 2720x300
Original size 1031x567

Диаграмма размаха цен по местоположению

Эта диаграмма размаха использует библиотеку seaborn для визуализации распределения цен для каждого места в наборе данных. Ось x представляет местоположение, а ось y — цену. Каждый ящик на графике представляет интерквартильный размах (IQR) цен для данного местоположения, с линией, указывающей медианную цену. Усики представляют диапазон значений, которые находятся в пределах 1,5 IQR от медианы.

Этот график предоставляет быстрый и простой способ визуализации распределения цен для каждого местоположения в наборе данных.

Original size 2662x294
Original size 1023x612

Диаграмма размаха цен по местоположению

Для более глубокого анализа данных и получения дополнительных инсайтов я использовала нейросеть, обученную на больших объемах данных по Lada автомобилям. Нейросеть помогла в автоматическом выявлении паттернов и аномалий в данных, а также в прогнозировании рыночной стоимости автомобилей на основе их статистических показателей.

Я использовала модель типа ChatGpt4 для генерации всех текстовых описаний и объяснений графиков, что значительно улучшило качество презентации данных. Промпты для нейросети включали запросы на генерацию аналитических отчетов, выявление ключевых факторов успеха автомобилей и оценку стратегий продаж.

Промпты для ChatGpt4:

Импорт необходимых библиотек Python для построения графиков. Чтение .csv файла. Выбор цветовой палитры и шрифта. Построение графиков: Узнаем распределение года выпуска среди автомобилей. Аналогично узнаем, какое количество автомобилей приходится на существующие модели. Покажем с помощью круговой диаграммы соотношение количества автомобилей из разных регионов. Цель — это распределение цены автомобилей по моделью и году выпуска. Название презентации: «Анализ рынка Lada автомобилей»

Введение: В этой презентации мы проведем анализ рынка Lada автомобилей, используя данные о годе выпуска, модели и цене. Мы также будем использовать нейросеть для прогнозирования рыночной стоимости автомобилей.

Содержательный вывод: Наш анализ показал, что год выпуска является ключевым фактором в определении рыночной стоимости Lada автомобилей. Мы также обнаружили, что модели с более высокой ценой имеют лучшие характеристики и производительность. Наконец, мы использовали нейросеть для прогнозирования рыночной стоимости автомобилей на основе их статистических показателей.

Таким образом, наш анализ предоставляет важные сведения о рынке Lada автомобилей и поможет компаниям принять обоснованные решения при разработке стратегии продаж.

Машинное обучение в анализе Lada
Project created at 08.10.2024