Original size 1140x1600

Анализ датасета из kaggle Mall_Customers

PROTECT STATUS: not protected

Вступление

Выбор данного датасета неслучаен. Я очень часто хожу по магазинам и было всегда интересно, зачем меня просят заводить скидочные карты или карты лояльности, теперь я поняла, что как раз таки для аналитики и для построения стратегий!

Типы графиков

  1. Pairplot график
  2. Линейный график
  3. Boxplot
  4. Интерактивный Boxplot при помощи библиотеки plotly.express
  5. 3D график при помощи библиотеки scatter_3d
  6. Dendrogram при помощи библиотеки scipy.cluster.hierarchy

Этапы работы

  1. Выбор данных, которые интересно проанализировать, предобработка данных
  2. Анализ данных
  3. Визуализация

Оформление графиков

В оформлении графиков я разделила цвета, чтобы не путаться и видеть статистику мужчин и женщин. Также использовала много интерактивных элементов, чтобы интереснее было работать и анализировать данные.

Описание датасета

Данные посетителей магазина: — id, — пол, — возраст, — доход, — рейтинг трат.

Я сделала общую предобработку: импорт библиотек, поверхностный анализ и тд.

big
Original size 499x206
Original size 523x363
Original size 617x273

Графики

Посмотрела на визуализацию даты по всем признакам, попросила ChatGPT стилизовать график и «сделать его красивым» (промт), он предложил визуализацию с кругами и квадратами на pairplot с использование розового и голубого цветов (что действительно напомнило гендер пати) я выбрала для визуализации pairplot, так как он выводит все признаки в одном графике, что очень полезно и удобно.

Original size 1003x275
Original size 1242x1140

Я решила взять предложенный график из гугл коллаба и преобразовать его (зависимость customer id и spending score). В промте я указала свой график и попросила «покрасить линии в неоновые цвета"(промт ChatGpt)

Original size 700x438
Original size 1800x952

Boxplot — это статистический график, который позволяет наглядно представить распределение числовых значений и выявить наличие выбросов. В данном случае, boxplot используется для визуализации связи между годовым доходом и показателем трат, что помогает понять, как распределены и связаны эти данные внутри набора данных.

Original size 1146x143
Original size 1922x716
  1. Существует разнообразие показателей трат у клиентов с разным годовым доходом. Это видно по разбросу значений внутри каждого уровня дохода.

  2. Наблюдается тенденция к увеличению показателя трат у клиентов с более высоким годовым доходом, что может свидетельствовать о том, что люди с более высоким доходом склонны тратить больше.

Теперь я построю такой же график, но с интерактивными элементами. Я закинула в промт ChatGpt свою строку кода и попросила «построить из этого интерактивный график» (промт).

Original size 743x106
Original size 2212x1450

Далее следует рассмотреть общую зависимость трех признаков, вместо группировки я выбрала наиболее релевантным вариантом создать 3D график, чтобы посмотреть на визуализацию.

Original size 803x72
Original size 782x592

Немного затрону кластеризацию, ведь при работе с данными это одна и основополагающих целей, сначала преобразую категориальные переменные в формат, который можно использовать для обучения модели машинного обучения без создания ложной упорядоченности в данных.

Original size 1158x238
Original size 2294x1310

Выбор данного типа графика обусловлен возможностью визуализации иерархической кластеризации, что позволяет обнаружить структуру данных, выделять кластеры объектов и делать выводы о схожести между ними, что может быть полезным в работе с неструктурированными данными или при анализе группировки объектов.

Исходники

Ноутбук и дататест: https://drive.google.com/drive/folders/1EFRO-AAEQHLZw5MznxLag_Fmsg7BrDF0?usp=sharing

Обложка сделана нейросетью «Леонардо»

Анализ датасета из kaggle Mall_Customers
Project created at 25.09.2024