Original size 426x557

Анализ данных бриллиантов

PROTECT STATUS: not protected
The project is taking part in the competition

Shine bright like a diamond

Diamonds // Rihanna

Описание проекта

В рамках проекта я выбрала датасет о бриллиантах. Этот набор данных содержит подробные характеристики бриллиантов, включая их физические параметры, качество огранки, цвет, чистоту и цену.

Основной целью проекта было изучить взаимосвязи между различными характеристиками бриллиантов и тем, как эти параметры могут влиять на конечную стоимость бриллианта.

В качестве материала для анализа я использовала базу данных diamonds с сайта Kaggle

Анализ данных о бриллиантах проводится для того, чтобы выявить зависимости между различными характеристиками алмазов — такими как вес, цвет, чистота, размеры и качество огранки — и тем, как эти параметры влияют на их стоимость. Такой анализ позволяет лучше понимать принципы ценообразования, видеть распределение характеристик, определять наиболее значимые факторы и на практическом примере применять методы визуализации и исследовательского анализа данных.

Я выбрала тему бриллиантов потому, что датасет является хорошо структурированным, понятным и идеально подходит для понятного анализа. Кроме того, рынок драгоценных камней представляет реальную и практическую сферу, в которой такие характеристики действительно формируют цену, что делает исследование особенно интересным и наглядным. Мне сама тема тоже показалась увлекательной, поскольку интересно увидеть, какие именно параметры формируют стоимость бриллианта и как они между собой связаны.

Original size 1365x637

Фотография сгенерирована с помощью ChatGPT

Виды диаграмм

Я сделала 6 разных диаграмм.

Гистограмма (1)— отображает распределение карата бриллиантов. Такая диаграммы наглядно показывает, как часто встречаются разные значения карата и позволяет легко увидеть общее распределение данных.

Гистограмма (2) — отображает распределение цены бриллиантов. Интересно посмотреть, какие цены встречаются чаще всего и как изменяется количество бриллиантов при увеличении стоимости.

Линейная диаграмма — показывает среднюю глубину по типу огранки, позволяет легко увидеть общую тенденцию и сравнить категории между собой.

Круговая диаграмма — показывает, распределение огранки бриллиантов по сегментом.

Столбчатая диаграмма (1) — показывает, распределение цвета бриллиантов. Это позволит легко сравнить количество бриллиантов разных цветов и сразу увидеть, какие категории встречаются чаще остальных.

Столбчатая диаграмма (2) — показывает, распределение чистоты бриллиантов.

Original size 1280x720

На изображении Принцесса Диана в тиаре Спенсеров.

Этапы работы над визуальной частью

Я использовала нежно-розовую и серую пастельную палитру, чтобы сделать визуализации мягкими и приятными для восприятия, не перегружая графики слишком яркими цветами. Такая гамма помогает сосредоточиться на данных и делает анализ аккуратным и эстетичным.

Original size 728x252

Цветовая палитра для диаграмм

Original size 4348x2070

Референсы для оформления проекта

Гистог. (1)— Распределение карата бриллиантов

0

Гистог. (1)— Распределение карата бриллиантов // В Figma использовала режим обработки для стилизации изображения

На гистограмме показано распределение карата бриллиантов, где видно, как часто встречаются камни разного веса. Основная масса бриллиантов сосредоточена в диапазоне от 0,2 до 1 карата, что отражается высокими столбцами в левой части графика. По мере увеличения карата частота резко уменьшается, и крупные бриллианты встречаются заметно реже.

Гистограмма показывает, что маленькие и средние по весу бриллианты являются наиболее распространёнными. Крупные бриллианты значительно реже встречаются в выборке, что подчёркивает их редкость и возможную более высокую стоимость.

Original size 1919x576

В Figma использовала режим обработки для стилизации изображения

В ходе работы над проектом я использовала Python с библиотеками Pandas, Matplotlib и Seaborn, необходимых для работы с данными и построения визуализаций. Затем прописала цветовая палитра, которая позже будет использоваться для оформления графиков. После этого программа загружает датасет и сохраняет его. Далее из данных удаляются дубликаты и строки с пропущенными значениями, чтобы обеспечить корректность анализа.

Для повышения эффективности разработки я задействовала ChatGPT, что позволило мне оптимизировать код и получить различные подходы к интерпретации данных.

Original size 1199x722

Изображение из Pinterest

Гистог. (2) — Распределение цены бриллиантов

0

Гистог. (2) — Распределение цены бриллиантов // В Figma использовала режим обработки для стилизации изображения

На гистограмме представлено распределение цен бриллиантов, где по оси X указана стоимость, а по оси Y — количество экземпляров. Большинство бриллиантов сосредоточено в низком ценовом диапазоне — примерно до 3000 долларов, что видно по высоким столбцам слева. По мере увеличения цены количество бриллиантов резко снижается, и в правой части графика остаются лишь единичные значения.

График показывает, что самые распространённые бриллианты имеют относительно невысокую стоимость. Дорогие бриллианты встречаются значительно реже, что подчёркивает их эксклюзивность и ограниченное количество в датасете.

Original size 750x421

Изображение из Pinterest

ЛД — Средняя глубина по типу огранки

0

ЛД — Средняя глубина по типу огранки // В Figma использовала режим обработки для стилизации изображения

На диаграмме показана средняя глубина бриллиантов в зависимости от типа огранки. Значения глубины представлены на вертикальной оси, а категории огранки — на горизонтальной. Видно, что бриллианты с огранкой «Fair» имеют наибольшую среднюю глубину, после чего глубина постепенно уменьшается у типов «Good», «Ideal» и «Premium».

График показывает, что более качественная огранка обычно связана с меньшей средней глубиной бриллианта. Это может означать, что лучшие типы огранки предполагают более точные пропорции, что влияет на внешний вид и качество камня.

Original size 1281x831

Кадр из фильма «Красотка» (1990 год)

КД — Распределение огранки бриллиантов по сегментам

0

КД — Распределение огранки бриллиантов по сегментам // В Figma использовала режим обработки для стилизации изображения

На кольцевой диаграмме показано распределение типов огранки бриллиантов, где каждый сегмент отражает долю определённой категории. Наибольшую часть занимают бриллианты с огранкой Ideal — почти 40%, затем следуют Premium и Very Good. Меньше всего представлены огранки Good и Fair, которые занимают небольшие сегменты.

Диаграмма показывает, что большинство бриллиантов в датасете относятся к высоким категориям огранки, что говорит о преобладании более качественных камней. Огранки низшего уровня встречаются гораздо реже, что подчёркивает их меньшую популярность или меньший спрос.

Original size 620x354

Изображение из Pinterest

СД (1) — Распределение цвета бриллиантов

0

СД (1) — Распределение цвета бриллиантов // В Figma использовала режим обработки для стилизации изображения

На данной столбчатой диаграмме представлено распределение бриллиантов по цветовым категориям от D до J. Видно, что больше всего бриллиантов относится к цвету G, затем следуют категории E и F с немного меньшим количеством. Цвета I и J представлены значительно меньше, занимая самые низкие столбцы на графике.

Диаграмма показывает, что наиболее распространёнными цветами в датасете являются G, E и F, что может отражать их популярность или доступность на рынке. Наименее распространёнными оказались бриллианты цветов I и J, что может указывать на меньший спрос или более редкое появление таких экземпляров в выборке.

Original size 1551x838

Изображение из Pinterest

СД (2) — Распределение чистоты бриллиантов

0

СД (2) — Распределение чистоты бриллиантов // В Figma использовала режим обработки для стилизации изображения

На этой столбчатой диаграмме показано распределение бриллиантов по уровням чистоты — от I1 до WS2. Лучше всего представлены категории SI1 и VS2, которые имеют самые высокие столбцы. Чистоты I1 и IF встречаются значительно реже, что видно по минимальным значениям на графике.

Диаграмма показывает, что наиболее распространёнными являются бриллианты средних уровней чистоты — SI1, SI2 и VS2. Наименее распространённые категории I1 и IF встречаются редко, что подчёркивает их либо низкое качество, либо ограниченное количество таких камней в датасете.

Original size 1371x981

Кадр из фильма «Великий Гэтсби» (2013 год)

Заключение

«Diamonds Are a Girl’s Best Friend»

Фраза Мэрилин Монро, её она произносила в фильме «Джентльмены предпочитают блондинок».

Original size 1371x852

Фотоизображение из Pinterest

Проведённый анализ датасета бриллиантов позволил выявить ключевые закономерности в распределении их характеристик. Было установлено, что большинство бриллиантов имеют небольшой вес — до 1 карата, а также низкую цену, что делает такие камни наиболее распространёнными на рынке. Анализ огранки показал, что доминируют высококачественные типы — Ideal, Premium и Very Good, тогда как огранки Fair и Good встречаются значительно реже. Изучение цвета и чистоты бриллиантов также выявило преобладание средних категорий, таких как G, E, F, а также SI1 и VS2, тогда как крайние значения по этим параметрам встречаются гораздо реже.

Гистограммы и графики помогли наглядно показать, что рынок бриллиантов преимущественно состоит из камней среднего уровня по весу, чистоте, цвету и стоимости, что отражает спрос и доступность таких камней. Полученные результаты подтверждают, что высокое качество огранки и сбалансированные характеристики гораздо чаще представлены в выборке, тогда как редкие цвета, высокая чистота или крупный размер встречаются значительно меньше, что подчёркивает их ценность и эксклюзивность. В целом проект показал, насколько важно анализировать данные для понимания структуры рынка, выявления тенденций и формирования объективных выводов о представленной выборке бриллиантов.

Нейросеть:

Chat GPT — использовался для генерации изображений и для запросов рекомендаций по улучшению кода и его написанию.

Анализ данных бриллиантов