
Введение
Анализ данных о продажах шоколада проводился на основе открытой базы «Chocolate Sales», доступной на сайте Kaggle. Этот анализ был интересен, так как позволял оценить, насколько хорошо продаются разные шоколадные продукты в разных странах. Это важно для понимания рыночных тенденций и улучшения стратегий продаж.
В ходе исследования я построила несколько видов графиков: столбчатые, круговые и гистограммы. Столбчатые графики показали, сколько шоколада было продано в каждой стране, и помогли выявить лидеров рынка. Круговой график показал, какие продукты продаются лучше всего. Гистограмма показала, как распределяются суммы продаж, что дало нам представление о том, сколько обычно тратят покупатели.
Я выбрали именно эти графики, потому что они просты и хорошо передают основную информацию о структуре и распределении данных, а также их удобно стилизовать.

Промпт: A photo of a white kitchen table with mountains of various chocolates: white, milk, and dark. There are also nuts and cocoa powder scattered nearby. The beige kitchen furniture is at the back. The light is warm and comes from a window on the right.
Этапы работы
Выбранный мной набор данных содержит шесть различных типов информации: имя продавца, страну, в которой была совершена продажа, название продукта, дату продажи, общую сумму выручки и количество проданных коробок. Это открывает широкие горизонты для глубокого анализа и позволяет рассмотреть множество аспектов.
Первым шагом я определилась с тем, на каких аспектах будут фокусироваться при исследовании. Для начала я решила изучить общую сумму продаж по странам. Для этого я сгруппировала (метод «groupby ()») строки по уникальному значению «Country» из датасета и выбрала столбец «Amount», применяя метод sum, чтобы определить общую сумму продаж для каждой страны, и фильтрую данные по убывания.
После этого с помощью функций из библиотеки matplotlib.pyplot строю столбчатую диаграмму и стилизую ее.
После этого я приступаю к анализу следующего параметра — общего количества проданных коробок каждого продукта. Для начала я группирую строки по значению «Product» из датасета и через применение метода sum к значениям столбца с проданными коробками, высчитываю общее количество каждого продукта, при этом для дальнейшей работы я беру только первые десять после сортировки по убыванию.
Далее я приступаю к созданию круговой диаграммы, добавляя подписи в процентах, настраивая заголовок и цвета и удаляя подпись ось Y.
Следующим параметром была средняя сумма продажа продавцов. Для этого я группирую строки по значению имен продавцов, выбираю столбец общей выручки и применяю к нему метод mean, чтобы получить среднее значение выручки для каждого продавца. Далее сортирую по убыванию и беру первые 10 значений.
Для визуализации я создаю горизонтальную столбчатую диаграмму, задавая размер, цвет и кегль для текстов.
И последним аспектов изучения я выбрала распределение сумм продаж. Для начала я задала основную фигуру для построения графика. Далее выбрала значение выручки строки и методом hist задала построение гистограммы, указав интервал и цвет. Затем создала заголовки и их текстовые стили. И для более актуальной и удобной визуализации задаю форматтер, который преобразует числа по оси Y добавляя запятую в тысячах и избавляясь от десятичных знаков.
Касаемо стилизации полученных графиков, я вдохновилась спокойными пастельными цветами и эстетикой минимализма, поэтому для своих графиков я использовала шрифт с засечками, довольно нейтральные, хорошо сочетающиеся между собой, цвета.
Для стилизации я использовала fontsize и fontweight для создания тестовых стилей с иерархией (заголовки, подзаголовки, текст), color для задания цвета.
Промпт: A photo of a palette with pastel beige-brown tones. The palette has a few squares of paint with varying shades of beige and brown. There are also a few brushes next to the palette. The background is a wooden surface with a few more brushes.
Итоговые графики и выводы
1. Столбчатая диаграмма «Общая сумма продаж по странам»
Проведя анализ общей выручки от продажи шоколада каждой из предложенных в датасете стран, результаты которого представлены с помощью столбчатой диаграммы, я могу сделать вывод, что Австралия оказалась более успешной на рынке, заработав более миллиона долларов, когда, Новая Зеландии оказалась в самом конце топа. При этом, можно заметить равномерность распределения показателей на графике и успешность бизнеса, опираясь на тот факт, что диапазон прибыли начинается с 800000 и уходит за пределы 1000000.
К тому же, учитывая такой территориальный разброс среди лидеров продаж, можно говорить о глобальном характере бизнеса.
2. Круговая диаграмма «Топ 10 продуктов по количеству проданных коробок»
Оценив количество проданных коробок каждого вида шоколада и выделив топ 10 самых популярных, я заметила, что они почти в равных долях делят диаграмму. Таким образом, можно сделать вывод о конкурентоспособности и востребованности всех видов из топ 10, однако самым востребованным оказался горький 50% шоколад.
3. Горизонтальная столбчатая диаграмма «Топ 10 продавцов по средней сумме продаж»
Чтобы определить успешность продавцов в своей области я обратилась к анализу средней суммы продаж каждого и выделила топ 10 самых высоких показателей. Madelene Upcott является лидером этого топа с средней выручкой чуть более 7000 долларов. Кроме того, складывается похожая с анализом предыдущих показателей картина — среди топ 10 показатель распределяются примерно равномерно, в диапазоне от $6,800 до $7,600 USD, что говорит о высокой конкурентоспособности среди лучших продавцов.
4. Гистограмма «Распределение сумм продаж»
Последним параметром для изучения была корреляция между суммой продаж и количеством транзакций. Судя по графику можно заметить, что максимальное количество продаж происходило в диапазоне менее 5000 долларов и с увеличение сумму тенденция количества транзакций стремительно уменьшалась и стала почти равной 0 в диапазоне свыше 20000 долларов. Можно сделать вывод, что эти два показатели обратно пропорциональны и, к тому же, что именно доступные товары пользуются большим спросом на рынке.
Список использованных нейросетей
Для улучшения стиля написанного мною текста: 1. https://www.perplexity.ai/
Для генерации обложки: 1. https://ideogram.ai/
Промпт для создания обложки: A photo of a beautiful and realistic painting dedicated to the aesthetics of the work of a data analyst. The painting has a dark background with large, white, abstract shapes that represent data points. There are smaller, red, circular shapes scattered throughout the painting, possibly representing errors or outliers. The overall painting has a minimalistic style with a focus on simplicity and clarity.