Original size 1710x2400

Анализ данных о качестве испанского вина

PROTECT STATUS: not protected
8

Рубрикатор

1. Введение 2. Загрузка данных 3. Обработка и анализ данных 4. Оформление данных 5. Итоговые графики 6. Заключение 7. Ресурсы и генеративные модели

big
Original size 2880x1620

Изображение сгенерировано с помощью нейросети LeonardoAi

Введение

Вино давно стало неотъемлемой частью наших семейных застолий. Будь то торжество по случаю праздника или же просто уютный ужин в пятницу вечером — ароматное вино объединяет все поколения за одним столом, создавая по-особенному тёплую атмосферу. Этот напиток не просто доставляет удовольствие своим вкусом, но также наполняет бокалы историями и эмоциями.

Когда-то я задумалась над тем, как мой отец, коллекционер вин и ценитель вкусов, выбирает хорошее вино, каким критериям отвечают лучшие образцы и каковы основные факторы, влияющие на качество продукта.

Вдохновившись семейной историей, я решила проанализировать данные о качестве испанского вина. На сайте kaggle.com я выбрала датасет «Spanish Wine Quality Dataset». Он содержит информацию о винодельнях, названии вина, годе выпуска, рейтинге вина, количестве отзывов, регионе производства, стоимости, типе вина, его плотности и кислотности.

Я решила представить данные в виде 5 типов графиков: столбчатая диаграмма для распределения количества вин по годам производства, график рассеяния для анализа корреляции между ценой и рейтингом, круговая диаграмма для распределения вина по категориям кислотности, гистограмма для визуализации топ-10 типов вина по количеству рецензий и линейная диаграмма для распределения количества вин по категориям их плотности.

Загрузка данных

Для работы с данными я импортировала библиотеку pandas. Затем импортировала библиотеки matplotlib.pyplot и seaborn для построения графиков.

Original size 2880x603

Обработка и анализ данных

Данные содержат пропуски. Для того, чтобы продолжить работу над чистыми данными и провести корректный анализ, я удалила пропущенные значения с помощью .dropna ().

Original size 2880x224

Далее я перешла к анализу данных. Я написала код, который помог определить топ-10 популярных типов вина по количеству отзывов.

.groupby ('type') группирует данные по столбцу type, .size () считает количество отзывов для каждой группы, .nlargest (10, 'count') берёт 10 строк с максимальным значением количества отзывов.

Original size 2880x417

После этого я решила посчитать корреляцию между признаками price (цена) и rating (рейтинг). С помощью метода .corr я выяснила, что корреляция равняется 0.55, что указывает на умеренную взаимосвязь.

Original size 2880x282

Затем я посчитала среднюю цену вина. average_price_by_wine определяет среднее значение столбца price (цена) для каждого уникального значения в столбце wine (вино): df_cleaned.groupby ('wine') группирует данные из столбца wine и для каждого вина вычисляет среднюю стоимость, затем сортирует вина по убыванию средней цены и берёт первые 10 самых дорогих вин. Так я выяснила, что самое дорогое вино по средней стоимости — La Faraona Bierzo (Corullon).

Original size 2880x380

Оформление данных

Для создания палитры я сгенерировала изображение с помощью нейросети leonardo.ai. Далее на сайте Adobe Color я извлекла цвета из картинки. Мне показалось, что данному проекту лучше всего подойдёт гамма винных оттенков.

Original size 2880x1620

Изображение сгенерировано с помощью нейросети LeonardoAi

Original size 2880x908

Затем я установила глобальные настройки стиля всех графиков. При помощи plt.rcParams я определила белый цвет для текста, подписей и меток осей. Использовав axes.titleweight и axes.labelweight, я сделала жирное начертание у заголовков и подписей осей, чтобы сильнее выделить их.

Original size 2880x738

Итоговые графики

1. Количество вин по годам

Original size 2880x806
Original size 2880x1781

2. Распределение вин по категориям кислотности

Original size 2880x671
Original size 2880x2979

3. Корреляция между ценой и рейтингом

Original size 2880x603
Original size 2880x2279

4. Топ-10 типов вина по количеству рецензий

Original size 2880x1107
Original size 2880x1946

5. Распределение количества вин по категориям плотности

Original size 2880x927
Original size 2880x1835

Заключение

Таким образом, я провела подробный анализ данных о качестве испанского вина. Я проанализировала разные показатели, такие как год производства, степень кислотности, корреляцию между ценой и рейтингом, количество отзывов, а также уровень плотности, чтобы выявить, какие критерии влияют на качество напитка.

По итогам анализа я сделала несколько выводов: 1. Больше всего в датасете представлено вин 2011 года производства. Это вина «среднего» возраста, успевшие набрать необходимую зрелость и раскрыть вкусовые и ароматические свойства. 2. Больше всего вин со степенью кислотности 3.0, указывающей на сбалансированный уровень кислотности, который обеспечивает вину гармоничный вкус. Из этого можно сделать вывод, что степень кислотности имеет влияние на качество продукта. 3. Между ценой и рейтингом вина наблюдается умеренная корреляция. Это может указывать на то, что цена действительно имеет значение в восприятии продукта потребителями, но не является единственным определяющим фактором. 4. Типы вина, которые вошли в топ-10 по количеству рецензий, преимущественно обладают категорией плотности 4-5 и степенью кислотности 3, что может указывать на выбор потребителями полноценных и многогранных вин с богатым вкусом и приятным балансом кислотности. 5. Больше всего вин с категорией плотности 4, которая обеспечивает напитку богатый вкус и баланс между сладостью и насыщенностью. Этот показатель может указывать на то, что уровень плотности имеет влияние на качество продукта.

Ресурсы и генеративные модели

Промпты для генерации изображений:

1. Обложка. Generate a beautiful cover for a project about the quality of Spanish wine, the background should be wine-colored 2. Изображение 1. Generate a gorgeous wine image, it should have several bottles of wine and a wine-colored background 3. Изображение 2. Generate a luxury wine image, it should have several glasses of wine and a wine-colored background

Анализ данных о качестве испанского вина
8
Confirm your ageProject contains information not suitable for individuals under the age of 18
I am already 18 years old