Original size 1140x1600

Популярные сорта вин по регионам Франции

PROTECT STATUS: not protected

Введение

В этом проекте мы анализируем данные о популярных сортах вин Франции по регионам и годам. Цель — понять, какие сорта наиболее распространены, какие регионы производят больше всего вина, а также визуализировать эту информацию в удобной и наглядной форме.

Данные были взяты из открытых источников и представлены в виде CSV-файла с колонками: Region, Wine Variety, Production Volume, Year.

Проект интересен тем, что позволяет соединить культуру Франции, её традиции виноделия и современные методы анализа данных.

Этапы работы

1. Загрузка и подготовка данных Данные загружены в Python с помощью библиотеки Pandas. Были убраны пустые строки и переименованы колонки для удобства анализа.

import pandas as pd df = pd.read_csv («french_wine.csv») df = df.dropna () df.rename (columns={'Wine Variety': 'Variety', 'Production Volume': 'Volume'}, inplace=True)

Анализ данных

Топ-10 сортов вин по объёму производства. Производство по регионам — суммарный объём. Динамика производства по годам — как менялись объёмы для разных сортов.

top_varieties = df.groupby ('Variety')['Volume'].sum ().sort_values (ascending=False).head (10) region_volume = df.groupby ('Region')['Volume'].sum ().sort_values (ascending=False) yearly_trends = df.groupby (['Year', 'Variety'])['Volume'].sum ().unstack ()

Визуализация данных

Для визуализации использовались графики с библиотекой Matplotlib:

1. Гистограмма топ-10 сортов вин

top_varieties.plot (kind='bar', color='orange', title="Топ-10 популярных сортов вин Франции»)

Original size 1600x1000

2. Круговая диаграмма по регионам

region_volume.plot (kind='pie', autopct='%1.1f%%', title="Доля регионов по объёму производства»)

Original size 1200x1200

3. Линейный график динамики производства по годам

for variety in top_varieties.index: plt.plot (yearly_trends.index, yearly_trends[variety], label=variety)

Original size 2000x1000

4. Scatter plot — объём производства по регионам и сортам

plt.scatter (df['Region'], df['Volume'], c='green', alpha=0.6)

Original size 1600x1000

5. Boxplot — сравнение объёмов по регионам

df.boxplot (column='Volume', by='Region', grid=False)

Original size 2000x1200

Стилизация графиков

• Единый стиль: читаемый и простой.

• Цвета: оранжевый для гистограммы, зелёный для scatter, остальные графики стандартные.

• Подписи и легенды присутствуют на всех графиках.

• Вдохновение: Visual Capitalist — простые, наглядные инфографики.

Итоги

• Наибольший объём производства сосредоточен в регионах Bordeaux и Burgundy.

• Самые популярные сорта: Merlot, Cabernet Sauvignon, Pinot Noir, Chardonnay.

• Динамика по годам показывает стабильность популярных сортов и небольшие колебания в объёмах.

• Визуализация позволяет быстро оценить распределение производства по регионам и сортам, что удобно для дальнейшего анализа.

Датасет и блокнот

Датасет: french_wine.csv — скачать CSV

Популярные сорта вин по регионам Франции