
Введение
В этом проекте мы анализируем данные о популярных сортах вин Франции по регионам и годам. Цель — понять, какие сорта наиболее распространены, какие регионы производят больше всего вина, а также визуализировать эту информацию в удобной и наглядной форме.
Данные были взяты из открытых источников и представлены в виде CSV-файла с колонками: Region, Wine Variety, Production Volume, Year.
Проект интересен тем, что позволяет соединить культуру Франции, её традиции виноделия и современные методы анализа данных.
Этапы работы
1. Загрузка и подготовка данных Данные загружены в Python с помощью библиотеки Pandas. Были убраны пустые строки и переименованы колонки для удобства анализа.
import pandas as pd df = pd.read_csv («french_wine.csv») df = df.dropna () df.rename (columns={'Wine Variety': 'Variety', 'Production Volume': 'Volume'}, inplace=True)
Анализ данных
Топ-10 сортов вин по объёму производства. Производство по регионам — суммарный объём. Динамика производства по годам — как менялись объёмы для разных сортов.
top_varieties = df.groupby ('Variety')['Volume'].sum ().sort_values (ascending=False).head (10) region_volume = df.groupby ('Region')['Volume'].sum ().sort_values (ascending=False) yearly_trends = df.groupby (['Year', 'Variety'])['Volume'].sum ().unstack ()
Визуализация данных
Для визуализации использовались графики с библиотекой Matplotlib:
1. Гистограмма топ-10 сортов вин
top_varieties.plot (kind='bar', color='orange', title="Топ-10 популярных сортов вин Франции»)
2. Круговая диаграмма по регионам
region_volume.plot (kind='pie', autopct='%1.1f%%', title="Доля регионов по объёму производства»)
3. Линейный график динамики производства по годам
for variety in top_varieties.index: plt.plot (yearly_trends.index, yearly_trends[variety], label=variety)
4. Scatter plot — объём производства по регионам и сортам
plt.scatter (df['Region'], df['Volume'], c='green', alpha=0.6)
5. Boxplot — сравнение объёмов по регионам
df.boxplot (column='Volume', by='Region', grid=False)
Стилизация графиков
• Единый стиль: читаемый и простой.
• Цвета: оранжевый для гистограммы, зелёный для scatter, остальные графики стандартные.
• Подписи и легенды присутствуют на всех графиках.
• Вдохновение: Visual Capitalist — простые, наглядные инфографики.
Итоги
• Наибольший объём производства сосредоточен в регионах Bordeaux и Burgundy.
• Самые популярные сорта: Merlot, Cabernet Sauvignon, Pinot Noir, Chardonnay.
• Динамика по годам показывает стабильность популярных сортов и небольшие колебания в объёмах.
• Визуализация позволяет быстро оценить распределение производства по регионам и сортам, что удобно для дальнейшего анализа.
Датасет и блокнот
Датасет: french_wine.csv — скачать CSV
Google Colab: Скачать датасет французских вин