
(01) Концепция
Соя является ключевым источником белка и растительных масел для миллионов людей во всем мире. Она играет важную роль в производстве кормов для животноводства, что, в свою очередь, влияет на доступность мяса, молока и яиц. Анализ данных о производстве сои позволит оценить риски, связанные с нехваткой продовольствия, и разрабатывать стратегии для обеспечения продовольственной безопасности. Текущая геополитическая нестабильность и климатические изменения только усиливают эту актуальность.

(02) Скачивание и анализ данных
Для анализа данных был выбран источник Википедия, в котором хранится вся необходимая информация, позволяющая сделать релевантные выводы относительно производства сои за 1985–2022 года.
https://www.google.com/url?q=https%3A%2F%2Fru.wikipedia.org%2Fwiki%2F%25D0%25A1%25D0%25BE%25D1%258F
Для начала я импортировала необходимые мне библиотеку pandas, модуль pyplot, библиотеку NumPy, Nominatim (геокодер), модуль time, который позволяет измерять время выполнения операций.
После чего приступила к подготовке данных для реализации графиков.
После размещения ссылки были произведены фрагмент кода с 4 дублирующимися функциями «Df =» извлек таблицу с веб-страницы, удалил ненужные строки и столбцы и упростил структуру столбцов.
Функция geolocator = Nominatim (user_agent="test», timeout=10) создала экземпляр класса Nominatim, который использовала для геокодирования.
Также я использовала функцию location = geolocator.geocode (country) для получения географической информации о стране
В итоге данный код извлек таблицу с данными о производстве сои из Википедии, очистил отформатировал таблицу, использовал геокодер Nominatim для получения широты и долготы каждой страны, добавил столбцы с широтой и долготой в DataFrame, вывел полученный DataFrame на экран.
(03) Визуализация информативных графиков. Производство сои в различных странах в разные годы.
Выбор столбчатых и линейных графиков для визуализации данных о динамике производства сои определяется тем, что такие форматы лучше всего представляют данные, делая их понятными и легко интерпретируемыми.
Так столбчатые графики идеально подошли для сравнения значений между различными категориями, а линейный график лучше всего показал тренд изменения объемов производства с течением времени.
Для визуализации графиков был выбран классический гротескный шрифт Myriad Pro, чтобы сосредоточить внимание зрителя непосредственно на самом графике и не отвлекать от изучения данных.
Для начала я создала список строк, содержащих названия столбцов DataFrame, которые представляют годы: year_columns = ['1985', '1995', '2000', '2005', '2010', '2014', '2020', '2021', '2022'], а также использовала цикл for col in year_columns, который перебирает все годы в списке year_columns.
Первый абзац кода привел данные в числовой формат и обработал отсутствующие значения, что было необходимо для дальнейшего анализа и визуализации графики.
Этот код создал столбчатую диаграмму, показывающую производство сои по странам в 2022 году.
В этом коде я задала параметры шрифта, его цвета и размера. Черный гротеск идеально подходит для тематики проекта, так как заставляет зрителя сконцентрироваться на фактических данных графика.
Данный код создал линейный график, показывающий динамику производства сои для каждой страны с течением времени.
Изначально создаем новую фигуру Matplotlib с помощью функции plt.figure (figsize=(12, 7)) и вводим цикл for country in df['Страна'], который перебирает все страны из столбца «Страна» DataFrame df.
Далее производится сортировка данных и визуализация непосредственно самого графика с помощью функций country_data = df_long[df_long['Страна'] == country].sort_values ('Год') и plt.plot (country_data['Год'], country_data['Производство'], marker='o', linewidth=2, label=country)
Данный код создает сгруппированную столбчатую диаграмму, сравнивающую производство сои в 1985 и 2022 годах для каждой страны.
Функция «x = np.arange (len (df['Страна']))» создает массив NumPy с последовательностью чисел от 0 до количества стран минус 1 (это будет использоваться как позиция столбцов на оси X)
Функции production_1985 = df['1985'] production_2022 = df['2022'] сохраняют данные о производстве сои в 1985 и в 2022 годах.
Из графиков можно увидеть, что, во-первых, производство сои растет с течением времени. Основное производство сои приходится на несколько лидирующих стран — Бразилия и США производят в сумме больше, чем остальные страны из топа.
(04)Анимированная графика
Для визуализации анимированных графиков были использованы яркие общепринятые цвета (от темно-зеленого до темно-красного) для обозначения изменения динамики производства сои по годам. Для иллюстрации планеты и общей инфографики используется нежно сиреневый цвет, ведь перед созреванием зерновые культуры часто цветут, и цвет цветков злаков зачастую является очень нежным, с легким сиреневым оттенком.
(05) Выводы
В ходе анализа датасета, содержащего данные о производстве сои в разных странах за разные годы, были созданы три графика и анимированная карта. Они наглядно демонстрируют географическое распределение и динамику востребованности сои, подчеркивая её важность как ключевой зерновой культуры на мировом рынке, производство которой прогрессирует и становится все более актуальным, а страны (в особенности, Бразилия и США) выходят в лидеры по производству сои на рынке.
Ссылка на код и базу данных