
Концепция
Тема экологии особенно актуальна в наши дни, изменения мирового климата и экосистем оказывают не только явное, но и незримое влияние на химический состав воздуха и вод океанов и морей. Открытые данные и визуализация этих изменений позволяют осознать текущие проблемы и привлечь больше внимания к ним.

В своем анализе я использовала открытый Indicators of Coastal Water Quality: Change in Chlorophyll-a Concentration 1998-2007 Dataset [1] с сайта Nasa EarthData. Датасет содержит в себе информацию об изменениях в концентрации в прибрежных водах стран хлорофилла-а*, который является важным показателем здоровья водных экосистем.
*Хлорофилл-а — это пигмент, содержащийся в фитопланктоне, микроскопических растениях в водоемах. Он играет важную роль в фотосинтезе, позволяя этим организмам преобразовывать солнечный свет в энергию. Высокие концентрации обычно указывают на процветающую популяцию фитопланктона, что может быть признаком высокого качества воды. Однако чрезмерные уровни могут указывать на загрязнение питательными веществами, что приводит к вредоносному цветению водорослей.

Вдохновением для выбора палитры, шрифтов, стилистики графиков и дополнительных изображений послужили научно-популярные журналы

Для визуализации были выбраны следующие типы графиков: 1. Линейная диаграмма (отражающая динамику изменений по странам) 2. Столбчатая диаграмма (наглядно показывает разницу в показателях в масштабе регионов) 3. Круговая диаграмма (отражает соотношение доступной информации по каждому региону) 4. Линейная диаграмма (динамика показателя по России, крупнейшим странам и регионам за 9 лет) 5. Географическая диаграмма (наглядно отражает скачок показателя за выбранный период по странам)
Обработка данных
Для начала я загрузила на временный диск csv-файл и файл шрифта. После чего импортировала необходимые мне библиотеки: numpy, matplotlib.pyplot и pandas.
В изначальном дата-сете содержалось 440 000 рядов с данными, так как каждая страна делилась на множество кодов местоположения (GRIDCODE), поэтому для работы с массивом данные были сгруппированы до усредненного значения по каждой стране. Так, результирующий дата — фрейм содержит 186 рядов по количеству стран. Также к странам было решено добавить информацию о регионах, исключая дубликаты, к каждому значению было присоединено значение с регионом в соседнем столбце.
Помимо этого, последней колонкой был добавлен столбец с разницей между первым и последнем показателем (за 1998 и 2007 г.). Так, количество колонок в итогом дата-фрейме — 14.
Для работы со сложными объединениями, палитрами цветов и созданием градиента на графиках я обращалась к Chat-GPT. Посмотреть использованные промпты можно в разделе «Описание применения генеративной модели».
Визуализация данных
Как мы видим, наибольший рост концентрации хлорофилла-а произошел в Европе, что наиболее вероятно связано с поздним внедрением мер по экологической безопасности, несмотря на принятие решений Директивой ЕС по водным ресурсам (2000 г.) и конвенции ОСПАР[2]. Некоторые страны отставали в улучшении очистки сточных вод и сокращении использования удобрений. Наибольшее снижение в Латинской Америке, что может быть связано с одним из периодов Эль — Ни́ньо в 1998, 2002 и 2006–07 [3][4].
Также, для наиболее точного анализа был создан график, отражающий разницу в показателе по каждой стране, где наглядно видно, что страны с наибольшим ростом концентрации — Эстония и Бельгия. Наибольший скачок в уменьшении произошел в Уругвае. Эта информация совпадает с выводами столбчатой диаграммы по регионам, однако заметна низкая читаемость графика, поэтому для этого набора данных будет создана дополнительная географическая диаграмма.
Для оценки объективности данных была применена круговая диаграмма, показывающая распределение количества данных по каждому региону. Как мы видим, наибольший объем данных представлен в регионах Европы и Северной Америки (21,9%), в тройке также данные о Африке (разница в 1%). Наименьший объем данных представлен по Антарктике, что может быть связано с труднодоступностью региона, а также отличающимся климатическим поясом. Хочется также отметить отсутствие данных об Арктическом регионе и сравнительно малый процент данных об Азии (12,3%).
Далее проведен анализ динамики изменений по годам за выбранный период, наиболее интересным мне показалось визуализировать данные по России, сравнить их с Китаем и США, а также создать график по всем регионам.
Как мы видим, динамичный спад концентрации хлорофилла-а приходится на 1998–2000 годы, наиболее резкий скачок роста произошел в период с 2005 по 2007 год, до этого момента заметны сравнительно набольшие колебания показателя (от 4,6 до 5,0).
Нормальным показателем концентрации хлорофилла-а является диапазон 1 — 5 µg/L, как мы видим из трех представленных стран Россия находится в наибольшей зоне риска, повышена вероятность цветения прибрежных вод. Самая чистая вода с минимальным индикатором — США.
В целом, наблюдается некоторая усреднённость значения индикатора по большинству регионов, самые низкие показатели в Океании, самые высокие концентрации характерны для Европейского региона. Основные причины [5]: загрязнение питательными веществами от сельского хозяйства и промышленности, изменение климата и потепление вод, снижение естественного контроля фитопланктона (чрезмерный вылов рыбы), контроль загрязнения еще не был полностью эффективным.
Ранее был представлен линейный график с разницей по странам, но для наглядности и более подробного изучения, я выбрала географические диаграммы, так как количество информации о каждой стране не так явно читается на других типах графиков. Здесь же мы вновь видим рост показателя в регионе Европы, однако теперь можем наблюдать, что это в основном страны Северной Европы, чаще с выходом к океану. Также можно отследить отсутствие средних значений и явную контрастность среди стран Латинской Америки, какие из них больше подвержены росту концентрации, какие, наоборот, снижению.


Дополнительно провела сравнительный анализ карты концентраций в 1998 и 2007 годах, по цветам можно отследить изменения в Австралии (снижение) и Перу (повышение).
Описание применения генеративной модели
Для своей работы я использовала Chat-GPT версии 4.0. Он помог мне объединить необходимые строки датасета для его визуализации, а также найти способ настроить палитру градиентов для графиков. Для создания изображений морской воды и обложки была использована нейросеть Recraft AI.
Посмотреть промпты: https://docs.google.com/document/d/1IWAcNVA2J7Ns-KaZKFvNW5Tj3KgHfRaChnlfj1jR6BI/edit?usp=sharing
Ссылки на модели: https://openai.com/index/gpt-4/ https://www.recraft.ai/
Список источников
[1] Goddard Space Flight Center-GSFC, & Center For International Earth Science Information Network-CIESIN-Columbia University. (2009). Indicators of Coastal Water Quality: Change in Chlorophyll-a Concentration 1998-2007 (Version 1.00) [Data set]. Palisades, NY: NASA Socioeconomic Data and Applications Center (SEDAC). https://doi.org/10.7927/H48W3B88 [2] https://eur-lex.europa.eu/EN/legal-content/summary/ospar-convention.html [3] https://psl.noaa.gov/enso/past_events.html [4] https://journals.ametsoc.org/view/journals/clim/26/2/jcli-d-12-00152.1.xml [5] https://www.sciencedirect.com/science/article/pii/S030147971400334X