Original size 1240x1750

Анализ данных о пингвинах архипелага Палмер (Антарктида)

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция

Для финального проекта по курсу «Программирование для креативных индустрий‎» я выбрала данные о пингвинах архипелага Палмер (Антарктида) с сайта Kaggle.

Архипелаг Палмер расположен у побережья Антарктического полуострова и является одной из ключевых зон обитания пингвинов в Южном океане. Благодаря относительной доступности региона и стабильным условиям наблюдений, именно здесь на протяжении многих лет ведутся систематические биологические исследования в рамках программы Palmer Station Long Term Ecological Research (LTER).

На архипелаге Палмер обитают три вида пингвинов, каждый из которых обладает своими морфологическими и поведенческими особенностями: Adelie (Pygoscelis adeliae), Chinstrap (Pygoscelis antarcticus), Gentoo (Pygoscelis papua).

big
Original size 1419x461

Целью проекта является выявление морфологических различий между видами и изучения взаимосвязей физических характеристик.

Этот датасет интересен, потому что: — он основан на реальных полевых биологических наблюдениях; — позволяет изучать морфологические различия между видами; — данные достаточно чистые (но при этом требуют предварительной обработки); — тема экологии и биоразнообразия Антарктиды актуальна в контексте климатических изменений

Какие виды графиков были выбраны и почему?

В проекте использованы следующие типы визуализаций:

1. Столбчатая диаграмма — для сравнения количества пингвинов разных видов 2. Гистограмма — для анализа распределения массы тела 3. Boxplot — для сравнения морфологических характеристик между видами 4. Диаграмма рассеивания — для выявления взаимосвязей между параметрами 5. Составная диаграмма — для анализа распределения полов внутри видов

Эти графики позволяют сочетать исследовательский и объясняющий подходы.

Визуальный стиль вдохновлён холодной палитрой Антарктиды: оттенками синего

Original size 1920x1116

мудборд

Original size 1920x1116

Используемые статистические методы: 1. Описательная статистика; 2. Анализ распределений; 3. Межгрупповое сравнение; 4. Визуальный анализ корреляций; 5. Работа с категориальными переменными.

Данные в датасете были собраны в рамках проекта Palmer Station Long Term Ecological Research (LTER) и включают морфологические характеристики пингвинов трёх видов: 1. Adelie 2. Chinstrap 3. Gentoo

Также представлены следующие параметры: — длина и глубина клюва — длина ласт — масса тела — пол — остров обитания — вид пингвина

Обработка данных

Сначала были подключены необходимые библиотеки — pandas и matplotlib (pyplot), после чего выполнено чтение CSV-файла с данными.

Original size 2644x222

Далее делаю очистку и подготовку данных. Убираю строки с пропущенными значениями в ключевых столбцах.

Original size 2404x798

Следующим этапом я задаю палитру и цвета графикам

Original size 2296x280
Original size 2252x1196

Визуализация данных

График 1

График демонстрирует количество наблюдений для каждого вида пингвинов: Adelie, Gentoo и Chinstrap. Данный график был построен для понимания структуры датасета и оценки представленности различных видов пингвинов в выборке. Это важно для корректной интерпретации всех последующих результатов анализа.

Original size 1660x1126
Original size 2234x584

Можно заметить, что вид Adelie представлен значительно чаще, чем остальные. Это означает, что выборка несбалансирована, и этот факт необходимо учитывать при сравнении морфологических характеристик между видами.

График 2

Гистограмма помогает понять, как распределена масса тела пингвинов в общей выборке. График отражает частотное распределение массы тела пингвинов и позволяет оценить форму распределения, диапазон значений и плотность наблюдений.

Original size 1632x1124
Original size 2374x552

График 3

График Boxplot позволяет сравнивать распределения числовых показателей между несколькими группами. Он был выбран для анализа различий в массе тела между видами пингвинов.

Original size 1674x1120
Original size 2420x936

Вид Gentoo заметно отличается большей медианной массой тела по сравнению с другими видами. При этом Adelie и Chinstrap имеют более компактные распределения, что подчёркивает морфологические различия между видами.

График 4

Диаграмма рассеивания используется для изучения взаимосвязи между двумя количественными переменными. В данном случае он позволяет исследовать связь между длиной ласт и массой тела пингвинов.

Каждая точка представляет отдельную особь, а положение точки отражает её длину ласт и массу тела.

Original size 1676x1128
Original size 2384x558

Наблюдается явная положительная корреляция: чем больше длина ласт, тем выше масса тела. Это биологически обоснованная связь, подтверждающая, что морфологические параметры пингвинов взаимосвязаны.

График 5

Этот график был построен для анализа структуры выборки и проверки баланса полов внутри каждого вида пингвинов.

Original size 1658x1246
Original size 2350x592

В целом распределение полов выглядит относительно сбалансированным, однако для некоторых видов можно заметить небольшие перекосы. Это важно учитывать при дальнейшем анализе морфологических характеристик, так как пол может влиять на размеры и массу тела.