Original size 1140x1600

Грибной заговор

PROTECT STATUS: not protected
The project is taking part in the competition
big

ВВЕДЕНИЕ

Выбор данных

В работе использован открытый датасет mushrooms, содержащий описания грибов с бинарной классификацией на съедобные и ядовитые, а также набором признаков, связанных с внешним видом, запахом и средой произрастания.

Мотивация и исследовательский интерес

Интуитивно кажется, что ядовитые грибы — редкое исключение, а риск можно легко оценить по внешнему виду. Меня заинтересовало, насколько это представление соответствует данным. Анализ позволил рассмотреть токсичность не как частный случай, а как системное свойство выборки, распределённое по разным признакам.

Выбор типов графиков и визуальных решений

Для анализа были использованы разные типы графиков, каждый из которых решает свою задачу:

Круговая диаграмма применена для первичного обзора соотношения съедобных и ядовитых грибов. Она наглядно демонстрирует, что доли этих групп сопоставимы, а токсичность не является маргинальным явлением в данных.

Сложенные столбчатые диаграммы использованы для анализа распределений по категориальным признакам (цвет шляпки). Такой формат позволяет одновременно видеть абсолютные значения и внутреннюю структуру каждой категории, показывая, что цвет сам по себе не является надёжным индикатором безопасности.

Горизонтальные столбчатые диаграммы применены для анализа запахов и среды произрастания. Они удобны для сравнения долей и позволяют выстроить категории по уровню риска, превращая визуализацию в инструмент ранжирования.

Набор диаграмм (small multiples) используется для сравнения отдельных признаков (кольцо, синяки, споры), что позволяет избежать перегруженности одного графика и сохранить ясность интерпретации.

Original size 3137x224

Цветовая палитра проекта: #731717, #400D0D, #BF2A2A, #F2F2F2, #0D0D0D

Почему это было для меня важно

Этот проект был важен для меня как упражнение в критическом взгляде на данные и собственные ожидания. Он показывает, что визуальная привлекательность или привычные признаки не гарантируют безопасности, а надёжная оценка риска требует работы с совокупностью факторов.

Кроме того, для меня было принципиально не просто построить графики, а выстроить связный визуально-аналитический рассказ, в котором каждый следующий шаг опирается на предыдущий. В этом смысле проект стал исследованием не только грибов, но и того, как данные могут менять способ мышления и принятия решений.

АНАЛИЗ

Каждый второй — под вопросом

Интуитивно кажется, что ядовитые грибы — редкое исключение. Первый шаг анализа — проверить это предположение на данных, рассматривая грибы как совокупность наблюдений внутри одного датасета.

Диаграмма показывает, что в наборе mushrooms съедобные и ядовитые грибы представлены почти поровну, при этом доля ядовитых немного превышает половину. Это меняет привычное представление о грибах как в целом безопасных и подчёркивает, что токсичность в данных — не маргинальное явление.

Original size 785x573

Диаграмма была создана с использованием библиотек pandas и matplotlib. Сначала датасет mushrooms был загружен из CSV-файла и агрегирован по признаку класса, разделяющего грибы на съедобные и ядовитые. На основе полученных значений рассчитано процентное соотношение двух групп. Для визуализации выбрана кольцевая диаграмма как наглядный способ показать базовый баланс данных и одновременно разместить поясняющий текст в центре. Построение выполнено с помощью функции pie () с заданной толщиной кольца, тёмным фоном и контрастной цветовой схемой, где красный используется как маркер риска. Проценты и абсолютные значения добавлены непосредственно на диаграмму, чтобы обеспечить быстрое считывание информации без обращения к легенде.

Original size 1473x742

Красивый — не значит съедобный

После общего сравнения съедобных и ядовитых грибов логично посмотреть, связан ли риск с тем, как гриб выглядит. Этот график показывает распределение грибов по цвету шляпки.

Из него видно, что цвет сам по себе почти ничего не гарантирует: для каждого цвета встречаются и съедобные, и ядовитые грибы. Это означает, что ориентироваться только на внешний вид небезопасно и такой признак может вводить в заблуждение.

Original size 1189x590

График помогает понять, что для оценки риска нужны более надёжные признаки, чем просто цвет.

После подготовки данных настраивается визуальный стиль: тёмный фон, выбранный шрифт и размеры графика. Диаграмма строится как сложенная столбчатая: сначала отображаются съедобные грибы, затем поверх них — ядовитые с использованием параметра bottom. В финале добавляются подписи осей, заголовок, поворот подписей категорий и сетка, после чего выполняется финальная компоновка и вывод графика.

Original size 1473x742

Мелкие детали с большими последствиями

Следующая группа диаграмм показывает, как доля ядовитых грибов распределяется в зависимости от наличия и типа кольца, а также других структурных характеристик. Сравнение этих признаков позволяет увидеть, что для одних вариантов токсичность является преобладающей, тогда как для других — встречается значительно реже, что подчёркивает неоднородность риска и необходимость учитывать совокупность признаков, а не один изолированный параметр.

Original size 1373x524

Из выборки были выделены отдельные признаки, связанные с физическими характеристиками гриба: наличие синяков, тип кольца и цвет спор. Для каждого признака данные были разделены на две группы — съедобные и ядовитые грибы — и агрегированы по количеству наблюдений.

Сначала данные были отфильтрованы по каждому признаку и подсчитано число съедобных и ядовитых экземпляров. Затем для каждого признака построена отдельная круговая диаграмма, где доли отражают относительное соотношение классов внутри группы. Для унификации восприятия применена единая цветовая схема и тёмный фон, а диаграммы размещены рядом в формате small multiples.

Original size 1473x742

Если пахнет — лучше не рисковать

Если внешний вид гриба, в частности цвет шляпки, не позволяет надёжно оценить риск, следующим шагом становится поиск признаков, которые связаны с токсичностью более непосредственно. Один из таких признаков — запах, так как он отражает химические свойства гриба, а не только его визуальные характеристики. Поэтому далее рассмотрено, как тип запаха соотносится с долей ядовитых грибов в выборке.

Original size 989x589

Для каждого типа запаха рассчитывается доля ядовитых грибов как среднее значение бинарного признака класса. Полученный ряд сортируется по уровню риска, что позволяет выстроить категории от наименее к наиболее опасным.

Далее настраивается визуальный стиль (тёмный фон, выбранный шрифт, размеры фигуры) и строится горизонтальная столбчатая диаграмма (barh), где длина каждого столбца отражает долю ядовитых грибов. В финале добавляются заголовок, подпись оси, ограничения шкалы и выполняется компоновка, обеспечивающая читаемость и акцент на сравнении уровней риска.

Original size 1473x742

Место имеет значение

Анализ отдельных признаков — внешних, обонятельных и морфологических — показывает, что токсичность гриба не определяется одним параметром и проявляется по-разному в зависимости от его свойств. Логичным следующим шагом становится переход от характеристик самого гриба к контексту, в котором он растёт.

Original size 690x490

Финальная диаграмма рассматривает среду произрастания как совокупный фактор риска и ранжирует различные типы сред по доле ядовитых грибов. Это позволяет увидеть, что уровень потенциальной опасности существенно различается между средами и что место произрастания является важным элементом оценки токсичности наряду с индивидуальными признаками гриба.

Визуализация выполнена с помощью библиотеки matplotlib в виде ранжированной точечной диаграммы с горизонтальными направляющими. Такой формат позволяет наглядно сравнить среды между собой и увидеть градиент риска — от наименее опасных к наиболее рискованным. Диаграмма завершает анализ, переводя фокус от индивидуальных признаков гриба к контексту его произрастания как значимому фактору токсичности.

Original size 1473x742

ЗАКЛЮЧЕНИЕ

Грибной заговор

Если верить открыткам и детским книгам, грибы — это в основном милые существа в ярких шляпках, которые спокойно растут под берёзами и не представляют особой опасности. Анализ данных показал, что реальность устроена заметно сложнее.

Во-первых, оказалось, что в выборке съедобные и ядовитые грибы представлены почти поровну. Токсичность здесь — не редкое исключение, а вполне распространённое свойство, с которым приходится считаться. Во-вторых, внешний вид, в частности цвет шляпки, практически не помогает надёжно оценить риск: для каждого цвета встречаются как безопасные, так и опасные грибы. Ориентироваться только на визуальные признаки — плохая стратегия.

По-настоящему информативными оказались признаки, связанные с химической природой гриба. Запах оказался одним из самых сильных индикаторов токсичности: для большинства выраженных запахов доля ядовитых грибов близка к максимуму. Морфологические признаки, такие как наличие кольца или синяков, тоже показывают существенные различия между группами, но и они не работают изолированно.

Наконец, анализ среды произрастания показал, что риск сильно зависит от контекста: разные среды заметно различаются по доле ядовитых грибов. Это стало для меня важным открытием — опасность определяется не только самим объектом, но и условиями, в которых он существует.

В итоге этот анализ стал наглядным напоминанием о том, что интуиция и «внешний вид» часто вводят в заблуждение, а реальные закономерности проявляются только при работе с данными. Для меня главным открытием стало то, насколько сильно меняется картина, когда смотришь не на отдельный признак, а на их совокупность — и как быстро рушатся привычные, кажущиеся очевидными представления.

Описание применения генеративной модели

В процессе подготовки визуализаций и описаний использовалась генеративная языковая модель ChatGPT (GPT-5.2, OpenAI). Модель применялась для уточнения синтаксиса кода на Python (matplotlib), подбора вариантов стилизации графиков и редактирования текстовых формулировок.

Решения о том, какие признаки анализировать, какие преобразования применять и какие выводы делать, принимались мной на основе данных и результатов расчётов.

Модель использовалась только для ускорения работы с оформлением и структурой кода/текста.