

ВВЕДЕНИЕ
Выбор данных
В работе использован открытый датасет mushrooms, содержащий описания грибов с бинарной классификацией на съедобные и ядовитые, а также набором признаков, связанных с внешним видом, запахом и средой произрастания.
Мотивация и исследовательский интерес
Интуитивно кажется, что ядовитые грибы — редкое исключение, а риск можно легко оценить по внешнему виду. Меня заинтересовало, насколько это представление соответствует данным. Анализ позволил рассмотреть токсичность не как частный случай, а как системное свойство выборки, распределённое по разным признакам.
Выбор типов графиков и визуальных решений
Для анализа были использованы разные типы графиков, каждый из которых решает свою задачу:
Круговая диаграмма применена для первичного обзора соотношения съедобных и ядовитых грибов. Она наглядно демонстрирует, что доли этих групп сопоставимы, а токсичность не является маргинальным явлением в данных.
Сложенные столбчатые диаграммы использованы для анализа распределений по категориальным признакам (цвет шляпки). Такой формат позволяет одновременно видеть абсолютные значения и внутреннюю структуру каждой категории, показывая, что цвет сам по себе не является надёжным индикатором безопасности.
Горизонтальные столбчатые диаграммы применены для анализа запахов и среды произрастания. Они удобны для сравнения долей и позволяют выстроить категории по уровню риска, превращая визуализацию в инструмент ранжирования.
Набор диаграмм (small multiples) используется для сравнения отдельных признаков (кольцо, синяки, споры), что позволяет избежать перегруженности одного графика и сохранить ясность интерпретации.
Цветовая палитра проекта: #731717, #400D0D, #BF2A2A, #F2F2F2, #0D0D0D
Почему это было для меня важно
Этот проект был важен для меня как упражнение в критическом взгляде на данные и собственные ожидания. Он показывает, что визуальная привлекательность или привычные признаки не гарантируют безопасности, а надёжная оценка риска требует работы с совокупностью факторов.
Кроме того, для меня было принципиально не просто построить графики, а выстроить связный визуально-аналитический рассказ, в котором каждый следующий шаг опирается на предыдущий. В этом смысле проект стал исследованием не только грибов, но и того, как данные могут менять способ мышления и принятия решений.
АНАЛИЗ
Каждый второй — под вопросом
Интуитивно кажется, что ядовитые грибы — редкое исключение. Первый шаг анализа — проверить это предположение на данных, рассматривая грибы как совокупность наблюдений внутри одного датасета.
Диаграмма показывает, что в наборе mushrooms съедобные и ядовитые грибы представлены почти поровну, при этом доля ядовитых немного превышает половину. Это меняет привычное представление о грибах как в целом безопасных и подчёркивает, что токсичность в данных — не маргинальное явление.
Диаграмма была создана с использованием библиотек pandas и matplotlib. Сначала датасет mushrooms был загружен из CSV-файла и агрегирован по признаку класса, разделяющего грибы на съедобные и ядовитые. На основе полученных значений рассчитано процентное соотношение двух групп. Для визуализации выбрана кольцевая диаграмма как наглядный способ показать базовый баланс данных и одновременно разместить поясняющий текст в центре. Построение выполнено с помощью функции pie () с заданной толщиной кольца, тёмным фоном и контрастной цветовой схемой, где красный используется как маркер риска. Проценты и абсолютные значения добавлены непосредственно на диаграмму, чтобы обеспечить быстрое считывание информации без обращения к легенде.
Красивый — не значит съедобный
После общего сравнения съедобных и ядовитых грибов логично посмотреть, связан ли риск с тем, как гриб выглядит. Этот график показывает распределение грибов по цвету шляпки.
Из него видно, что цвет сам по себе почти ничего не гарантирует: для каждого цвета встречаются и съедобные, и ядовитые грибы. Это означает, что ориентироваться только на внешний вид небезопасно и такой признак может вводить в заблуждение.
График помогает понять, что для оценки риска нужны более надёжные признаки, чем просто цвет.
После подготовки данных настраивается визуальный стиль: тёмный фон, выбранный шрифт и размеры графика. Диаграмма строится как сложенная столбчатая: сначала отображаются съедобные грибы, затем поверх них — ядовитые с использованием параметра bottom. В финале добавляются подписи осей, заголовок, поворот подписей категорий и сетка, после чего выполняется финальная компоновка и вывод графика.
Мелкие детали с большими последствиями
Следующая группа диаграмм показывает, как доля ядовитых грибов распределяется в зависимости от наличия и типа кольца, а также других структурных характеристик. Сравнение этих признаков позволяет увидеть, что для одних вариантов токсичность является преобладающей, тогда как для других — встречается значительно реже, что подчёркивает неоднородность риска и необходимость учитывать совокупность признаков, а не один изолированный параметр.
Из выборки были выделены отдельные признаки, связанные с физическими характеристиками гриба: наличие синяков, тип кольца и цвет спор. Для каждого признака данные были разделены на две группы — съедобные и ядовитые грибы — и агрегированы по количеству наблюдений.
Сначала данные были отфильтрованы по каждому признаку и подсчитано число съедобных и ядовитых экземпляров. Затем для каждого признака построена отдельная круговая диаграмма, где доли отражают относительное соотношение классов внутри группы. Для унификации восприятия применена единая цветовая схема и тёмный фон, а диаграммы размещены рядом в формате small multiples.
Если пахнет — лучше не рисковать
Если внешний вид гриба, в частности цвет шляпки, не позволяет надёжно оценить риск, следующим шагом становится поиск признаков, которые связаны с токсичностью более непосредственно. Один из таких признаков — запах, так как он отражает химические свойства гриба, а не только его визуальные характеристики. Поэтому далее рассмотрено, как тип запаха соотносится с долей ядовитых грибов в выборке.
Для каждого типа запаха рассчитывается доля ядовитых грибов как среднее значение бинарного признака класса. Полученный ряд сортируется по уровню риска, что позволяет выстроить категории от наименее к наиболее опасным.
Далее настраивается визуальный стиль (тёмный фон, выбранный шрифт, размеры фигуры) и строится горизонтальная столбчатая диаграмма (barh), где длина каждого столбца отражает долю ядовитых грибов. В финале добавляются заголовок, подпись оси, ограничения шкалы и выполняется компоновка, обеспечивающая читаемость и акцент на сравнении уровней риска.
Место имеет значение
Анализ отдельных признаков — внешних, обонятельных и морфологических — показывает, что токсичность гриба не определяется одним параметром и проявляется по-разному в зависимости от его свойств. Логичным следующим шагом становится переход от характеристик самого гриба к контексту, в котором он растёт.
Финальная диаграмма рассматривает среду произрастания как совокупный фактор риска и ранжирует различные типы сред по доле ядовитых грибов. Это позволяет увидеть, что уровень потенциальной опасности существенно различается между средами и что место произрастания является важным элементом оценки токсичности наряду с индивидуальными признаками гриба.
Визуализация выполнена с помощью библиотеки matplotlib в виде ранжированной точечной диаграммы с горизонтальными направляющими. Такой формат позволяет наглядно сравнить среды между собой и увидеть градиент риска — от наименее опасных к наиболее рискованным. Диаграмма завершает анализ, переводя фокус от индивидуальных признаков гриба к контексту его произрастания как значимому фактору токсичности.
ЗАКЛЮЧЕНИЕ
Грибной заговор
Если верить открыткам и детским книгам, грибы — это в основном милые существа в ярких шляпках, которые спокойно растут под берёзами и не представляют особой опасности. Анализ данных показал, что реальность устроена заметно сложнее.
Во-первых, оказалось, что в выборке съедобные и ядовитые грибы представлены почти поровну. Токсичность здесь — не редкое исключение, а вполне распространённое свойство, с которым приходится считаться. Во-вторых, внешний вид, в частности цвет шляпки, практически не помогает надёжно оценить риск: для каждого цвета встречаются как безопасные, так и опасные грибы. Ориентироваться только на визуальные признаки — плохая стратегия.
По-настоящему информативными оказались признаки, связанные с химической природой гриба. Запах оказался одним из самых сильных индикаторов токсичности: для большинства выраженных запахов доля ядовитых грибов близка к максимуму. Морфологические признаки, такие как наличие кольца или синяков, тоже показывают существенные различия между группами, но и они не работают изолированно.
Наконец, анализ среды произрастания показал, что риск сильно зависит от контекста: разные среды заметно различаются по доле ядовитых грибов. Это стало для меня важным открытием — опасность определяется не только самим объектом, но и условиями, в которых он существует.
В итоге этот анализ стал наглядным напоминанием о том, что интуиция и «внешний вид» часто вводят в заблуждение, а реальные закономерности проявляются только при работе с данными. Для меня главным открытием стало то, насколько сильно меняется картина, когда смотришь не на отдельный признак, а на их совокупность — и как быстро рушатся привычные, кажущиеся очевидными представления.
Описание применения генеративной модели
В процессе подготовки визуализаций и описаний использовалась генеративная языковая модель ChatGPT (GPT-5.2, OpenAI). Модель применялась для уточнения синтаксиса кода на Python (matplotlib), подбора вариантов стилизации графиков и редактирования текстовых формулировок.
Решения о том, какие признаки анализировать, какие преобразования применять и какие выводы делать, принимались мной на основе данных и результатов расчётов.
Модель использовалась только для ускорения работы с оформлением и структурой кода/текста.