
Введение

Датасет о грибах был найден случайно на сайте Kaggle (kaggle.com), однако сразу заинтересовал меня. Я люблю есть грибы, но редко их собираю, и в лесу вряд ли смогу точно определить, какой гриб передо мной. Поэтому мне стало интересно проанализировать данный датасет и выяснить, есть ли у грибов какие-то очевидные визуальные признаки, которые подскажут, можно ли их собрать.
Виды графиков: 1. Круговая диаграмма 2. Две круговых диаграммы 3. Точечная диаграмма 4. Столбчатая диаграмма 5. Столбчатая диаграмма
Я постаралась подобрать такие типы диаграмм, чтобы данные были представлены наиболее наглядно и я наиболее эффективным образом пришла к выводам в своем небольшом личном исследовании.
Этапы работы
Когда я нашла подходящий датасет, мне нужно было пробежать его глазами, чтобы понять, какие признаки там рассматриваются. Для этого я открыла scv файл и перевела данные в табличную форму, разбив по разделителю. Мне приглянулись следующие столбцы: «class» (основной, указывающий на съедобность), «cap-shape», «does-bruise-or-bleed», «stem-width», «cap-diameter», «cap-color». После чего я отправилась в Google Colab. В начале работы я импортировала нужные мне библиотеки (и далее в начале каждой ячейки импортировала нужные для данной диаграммы библиотеки, мне так было удобнее), вот все использованные: pandas, matplotlib.pyplot, seaborn, numpy, colorsys. Также момент, который я выяснила с помощью Chat GPT, чтобы без проблем читать файл в гугл Колаб, нужно добавить его на гугл диск, а затем импортировать диск в гугл Колаб и считать нужный путь.

Иногда задавая вопросы Chat GPT (все промпты можно посмотреть в прикрепленном файле), я писала код для моих пяти графиков. Наиболее интересной мне показалась работа над пятым графиком, потому что там я редактирую цвета прямо в программе с библиотекой colorsys.
Параллельно я думала над дизайном для проекта. Вдохновляясь эстетикой Cottagecore, которая, как мне кажется, очень соответствует грибной теме, я выбрала следующую палитру:
После того, как каркас для графиков в Гугл Колаб был готов, я улучшала их качество нейросетью X-Design и дополнительно обрабатывала в Photoshop.
Визуализация данных
Чтобы понять общую картину и с камим количеством грибов мы имеем дело, я сделала данную круговую диаграмму. Теперь мы знаем объем датасета — более 60000 грибов, а также тот факт, что ядовитых грибов существует (согласно данному датасету) меньше, чем съедобных.
Одним из первых меня заинтересовал параметр посинения при повреждении. Звучит не очень приятно, поэтому мне захотелось узнать, влияет ли оно на опасность гриба на самом деле. Оказалось, что это не может быть признаком, определяющим съедобность гриба. Синеющих грибов хоть и меньше, чем не синеющих, в обоих случаях съедобных и несъедобных грибов пропорционально практически равное количество.
Далее мне стало интересно узнать, влияет ли размер гриба на ядовитость. И, согласно точечному графику, некоторая корреляция действительно есть. Можно сказать, чем толще ножка и шире шляпка, тем вероятнее гриб съедобен. Так, от 40 сантиметров диаметра шляпки и/или 60 сантиметров толщины ножки, мы встречаем исключительно съедобные грибы. Однако до 30 сантиметров диаметра шляпки и 60 сантиметров толщины ножки эта зависимость не работает. Съедобные грибы встречаются так же часто, как несъедобные. А именно в данной размерной группе сосредоточены наиболее распространенные и часто употребляемые в пищу виды грибов.
Исходя из данной столбчатой диаграммы, мы можем сделать вывод, что грибной мир очень разнообразен и разные формы шляпки могут встречаться у разных классов грибов. Самый распространенный вид шляпки среди и съедобных, и несъедобных — выпуклый. Шаровидная шляпка — единственная, которая встречается чуть чаще у ядовитых грибов. Колокольчатая, например, встречается чаще среди неядовитых. Однако даже если шанс ошибиться небольшой, когда дело качается грибов, даже одна ошибка может обойтись очень дорого. Поэтому можно сделать вывод, что по форме шляпки определить съедобность гриба все так же невозможно.
Напоследок мне захотелось исследовать зависимость съедобности и цвета шляпки гриба. Ведь в природе обычно более яркие растения и животные ядовитые. Таким примером в грибном мире может быть, например, мухомор. Я предположила, что среди несъедобных чаще встречаются грибы именно ярких цветов. Однако моя гипотеза не подтвердилась. Самым распространенным цветом среди и съедобных, и несъедобных оказался коричневый. Яркие цвета, такие как красный, оранжевый, розовый, зеленый, фиолетовый действительно встречаются среди несъедобных грибов чаще, однако они все так же не могут быть значительным фактором по распознанию опасности гриба.
Заключение
Таким образом, не зная, какой конкретно гриб находится перед собирателем, невозможно по какому-либо визуальному признаку определить, съедобный он или нет. Хотя существует небольшая корреляция признаков, например, очень крупный гриб, вероятно, окажется съедобным, также с более высоким шансом гриб с колокольчатой шляпкой будет неядовитым, а гриб с шаровидной шляпкой лучше не брать, как и например, зеленый или красный — вероятность, что они ядовитые выше. Но даже в таких случаях можно ошибиться. И вы либо упустите деликатес, либо пострадаете, ведь грибы ошибок не прощают. Уверенным можно быть только в простой истине: нельзя собирать незнакомые грибы.
Описание применения искусственного интеллекта
Chat-GPT 4.0 Помог мне на первых этапах с кодом, прояснял некоторые моменты, помогал с улучшением кода, находил и исправлял мелкие ошибки.
Leonardo AI Генерация обложки
Recraft AI Генерация трех горизонтальных изображений
X-design. Image Enhancer Улучшение качества графиков