
Описание проекта
На сайте Kaggle в целях исследования был выбран датасет посвящённый анализу роста посевного салата-латука. Датасет включает в себя информации о длительности роста свыше трёх тысяч растений и данные о среде, в которой они произрастали (параметры влажности, температуры, pH, TDS).
Цель анализа — выявить является ли среда, где проходил сбор данных, идеальной для сала-латука или же категорически неподходящей для эффективного выращивания этого растения.
Меня привлёк этот набор данных, т. к. латук — популярное растение, широко используемое в кулинарии. Оно также часто добавляется в качестве дополнительного ингредиента в моих любимых блюдах. Было интересно проанализировать, какие факторы влияют на эффективность роста этой культуры.
Для дальнейшей стилизации инфографики было подобрано референсное изображение.
Все графики выполнены в зелёных оттенках. Тоновое соотношение в диаграммах и гистограммах соответствуют значениям параметров (тёмные — высокие, светлые — низкие).


Референсы-настроение
Анализ
График № 1
Один из первых параметров, который стоит учитывать при выращивании салата-латука — температура среды. На графике ниже представлено, как температура может повилять на длительность роста растения. Для наглядности данные представлены в виде столбчатой диаграммы: таким образом можно сравнить соотношения количества дней роста салата, выращенных в разных температурных диапазонах.
График № 1 и код
Из графика можно сделать вывод, что наибольшее количество дней роста соответствует диапазону температур 25-30 °C, следовательно, этот диапазон плохо подходит для выращивания салата-латука, потому что он отрицательно сказывается на его скорости роста.
График № 2
Стоит помнить, что температура — величина постоянно меняющаяся. Чтобы проследить тенденцию изменения температуры в месте выращивания был построен график плотности.
График плотности часто используют для анализа непрерывных переменных с целью выявления вероятности появления того или иного значения, поэтому он хорошо подходит для анализа такого параметра, как температура.
График № 2 и код
Пик графика находится на 30°C, что указывает на то, что это наиболее вероятное значение температуры в среде, где проводился сбор данных. Это не самые благополучные условия для роста салата-латука, исходя из информации, полученной при помощи первого графика.
График № 3
Проанализируем другие факторы роста. На круговой диаграмме ниже представлено распределение значение pH в процентном соотношении. PH — единица измерения кислотности почвы. Значение pH может отличаться даже в пределах одного огородного участка, поэтому важно понимать то, в какой среде происходил сбор данных и какие значения кислотности почвы в ней можно обнаружить.
Формат круговой диаграммы использован для того, чтобы нагляднее продемонстрировать процентное соотношение наиболее часто встречающихся значений pH.


График № 3 и код
По диаграмме можно определить, что самое распространённое значение кислотности почвы в среде, где проходил сбор данных, — 6.7 pH. Самое редко встречаемое — 6.0 pH.
График № 4
На горизонтальной гистограмме ниже представлена взаимосвязь значений кислотности почвы и количества дней роста салата-латука. Формат гистограммы хорошо демонстрирует соотношения разных величин, горизонтальное расположение было выбрано из-за наличия большого количества сравниваемых категорий, это решение облегчается чтение инфографики.
График № 4 и код
Судя по гистограмме, наибольшее количество дней роста соответствует кислотности 6.8 pH. Эта кислотность отрицательно сказывается на скорости роста салата-латука. Значение pH соответствующее самому быстрому росту салата — 6.4 pH, из графика 3 можно заметить, что этому значению соответствует только 12,3% земли, попавшей в выборку данных.
График № 5
Перед тем, как подводить итог, стоит составить график дающий исчерпывающее представление о факторах влияющих на дни роста салата-латука, включив в него неучтённые параметры (влажность, TSD). Для этого была построена матрица корреляции значений.
Матрица корреляции наибольшим образом подходит для этой задачи, потому что она демонстрирует, как те или иные показатели влияют друг на друга. Например, если корреляция между значениями слаба — параметры практически не взаимосвязаны, отрицательная корреляция обозначает уменьшение одного параметра из-за уменьшения другого, а положительная — увеличение одного параметра из-за увеличения другого. Слабые корреляции в матрице обозначены светлым цветом.
График № 5 и код
По графику, можно определить, что каждый показатель незначительно влияет на количество дней роста. Это означает, что при создании условий для успешного выращивания салата-латука недостаточно выявить и создать лишь одно идеальное условие среды для роста растения, т. к. взаимосвязь между отдельными параметрами среды и количеством дней роста хоть и присутствует, но крайне слаба.
Этот факт стоит помнить в процессе выращивания — эффективнее всего комбинировать благоприятные для растения условия, чтобы увеличить скорость его произрастания, а не изменять лишь отдельные параметры.
Вывод
Салат хоть и неприхотливая культура, но требующая к себе немалого внимания для создания среды, способной ускорить её рост. Даже в средах, специально обустроенных для взращивания салата-латука (в нашем случае, это область, в которой проводился сбор данных), условия среды могут быть далеки от идеальных (это можно понять, например, из графиков под номером 1 и 2). Но всегда стоит учитывать, что эффективнее всего условия работают в комбинации, а не по отдельности.
В рамках исследования можно было бы продолжить анализировать другие параметры среды (влажность, TSD или подобрать датасет с большим количеством параметров, например, тот, в котором учтён световой день). Тем не менее, главный вопрос исследования закрыт — среда, в которой проводили сбор данных, неидеальна (как минимум, по 2 параметрам из 4), но это не означает, что выбранное для исследования место категорически не подходит для эффективного взращивания салата-латука, к чему нас отсылает вывод из графика 5.
Описание применения генеративной модели
В ходе анализа использовалась нейросеть Gemini для исправления ошибок в коде.