
Выбор данных
Я решила провести анализ данных о деятельности школьников и студентов, чтобы выяснить, чем учащиеся занимаются вне учёбы, насколько часто пропускают занятия и как это влияет на их успеваемость. Мне кажется, анализ этих данных поможет создать картину жизни современного обучающегося. Для анализа я использовала датасет с Kaggle.com
Этапы работы
Первым шагом в моём анализе было скачивание базы данных в формате .csv.
Для начала я решила посмотреть на возраст респондентов, чтобы определить, каких данных в датабазе больше — от школьников или от студентов ВУЗов. Для этой задачи я выбрала график типа pie, чтобы наглядно рассмотреть соотношение респондентов всех возрастов.
Для создания графика использовался Google Colab, а для превращения его в тип pie была использована нейросеть Replit.

Из графика понятно, что респонденты старше 18-ти лет в меньшинстве, что значит, что большинство из них — школьники.
Далее я решила посмотреть на соотношение возраста и свободного времени, чтобы выяснить, у больше времени на занятия, не связанные с учёбой — у школьников или у студентов.
Я использовала график вида pie, чтобы наглядно рассмотреть количество респондентов в каждой возрастной категории.
Для этого и всех последующих графиков я выбрала вид basic bar, как так такой вид графика наглядно показывает соотношение двух параметров. График показывает, что свободного времени у студентов (респондентов старше 18 лет) значительно меньше, чем у школьников. Можно предположить, что количество свободного времени напрямую влияет на успеваемость ученика — чем меньше свободного времени, тем усерднее респондент учится. Однако так ли это на самом деле? Студенты, например, могут работать параллельно с учёбой, что будет отнимать у них свободное время и время на учёбу.
Я решила проверить свою гипотезу, сопоставив статистику свободного времени с количеством пересдач (проваленных курсов) у респондентов.
График показывает, что пересдачи не распространены среди респондентов в принципе, а если пересдачи есть, то чаще всего только по одному курсу. Большинство пересдач, тем не менее, происходит респондентов, имеющих больше свободного времени (3 и 4 часа), что значит, что те, у кого времени на внеучебные занятия меньше, на самом деле тратят его в основном на учёбу, а не на подработку или что-либо другое.
Помимо свободного времени, я решила проанализировать посещаемость. Моей целью было выяснить, прогуливают ли респонденты занятия или пропускают их по состоянию здоровья.
По вертикали отмечено количество пропущенных занятий — для лучшей читаемости графика я ограничила их количество до 10. Горизонтальные столбцы обозначают категории состояния здоровья респондентов от 1 до 5, где 5 — самое высокое значение.
График показывает, что в большинстве случаев школьники и студенты, пропустившие занятия — те, чьё состояние лучше всех. Это значит, что большинство респондентов прогуливают занятия, а не пропускают их по причине болезни.
Выводы
Из рассмотренных графиков можно сделать несколько выводов о данных академической занятости школьников и студентов.
Во-первых, количество свободного времени у обучающегося напрямую зависит от того, на какой ступени образования он находится, поскольку у студентов ВУЗов свободного времени гораздо меньше, чем у школьников.
Во-вторых, было рассмотрено распределение времени на учёбу и сторонние занятия. Как оказалось, большинство обучающихся, не имеющих большого количества свободного времени, в основном занимаются учёбой, а не подработкой или иной деятельностью. Это напрямую отражается в успеваемости, поскольку эта категория обучающихся почти не имеет пересдач по каким-либо предметам.
Большинство пересдач приходится на тех респондентов, кто выделяет себе большее количество свободного времени.
Также я выяснила, что большинство пропусков занятий у обучающихся происходит по причинам, не связанным с плохим состоянием здоровья. Следственно, можно предположить, что большинство пропущенных занятий являются прогулами.
Описание применения генеративной модели
В качестве начальных графиков я использовала графики, предложенные Google Colab. Код для создания этих графиков был также предложен Google Colab. Для изменения вида графиков я использовала нейросеть на Replit.com. Промпты состояли из кода, открывающего датасет, и кода, создающего определённый вид графиков из данных. Затем я просила нейросеть превратить исходный вид графика в другой, например график типа heatmap в график типа basic bar. Ссылка: https://replit.com
Также я задавала промпты для того, чтобы вывести определённый параметр на нужную ось графика. Я также предоставляла код, открывающий датасет, и код от Google Colab, создающий график определённого вида, после чего просила нейросеть преобразовать график так, чтобы по оси Y были значения одного параметра, а по оси X — другого.
Для генерации обложки использовалась нейросеть Stable Diffusion XL. Использованный промпт: «school student in pink, purple and blue».
Для стилизации графиков использовалась палитра, сгенерированная случайно с помощью coolors.co. Я выбрала такую палитру, поскольку хотела, чтобы графики были яркими и выделялись на белом фоне. Ссылка на палитру: https://coolors.co/c19ab7-9c95dc-228cdb-0b7189-170a1c
Сами графики создавались с помощью DesignCap. Ссылка: https://www.designcap.com/
Датасет для анализа был взят с Kaggle. Ссылка на датасет: https://www.kaggle.com/datasets/larsen0966/student-performance-data-set?resource=download Блокнот с кодом: https://disk.yandex.ru/d/CZD6CIQ2qt9DUg