
Описание
Для своего проекта я анализировала данные, связанные с результатами ОГЭ. Источником информации послужили материалы с сайта inf-oge.sdamgia.ru, а именно демонстрационная версия ОГЭ, тип задания 14 (№ 10566). Точного датасета в открытом виде не было, поэтому данные были сформированы на основе представленной информации.
ОГЭ является обязательной частью школьной жизни каждого ученика. Поскольку многие из моего окружения, а также я сама, проходили через эти экзамены, мне стало интересно проанализировать результаты и посмотреть, как они распределяются по округам.
Данные были представлены в табличном формате и обработаны с помощью языка программирования Python и библиотеки Pandas, что позволило удобно структурировать информацию и провести анализ.
В ходе проекта я использовала несколько видов визуализации данных, которые помогли сравнить средние баллы по округам, показать долю округов в общей структуре данных, позволил проанализировать разброс и вариативность значений и наглядно отразить распределение средних баллов.
Использованные статистические методы
1. df.describe ()
Назначение: Выводит основные описательные статистики для числовых столбцов
Что показывает: count (количество), mean (среднее), std (стандартное отклонение), min, 25%, 50%, 75%, max
Применение: Анализ распределения баллов учеников
2. df.groupby ()
Назначение: Группировка данных по указанным столбцам
Применение: df.groupby ('округ')['балл'].mean () — средний балл по округам df.groupby ('предмет')['балл'].median () — медиана баллов по предметам
3. df.value_counts ()
Назначение: Подсчет частоты уникальных значений в столбце
Применение: df['предмет'].value_counts () — количество учеников по каждому предмету df['округ'].value_counts () — распределение учеников по округам
4. Агрегирующие функции:
df.mean () — среднее арифметическое df.median () — медиана (среднее значение) df.std () — стандартное отклонение df.min () / df.max () — минимальное/максимальное значение df.count () — количество непустых значений
5. df.nunique ()
Назначение: Подсчет количества уникальных значений
Применение: Определение разнообразия данных (сколько уникальных округов, предметов)
6. Методы сортировки:
df.sort_values () — сортировка по значениям столбца nlargest () / nsmallest () — получение n наибольших/наименьших значений
Состав визуализации данных
Визуализация включает 4 графика:
Боксплот (boxplot) — показывает распределение баллов по предметам, включая медиану, квартили и выбросы
Столбчатая диаграмма (bar chart) — отображает средний балл по округам
Круговая диаграмма (pie chart) — показывает распределение учеников по предметам
Горизонтальная гистограмма (horizontal bar chart) — представляет топ-10 округов по среднему баллу
Программа выполняет полный анализ данных: от базовой загрузки и очистки до статистического анализа и визуализации результатов.
Визуализация данных
График 1: Распределение баллов по предметам
Боксплот
Код для графика 1
На боксплоте показано распределение баллов ОГЭ по различным предметам. Видно, что самые высокие значения наблюдаются по информатике и обществознанию, что говорит о более высоких результатах учащихся по этим предметам. Наименьшая медиана у биологии и физкультуры, что может указывать на более низкий средний уровень выполнения работ. Также по всем предметам заметен широкий разброс баллов, что говорит о значительной разнице в результатах учеников.
График 2: Средний балл по округам
Столбчатая диаграмма
Код для графика 2
Столбчатая диаграмма показывает средний балл ОГЭ по административным округам Москвы. Видно, что средние результаты различаются незначительно, однако наиболее высокие значения наблюдаются в Северном и Северо-Восточном округах, а более низкие — в Восточном округе. Такая диаграмма позволяет сравнить уровень успеваемости учащихся между округами и выявить общие различия в результатах экзаменов.
График 3: Распределение учеников по предметам
Круговая диаграмма
Код для графика 3
Круговая диаграмма показывает распределение учеников по выбранным предметам ОГЭ. Наибольшая доля учащихся сдает обществознание, физику и физкультуру, каждая из которых составляет около четверти от общего числа. Наименьшее количество учеников выбрало информатику, что говорит о ее меньшей популярности по сравнению с другими предметами.
График 4: Топ-10 округов по среднему баллу
Горизонтальная гистограмма
Код для графика 4
Данная гистограмма показывает, что средний балл ОГЭ в топ-10 округах находится в близком диапазоне, что говорит о примерно одинаковом уровне подготовки учащихся. Наивысший средний балл отмечен в Северо-Западном округе, а наименьший — в Восточном, однако разрыв между ними незначителен. В целом результаты экзаменов по округам можно считать стабильными.
Выводы
В ходе анализа данных были сделаны следующие выводы:
Первый график распределения баллов показал разброс оценок по предметам, что позволяет увидеть, по каким дисциплинам результаты более стабильны, а по каким наблюдаются большие различия.
Второй график среднего балла по округам выявил округа-лидеры и округа-аутсайдеры, а также показал, что разница между ними не является критической.
Третья круговая диаграмма отразила популярность предметов среди учащихся и наглядно показала, какие предметы выбираются чаще всего.
Четвертая горизонтальная гистограмма выделила округа с наивысшими показателями среднего балла, что позволило определить лучшие округа по результатам ОГЭ.
В целом использование различных типов графиков помогло наглядно проанализировать данные и сделать обоснованные выводы о результатах экзамена.