Original size 1140x1600

Анализ данных вакансий и зарплат в сфере анализа данных

PROTECT STATUS: not protected
The project is taking part in the competition

Рубрикатор

— Вступление — Визуальный стиль — Работа с датасетом — Визуализация данных — Вывод — Описание применения генеративной модели

Вступление

Для своего анализа данных я выбрала датасет «Jobs and Salaries in Data Science» с сайта Kaggle. Кроме того, что забавно анализировать данные о работе в сфере анализа данных, этот датасет часто использовался в ученических и исследовательских целях, что свидетельствует о высоком качестве базы.

Прочитав основную информацию о базе, я решила сосредоточить внимание на трёх показателях: зарплате, необходимом опыте и местонахождении компаний. Это позволит нам сделать вывод о том, где и какие профессии в сфере анализа данных ценятся больше всего. В исследовании я использую несколько типов графиков: — гистограммы (для распределения значений), — тепловая карта (для выявления корреляций), — карта-хороплет (для распределения зарплат по странам), — линейчатая диаграмма (для распределения нечисловых показателей), — диаграмма размаха (для сопоставления опыта работы и зарплат).

Визуальный стиль

big
Original size 1920x540

Так как тема анализа связана с деньгами и работой, я решила взять спокойные оттенки зелёного цвета. С помощью интенсивности оттенка я подчёркиваю важные данные на графиках. Базовый шрифт Roboto позволяет уводить числовые значения в тень, сосредотачиваясь на считывании визуальных подсказок графика. Для демонстрации кода я использовала сайт Carbon с цветовой схемой Nord, которая больше всего подходила под общий визуальный стиль проекта.

Работа с датасетом

Для начала работы я скачала файл датасета в формате csv. Написание кода происходило в Google Colab.

0

Импорт библиотек и установка шрифта

Я выбрала ручной способ загрузки данных, чтобы иметь возможность менять датасеты на этапе выбора данных.

Original size 1342x336

Когда датасет был окончательно выбран, не было проблем заранее вписать его название

Проверим датасет на наличие пропущенных данных.

Original size 2048x1038
Original size 814x444

Как и предполагалось, датасет собран очень аккуратно, что позволяет нам не тратить много времени на очистку.

Визуализация данных

Гистограммы

Original size 1189x989

Из гистограмм можно сделать вывод о том, что большая часть данных была собрана в 2023 году, а большинство зарплат находятся в диапазоне от 100 до 200 тысяч денежных единиц. При том графики слабо меняются в зависимости от валюты, что объясняется прямой зависимостью показателей (показатель USD получали через перевод валюты).

0

Тепловая карта

Original size 762x681

Матрица корреляций показывает отсутствие зависимостей зарплаты от года сбора данных, что может указывать на стабильную ситуацию на рынке в течение 2020–2023 гг. Далее будем использовать показатель зарплаты в USD.

Original size 2016x778

Карта-хороплет

Original size 1512x600

Больше всего зарплата указана в вакансиях из США.

Original size 2048x1000

Линейчатая диаграмма

Original size 989x690
0

Диаграмма размаха

Original size 871x468

Более тёмным зелёным я выделила ту категорию значений, где было больше всего выбросов. При этом выбросы находятся выше верхней границы зарплат. Значит, с таким уровнем опыта больше шансов получить зарплату выше медианного.

0

Вывод

Наибольшую заработную плату обещают вакансии компаний, расположенных в США. Чаще всего требуется сотрудник на позицию Data Engineer. У соискателей с уровнем опыта Senior больше шансов найти работу с зарплатой выше медианной.

Описание применения генеративной модели

Leonardo.ai + Photoshop — обложка проекта, Chat GPT-4o mini — подсказка основных функций для построения графиков. Gemini 2.5 Flash — встроенный помощник в Google Colab для исправления ошибок кода.