
Я выбрала датасет, который содержит информацию о том, на что люди тратят свои деньги, в каком объеме и какие способы оплаты используют. Этот датасет был найден на платформе Kaggle, которая является одним из крупнейших ресурсов для работы с открытыми данными.
Этот датасет привлек мое внимание, потому что понимание того, на что люди тратят свои деньги, дает ценную информацию для анализа потребительских привычек. В условиях экономической неопределенности и изменений в потребительских предпочтениях важно знать, какие товары и услуги становятся более востребованными, а какие теряют популярность. Также можно изучить, какие способы оплаты наиболее распространены, что может быть полезно для разработки маркетинговых стратегий или оптимизации финансовых сервисов. Этот анализ может помочь не только компаниям в принятии решений, но и дать более глубокое понимание того, как распределяются денежные потоки в обществе.
Типы графиков

Этот график позволяет четко увидеть, какие категории расходов наиболее востребованы у пользователей, наглядно демонстрируя их пропорции. Столбцы представляют количество транзакций в каждой категории, с различными цветами для визуального выделения.
Наибольшее количество транзакций зарегистрировано в категории, представленной самым высоким столбцом — продукты. Такой подход помогает проанализировать, на какие категории расходов приходится наибольшая активность пользователей.

В коде мы начинаем с группировки данных по категориям и подсчета количества транзакций для каждой категории: Здесь я использую метод value_counts () для того, чтобы подсчитать количество транзакций для каждой категории расходов. Это помогает нам понять, какие категории расходов встречаются чаще всего в нашем наборе данных.

Далее я строю столбчатую диаграмму, где каждое значение категории отображается с соответствующим количеством транзакций. Я используем метод bar () для рисования столбцов, настраиваю их цвет и ширину, а также разбиваю длинные подписи категорий на строки.
Круговая диаграмма иллюстрирует популярность различных способов оплаты в анализируемых транзакциях. Каждый сектор представляет один способ оплаты, и его размер пропорционален числу использований этого метода.

Я начала с подсчета частоты каждого способа оплаты в столбце «Способ оплаты» с помощью метода value_counts (). Этот шаг позволяет нам понять, сколько раз каждый метод оплаты был использован.

Сначала создаются фигура и оси с заданными размерами (8×8 дюймов) и фоновым цветом. Затем определяются цвета для сегментов диаграммы. Круговая диаграмма строится с помощью метода plot (), где задаются проценты для каждого сегмента с одним десятичным знаком, а также угол начала диаграммы для визуального удобства.
Этот график используется для отображения изменений суммарных трат по месяцам за разные годы, что помогает выявить сезонные тенденции и колебания в расходах. Линейный формат выбран, так как он наглядно показывает динамику изменений, позволяя легко сравнивать разные годы и выявлять тренды.

Анализ данных строился на основе временных рядов, что позволяет выявить динамику изменения расходов по месяцам за несколько лет. Сначала даты транзакций были преобразованы в формат datetime, что позволило выделить год и месяц для дальнейшей группировки данных. Затем расходы суммировались по месяцам и разбивались по годам, создавая таблицу, где столбцы представляют разные годы.

Для визуализации был использован линейный график, так как он наиболее наглядно показывает тренды и сезонные колебания. Разные годы обозначены цветами, что позволяет легко сравнивать изменения. Добавлены маркеры для точек данных, что делает график информативнее.
График отображает топ-10 товаров по общей сумме затрат, позволяя наглядно сравнить их вклад в общие расходы. Такой формат выбран, поскольку он оптимален для категориальных данных с длинными наименованиями, а использование градиентного цвета помогает интуитивно воспринимать разницу в значениях, выделяя наиболее значимые товары.

Данные по транзакциям были сгруппированы по столбцу «Товар», после чего для каждой группы была вычислена общая сумма затрат с помощью df.groupby («Товар»)[«Итого потрачено»].sum (). Затем из всех товаров были отобраны 10 с наибольшими затратами (nlargest (10)), что позволило сосредоточиться на наиболее значимых позициях. Итоговый список отсортирован (sort_values ()) и преобразован в новый DataFrame с обновленными индексами (reset_index ()).

Этот код создает горизонтальную столбчатую диаграмму с градиентной окраской столбцов, где цвет изменяется от серого для минимального значения к оранжевому для максимального. Сначала задается размер графика (12×6 дюймов). Затем рассчитывается градиентная палитра для столбцов на основе линейной интерполяции между двумя цветами. Далее строится сама диаграмма, где товары располагаются по оси Y, а их сумма затрат — по оси X.
Диаграмма рассеяния выбрана, потому что она позволяет визуализировать распределение среднего чека во времени, учитывая различные способы оплаты. Этот формат наглядно демонстрирует, как менялся средний чек в категории «Продукты» в разные года, а также помогает выявить тренды и аномалии. Цветовая дифференциация по способам оплаты позволяет дополнительно анализировать, какие платежные методы ассоциируются с более высокими или низкими средними чеками.

Сначала отбираются транзакции категории «Продукты», чтобы сосредоточиться на анализе этой группы. Затем удаляются строки с пропусками в ключевых столбцах, что предотвращает ошибки и повышает достоверность анализа. Даты переводятся в формат datetime для корректной работы, а средний чек рассчитывается как сумма трат, деленная на количество. Для устранения выбросов удаляются значения выше 99-го процентиля, чтобы исключить редкие, но экстремально высокие покупки, искажающие общую картину.

Создается словарь, связывающий каждый способ оплаты с уникальным цветом. Это делается для того, чтобы на графике можно было легко различить группы данных, относящиеся к разным платежным методам.

Создается диаграмма рассеяния, где ось X отображает даты транзакций, а ось Y — средний чек. Каждая точка соответствует отдельной покупке, а ее цвет указывает на способ оплаты. Такой формат визуализации помогает выявить изменения среднего чека во времени и сравнить разные методы оплаты.
Для лучшей читаемости добавлены подписи осей и заголовок, даты на оси X наклонены, а на оси Y включена пунктирная сетка. Также предусмотрена легенда, которая позволяет определить, какой цвет соответствует каждому способу оплаты.
Блокнот с кодом и датасет
Ссылка на яндекс диск с датасетом и кодом
Ideogram https://ideogram.ai - генерация обложки - генерация цветовой палитры
Chat GPT https://chatgpt.com - копирайтинг текста - помощь в переводе датасета - исправление ошибок в коде