Концепция
Аниме как жанр зародилось ещё в середине прошлого столетия. С тех пор индустрия много развивалась: менялся стиль и подача, создавались аниме разнообразной серьёзности и драматичности. В настоящее время вокруг японских мультиков сформировалось огромное комьюнити, в которое входят не только дети и подростки, но и множество взрослых состоятельных людей. Аниме стало целым культурным феноменом и завоевало сердца миллионов зрителей.
В своем анализе я использовал… . Датасет содержит в себе данные… .
Для визуализации данных я выбрал круговую диаграмму (хорошо показывает соотношение типов аниме по количеству тайтлов), гистограмму (показывает разницу в количестве аниме с разным количеством серий), столбчатую диаграмму (зависимость рейтинга от типа аниме) и тепловую карту (…).
Обработка данных
Для начала я импортировала необходимые мне библиотеки: pandas, matplotlib.pyplot и seaborn. После чего считал скачанный csv-файл датасета.
Далее приступил к подготовке данных для круговой диаграммы. Переменную tupe использовал для информации о типе аниме
Далее обработал данные для гистограммы. Использовал метод drop () для удаления строк из датафрейма df, где значение в столбце episodes равно 'Unknown'. Сначала выбрал все такие строки df[df['episodes']=='Unknown'], затем получил их индексы с помощью .index. В последней строке кода создал новый датафрейм, в котором рассматривал только те значения episodes, которые меньше 99-го процентиля (ql) и не равны 1. Для этого используется логическое И (оператор &), чтобы объединить два условия: df['episodes'] < ql и df['episodes'] ≠ 1.
Группирую исходный датафрейм df по столбцу type. Вычислил среднее значение (mean) для столбца rating в каждой группе. Потом сбросил индексы с помощью reset_index (), чтобы получить аккуратный датафрейм, где каждая группа представлена отдельной строкой. После использовал библиотеку Seaborn для визуализации данных.
Создал новый датафрейм, который включает только три столбца из исходного датафрейма df: members, rating и episodes. Метод corr () вычисляет матрицу корреляций между столбцами указанного датафрейма. Здесь использую sns.heatmap () для создания визуализации матрицы корреляций: — square=True: Этот параметр заставляет каждую ячейку матрицы корреляций выглядеть квадратной, что делает визуализацию более симметричной и аккуратной. — linecolor='black': Параметр linecolor задает цвет линий, разделяющих ячейки тепловой карты. В данном случае мы используем черный цвет для четкого разделения. — cmap="RdBu»: Параметр cmap задает цветовую палитру для тепловой карты. Палитра RdBu представляет собой градиент от красного (низкие значения) до синего (высокие значения), что позволяет по цвету интуитивно понять уровень корреляции.
Визуализация данных
Видно, что больше всего ТВ аниме.
Гистограмма. Соотношение количества аниме и количества эпизодов
На гистограмме можно заметить несколько характерных пиков: 2-3, ~12, ~24.
Столбчатая диаграмма. Рейтинг от типа аниме
Можно понять, что самый большой рейтинг у ТВ аниме.
Матрица корреляций



