Original size 2480x3500

Языки на грани исчезновения: визуальный анализ данных UNESCO

PROTECT STATUS: not protected
The project is taking part in the competition

Введение

В качестве исходных данных был выбран открытый датасет UNESCO Atlas of the World’s Languages in Danger с платформы Kaggle. Этот набор содержит структурированную информацию о языках, находящихся под угрозой исчезновения: их названия, количество носителей, географическое распространение и, что наиболее важно, степень опасности согласно классификации ЮНЕСКО. Она варьируется от «уязвимых» языков до полностью «исчезнувших».

Изучение этого датасета выходит за рамки чисто лингвистического интереса и затрагивает глубокие социальные, исторические и культурные вопросы, ведь язык — это целая система мировоззрения, уникальный способ мышления и восприятия мира. сегодня в мире говорят более чем на 7 000 языков, и более 3 000 из них находятся под угрозой исчезновения. Каждые две недели в мире исчезает один язык. С его уходом безвозвратно теряется часть культурного наследия, традиционных знаний, истории и самобытности целых народов.

Для меня тема языкового разнообразия и исчезновения языков малых народов имеет особую личную значимость. Она заставляет задуматься о ценности каждого культурного кода и о нашей коллективной ответственности за их сохранение.

Оформление графиков

Была подобрана палитра

PALETTE = { «Vulnerable»: «#4CAF50», «Definitely endangered»: «#FFC107», «Severely endangered»: «#FF9800», «Critically endangered»: «#F44336», «Extinct»: «#212121» }

А также подобран шрифт

import matplotlib.pyplot as plt

plt.rcParams.update ({ «font.family»: «DejaVu Sans», «figure.figsize»: (10, 6), «axes.titlesize»: 20, «axes.labelsize»: 12, «xtick.labelsize»: 11, «ytick.labelsize»: 11, «axes.grid»: True, «grid.alpha»: 0.25, «axes.spines.top»: False, «axes.spines.right»: False, })

Анализ данных

Вначале я загрузила данные

import pandas as pd

df = pd.read_csv («data.csv») df.head ()

и запустила первичный анализ данных

df.info ()

Далее я привела колонки таблицы в порядок

df.columns = ( df.columns .str.strip () .str.lower () .str.replace (» «, „_“) )

df.columns

и очистила все пропуски

(df.isna ().mean () .sort_values (ascending=False))

График 1

Вначале я решила изучить степень исчезновения языков и сделала соотвествующий график

Original size 1130x643

Далее для объясняющий визуализации я показала наибольшее и наименьшие значения

Original size 1130x490

Распределение языков по степеням исчезновения показывает, что наибольшее число языков находится в категории Definitely endangered, то есть уже испытывает устойчивое снижение числа носителей. При этом сравнительно небольшое количество языков относится к категории Extinct, что указывает на критически важное «окно возможностей»: значительная часть языков ещё может быть сохранена при своевременных мерах поддержки.

Original size 1280x658

График 2

Изучающий график, который показывает географические исчезновение языков

Original size 914x506

Объясняющий график

Original size 1189x590

Географическое распределение исчезающих языков показывает, что наибольшая концентрация языков под угрозой наблюдается в тропических и субтропических регионах, особенно в зонах Южной и Юго-Восточной Азии, Африки и Америки. Критически исчезающие языки, как правило, представлены небольшими и географически локализованными сообществами, что подчёркивает связь между языковым разнообразием, численностью носителей и региональной изоляцией.

Original size 1280x1083

График 3

Изучающий график, который показывает ранжирование стран по числу исчезающий языков

Original size 989x490

Объясняющий график

Original size 989x490

Линейное ранжирование стран показывает резкий отрыв Соединённых Штатов Америки от остальных стран по числу исчезающих языков. Далее значения возрастают более плавно, что указывает на неравномерное распределение языкового риска: основная нагрузка по сохранению языкового разнообразия сосредоточена в ограниченном числе стран.

Original size 1280x658

График 4

Изучающий график, который показывает количество языков и их носителей

Original size 1014x489

Объясняющий график

Original size 1014x489

Накопительная кривая показывает, что при пороге около 10 000 носителей достигается большая часть распределения языков: значительная доля языков мира используется сообществами меньшего размера. Это означает, что для большинства языков даже умеренное сокращение числа говорящих может привести к переходу в зону высокого риска исчезновения.

Original size 1280x1044

Вывод

В ходе анализа было показано, что языковое разнообразие мира находится под серьёзной угрозой: большинство языков используется небольшими сообществами и уже находится на разных стадиях исчезновения. Языки под угрозой концентрируются в определённых регионах и странах, а ключевым фактором уязвимости выступает малое число носителей. Полученные результаты подчёркивают важность своевременных мер по сохранению языков до перехода в необратимые стадии утраты.