
Введение
В качестве исходных данных был выбран открытый датасет UNESCO Atlas of the World’s Languages in Danger с платформы Kaggle. Этот набор содержит структурированную информацию о языках, находящихся под угрозой исчезновения: их названия, количество носителей, географическое распространение и, что наиболее важно, степень опасности согласно классификации ЮНЕСКО. Она варьируется от «уязвимых» языков до полностью «исчезнувших».
Изучение этого датасета выходит за рамки чисто лингвистического интереса и затрагивает глубокие социальные, исторические и культурные вопросы, ведь язык — это целая система мировоззрения, уникальный способ мышления и восприятия мира. сегодня в мире говорят более чем на 7 000 языков, и более 3 000 из них находятся под угрозой исчезновения. Каждые две недели в мире исчезает один язык. С его уходом безвозвратно теряется часть культурного наследия, традиционных знаний, истории и самобытности целых народов.
Для меня тема языкового разнообразия и исчезновения языков малых народов имеет особую личную значимость. Она заставляет задуматься о ценности каждого культурного кода и о нашей коллективной ответственности за их сохранение.
Оформление графиков
Была подобрана палитра
PALETTE = { «Vulnerable»: «#4CAF50», «Definitely endangered»: «#FFC107», «Severely endangered»: «#FF9800», «Critically endangered»: «#F44336», «Extinct»: «#212121» }
А также подобран шрифт
import matplotlib.pyplot as plt
plt.rcParams.update ({ «font.family»: «DejaVu Sans», «figure.figsize»: (10, 6), «axes.titlesize»: 20, «axes.labelsize»: 12, «xtick.labelsize»: 11, «ytick.labelsize»: 11, «axes.grid»: True, «grid.alpha»: 0.25, «axes.spines.top»: False, «axes.spines.right»: False, })
Анализ данных
Вначале я загрузила данные
import pandas as pd
df = pd.read_csv («data.csv») df.head ()
и запустила первичный анализ данных
df.info ()
Далее я привела колонки таблицы в порядок
df.columns = ( df.columns .str.strip () .str.lower () .str.replace (» «, „_“) )
df.columns
и очистила все пропуски
(df.isna ().mean () .sort_values (ascending=False))
График 1
Вначале я решила изучить степень исчезновения языков и сделала соотвествующий график
Далее для объясняющий визуализации я показала наибольшее и наименьшие значения
Распределение языков по степеням исчезновения показывает, что наибольшее число языков находится в категории Definitely endangered, то есть уже испытывает устойчивое снижение числа носителей. При этом сравнительно небольшое количество языков относится к категории Extinct, что указывает на критически важное «окно возможностей»: значительная часть языков ещё может быть сохранена при своевременных мерах поддержки.
График 2
Изучающий график, который показывает географические исчезновение языков
Объясняющий график
Географическое распределение исчезающих языков показывает, что наибольшая концентрация языков под угрозой наблюдается в тропических и субтропических регионах, особенно в зонах Южной и Юго-Восточной Азии, Африки и Америки. Критически исчезающие языки, как правило, представлены небольшими и географически локализованными сообществами, что подчёркивает связь между языковым разнообразием, численностью носителей и региональной изоляцией.
График 3
Изучающий график, который показывает ранжирование стран по числу исчезающий языков
Объясняющий график
Линейное ранжирование стран показывает резкий отрыв Соединённых Штатов Америки от остальных стран по числу исчезающих языков. Далее значения возрастают более плавно, что указывает на неравномерное распределение языкового риска: основная нагрузка по сохранению языкового разнообразия сосредоточена в ограниченном числе стран.
График 4
Изучающий график, который показывает количество языков и их носителей
Объясняющий график
Накопительная кривая показывает, что при пороге около 10 000 носителей достигается большая часть распределения языков: значительная доля языков мира используется сообществами меньшего размера. Это означает, что для большинства языков даже умеренное сокращение числа говорящих может привести к переходу в зону высокого риска исчезновения.
Вывод
В ходе анализа было показано, что языковое разнообразие мира находится под серьёзной угрозой: большинство языков используется небольшими сообществами и уже находится на разных стадиях исчезновения. Языки под угрозой концентрируются в определённых регионах и странах, а ключевым фактором уязвимости выступает малое число носителей. Полученные результаты подчёркивают важность своевременных мер по сохранению языков до перехода в необратимые стадии утраты.