Індекс мовної різноманітності Грінберга

Світлина: flickr.com/photos/orijinal/

Математичні методи є одними із знарядь навіть у такій, здавалось би, гуманітарній дисципліні як лінгвістика. Насправді нічого дивного тут нема: важко було б уявити роботу мовознавців, якби вони не могли використовувати різноманітні статистичні методи і показники, за допомогою яких можна наочно представляти ті чи інші дані. Одним з таких наглядних показників, який дає чисельну оцінку мовної різноманітності певної території, є індекс Грінберга.

Цей показник був введений видатним американським лінгвістом Джозефом Гарольдом Грінбергом в статті "The Measurement of Linguistic Diversity" ("Вимірювання мовної різноманітності"), опублікованій в 1956 році в журналі "Language" Американського лінгвістичного товариства (Linguistic Society of America).

Індекс мовної різноманітності Грінберга вказує, наскільки різноманітною є певна територія (зокрема, країна) в мовному розрізі. Математично він представляє собою ймовірність того, що будь-які дві людини вказаної країни, обрані випадковим чином, матимуть різні рідні мови. Таку ймовірність можна розглядати як міру мовної різноманітності обраної території. Найбільше можливе значення, 1, вказує на повну різноманітність (тобто, в країні не існує двох людей, які б мали одну рідну мову), тоді як найменше можливе значення, 0, вказує на повну відсутність різноманітності (тобто всі люди в країні мають одну рідну мову). Підрахунок індексу різноманітності ґрунтується на кількості носіїв кожної мови у відношенні до загальної кількості населення.

В найпростішій формі індекс мовної різноманітності Грінберга формулюється наступним чином. Загальна ймовірність обрання двох мовців, що розмовляють тією самою мовою, є сумою ймовірностей такої події для кожної окремої мови M, N, O... В свою чергу, для кожної з них, ймовірність складає m2, n2, o2..., де m - це відношення носіїв мови M до загальної кількості населення, n - та сама величина для мови N, і т.д. Віднімаючи вказану загальну суму від 1 (адже нам потрібно знайти різноманітність, а не однорідність), отримуємо кінцеву формулу:

 Індекс мовної різноманітності формула,

де А - це індекс мовної різноманітності, а i послідовно приймає значення m, n, o...

На наведеній нижче інтерактивній мапі, створеній за допомогою ресурсу chartsbin.com, можна наочно побачити мовне різноманіття в різних країнах світу: чим темнішим кольором позначена країна, тим більший в неї індекс Грінберга.

 
Природньо, що країнами з найбільшим мовним різноманіттям в світі виявляються Папуа-Нова Гвінея і Індія, країни, в яких нараховують найбільшу кількість мов. Так, в Індії їх існує понад 400, а в Папуа-Новій Гвінеї - аж понад 800. Втім, в Індонезії мов більше 700, а в Нігерії - більше 500, але ці держави на мапі представлені менш насиченим кольором, навіть у порівнянні з Конго, в якому нараховується "лише" дещо більше 200 мов. Це пояснюється тим, що країни, в яких існує якась панівна мова, якою розмовляє більша частина населення, матимуть значно нижчий індекс Грінберга, навіть якщо і можуть похвалитися порівняльно великою загальною кількістю мов, які існують на її території.

Таблиця, підготовлена журналом The Economist за даними Ethnologue, показує співвідношення кількості мов (вертикальна вісь) і індексу  Грінберга (горизонтальна вісь) для деяких країн.

Співвідношення індексу мовної різноманітності Грінберга і кількості мов для деяких країн

Це добре видно на прикладах Російської Федерації та Сполучених Штатів Америки. На територіях цих країн нараховують, відповідно, біля 100 та 190 різних мов, але через те, що панівне становище займають, відповідно, російська та англійська, вони мають низький і майже однаковий індекс Грінберга - приблизно 3,3 і 3,2.

З іншого боку, Канада, яку за територією можна порівняти як з Росією, так і зі Сполученими Штатами, має майже вдвічі більший індекс мовної різноманітності - приблизно 0,6: хоча на її території лише близько 80 мов (що менше ніж в США, а тим більше, ніж в Росії), англо-французька двомовність наочно впливає на індекс Грінберга.

Для кращого розуміння можна вирахувати індекс мовної різноманітності для України. Невідомо, якими даними щодо України користувалися в Ethnologue, визначаючи індекс мовної різноманітності (за даними цієї організації він складає 0,495), але ми можемо підрахувати його за даними всеукраїнського перепису.

Отже, на час перепису 2001 року, населення України складало 48 457 102 осіб, з яких 67,53% вказали рідною українську, 29,59% - російську, 0,48% - кримськотатарську, 0,34% - угорську, 0,3% - румунську, 0,28% - болгарську, 0,12% - білоруську, 0,11% - вірменську. Частка інших мов поодинці склала менше десятої відсотка, тому для легкості розрахунів цими мовами ми знехтуємо. Використовуючи наведену вище формулу, неважко підрахувати, що індекс мовної різноманітності Грінберга за такими даними  дорівнюватиме:

Розрахунок індексу мовної різноманітності Грінберга для України

Отже, отримали значення, досить близьке до того, що надається на мапі. Різниця пояснюється в першу чергу відмінністю вибірок, адже ми відкинули дані лише про 1,25% людей, які під час перепису рідною мовою вказали мову не з першої вісімки, або ж не визначилися з нею (таких було зафіксовано 0,42%), що дає дуже малу поправку, яка складає менше тисячної. Власне, такий внесок в індекс роблять всі мови, за винятком української і російської, тому їх можна і не враховувати.


Ще еспресо