Підкорення Вавилонської вежі: синхронний машинний переклад стає ближчим

Світлина: wikipedia.org

В телевізійному серіалі «Зоряний шлях», який вийшов на екрани США в 60 роках минулого сторіччя, незалежно від того, наскільки далеко в глибини всесвіту залітав зоряний корабель «Ентерпрайз», будь-які інопланетяни, з якими йому доводилось зустрічатись, вільно розмовляли каліфорнійським варіантом англійської мови. Це пояснювалось тим, що капітан Кірк і його команда носили крихітні комп’ютеризовані пристрої - універсальні перекладачі, які могли сканувати мозкові хвилі чужинців і одночасно перетворювали їх ідеї на відповідні англійські слова.

 Це, звичайно, фантастика. Але найкраща наукова фантастика має звичку передвіщати факти. Чимало людей вважають, що пристрої зв’язку з того ж серіалу, які відкривались з характерним клацанням, надихнули дизайнерів на створення формату мобільних телефонів, які назиівають «розкладушками». Стосовно більш серйозних речей, деякі армії та компанії з виробництва військового обладнання працюють над високоенергетичною лазерною зброєю, яка дуже схожа на фазери. В такому випадку, скільки пройде часу, доки автоматичний синхронний переклад стане нормою, а всі ці нудні уроки з вивчення мов в школі проголосять зайвими?

Можливо, не настільки багато, наскільки це хотілося б вчителям мови, перекладачам та іншим людям, які заробляють собі на хліб на взаємному нерозумінні інших. Ряд анонсів, зроблених в минулому році з таких різних джерел, як могутня Microsoft і приватні інвестори, натякають на те, що робочі, хоча ще і не ідеальні, пристрої синхронного перекладу вже знаходяться на відстані простягнутої руки.

Письменник Дуглас Адамс зазначав, що технологія, яка існувала за часів нашого народження, здається звичайною, будь-що, що з’явилося до того, як нам набігло 35, є захоплюючим, а все те, що йде після того, зустрічається нами із підозрою

«Історія медіа-технологічних страшилок»

Влітку 2012 Уілл Паувелл (Will Powell), винахідник з Лондона, продемонстрував систему, яка перекладає з обох сторін розмову між мовцями англійської та іспанської – якщо вони терплячі і говорять повільно. Кожен співрозмовник носить гарнітуру, поєднану з мобільним телефоном, і спеціальні окуляри, які показують переклад подібно до субтитрів в іноземному фільмі.

В листопаді 2012 найбільший оператор мобільного зв’язку в Японії, NTT DoCoMo, впровадив послугу, яка перекладає телефонні розмови між японською і англійською, китайською або корейською. Кожна сторона говорить послідовно, а комп’ютери компанії підслуховують і перекладають слова за лічені секунди. Результат потім озвучується чоловічим або жіночим голосом, в залежності від потреби.

Внесок Microsoft, певно, є найбільш цікавим. Коли Рік Рашід (Rick Rashid), головний директор з досліджень компанії, в жовтні на конференції в Тяньцзині розмовляв англійською, його промова наживо перекладалась мандаринською, спочатку з’являючись в субтитрах на верхніх відео екранах, а потім у вигляді створеного комп’ютером голосу. Найдивнішим було те, що китайська версія промови пана Рашіда повторювала характерні інтонації і манеру вимови його власного голосу.

Que?

Хоча ці три системи є досить різними, кожна стикається з однаковими проблемами. Перше завдання полягає в тому, щоб розпізнати і перевести мовлення в цифрову форму. В минулому програмне забезпечення з розпізнання мовлення розкладало те, що говорилось, на складові звуки, знані як фонеми. В мандаринській мові таких біля 25, в англійській – 40, а в деяких африканських мовах – понад 100. Потім, перед відтворенням початкового слова, для ідентифікації кожної фонеми використовуються статистичні моделі мовлення і ймовірнісний спосіб, який називається моделюванням суміші нормальних розподілень. Ця технологія частіше за все зустрічається в дратівливих сервісах голосової пошти систем телефонних автовідповідачів компаній. Вона прийнятно працює з обмеженим словником, але дозвольте собі щось більш вільне, – і вона помилиться принаймні з одним словом з чотирьох.

Перекладач, показаний паном Рашідом, застосовує декілька удосконалень. Спочатку він намагається розпізнати не окремі фонеми, а їх послідовні трійки, які називають сенонами. В англійській мові їх існує понад 9000. Проте, якщо їх вдається розпізнати, то визначити, частиною якого слова вони є, набагато легше, ніж робити це, починаючи з самих фонем.

Система потребує біля години тренувань, щоб розвинути модель, здатну читати будь-який текст мовою власника. Ця модель перетворюється в іншу, здатну зчитувати текст іншою мовою, порівнюючи її з основною моделлю.

«Microsoft навчить ваш голос розмовляти іншою мовою»

Розпізнавач сенонів від Microsoft покладається на глибокі нейронні мережі, математичні алгоритми, створення яких надихалось прикладом людського мозку. Такі штучні мережі представляють собою частинки програмного забезпечення, що складаються з віртуальних нейронів. Кожен нейрон зважує силу сигналу, що надходить від своїх сусідів, і відправляє вихідні сигнали, які ґрунтуються на них, іншим сусідам, які потім роблять те саме. Таку мережу можна навчити зіставляти вхідний сигнал з вихідним сигналом, змінюючи силу з’єднань між її складовими нейронами.

Одним фактом, який точно відомий про справжній мозок, є те, що нейрони в ньому впорядковані шарами. Глибокі нейронні мережі копіюють це впорядкування. Мережа Microsoft має дев’ять шарів. Нижній шар вивчає ознаки звукових коливань мовлення, які обробляються. Наступний шар вивчає комбінації цих ознак, і так далі, з поступовим виникненням все більш заплутаних взаємозв’язків. Верхній шар робить свій висновок щодо того, який сенон, на його думку, було почуто. Використовуючи записані бібліотеки мовлення з позначенням кожного сенону, скореговані результати можна подавати назад до мережі з метою покращення її роботи.

Дослідники Microsoft стверджують, що їх нейронно-мережевий перекладач робить щонайменше на третину менше помилок, ніж традиційні системи, а в деяких випадках помилки виникають лише на одному слові з восьми. В корпорації Google також почали використовувати глибокі нейронні мережі для розпізнання мовлення (хоча ще не для перекладу) на своїх Android-смартфонах, і стверджують, що зменшили кількість помилок на 20%. Nuance, ще один постачальник сервісів з розпізнання мовлення, повідомляє про схожі удосконалення. Глибокі нейронні мережі можуть бути вибагливими до обчислювальних ресурсів, тому більшість програмного забезпечення з розпізнання мовлення і перекладу (в тому числі від Microsoft, Google і Nuance) працює в хмарі, на потужних онлайн-серверах, доступних також смартфонам і домашнім комп’ютерам.

Quoi?

Втім, розпізнання мовлення, - лише перша частина перекладу. Так само важливим є перетворення того, що було розпізнано, не лише на іноземні слова (що достатньо складно, беручи до уваги розбіжності в значенні, які демонструють всі мови, і той факт, що деякі концепції просто не можна перекласти), але і на іноземні речення. Останні часто мають відмінні правила граматики, а отже відмінний визначений порядок слів. Отже, навіть коли англійські слова в реченні відомі точно, комп’ютеризовані мовні сервіси можуть створювати неприродні або комічно неточні переклади.

Рішення, яке використовує Google для Translate, свого застосування для смартфонів і веб-сервісу, - краудсорсінг. Текст, який потрібно перекласти, порівнюється з мільйонами речень, які вже пройшли через програмне забезпечення, і обираються найбільш доречні. Jibbigo, чиє застосування-перекладач для мандрівників бере свій початок в розробках університету Карнегі-Меллона, працює схожим чином, але також і платить користувачам з країн, що розвиваються, за правки перекладів на їх рідні мови. Навіть при цьому кінцева недовершеність мови може викликати у спеціалістів з машинного перекладу депресію.

Наприклад, хоча телефонний перекладач DoCoMo є легким і швидким у використанні, і не дивлячись на те, що він також використовує нейронну мережу, щось більш складне, ніж люб’язні слова, викликає у нього труднощі. Для того, щоб підтримувати точність, речення потрібно робити короткими, і навіть при цьому слова часто плутаються.

Письменники-фантасти також уявляли і більш віддалених чужинців, які могли спілкуватись англійською або телепатично, або за допомогою універсальних машин перекладу. Обидві ці технології ґрунтуються на припущенні, що наше свідоме мислення є неопрацьованим і не зайнятим мовою, а відтак чисті думки можна перекласти на будь-яку мову, якщо машина знає вірний алгоритм для трансформації думки в слова і синтаксис.

«Ксенолінгвістика і мови іншопланетян, або як порозумітись з прибульцями»

В Microsoft впевнені, що слухачі будуть більш поблажливими до таких помилок, якщо діалог передається власним голосом мовця. Їх нова система може кодувати характерний тембр голосу, аналізуючи приблизно годину його записів. Потім вона синтезує мовлення з подібним розсіянням частот. Система добре спрацювала в Китаї, де комп’ютеризовану (і час від часу невірну) мандаринську мову пана Рашіда зустріли захопленими оплесками.

Втім, універсальний перекладач, який працює виключно в конференційних залах, мав би обмежене використання серед мандрівників, як міжгалактичних, так і лише міжконтинентальних. Перекладач розмов пана Паувелла працюватиме скрізь, де є сигнал мобільного телефону. Мовлення підхвачується гарнітурою і подається на програмне забезпечення з розпізнавання мовлення, що знаходиться на розміщеному неподалік ноутбуці, і текст, який отримується в результаті, надсилається через мобільну мережу на перекладацький сервіс Microsoft.

Однією великою трудністю при перекладі розмов є визначення того, хто розмовляє в даний момент. Система пана Паувелла робить це не намагаючись розпізнавати голоси безпосередньо, а скоріше проводячи розмову, яку вона чує, одночасно через два пристрої розпізнавання. Англійську в іспанську, і іспанську в англійську. Позаяк скоріше за все лише один з виходів матиме хоч якийсь сенс, система може визначати, хто саме говорить. Зробивши це, вона показує переклад в окулярах іншої людини.

На цей час потреба в гарнітурах, хмарних сервісах і проміжному ноутбуці означає, що система одночасного перекладу пана Паувелла є, за великим рахунком, прототипом. Отже, переклад слів одного мовця є більш досконалим. Найбільш витончена технологія наразі належить Jibbigo, якій вдалося втиснути розпізнання мовлення і словник з 40 000 слів для десяти мов в застосування, яке працює на сучасних смартфонах, зовсім не потребуючи з’єднання з Інтернет.

Nani?

Деякі проблеми залишаються. В реальному світі люди розмовляють одночасно, використовують сленг або спілкуються на гомінких вулицях, і все це може збити з пантелику і найкращу систему перекладу. Але, хоча до того, як розмови в стилі «Star Trek» стануть звичними, може пройти ще декілька років, універсальний перекладач все одно, здається, випереджає фазери, транспортні промені і двигуни з викривлення простору в плані переходу з царини наукової фантастики до дійсності.

Джерело: economist.com
Ліцензія: copyright ©

Інші статті

Люксембурзька - мала мова великого князівства
Особливе місце для люксембурзької: місцева мова Великого князівства переживає ренесанс, і уряд поспішає скористатись цим >>>
Про чисті мови і брудні діалекти
Те, чому певний варіант мови стали розглядати стандартом, а його варіанти понизили статусом до «діалекту», є продуктом історії і політики. >>>
Ретороманська - справжня швейцарська мова
Незважаючи на свій cтатус офіційної, зв'язок з Римською імперією і унікальну культуру, ретороманська мова повільно вмирає. >>>
Еускара, мова басків, - найзагадковіша мова Європи
Баскська мова - привід гордості народу басків. Приблизно 700 000 з них, або 35% баскійського населення, розмовляють нею в наш час. >>>
Ступені збереженості мов: класифікація убезпечених і зникаючих мов
Американський філолог Майкл Краус пропонує класифікацію мов за ступенем їх збереженості >>>
Дональд Трамп, Великий мур і іспанська мова
Завдяки Дональду Трампу іспанська мова в Сполучених Штатах несподівано може стати знаряддям непокори. >>>
Хакару: програма захисту зникаючої мови в Перу
Колись в Перу було 84 мови, сьогодні - 47. Після іспанської найвживанішою є кечуа - мова інків. Інші мови постають перед загрозою зникнення. >>>
Збереження мов корінних народів Арктики
Північні мови демонструють унікальний зв'язок із середовищем. Існує причина, чому один з діалектів саамської мови має 318 слів для снігу. >>>
Маньчжурська мова: колишня мова імперії Цін у бортьбі за виживання
Попри зусилля влади в Китаї мову сібо спіткала спільна доля багатьох мов світу: зменшення кількості мовців і перспектива зникнення. >>>
Ісландська мова під загрозою: варіанти майбутнього
Деякі лінгвісти вважають, що існує велика ймовірність, що ісландська мова програє двобій з англійською. >>>