Переклад як математична задача векторного простору

Світлина: wikipedia.org

Для того, щоб перекладати з однієї мови на іншу, необхідно вирішити просту задачу: знайти лінійне перетворення, яке відображує одну в другу, - говорить команда інженерів корпорації Google.

Компютерні науки змінюють природу перекладу текстів з однієї мови на іншу. Будь-хто, хто намагався перекласти текст автоматичними засобами, наприклад, за допомогою Google Translate, знає, що подібні сервіси надають суттєву допомогу, проте результат є далеким від ідеального. Основний принцип, на якому ґрунтуються подібні перекладацькі програми, полягає в порівнянні сукупності слів однією мовою з тією ж сукупністю слів, перекладеною іншою мовою. Слова і фрази, які мають однакові статистичні властивості, вважаються еквівалентними.

Проблема полягає в тому, що початкові переклади покладаються на словники, які мають бути складені експертами-людьми, а це вимагає суттєвих зусиль і часу. Тепер, як пише Technologyreview, спеціалісти корпорації Google розробили спосіб, який автоматично генерує словники і таблиці фраз, що перетворюють одну мову в іншу.

Цей новий спосіб не ґрунтується на версіях одного й того самого документа різними мовами, замість цього він використовує методи добування даних (data mining), щоб створювати моделі структури однієї мови, а потім порівнює їх зі структурою іншої мови.

"Цей спосіб робить мало припущень щодо мов, тому його можна використовувати для розширення і удосконалення словників і таблиць перекладу для будь-яких мовних пар," - пояснюють спеціалісти пошукового гіганта.

Новий спосіб доволі прямий. Він ґрунтується на уявленні про те, що кожна мова має описувати подібні множини ідей, тому слова, які роблять це, мають бути подібними. Наприклад, більшість мов мають слова для звичайних тварин, таких як кіт, собака, корова, тощо. І ці слова, ймовірно, використовуються однаково в реченнях  на кшталт  "кіт - тварина менша, ніж собака".

Те саме є вірним і для чисел. Зображення нижче показує векторні представлення числівників від 1 до 5 англійською і іспанською і демонструє подібність між ними.

Відображення числівників англійською і іспанською мовами у вектрному просторі

Ця думка є ключовою. А фокус полягає в тому, щоб представити всю мову, використовуючи взаємозв'язки між цими словами. Множину всіх зв'язків, так званий "мовний простір", можна розглядати як множину векторів, кожен з яких вказує від одного слова на інше. І в останні роки мовознавці знайшли, що ці вектори можна опрацьовувати математично. Наприклад, операція "король" - "чоловік" + "жінка" дає вектор, який подібний до "королеви".

Виявляється, що в такому векторному просторі різні мови мають багато спільного. Це означає, що процес перетворення однієї мови на іншу є еквівалентним знаходженню перетворення, яке переводить один векторний простір в інший.

Це переводить задачу перекладу з лінгвістичної царини в математичну, де вона полягає в знаходженні способу точного перетворення векторних просторів. Для цього спеціалісти Google використовують маленький двомовний словник, складений експертами: порівняння однієї й тієї ж сукупності слів з двох різних мов забезпечує лінійне відображення, яке і вирішує задачу.

Визначивши відображення, використати його для більших мовних просторів є лише справою техніки.

"Незважаючи на простоту, наш спосіб є на диво ефективним: ми можемо досягати точності перекладу між англійською та іспанською мовами, що досягає 90%", - розповідають дослідники.

 Спосіб можна використовувати для розширення і удосконалення існуючих словників і навіть для того, щоб знаходити там помилки. Наприклад, команда Google знайшла численні помилки в англійсько-чеському словнику.

Нарешті, команда, яка працює під керівництвом Томаса Міколова (Tomas Mikolov), відзначає, що позаяк їх метод майже не робить припущень стосовно самих мов, то його можна використовувати і для  мов, які зовсім не пов'язані одна з одною. Тому хоча іспанська і англійська мають спільну індо-європейську історію, дослідники показують, що новий спосіб так само добре працює і для менш споріднених мов, таких як англійська і в'єтнамська.

Це суттєвий крок вперед в майбутнє багатомовного спілкування. Але група дослідників говорить, що це лише початок.


Ще еспресо