Microsoft навчить ваш голос розмовляти іншою мовою

Світлина: http://research.microsoft.com

На початку березня дослідницький підрозділ софтверного гіганта Microsoft екзальтував публіку програмним забезпеченням, яке може завчити звучання голосу людини, а потім використовувати його для спілкування мовою, якою людина не розмовляє.

Як повідомляє technologyreview.com, на демонстрації в Редмонді, штат Вашингтон, науковець Microsoft Френк Сунг (Frank Soong) продемонстрував програму, що змогла начитувати текст іспанською, використовуючи голос його керівника, Річарда Рашіда (Richard Rashid), який очолює розробницький напрямок роботи корпорації. Потім Сунг використав своє програмне забезпечення, щоб змусити голос Крега Манді (Craig Mundie), головного директора по розробкам та стратегії, заговорити китайською. За наведеним посиланням можна на власні вуха оцінити, як це вийшло.

"Ми зможемо виконувати декілька сценаріїв", - розповів Сунг, який створив цю систему разом з колегами з Microsoft Research Asia, другої за розміром дослідної лабораторії Microsoft, що знаходиться в Пекіні (Китай). - "Для мандрівника, який володіє лише однією мовою і подорожує за кордоном, ми створимо розпізнання мовлення з перекладом, після чого можна буде отримати кінцевий текст для озвучування іншою мовою, але все одно голосом того, хто говорить."

Ця техніка також може бути використана для допомоги у вивченні іноземних мов, стверджує Сунг, який вважає, що почути іноземні слова власним голосом може слугувати як стимулом для подальших занять, так і прикладом, який буде легше імітувати, щоб самому покращити власну, людську, вимову. Сунг також показав, як його нова система може поліпшити роботу навігаційної програми в телефоні: та рівною англійською зчитувала текст на китайськомовних дороговказах.

Система потребує біля години тренувань, щоб розвинути модель, здатну читати будь-який текст мовою власника. Ця модель перетворюється в іншу, здатну зчитувати текст іншою мовою, порівнюючи її з основною моделлю для цільової мови, яка перетворює текст в мовлення. Окремі звуки, що використовуються першою моделлю, щоб конструювати слова, використовуючи голос людини її рідною мовою, ретельно підлаштовуються, щоб надати новій моделі перетворення тексту на звук повну здатність висловлювати фрази другою мовою.

Продемонстрована технологія вже отримала схвальні відгуки від науковців. Так, Шрікант Нараян (Shrikanth Narayanan), професор університету Південної Каліфорнії (Лос-Анджелес), який очолює дослідницьку групу, що працює над перекладацьким програмним забезпеченням, цілком слушно зауважує: "Слово - це лише один бік того, що говорить людина. Важливо зберігати голос, зберігати інтонацію, і цей проект чітко це розуміє. Нашим системам потрібно ухопити експресію, яку намагаються донести мовці, те, ким вони є, і те, що вони намагаються сказати".


Ще еспресо