Навошта патрэбная сістэма распазнавання беларускага маўлення?

Наяўнасць такой сістэмы дапаможа аўтаматычна атрымаць з запісанай гукавой формы тэксту пісьмовую форму гэтага тэксту.

Напрыклад, журналіст запісвае на дыктафон размову з чалавекам, а пасля праз спецыяльную праграму распазнавання маўлення апрацоўвае гэтыя галасавыя аўдыязапісы ў напісаны тэкст. Журналісту толькі застанецца спраўдзіць атрыманы тэкст, падправіць пунктуацыю і арфаграфію. Яшчэ адзін прыклад: з дапамогай сістэмы распазнавання стане магчымай пабудова сістэм кіравання голасам розных бытавых прыбораў — кіраванне святлом, тэмпературай, мікрахвалёвай печкай, мабільным тэлефонам і інш.

Ці гэта ўжо не зрабіў Google?

У спісе моў, з якімі працуе сістэма распазнавання маўлення Google, няма беларускай.

Што патрэбна, каб зрабіць сістэму распазнавання беларускага маўлення?

Рашэнне праблемы стварэння сістэмы распазнавання дыктаранезалежнага беларускага маўлення патрабуе распрацоўкі спецыяльна размечанага аўдыякорпуса (маўленне з адпаведным яму тэкстам), які мае прадстаўнічы аб’ём гукавых дадзеных і які грунтаваўся б на адпаведных тэкстах, што пакрываюць усе алафоны беларускай мовы. Далей аўдыякорпус перадаецца на перадапрацоўку і на трэніроўку акустычнай мадэлі распазнавання маўлення.

Стварэнне аўдыякорпуса ўключае ў сябе наступныя этапы:

  1. Збор акустычных і тэкставых дадзеных.
  2. Апрацоўка сабраных акустычных і тэкставых дадзеных — экспертная (фактычна ручная) праверка на магчымасць выкарыстання.
  3. Апрацоўка сабраных акустычных і тэкставых дадзеных спецыяльнымі праграмамі.

Што ёсць на дадзены момант?

Для стварэння маўленчых матэрыялаў на базе тэкставых было запрошана 20 дыктараў. З іх 10 мужчын і 10 жанчын. Толькі трое з іх з’яўляліся прафесійнымі дыктарамі або акторамі (2 мужчыны і 1 жанчына). Астатнія не з’яўляліся прафесійнымі дыктарамі або акторамі, а таксама не мелі вопыту ў мастацтве чытання. Дыктары не выбіраліся з пункту гледжання разнастайнасці дыялектаў. Усе тэксты прамаўляліся з захаваннем інтанацыйных асаблівасцей. Усе тэксты прамаўляліся ў асобным кабінеце, спецыяльна абсталяваным для запісу голасу з адсутнасцю знешніх шумоў, але з прысутнасцю натуральнага шумавога фону.

Усе запісаныя голасам тэксты перад тым, як былі адпраўленыя на трэніроўку сістэмы распазнавання маўлення, праходзілі спецыяльную апрацоўку. Яны былі падзеленыя на часткі працягласцю ад 5 да 30 секунд, а потым пераведзеныя ў гукавы wav-фармат. У выніку праведзенай працы мы (Лабараторыя распазнавання і сінтэзу маўлення АІПІ НАН Беларусі) маем фанетыка-акустычную базу агульнай працягласцю каля 8 гадзін агучанага рознымі дыктарамі і спецыяльна апрацаванага тэксту. Гэтая праца заняла прыкладна 3 месяцы.

З увагі на тое, што для добрай якасці распазнавання маўлення патрэбны для трэніроўкі аўдыякорпус не менш за 50 гадзін, а лепш 200-500 гадзін, мы звяртаемся да ахвочых па дапамогу ў стварэнні аўдыякорпуса беларускага маўлення, каб сістэма распазнавання беларускага маўлення была створана ў бліжэйшай перспектыве 1 года, а не за 3-10 год.

Што можа быць выкарыстана з аўдыязапісаў для стварэння аўдыякорпуса?

Для стварэння аўдыякорпуса патрэбныя аўдыязапісы маўлення і адпаведныя тэксты таго, што запісана ў гукавой форме.Напрыклад, падыходзячым для нас матэрыялам можна лічыць тэкст прамовы дакладчыка. Звычайна дакладчык прачытвае ўжо загадзя напісаны тэкст, які перад аўдыторыяй ён прамаўляе голасам. Запісаны аўдыяфайл (голас) і адпаведны тэкставы дакумент (тэкст) — і ёсць аўдыякорпус, які нам падыходзіць. Яшчэ адзін прыклад: тэксты агучак і сама агучка для фільмаў, запісаныя дыктарскія прамовы на радыё, студыйныя запісы аўдыякніг.

Таксама можа быць так, што ёсць толькі запісы маўлення (без адпаведнага тэкставага файла). У такім выпадку запрашаецца спецыяліст, які слухае фанаграму, запісвае яе тэкстам. Такім чынам пераводзіць пачуты галасавы тэкст у напісаны.

Але ёсць і пэўныя абмежаванні па аўдыяматэрыялах.

Што не можа быць выкарыстана з аўдыязапісаў для стварэння аўдыякорпуса?

Амаль усё падыходзіць, калі ёсць беларускае маўленне. У выпадку, калі нешта не падыходзіць — гэта вызначыць эксперт і не прыменіць для трэніроўкі сістэмы. Але нават тыя матэрыялы, якія не могуць быць выкарыстаныя для трэніроўкі сістэмы, могуць выкарыстоўвацца для яе тэставання.

Напрыклад, непадыходзячымі для нас матэрыяламі могуць быць аўдыякнігі з фонавай музыкай. Такія матэрыялы патрэбна збіраць і выкарыстоўваць іх для тэставання дакладнасці працы выніковай сістэмы распазнавання, бо ў рэальным жыцці заўсёды ёсць шумы ці фонавыя гукі.

Ці будуць даступныя мае перададзеныя Вам аўдыя- і тэкставыя дадзеныя любому чалавеку пасля стварэння сістэмы распазнавання маўлення?

Не. Гэтыя дадзеныя выкарыстоўваюцца толькі для трэніроўкі мадэлі сістэмы. Натрэніраваная мадэль уяўляе сабой толькі складаную матэматычную формулу з вялікай колькасцю каэфіцыентаў, якая не змяшчае тэкставых і гукавых дадзеных.

Што будзе з аўтарскімі правамі на мае аўдыядадзеныя з адпаведнымі тэкстамі?

Усе аўтарскія правы застаюцца ў аўтара, як на тэкставыя дадзеныя, так і на гукавыя дадзеныя. Распрацоўшчыкі сістэмы распазнавання маўлення пасля трэніроўкі далей іх не выкарыстоўваюць для перадачы трэцім асобам.

Як будзе выглядаць сістэма распазнавання маўлення? Ці магчыма з ёй ужо азнаёміцца?

Дэма-версія інтэрнэт-сэрвіса «Тэматычнае распазнаванне маўлення» даступная анлайн. Сэрвіс «Тэматычнае распазнаванне маўлення» (мал. 1) дазваляе карыстальніку пераўтварыць маўленне ў электронны тэкст анлайн. На ўваход сэрвісу можа падавацца фанаграма маўленчых слоў тэматычных даменаў памерам не больш за 20 MB, на выхадзе сэрвіс дае распазнаны электронны тэкст фанаграмы. Фанаграма можа быць загружана на сэрвіс з цвёрдага дыску камп’ютара ў фармаце.wav ці запісана праз магчымасці аўдыязапісу сэрвісу. На дадзены момант сэрвіс распазнае беларускамоўнае маўленне наступных тэматычных даменаў: вопратка, гарады, лікі, спантаннае маўленне. Спіс даменаў будзе папаўняцца.

Малюнак 1. Графічны інтэрфейс сэрвісу «Тэматычнае распазнаванне маўлення»

Малюнак 1. Графічны інтэрфейс сэрвісу «Тэматычнае распазнаванне маўлення»

Дэма-версія мабільнай праграмы, якая выкарыстоўвае натрэніраваную мадэль распазнавання маўлення, знаходзіцца на Google Play Market. Пасля запуску праграма адразу запускае модуль распазнавання і апрацоўвае ўваходнае маўленне. Атрыманыя вынікі выводзяцца ў рэальным часе ў выглядзе тэксту распазнаных слоў (малюнак 2). Пры спыненні маўлення праграма спыняе распазнаванне і чакае аднаўлення гукавых сігналаў. Для распазнання можна выбраць адзін з трох даменаў: «адзенне», «лічбы» або «іншае».

Малюнак 2. Вывады вынікаў распазнавання мабільнай праграмы для тэматычнага дамену «Вопратка».

Як паўдзельнічаць, каб дапамагчы стварэнню сістэмы распазнавання беларускага маўлення?

Калі Вы згодныя, то ёсць 3 магчымасці.

1 варыянт. Калі ў Вас ёсць некалькі гукавых і адпаведных тэкставых файлаў, тады іх можна высылаць на электронныя пошты [email protected], [email protected]. У адказ мы дасылаем Вам арыентыровачную дату пачатку трэніроўкі на Вашых дадзеных, упісваем Вашае імя як фундатара праекту і высылаем спасылку на дэма-версію праграмы распазнавання беларускага маўлення ў Інтэрнэце.

2 варыянт. Калі ў Вас ёсць шмат гукавых і адпаведных тэкставых файлаў, тады іх варта высылаць ці прамымі спасылкамі для спампоўкі на электронныя пошты [email protected], [email protected], ці нам варта сустрэцца (кантакты ніжэй), каб скапіраваць Вашы дадзеныя на наш флэш-дыск вялікага памеру. У адказ мы дасылаем Вам арыентыровачную дату пачатку трэніроўкі на Вашых дадзеных, упісваем Вашае імя як фундатара праекту, і высылаем спасылку на дэма-версію праграмы распазнавання беларускага маўлення ў Інтэрнэце.

3 варыянт. Запрашаем Вас начытаць тэкст на беларускай мове памерам 2-3 старонкі, ад Вас спатрэбіцца толькі 1-1,5 гадзіны вольнага часу. Запісы адбываюцца ў зручны для Вас і нас час. Просім выкарыстоўваць кантакты ніжэй.

Аб’яднаны інстытут праблем інфарматыкі Нацыянальнай акадэміі навук Беларусі, Лабараторыя распазнавання і сінтэзу маўлення

г. Мінск, вул. Сурганава, 6, пакой, 422.

Тэлефон: +375 (17) 284-21-26 (спытаць Насту),

Электронныя пошты: [email protected], [email protected]

Клас
0
Панылы сорам
0
Ха-ха
0
Ого
0
Сумна
0
Абуральна
0

Хочаш падзяліцца важнай інфармацыяй ананімна і канфідэнцыйна?