У тэстах адначасовыя выступы двух і трох чалавек, былі падзеленыя з дакладнасцю да 90 і 80 адсоткаў адпаведна, што кампанія лічыць вялікім дасягненнем. Новая тэхналогія, якая была рэалізаваная пры дапамозе запатэнтаванага Mitsubishi Electric метадам Deep Clustering на аснове штучнага інтэлекту, як чакаецца, будзе спрыяць больш якаснай галасавой сувязі і больш дакладнаму аўтаматычнаму распазнаванню гаворкі.

У выпадку з двума адначасовымі спікерамі, дакладнасць перавысіла 90%, што больш чым дастаткова для якаснай працы гэтай тэхналогіі, асабліва ў параўнанні з дакладнасцю 51%, якая была дасягнутая раней з выкарыстаннем традыцыйнай тэхналогіі.

Новая тэхналогія здольная адрозніваць нават спалучэнні некалькіх найбольш распаўсюджаных моваў, а таксама галасы мужчын, жанчын і дзяцей.

Прыведзеныя вышэй вынікі заснаваныя на ідэальных умовах запісу, у тым ліку пры нізкім ўзроўнем шуму навакольнага асяроддзя і прыкладна аднолькавай гучнасцю галасоў спікераў.

Тэхналогія Deep Clustering выкарыстоўвае уласны метад Mitsubishi Electric, каб даведацца, як кадаваць кампаненты сігналу зыходных маўленчых дадзеных некалькіх людзей, так што кампаненты сігналу, якія адносяцца да кожнага асобнага чалавека, можна лёгка адрозніць па іх кадзіроўцы.

Па словах аўтараў праекту Энтані Ветра і Ёхеі Окато, у большасці сістэм задача падзелу галасоў вырашаецца пры дапамозе ўстаноўкі двух або большай колькасці мікрафонаў, але ў выпадку выкарыстання ўсяго аднаго мікрафона, з задачай падзелу голасу можа справіцца толькі штучны інтэлект. 

Выкарыстоўваць гэтую тэхналогію можна там, дзе патрабуецца высокая дакладнасць распазнавання галасавых паведамленняў, напрыклад, у сістэмах галасавога кіравання аўтамабілямі, ліфтамі, бытавымі і іншымі электроннымі прыладамі.

Клас
0
Панылы сорам
0
Ха-ха
0
Ого
0
Сумна
0
Абуральна
0

Хочаш падзяліцца важнай інфармацыяй ананімна і канфідэнцыйна?