30.07.2017 / 20:57

Бесплатная онлайн-платформа Corpus.by позволяет проверить правописание и озвучить текст на белорусском языке 24

Мы много говорили о первом белорусском орфоэпическом словаре, но не рассказали самое главное — благодаря чему он появился.

Большинство работы за людей выполнила машина, которая автоматически сгенерировала транскрипцию 117 тысяч белорусских слов с точностью 98%. А разработали машину специалисты Лаборатории распознавания и синтеза речи Объединенного института проблем информатики Национальной Академии наук.

Уже давно работает совершенно бесплатная онлайн-платформа для обработки текстовой и звуковой информации Corpus.by. На ней собраны десятки сервисов, которые помогают в изучении белорусского языка и не только. Создали ее сотрудники лаборатории. Пять лет назад здесь было всего три сервиса. Зато сегодня сервисов более 40. На разработку некоторых пошло полдня, на другие — месяцы и годы.

Возможностей много: хотите — генерируйте транскрипции, хотите — запускайте сервис «говорящая голова» и смотрите на человека, который озвучивает то, что вы попросите. Можно проверить правописание, разделить слова на слоги, упорядочить слова по алфавиту или (чтобы вы уже точно убедились в разнообразии ресурса) конвертировать текст в код Морзе.

Особенно полезный сервис — «озвученный электронный грамматический словарь». Здесь можно проверить написание любого белорусского слова по всем имеющимся словарям и прослушать, как оно звучит в исполнении синтезатора речи.

Осторожно — сайт засасывает!

Для удобства сервисы разделены по секциям: «Вычитка», «Писатель», «Лингвист», «Программист» и «Разное». Планируется, что позже появятся отдельные секции для медиков, библиотекарей и физиков. То есть для каждой профессии предусмотрен свой набор инструментов.

Как Corpus.by связан с орфоэпическим словарем

Когда в Лабораторию распознавания и синтеза речи обратилась Валентина Русак с просьбой помочь в разработке орфоэпического словаря, программисты придумали техническое решение, благодаря которому удалось сэкономить не один год работы.

«Все началось с того, что наша лаборатория разработала автоматическую систему синтеза речи и выложила ее в интернет для свободного пользования, — рассказывает заведующий лабораторией Юрий Гецевич. — Качество сгенерированной речи не идеальна, но разобрать слова можно. Синтезатор обычно используется, чтобы показать студентам и преподавателям, как в принципе любой белорусскоязычный текст может превратиться из последовательности электронных символов сначала в орфографический текст, а потом — в фонетический, который в итоге проговаривает машина. Это очень важно понимать, когда строишь человеко-машинный интерфейс».

Юрий Гецевич. Фото: movananova.by

Генератор работает не с записанными словами, а с записанными отдельными звуками.

«Когда я выполнял лабораторную в университете в рамках курса, который вел Юрий Гецевич, мы работали где-то с 80 звуками, — вспоминает младший научный сотрудник лаборатории Станислав Лысый. — Это было интересно, мы синтезировали различные тексты, но не могли потом понять озвучку. Тогда подходил Юрий и говорил: «Да, ну, это из «Колосьев» [«Колосья под серпом твоим» Короткевича — НН]. Он был уже опытный и хорошо понимал машину. Конечно, 80 звуков — это одно. А тысячи, которые мы имеем сейчас, — совсем другое».

Принцип работы синтезатора речи впоследствии использовали для автоматической генерации транскрипции слов. Станислав Лысый создал для этого отдельный сервис — «Генератор орфоэпического словаря». Сначала его тестировали лингвисты, они фиксировали ошибки и передавали в лабораторию на исправление. В результате сервис научился генерировать транскрипцию почти безупречно.

«Нам удалось добиться этих 98% благодаря нескольким сотням правил, которые прописали Борис Лобанов, Лилия Цырульник, Дмитрий Покладок и скорректировали Елена Гюнтер, Евгения Зеновко, Юрий Гецевич и я. Простите, если не всех разработчиков правил — сотрудников нашей лаборатории — вспомнил. Чем более узкое правило, тем сложнее его добавить. Взять то же «г» взрывное. Пришлось ломать голову на тем, как его включить, чтобы не поломать все остальное», — добавляет Станислав Лысый.

Станислав Лысый.

Один из самых тщательно разработанных сервисов — «Проверка правописания». «Сервис пока что не проявляет интеллект, не находит смысловые ошибки. Например, если в слове есть ошибка, но из-за нее образуется новое слово, которое уже существует, такую ошибку сервис не увидит. Если же слово не встречается ни в одном словаре, программа обязательно покажет это, — объясняет Станислав Лысый. — Бывает, человек вставляет латинскую букву «i» вместо белорусской, и потом ни одна компьютерная программа это слово не понимает. Однажды мы даже отыскали слово «арахіс», написанное полностью английскими буквами. Программа дает возможность увидеть все смешанные написания».

Станислав добавляет, что сервисы Corpus.by постоянно улучшаются.

«Мы сразу видим активность пользователя и направляем усилия в развитие того, что ему нужно», — объясняет Станислав Лысый.

Сотрудники лаборатории призывают пользователей заходить на интернет-ресурс Corpus.by и знакомиться с сервисами, почти каждый из которых имеет подробное описание. А также включаться в их совершенствование и сообщать о тех вещах, которые можно улучшить, а также об ошибках, которые следует исправить.

Настасья Ровдо

2
спадар / Ответить
28.07.2017 / 13:04
Файная праца, скарыстаемся.
1
Lilia / Ответить
28.07.2017 / 13:32
Не ведае слова "чылі" ў сэнсе перац чылі. Або я нечага не зразумела. Тэсціла праверку правапісу. 
1
+ / Ответить
28.07.2017 / 13:36
Вельмi добра!
Ёсць яшчэ i такi корпус http://bnkorpus.info/, менш зручны, але ж
Показать все комментарии/ 24 /
Чтобы оставить комментарий, пожалуйста, активируйте JavaScript в настройках своего браузера