Опубликовано: 2022-03-14

Использование русскоязычных интернет-корпусов новостей для систем автоматического распознавания речи в сфере медиа-мониторинга

Daniel Borysowski Logo ORCID

Website: http://dborysowski.info
Раздел: Artykuły
https://doi.org/10.31261/pr.12741

Аннотация

Автор статьи использовал открытые корпусы NewsRu и Taiga, собирающие тексты интерет-новостей, для создания N-граммных языковых моделей для систем автоматического распознавания речи. Модели подверглись комплексной оценке (perplexity, WER, распознавание имен собственных, сравнение с базовой моделью и Google ASR). Автор использовал также рекурсивные нейронные сети для так называемого рескорина N-граммных моделей. Эффективность моделей оценивалась путем распознавания речи с новостного канала Россия 24 (оценке подверглись 37 файлов общей продолжительностью 1,5 часа). Выбор тестовых данных связан с основной целью статьи – распознаванием речи в рамках так называемого медиа-мониторинга.

Скачать файлы

Правила цитирования

Borysowski, D. (2022). Использование русскоязычных интернет-корпусов новостей для систем автоматического распознавания речи в сфере медиа-мониторинга. Przegląd Rusycystyczny [Русское обозрение], (1(177). https://doi.org/10.31261/pr.12741

Цитируется в / Поделиться

№ 1(177) (2022)
Опубликовано: 2022-03-14


ISSN: 0137-298X
Ikona DOI 10.31261/pr

Издатель
Polskie Towarzystwo Rusycystyczne oraz Wydawnictwo Uniwersytetu Śląskiego

Этот сайт использует файлы cookie для правильной работы. Чтобы воспользоваться всеми функциями портала, примите файлы cookie.