Opublikowane: 2022-03-14

Wykorzystanie korpusów rosyjskojęzycznych newsów internetowych na potrzeby systemów automatycznego rozpoznawania mowy w obszarze monitoringu mediów

Daniel Borysowski Logo ORCID

Website: http://dborysowski.info

Abstrakt

Autor artykułu wykorzystał otwarte zasoby korpusowe (NewsRu oraz Taiga), gromadzące newsy internetowe, do stworzenia N-gramowych modeli języka na potrzeby systemów automatycznego rozpoznawania mowy. Modele zostały poddane wszechstronnej ewaluacji (perplexity, word error rate, rozpoznawanie nazw własnych, porównanie z modelem bazowym oraz Google ASR). Autor dokonał także rescoringu modeli N-gramowych, wykorzystując w tym celu rekurencyjne sieci neuronowe. Skuteczność modeli oceniono w drodze rozpoznawania mowy z kanału informacyjnego Россия 24 (przetestowano 37 plików o łącznej długości 1,5 godziny). Dobór danych testowych wiąże się z zasadniczym celem artykułu – rozpoznawaniem mowy na potrzeby tzw. monitorinu mediów.

Pobierz pliki

Zasady cytowania

Borysowski, D. (2022). Wykorzystanie korpusów rosyjskojęzycznych newsów internetowych na potrzeby systemów automatycznego rozpoznawania mowy w obszarze monitoringu mediów. Przegląd Rusycystyczny, (1(177). https://doi.org/10.31261/pr.12741

Cited by / Share

Nr 1(177) (2022)
Opublikowane: 2022-03-14


ISSN: 0137-298X

Wydawca
Polskie Towarzystwo Rusycystyczne oraz Wydawnictwo Uniwersytetu Śląskiego

Ta strona używa pliki cookie dla prawidłowego działania, aby korzystać w pełni z portalu należy zaakceptować pliki cookie.