Wykorzystanie korpusów rosyjskojęzycznych newsów internetowych na potrzeby systemów automatycznego rozpoznawania mowy w obszarze monitoringu mediów

Daniel Borysowski

doi:10.31261/pr.12741

Opublikowane: 2022-03-14

Nr 1(177) (2022)

Wykorzystanie korpusów rosyjskojęzycznych newsów internetowych na potrzeby systemów automatycznego rozpoznawania mowy w obszarze monitoringu mediów

Daniel Borysowski

Website: http://dborysowski.info

Dział: Artykuły

https://doi.org/10.31261/pr.12741

Abstrakt

Autor artykułu wykorzystał otwarte zasoby korpusowe (NewsRu oraz Taiga), gromadzące newsy internetowe, do stworzenia N-gramowych modeli języka na potrzeby systemów automatycznego rozpoznawania mowy. Modele zostały poddane wszechstronnej ewaluacji (perplexity, word error rate, rozpoznawanie nazw własnych, porównanie z modelem bazowym oraz Google ASR). Autor dokonał także rescoringu modeli N-gramowych, wykorzystując w tym celu rekurencyjne sieci neuronowe. Skuteczność modeli oceniono w drodze rozpoznawania mowy z kanału informacyjnego Россия 24 (przetestowano 37 plików o łącznej długości 1,5 godziny). Dobór danych testowych wiąże się z zasadniczym celem artykułu – rozpoznawaniem mowy na potrzeby tzw. monitorinu mediów.

Słowa kluczowe:

korpus newsów internetowych , modelowanie języka , rozpoznawanie mowy , ASR , monitoring mediów

Pobierz pliki

pdf

Zasady cytowania

Borysowski, D. (2022). Wykorzystanie korpusów rosyjskojęzycznych newsów internetowych na potrzeby systemów automatycznego rozpoznawania mowy w obszarze monitoringu mediów. Przegląd Rusycystyczny, (1(177). https://doi.org/10.31261/pr.12741

Cited by / Share

Bibliografia

Borysowski, Daniel. “Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych.” Prace Językoznawcze 2021, Vol. XXIII/3: 87–104.
Google Scholar

Federico, Marcello, and Bertoldi, Nicola, and Cettolo, Mauro. IRSTLM: an Open Source Toolkit for Handling Large Scale Language Models. Proceedings of Interspeech. Brisbane 2008: 1618–1621.
Google Scholar

James, William. Talks to Teachers on Psychology: And to Students on Some of Life’s Ideals. New York: Holt, 1889.
Google Scholar

Jurafsky, Dan, and Martin, James H. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Third Edition draft, 2021 <https://web.stanford.edu/~jurafsky/slp3/ed3book_sep212021.pdf>.
Google Scholar

Justo, Raquel, and Saz, Oscar, and Miguel, Antonio, and Torres, M.I., and Lleida, Eduardo. “Improving Language Models in Speech-Based Human-Machine Interaction.” International Journal of Advanced Robotic Systems 2013, Vol. 10 (87): 1–11 <https://www.researchgate.net/publication/258225996_Improving_Language_Models_in_Speech-Based_Human-Machine_Interaction>.
Google Scholar

Karpov, Alexey, and Markov, Konstantin, and Kipyatkova, Irina, and Vazhenina, Daria, and Ronzhin, Andrey. “Large vocabulary Russian speech recognition using syntactico-statistical language modeling.” Speech Communication 2013, Vol. 56: 213–228.
Google Scholar

Kipyatkova, Irina and Karpov, Alexey. “Study of Morphological Factors of Factored Language Models for Russian ASR.” Ronzhin, Andrey et al. (eds.). Speech And Computer. Switzerland: Springer, 2014, 451–458.
Google Scholar

Kipyatkova, Irina, and Karpov, Alexey. “Recurrent Neural Network-based Language Modeling for an Automatic Russian Speech Recognition System.” Balandin, Sergey et al. (eds.). Proceedings of AINL-ISMW FRUCT Conference. St. Petersburg, 2015, 33–38.
Google Scholar

Laptev, Aleksandr, and Korostik, Roman, and Svischev, Aleksey, and Andrusenko, Andrei, and Medennikov, Ivan, and Rybin, Sergey. You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation, 2020 <https://arxiv.org/abs/2005.07157v2>.
Google Scholar

Mikolov, Tomas et al. Distributed Representations of Words and Phrases and their Compositionality, 2013 <https://arxiv.org/abs/1310.4546v1>.
Google Scholar

Mikolov, Tomas et al. Efficient Estimation of Word Representations in Vector Space, 2013 <https://arxiv.org/abs/1301.3781v3>.
Google Scholar

O’Shaughnessy, Douglas. “Invited paper: Automatic speech recognition: History, methods and challenges.” Pattern Recognition 2008, 41: 2966–2967 <https://www.sciencedirect.com/science/article/abs/pii/S0031320308001799>.
Google Scholar

Raffel, Collin, and Shazeer, Noam, and Roberts, Adam, and Lee, Katherine, and Narang, Sharan, and Matena, Michael, and Zhou, Yanqi, and Li, Wei, and Liu, Peter J. “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.” Journal of Machine Learning Research 2020, Vol. 21: 1–67.
Google Scholar

Schneider, Steffen, and Baevski, Alexei, and Collobert, Ronan, and Auli, Michael. wav2vec: Unsupervised Pre-training for Speech Recognition, 2019 <https://arxiv.org/abs/1904.05862v4>.
Google Scholar

Shavrina, Tatiana, and Shapovalova, Olga. “To the Methodology of Corpus Construction for Machine Learning: Taiga Syntax Tree Corpus and Parser.” Zakharov, Viktor Pavlovich. Khokhlova, Mariya Vladimirovna (eds.). Proceedings of the International Conference „Corpus Linguistics–2017”. St. Petersburg, 2017, 78–84.
Google Scholar

Tampel', Ivan Borisovich, and Karpov, Aleksey Anatol'yevich. Avtomaticheskoye raspoznavaniye rechi. Uchebnoye posobiye. Sankt-Peterburg: Universitet ITMO, 2017 [Тампель, Иван Борисович, and Карпов, Алексей Анатольевич. Автоматическое распознавание речи. Учебное пособие. Санкт-Петербург: Университет ИТМО, 2017].
Google Scholar

Tampel', Ivan Borisovich. “Avtomaticheskoye raspoznavaniye rechi – osnovnyye etapy 50 za let.” Nauchno-tekhnicheskiy vestnik informatsionnykh tekhnologiy, mekhaniki i optiki 2015, Vol. 15, No. 6: 957–968 [Тампель, Иван Борисович. “Aвтоматическое распознавание речи – основные этапы за 50 лет.” Научно-технический вестник информационных технологий, механики и оптики 2015, Vol. 15, No. 6: 957–968].
Google Scholar

Vaswani, Ashish (et al.). Attention Is All You Need, 2017 <https://arxiv.org/abs/1706.03762v5>.
Google Scholar

Wolf, Thomas (et al.). Transformers: State-of-the-Art Natural Language Processing, 2020 <https://aclanthology.org/2020.emnlp-demos.6.pdf>.
Google Scholar

Yakovenko, Olga, and Bondarenko, Ivan, and Borovikova, Mariya, and Vodolazsky, Daniil. “Algorithms for automatic accentuation and transcription of russian texts in speech recognition systems.” Karpov, Alexey, and Jokisch, Oliver, and Potapova, Rodmonga (eds.). Speech And Computer. Switzerland: Springer, 2018: 768–777.
Google Scholar

Ziółko, Bartosz, and Ziółko, Mariusz. Przetwarzanie mowy. Kraków: Wydawnictwa AGH, 2011.
Google Scholar

Daniel Borysowski

dborysowski@uni.opole.pl
https://orcid.org/0000-0001-6594-9047

Afiliacja:

Uniwersytet Opolski Polska

Biogram

Adiunkt w Katedrze Języków Słowiańskich Instytutu Językoznawstwa na Wydziale Filologicznym Uniwersytetu Opolskiego. Tekstolog i frazeograf, autor lub współautor kilku działów Podręcznego idiomatykonu polsko-rosyjskiego oraz współautor Polsko-rosyjskiego słownika par przekładowych. Autor monografii Teksty zespolone a problemy leksykografii przekłądowej. Od kilku lat zajmuje się zagadnieniam z obszaru korpusologii – przede wszystkim kwestią gromadzenia i przetwarzania danych tekstowych, modelowania języka na potrzeby systemów automatycznego rozpoznawania mowy.

Nr 1(177) (2022)
Opublikowane: 2022-03-14

ISSN: 0137-298X

10.31261/pr

Wydawca

Polskie Towarzystwo Rusycystyczne oraz Wydawnictwo Uniwersytetu Śląskiego

Prześlij tekst

Wykorzystanie korpusów rosyjskojęzycznych newsów internetowych na potrzeby systemów automatycznego rozpoznawania mowy w obszarze monitoringu mediów

Abstrakt

Słowa kluczowe:

Daniel Borysowski

Informacje