Wykorzystanie korpusów rosyjskojęzycznych newsów internetowych na potrzeby systemów automatycznego rozpoznawania mowy w obszarze monitoringu mediów
Abstrakt
Autor artykułu wykorzystał otwarte zasoby korpusowe (NewsRu oraz Taiga), gromadzące newsy internetowe, do stworzenia N-gramowych modeli języka na potrzeby systemów automatycznego rozpoznawania mowy. Modele zostały poddane wszechstronnej ewaluacji (perplexity, word error rate, rozpoznawanie nazw własnych, porównanie z modelem bazowym oraz Google ASR). Autor dokonał także rescoringu modeli N-gramowych, wykorzystując w tym celu rekurencyjne sieci neuronowe. Skuteczność modeli oceniono w drodze rozpoznawania mowy z kanału informacyjnego Россия 24 (przetestowano 37 plików o łącznej długości 1,5 godziny). Dobór danych testowych wiąże się z zasadniczym celem artykułu – rozpoznawaniem mowy na potrzeby tzw. monitorinu mediów.
Słowa kluczowe
korpus newsów internetowych; modelowanie języka; rozpoznawanie mowy; ASR; monitoring mediów
Bibliografia
Borysowski, Daniel. “Web crawling dla celów lingwistycznych. Wybrane aspekty gromadzenia i analizy danych tekstowych na przykładzie rosyjskojęzycznych newsów internetowych.” Prace Językoznawcze 2021, Vol. XXIII/3: 87–104.
Federico, Marcello, and Bertoldi, Nicola, and Cettolo, Mauro. IRSTLM: an Open Source Toolkit for Handling Large Scale Language Models. Proceedings of Interspeech. Brisbane 2008: 1618–1621.
James, William. Talks to Teachers on Psychology: And to Students on Some of Life’s Ideals. New York: Holt, 1889.
Jurafsky, Dan, and Martin, James H. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Third Edition draft, 2021 <https://web.stanford.edu/~jurafsky/slp3/ed3book_sep212021.pdf>.
Justo, Raquel, and Saz, Oscar, and Miguel, Antonio, and Torres, M.I., and Lleida, Eduardo. “Improving Language Models in Speech-Based Human-Machine Interaction.” International Journal of Advanced Robotic Systems 2013, Vol. 10 (87): 1–11 <https://www.researchgate.net/publication/258225996_Improving_Language_Models_in_Speech-Based_Human-Machine_Interaction>.
Karpov, Alexey, and Markov, Konstantin, and Kipyatkova, Irina, and Vazhenina, Daria, and Ronzhin, Andrey. “Large vocabulary Russian speech recognition using syntactico-statistical language modeling.” Speech Communication 2013, Vol. 56: 213–228.
Kipyatkova, Irina and Karpov, Alexey. “Study of Morphological Factors of Factored Language Models for Russian ASR.” Ronzhin, Andrey et al. (eds.). Speech And Computer. Switzerland: Springer, 2014, 451–458.
Kipyatkova, Irina, and Karpov, Alexey. “Recurrent Neural Network-based Language Modeling for an Automatic Russian Speech Recognition System.” Balandin, Sergey et al. (eds.). Proceedings of AINL-ISMW FRUCT Conference. St. Petersburg, 2015, 33–38.
Laptev, Aleksandr, and Korostik, Roman, and Svischev, Aleksey, and Andrusenko, Andrei, and Medennikov, Ivan, and Rybin, Sergey. You Do Not Need More Data: Improving End-To-End Speech Recognition by Text-To-Speech Data Augmentation, 2020 <https://arxiv.org/abs/2005.07157v2>.
Mikolov, Tomas et al. Distributed Representations of Words and Phrases and their Compositionality, 2013 <https://arxiv.org/abs/1310.4546v1>.
Mikolov, Tomas et al. Efficient Estimation of Word Representations in Vector Space, 2013 <https://arxiv.org/abs/1301.3781v3>.
O’Shaughnessy, Douglas. “Invited paper: Automatic speech recognition: History, methods and challenges.” Pattern Recognition 2008, 41: 2966–2967 <https://www.sciencedirect.com/science/article/abs/pii/S0031320308001799>.
Raffel, Collin, and Shazeer, Noam, and Roberts, Adam, and Lee, Katherine, and Narang, Sharan, and Matena, Michael, and Zhou, Yanqi, and Li, Wei, and Liu, Peter J. “Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer.” Journal of Machine Learning Research 2020, Vol. 21: 1–67.
Schneider, Steffen, and Baevski, Alexei, and Collobert, Ronan, and Auli, Michael. wav2vec: Unsupervised Pre-training for Speech Recognition, 2019 <https://arxiv.org/abs/1904.05862v4>.
Shavrina, Tatiana, and Shapovalova, Olga. “To the Methodology of Corpus Construction for Machine Learning: Taiga Syntax Tree Corpus and Parser.” Zakharov, Viktor Pavlovich. Khokhlova, Mariya Vladimirovna (eds.). Proceedings of the International Conference „Corpus Linguistics–2017”. St. Petersburg, 2017, 78–84.
Tampel', Ivan Borisovich, and Karpov, Aleksey Anatol'yevich. Avtomaticheskoye raspoznavaniye rechi. Uchebnoye posobiye. Sankt-Peterburg: Universitet ITMO, 2017 [Тампель, Иван Борисович, and Карпов, Алексей Анатольевич. Автоматическое распознавание речи. Учебное пособие. Санкт-Петербург: Университет ИТМО, 2017].
Tampel', Ivan Borisovich. “Avtomaticheskoye raspoznavaniye rechi – osnovnyye etapy 50 za let.” Nauchno-tekhnicheskiy vestnik informatsionnykh tekhnologiy, mekhaniki i optiki 2015, Vol. 15, No. 6: 957–968 [Тампель, Иван Борисович. “Aвтоматическое распознавание речи – основные этапы за 50 лет.” Научно-технический вестник информационных технологий, механики и оптики 2015, Vol. 15, No. 6: 957–968].
Vaswani, Ashish (et al.). Attention Is All You Need, 2017 <https://arxiv.org/abs/1706.03762v5>.
Wolf, Thomas (et al.). Transformers: State-of-the-Art Natural Language Processing, 2020 <https://aclanthology.org/2020.emnlp-demos.6.pdf>.
Yakovenko, Olga, and Bondarenko, Ivan, and Borovikova, Mariya, and Vodolazsky, Daniil. “Algorithms for automatic accentuation and transcription of russian texts in speech recognition systems.” Karpov, Alexey, and Jokisch, Oliver, and Potapova, Rodmonga (eds.). Speech And Computer. Switzerland: Springer, 2018: 768–777.
Ziółko, Bartosz, and Ziółko, Mariusz. Przetwarzanie mowy. Kraków: Wydawnictwa AGH, 2011.
Uniwersytet Opolski Polska
https://orcid.org/0000-0001-6594-9047
Adiunkt w Katedrze Języków Słowiańskich Instytutu Językoznawstwa na Wydziale Filologicznym Uniwersytetu Opolskiego. Tekstolog i frazeograf, autor lub współautor kilku działów Podręcznego idiomatykonu polsko-rosyjskiego oraz współautor Polsko-rosyjskiego słownika par przekładowych. Autor monografii Teksty zespolone a problemy leksykografii przekłądowej. Od kilku lat zajmuje się zagadnieniam z obszaru korpusologii – przede wszystkim kwestią gromadzenia i przetwarzania danych tekstowych, modelowania języka na potrzeby systemów automatycznego rozpoznawania mowy.
Utwór dostępny jest na licencji Creative Commons Uznanie autorstwa – Na tych samych warunkach 4.0 Miedzynarodowe.
Właściciele praw autorskich do nadesłanych tekstów udzielają Czytelnikowi prawa do korzystania z dokumentów pdf zgodnie z postanowieniami licencji Creative Commons 4.0 International License: Attribution-Share-Alike (CC BY-SA 4.0). Użytkownik może kopiować i redystrybuować materiał w dowolnym medium lub formacie oraz remiksować, przekształcać i wykorzystywać materiał w dowolnym celu.
1. Licencja
Wydawnictwo Uniwersytetu Śląskiego zapewnia natychmiastowy otwarty dostęp do treści swoich czasopism na licencji Creative Commons BY-SA 4.0 (http://creativecommons.org/licenses/by-sa/4.0/). Autorzy publikujący w tym czasopiśmie zachowują wszelkie prawa autorskie i zgadzają się na warunki wyżej wymienionej licencji CC BY-SA 4.0.
2. Oświadczenie Autora
Autor deklaruje, że artykuł jest oryginalny, napisany przez niego (i współautorów), nie był wcześniej publikowany, nie zawiera stwierdzeń niezgodnych z prawem, nie narusza praw innych osób, jest przedmiotem praw autorskich, które przysługują wyłącznie autorowi i jest wolny od wszelkich praw osób trzecich, a także, że autor uzyskał wszelkie niezbędne pisemne zgody na cytowanie z innych źródeł.
Jeśli artykuł zawiera materiał ilustracyjny (rysunki, zdjęcia, wykresy, mapy itp.), Autor oświadcza, że wskazane dzieła są jego dziełami autorskimi, nie naruszają niczyich praw (w tym osobistych, m.in. prawa do dysponowania wizerunkiem) i posiada do nich pełnię praw majątkowych. Powyższe dzieła udostępnia jako część artykułu na licencji „Creative Commons Uznanie autorstwa-Na tych samych warunkach 4.0 Międzynarodowe”.
UWAGA! Bez określenia sytuacji prawnej materiału ilustracyjnego oraz załączenia stosownych zgód właścicieli majątkowych praw autorskich publikacja nie zostanie przyjęta do opracowania redakcyjnego. Autor/autorka oświadcza równocześnie, że bierze na siebie wszelką odpowiedzialność w przypadku podania nieprawidłowych danych (także w zakresie pokrycia kosztów poniesionych przez Wydawnictwo UŚ oraz roszczeń finansowych stron trzecich).
3. Prawa użytkownika
Zgodnie z licencją CC BY-SA 4.0 użytkownicy mogą udostępniać (kopiować, rozpowszechniać i przekazywać) oraz adaptować (remiksować, przekształcać i tworzyć na podstawie materiału) artykuł w dowolnym celu, pod warunkiem, że oznaczą go w sposób określony przez autora lub licencjodawcę.
4. Współautorstwo
Jeśli artykuł został przygotowany wspólnie z innymi autorami, osoba zgłaszająca niniejszy formularz zapewnia, że została upoważniona przez wszystkich współautorów do podpisania niniejszej umowy w ich imieniu i zobowiązuje się poinformować swoich współautorów o warunkach tej umowy.
Oświadczam, że w przypadku nieuzgodnionego z redakcją i/lub wydawcą czasopisma wycofania przeze mnie tekstu z procesu wydawniczego lub skierowania go równolegle do innego wydawcy zgadzam się pokryć wszelkie koszty poniesione przez Uniwersytet Śląski w związku z procedowaniem mojego zgłoszenia (w tym m.in. koszty recenzji wydawniczych).