Application of Neural Networks for Automatically Detecting Verbal Accents
DOI:
https://doi.org/10.24160/1993-6982-2021-2-98-107Keywords:
word accent, syllable division, classifier, neural network, data arrayAbstract
The problem of automatically detecting verbal accents is solved. Word classes with one and two non-transitive accents, with transitive accents, and without accents are identified. An accent is determined in words in which it is not transitive. Words are grouped by the number of syllables. Each group is divided into word classes with the same numbers of accented syllables. Thus, the accents determination problem solved by means of neural networks boils down to word classification. The data array (training and test sets) is formed from A.A. Zaliznyak's Russian language grammatical dictionary, which contains word forms with placed accents. A word model comprises a list of syllables. In the data array, syllables are replaced by their numerical codes, for which syllable dictionaries are compiled. The numerical code of a syllable is its number in the syllable dictionary. The accents are searched in two stages. First, it is found out whether the word has non-transitive accents, and if yes, the word is transferred to the neural network that determines the accents. All neural networks designed in this study contain an Embedding layer which translates scalar representations of word syllables into vector ones. At its input, the neural network receives a vector with the numerical codes of word syllables, and at the output it yields the word class number, which in the case of one non-transitive accent coincides with the number of the accented syllable, and in the case of two non-transitive accents indicates the numbers of two accented syllables. The probabilities of correctly determining one and two non-transitive accents are estimated at 0.9474 and 0.9759, respectively.
References
2. Грамматический словарь Зализняка А.А. [Электрон. ресурс] www.gufo.me/dict/zaliznyak (дата обращения 01.06.2020).
3. Программа расстановки ударений [Электрон. ресурс] www.morpher.ru/accentizer/ (дата обращения 01.06.2020).
4. Хомицевич О.Г. и др. Автоматическое определение места ударения в незнакомых словах в системе синтеза речи // Материалы XXXVI Междунар. филолог. конф. СПб., 2008. C. 175—183.
5. Цирульник Л.И., Покладок Д.А. Грамматический словарь и правила определения словесного ударения для синтеза речи по тексту на мобильных устройствах // Информатика. 2012. № 2. С. 61—68.
6. Бабайцева В.В. Русский язык. Теория. 5 — 11 классы. М.: Дрофа, 1998.
7. Розенталь Д.Э., Голуб И.Б., Теленкова М.А. Современный русский язык. М.: Рольф, Айрим-пресс, 1997.
8. Морфологический словарь русского языка в виде SQL скрипта [Электрон. ресурс] www.shra.ru/2017/03/morfologicheskijj-slovar-russkogo-yazyka-v-vide-sql-skripta (дата обращения 01.06.2020).
9. Бартеньев О.В. Подготовка данных для автоматического определения русских словесных ударений [Электрон. ресурс] www.100byte.ru/stdntswrks/accents/accents.html (дата обращения 01.06.2020).
10. Word Embeddings [Электрон. ресурс] www.tensorflow.org/tutorials/text/word_embeddings?hl.ru (дата обращения 01.06.2020).
11. Keras: the Python Deep Learning Library [Электрон. ресурс] www.keras.io/ (дата обращения 01.06.2020).
12. Zhu S., Chollet F. Working with RNNs [Электрон. ресурс] www.keras.io/guides/working_with_rnns/ (дата обращения 01.06.2020).
13. Бенгфорт Б., Билбро Р., Охеда Т. Прикладной анализ текстовых данных на Python. СПб.: Питер, 2019.
14. Ляшевская О.Н., Шаров С.А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009.
15. Национальный корпус русского языка [Электрон. ресурс] www.ruscorpora.ru/new/ (дата обращения 01.06.2020).
---
Для цитирования: Бартеньев О.В. Применение нейронных сетей для автоматического определения словесных ударений // Вестник МЭИ. 2021. № 2. С. 98—107. DOI: 10.24160/1993-6982-2021-2-98-107.
#
1. Zaliznyak A.A. Grammaticheskiy slovar' Russkogo Yazyka: Slovoizmenenie. M.: Rus-skiy Yazyk, 1980. (in Russian).
2. Grammaticheskiy Slovar' Zaliznyaka A.A. [Elektron. Resurs] www.gufo.me/dict/zaliznyak (Data Obrashcheniya 01.06.2020). (in Russian).
3. Programma Rasstanovki Udareniy [Elektron. Resurs] www.morpher.ru/accentizer/ (Data Obrashcheniya 01.06.2020). (in Russian).
4. Khomitsevich O.G. i dr. Avtomaticheskoe Opredelenie Mesta Udareniya v Neznakomykh Slovakh v Sisteme Sinteza Rechi. Materialy XXXVI Mezhdunar. Filolog. Konf. SPb., 2008:175—183. (in Russian).
5. Tsirul'nik L.I., Pokladok D.A. Grammaticheskiy Slovar' i Pravila Opredeleniya Slovesnogo Udareniya dlya Sinteza Rechi po Tekstu na Mobil'nykh Ustroystvakh. Informatika. 2012;2:61—68. (in Russian).
6. Babaytseva V.V. Russkiy Yazyk. Teoriya. 5 — 11 Klassy. M.: Drofa, 1998. (in Russian).
7. Rozental' D.E., Golub I.B., Telenkova M.A. Sovremennyy Russkiy Yazyk. M.: Rol'f, Ayrim-press, 1997. (in Russian).
8. Morfologicheskiy Slovar' Russkogo Yazyka v Vide SQL Skripta [Elektron. Resurs] www.shra.ru/2017/03/morfologicheskijj-slovar-russkogo-yazyka-v-vide-sql-skripta (Data Obrashcheniya 01.06.2020). (in Russian).
9. Barten'ev O.V. Podgotovka Dannykh dlya Avtomaticheskogo Opredeleniya Russkikh Slovesnykh Udareniy [Elektron. Resurs] www.100byte.ru/stdntswrks/accents/accents.html (Data Obrashcheniya 01.06.2020). (in Russian).
10. Word Embeddings [Elektron. Resurs] www.tensorflow.org/tutorials/text/word_embeddings?hl.ru (Data Obrashcheniya 01.06.2020). (in Russian).
11. Keras: the Python Deep Learning Library [Elektron. Resurs] www.keras.io/ (Data Obrashcheniya 01.06.2020).
12. Zhu S., Chollet F. Working with RNNs [Elektron. Resurs] www.keras.io/guides/working_with_rnns/ (Data Obrashcheniya 01.06.2020).
13. Bengfort B., Bilbro R., Okheda T. Prikladnoy Analiz Tekstovykh Dannykh na Python. SPb.: Piter, 2019. (in Russian).
14. Lyashevskaya O.N., Sharov S.A. Chastotnyy Slovar' Sovremennogo Russkogo Yazyka (na materialakh Natsional'nogo Korpusa Russkogo Yazyka). M.: Azbukovnik, 2009. (in Russian).
15. Natsional'nyy Korpus Russkogo Yazyka [Elektron. Resurs] www.ruscorpora.ru/new/ (Data Obrashcheniya 01.06.2020). (in Russian).
---
For citation: Bartenyev O.V. Application of Neural Networks for Automatically Detecting Verbal Accents. Bulletin of MPEI. 2021;2:98—107. (in Russian). DOI: 10.24160/1993-6982-2021-2-98-107.

