Применение нейронных сетей для автоматического определения словесных ударений

  • Олег [Oleg] Васильевич [V.] Бартеньев [Barte`nev]
Ключевые слова: словесное ударение, слогоделение, классификатор, нейронная сеть, набор данных

Аннотация

Решена задача автоматического определения словесных ударений. Выделены классы слов с одним и двумя непереходящими ударениями, с переходящими ударениями и без ударений. Ударение определяется в тех словах, где оно не является переходящим. Слова группируются по числу слогов. Каждая группа делится на классы слов с одинаковыми номерами ударных слогов. Таким образом, задача определения ударений, выполняемая нейронными сетями, сводится к классификации слов.

Набор данных (обучающие и проверочные множества) формируется по грамматическому словарю русского языка А.А. Зализняка, содержащему словоформы с расставленными ударениями. Модель слова — список слогов. В наборе данных слоги заменяются числовыми кодами, для получения которых составляются словари слогов. Числовой код слога — его номер в словаре слогов.

Поиск ударений проходит в два этапа. Прежде всего выясняется, обладает ли слово непереходящими ударениями, и затем, в случае положительного результата, оно передается определяющей ударения нейронной сети. Все проектируемые в работе нейронные сети содержат слой Embedding, переводящий скалярные представления слогов слова в векторные. На входе сеть принимает вектор с числовыми кодами слогов слова, а на выходе выдает номер класса, который, в случае одного непереходящего ударения, совпадает с номером ударного слога, а в случае двух непереходящих ударений указывает на номера двух ударных слогов. Вероятность правильного определения одного непереходящего ударения оценивается как 0,9474, а двух — как 0,9759.

Сведения об авторе

Олег [Oleg] Васильевич [V.] Бартеньев [Barte`nev]

кандидат технических наук, доцент кафедры прикладной математики и искусственного интеллекта НИУ «МЭИ», e-mail: mdf4@mail.ru

Литература

1. Зализняк А.А. Грамматический словарь русского языка: словоизменение. М.: Русский язык, 1980.
2. Грамматический словарь Зализняка А.А. [Электрон. ресурс] www.gufo.me/dict/zaliznyak (дата обращения 01.06.2020).
3. Программа расстановки ударений [Электрон. ресурс] www.morpher.ru/accentizer/ (дата обращения 01.06.2020).
4. Хомицевич О.Г. и др. Автоматическое определение места ударения в незнакомых словах в системе синтеза речи // Материалы XXXVI Междунар. филолог. конф. СПб., 2008. C. 175—183.
5. Цирульник Л.И., Покладок Д.А. Грамматический словарь и правила определения словесного ударения для синтеза речи по тексту на мобильных устройствах // Информатика. 2012. № 2. С. 61—68.
6. Бабайцева В.В. Русский язык. Теория. 5 — 11 классы. М.: Дрофа, 1998.
7. Розенталь Д.Э., Голуб И.Б., Теленкова М.А. Современный русский язык. М.: Рольф, Айрим-пресс, 1997.
8. Морфологический словарь русского языка в виде SQL скрипта [Электрон. ресурс] www.shra.ru/2017/03/morfologicheskijj-slovar-russkogo-yazyka-v-vide-sql-skripta (дата обращения 01.06.2020).
9. Бартеньев О.В. Подготовка данных для автоматического определения русских словесных ударений [Электрон. ресурс] www.100byte.ru/stdntswrks/accents/accents.html (дата обращения 01.06.2020).
10. Word Embeddings [Электрон. ресурс] www.tensorflow.org/tutorials/text/word_embeddings?hl.ru (дата обращения 01.06.2020).
11. Keras: the Python Deep Learning Library [Электрон. ресурс] www.keras.io/ (дата обращения 01.06.2020).
12. Zhu S., Chollet F. Working with RNNs [Электрон. ресурс] www.keras.io/guides/working_with_rnns/ (дата обращения 01.06.2020).
13. Бенгфорт Б., Билбро Р., Охеда Т. Прикладной анализ текстовых данных на Python. СПб.: Питер, 2019.
14. Ляшевская О.Н., Шаров С.А. Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник, 2009.
15. Национальный корпус русского языка [Электрон. ресурс] www.ruscorpora.ru/new/ (дата обращения 01.06.2020).
---
Для цитирования: Бартеньев О.В. Применение нейронных сетей для автоматического определения словесных ударений // Вестник МЭИ. 2021. № 2. С. 98—107. DOI: 10.24160/1993-6982-2021-2-98-107.
#
1. Zaliznyak A.A. Grammaticheskiy slovar' Russkogo Yazyka: Slovoizmenenie. M.: Rus-skiy Yazyk, 1980. (in Russian).
2. Grammaticheskiy Slovar' Zaliznyaka A.A. [Elektron. Resurs] www.gufo.me/dict/zaliznyak (Data Obrashcheniya 01.06.2020). (in Russian).
3. Programma Rasstanovki Udareniy [Elektron. Resurs] www.morpher.ru/accentizer/ (Data Obrashcheniya 01.06.2020). (in Russian).
4. Khomitsevich O.G. i dr. Avtomaticheskoe Opredelenie Mesta Udareniya v Neznakomykh Slovakh v Sisteme Sinteza Rechi. Materialy XXXVI Mezhdunar. Filolog. Konf. SPb., 2008:175—183. (in Russian).
5. Tsirul'nik L.I., Pokladok D.A. Grammaticheskiy Slovar' i Pravila Opredeleniya Slovesnogo Udareniya dlya Sinteza Rechi po Tekstu na Mobil'nykh Ustroystvakh. Informatika. 2012;2:61—68. (in Russian).
6. Babaytseva V.V. Russkiy Yazyk. Teoriya. 5 — 11 Klassy. M.: Drofa, 1998. (in Russian).
7. Rozental' D.E., Golub I.B., Telenkova M.A. Sovremennyy Russkiy Yazyk. M.: Rol'f, Ayrim-press, 1997. (in Russian).
8. Morfologicheskiy Slovar' Russkogo Yazyka v Vide SQL Skripta [Elektron. Resurs] www.shra.ru/2017/03/morfologicheskijj-slovar-russkogo-yazyka-v-vide-sql-skripta (Data Obrashcheniya 01.06.2020). (in Russian).
9. Barten'ev O.V. Podgotovka Dannykh dlya Avtomaticheskogo Opredeleniya Russkikh Slovesnykh Udareniy [Elektron. Resurs] www.100byte.ru/stdntswrks/accents/accents.html (Data Obrashcheniya 01.06.2020). (in Russian).
10. Word Embeddings [Elektron. Resurs] www.tensorflow.org/tutorials/text/word_embeddings?hl.ru (Data Obrashcheniya 01.06.2020). (in Russian).
11. Keras: the Python Deep Learning Library [Elektron. Resurs] www.keras.io/ (Data Obrashcheniya 01.06.2020).
12. Zhu S., Chollet F. Working with RNNs [Elektron. Resurs] www.keras.io/guides/working_with_rnns/ (Data Obrashcheniya 01.06.2020).
13. Bengfort B., Bilbro R., Okheda T. Prikladnoy Analiz Tekstovykh Dannykh na Python. SPb.: Piter, 2019. (in Russian).
14. Lyashevskaya O.N., Sharov S.A. Chastotnyy Slovar' Sovremennogo Russkogo Yazyka (na materialakh Natsional'nogo Korpusa Russkogo Yazyka). M.: Azbukovnik, 2009. (in Russian).
15. Natsional'nyy Korpus Russkogo Yazyka [Elektron. Resurs] www.ruscorpora.ru/new/ (Data Obrashcheniya 01.06.2020). (in Russian).
---
For citation: Bartenyev O.V. Application of Neural Networks for Automatically Detecting Verbal Accents. Bulletin of MPEI. 2021;2:98—107. (in Russian). DOI: 10.24160/1993-6982-2021-2-98-107.
Опубликован
2020-06-22
Раздел
Матем. и программное обеспеч. вычислит. машин, комплексов и компьютерных сетей (05.13.11)