Обзор методов обработки естественного языка для автоматической генерации тестовых заданий

Виталий [Vitaliy] Игоревич [I.] Науменко [Naumenko]; Сергей [Sergey] Андреевич [A.] Петров [Petrov]

doi:10.24160/1993-6982-2024-3-113-126

Виталий [Vitaliy] Игоревич [I.] Науменко [Naumenko]
Сергей [Sergey] Андреевич [A.] Петров [Petrov]

DOI: https://doi.org/10.24160/1993-6982-2024-3-113-126

Ключевые слова: обработка естественного языка, тестирование знаний, машинное обучение, NLP, генерация текста

Аннотация

В современном мире тенденция к автоматизации прослеживается во всех сферах жизни общества. Автоматизации подвергается множество различных процессов, включая такие комплексные задачи, как обработка естественного языка.

Указанная тенденция имеет место и в сфере образования. Резкое повышение интереса к дистанционному обучению привело к повышению популярности тестирующих систем. Актуальной проблемой при работе с которыми является формирование тестовых вопросов по учебным пособиям. Зачастую преподавателям приходится вручную формировать множество вопросов теста, что является достаточно трудоёмкой задачей.

Приведен подробный анализ популярных подходов, моделей и методов обработки текстов на естественном языке (Natural Language Processing, NLP), используемых для решения задачи автоматической генерации текста, в частности генерации тестовых заданий. Анализируемые модели имеют широкий спектр архитектур, начиная от шаблонных и комбинаторных, и заканчивая моделями на основе семантических сетей и машинного обучения. Отдельно рассмотрены современные численные метрики для оценки качества сгенерированных текстов заданий.

Результаты исследования могут представлять интерес для образовательных организаций и разработчиков систем дистанционного обучения при решении проблем загруженности преподавателей и повышения эффективности работы с тестирующими системами.

Сведения об авторах

Виталий [Vitaliy] Игоревич [I.] Науменко [Naumenko]

магистр по направлению «Прикладная информатика»

Сергей [Sergey] Андреевич [A.] Петров [Petrov]

кандидат технических наук, доцент кафедры безопасности и информационных технологий, заведующий отделом реинжиниринга информационных систем информационно-вычислительного центра НИУ «МЭИ», e-mail: PetrovSA@mpei.ru

Литература

1. Spichak V. Petrov S. Experience in Designing and Developing the Educational Game BlockSolver // Proc. V Intern. Conf. Information Technol. Eng. Education. M., 2020. Pp. 1—5.
2. Делова Л.А. Об особенностях учебного процесса в период пандемии // Научный альманах. 2021. № 10-1(84). С. 152—155.
3. Petrov S., Merenkov D., Shirinskii S., Kryzhov D., Letyagina M., Empowerment of LMS «Prometheus» for MPEI Educational Process // Proc. VI Intern. Conf. Information Technol. Eng. Education. M., 2022. Pp. 1—6.
4. Павлов Е.М., Рыжов А.В., Петров С.А. Автоматическое составление тестовых заданий для контроля знаний по методам оценки надежности программного обеспечения // Вестник Российского нового университета. Серия «Сложные системы: модели, анализ и управление». 2022. № 3. С. 179—184.
5. Шуман Е.А. Тестирование как форма контроля знаний в процессе обучения // Молодой ученый. 2022. № 12(407). С. 183—185.
6. Ромашкина Т.В. Использование обучающих тестов в процессе организации самостоятельной работы студента вуза // Меридиан. 2020. № 7(41). C. 144—146.
7. Балашова И.Ю., Волынская К.И., Макарычев П.П. Методы и средства генерации тестовых заданий из текстов на естественном языке // Модели, системы, сети в экономике, технике, природе и обществе. 2016. № 1(17). С. 195—202.
8. Пенькова Т.Г. Функциональная модель генерации документов на основе специализированных шаблонов // Вестник КрасГАУ. 2008. № 5. С. 55—62.
9. Личаргин Д.В., Усова А.А., Сотникова В.В., Липман С.А., Бутовченко В.В. Разработка приложения по генерации учебных заданий к тексту на естественном языке на основе порождаемых шаблонов // Современные проблемы науки и образования. 2015. № 2-2. С. 120—127.
10. Awad A.E., Dahab M.Y. Automatic Generation of Question Bank Based on Pre-defined Templates // Intern. J. Innovations & Advancement in Computer Sci. 2014. No. 3(1). Pp. 80—87.
11. Le N.T., Pinkwart N. Question Generation Using Wordnet // Proc. XXII Intern. Conf. Computers in Education. 2014. No. 22. Pp. 95—100.
12. Кручинин В.В., Кузовкин В.В. Обзор существующих методов автоматической генерации задач с условиями на естественном языке // Компьютерные инструменты в образовании. 2022. № 1. C. 85—96.
13. Rioja R.M.G., Santos S.G., Pardo A., Kloos C.D. A Parametric Exercise Based Tutoring System // Frontiers in Education Conf. 2003. No. 3(S1B-20). Pp. 1—7.
14. Зорин Ю.А. Интерпретатор языка построения генераторов тестовых заданий на основе деревьев И/ИЛИ // Доклады Томского гос. ун-та систем управления и радиоэлектроники. 2013. № 1(27). С. 75—79.
15. Потараев В.В., Серебряная Л.В. Автоматическое построение семантической сети для получения ответов на вопросы // Доклады БГУИР. 2020. № 18(4). С. 44—52.
16. Caldarola E.G., Picariello A., Rinaldi A.M. Experiences in Wordnet Visualization with Labeled Graph Databases // Proc. VII Intern. Joint Conf. Knowledge Discovery, Knowledge Engineering and Knowledge Management. Lisbon, 2016. No. 63(1). Pp. 80—99.
17. Yao X., Bouma G., Zhang Y. Semantics-based Question Generation and Implementation // Dialogue & Discourse. 2012. No. 3(2). Pp. 11—42.
18. Посов И.А. Обзор генераторов и методов генерации учебных заданий // Образовательные технологии и общество. 2014. № 17(4). С. 593—609.
19. Staudemeyer R.C., Morris E.R. Understanding LSTM — a Tutorial Into Long Short-term Memory Recurrent Neural Networks // arXiv.org. 2019. No. 1. Pp. 1—42.
20. Sutskever I., Vinyals O., Le Q.V. Sequence to Sequence Learning with Neural Networks // Proc. XXVII Intern. Conf. Neural Information Proc. Systems. 2014. V. 2. Pp. 3104—3112.
21. Полторак А.В. Набатов С.И. Анализ существующих архитектур нейронных сетей для генерации текстов естественного языка с целью исследования актуальных техник при создании моделей нейронных сетей // ИТ-Стандарт. 2020. № 3(24). С. 47—53.
22. Liu T., Wei B., Chang B., Sui Z. Large-scale Simple Question Generation by Template-based seq2seq Learning // Proc. VI CCF Intern. Conf. Natural Language Proc. and Chinese Computing. Dalian, 2018. V. 10619. Pp. 75—87.
23. Vaswani A. e. a. Attention is All You Need // Proc. XXXI Conf. Neural Information Proc. Systems. 2017. No. 1. Pp. 1—15.
24. Lopez L.E., Cruz D.K., Cruz J.C.B., Cheng C. Simplifying Paragraph-level Question Generation Via Transformer Language Models // Proc. Pacific Rim Intern. Conf. Artificial Intelligence. 2021. V. 13032(1). Pp. 323—334.
25. Qiu X. e. a. Pre-trained Models for Natural Language Processing: a Survey // Sci. China Technolog. Sci. 2020. No. 63(10). Pp. 1872—1897.
26. Sai A.B., Mohankumar A.K., Khapra M.M. A Survey of Evaluation Metrics Used for NLG Systems // ACM Computing Surveys. 2022. No. 55(2). Pp. 1—39.
27. Koehn Ph. Statistical Machine Translation. N.-Y.: Cambridge University Press, 2010.
28. Chin-Yew Lin. ROUGE: a Package for Automatic Evaluation of Summaries // Text Summarization Branches Out. Barcelona: Association for Computational Linguistics, 2004. Pp. 74—81.
29. Banerjee S., Lavie A. METEOR: an Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments // Proc. ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. 2005. Pp. 65—72.
30. Zhao Y., Ni X., Ding Y., Ke Q. Paragraph-level Neural Question Generation with Maxout Pointer and Gated Self-attention Networks // Proc. Conf. Empirical Methods Natural Language Proc. 2018. No. 1. Pp. 3901—3910.
---
Для цитирования: Науменко В.И., Петров С.А. Обзор методов обработки естественного языка для автоматической генерации тестовых заданий // Вестник МЭИ. 2024. № 3. С. 113—126. DOI: 10.24160/1993-6982-2024-3-113-126\
---
Конфликт интересов: авторы заявляют об отсутствии конфликта интересов
#
1. Spichak V. Petrov S. Experience in Designing and Developing the Educational Game BlockSolver. Proc. V Intern. Conf. Information Technol. Eng. Education. M., 2020:1—5.
2. Delova L.A. Ob Osobennostyakh Uchebnogo Protsessa V Period Pandemii. Nauchnyy Al'manakh. 2021;10-1(84):152—155. (in Russian).
3. Petrov S., Merenkov D., Shirinskii S., Kryzhov D., Letyagina M., Empowerment of LMS «Prometheus» for MPEI Educational Process. Proc. VI Intern. Conf. Information Technol. Eng. Education. M., 2022:1—6.
4. Pavlov E.M., Ryzhov A.V., Petrov S.A. Avtomaticheskoe Sostavlenie Testovykh Zadaniy dlya Kontrolya Znaniy po Metodam Otsenki Nadezhnosti Programmnogo Obespecheniya. Vestnik Rossiyskogo Novogo Universiteta. Seriya «Slozhnye Sistemy: Modeli, Analiz i Upravlenie». 2022;3:179—184. (in Russian).
5. Shuman E.A. Testirovanie kak Forma Kontrolya Znaniy v Protsesse Obucheniya. Molodoy Uchenyy. 2022;12(407):183—185. (in Russian).
6. Romashkina T.V. Ispol'zovanie Obuchayushchikh Testov v Protsesse Organizatsii Samostoyatel'noy Raboty Studenta Vuza. Meridian. 2020;7(41):144—146. (in Russian).
7. Balashova I.Yu., Volynskaya K.I., Makarychev P.P. Metody i Sredstva Generatsii Testovykh Zadaniy iz Tekstov na Estestvennom Yazyke. Modeli, Sistemy, Seti v Ekonomike, Tekhnike, Prirode i Obshchestve. 2016;1(17):195—202. (in Russian).
8. Pen'kova T.G. Funktsional'naya Model' Generatsii Dokumentov na Osnove Spetsializirovannykh Shablonov. Vestnik KrasGAU. 2008;5:55—62. (in Russian).
9. Lichargin D.V., Usova A.A., Sotnikova V.V., Lipman S.A., Butovchenko V.V. Razrabotka Prilozheniya po Generatsii Uchebnykh Zadaniy k Tekstu na Estestvennom Yazyke na Osnove Porozhdaemykh Shablonov. Sovremennye Problemy Nauki I Obrazovaniya. 2015;2-2:120—127. (in Russian).
10. Awad A.E., Dahab M.Y. Automatic Generation of Question Bank Based on Pre-defined Templates. Intern. J. Innovations & Advancement in Computer Sci. 2014;3(1):80—87.
11. Le N.T., Pinkwart N. Question Generation Using Wordnet. Proc. XXII Intern. Conf. Computers in Education. 2014;22:95—100.
12. Kruchinin V.V., Kuzovkin V.V. Obzor Sushchestvuyushchikh Metodov Avtomaticheskoy Generatsii Zadach s Usloviyami na Estestvennom Yazyke. Komp'yuternye Instrumenty v Obrazovanii. 2022;1:85—96. (in Russian).
13. Rioja R.M.G., Santos S.G., Pardo A., Kloos C.D. A Parametric Exercise Based Tutoring System. Frontiers in Education Conf. 2003;3(S1B-20):1—7.
14. Zorin Yu.A. Interpretator Yazyka Postroeniya Generatorov Testovykh Zadaniy na Osnove Derev'ev I/ILI. Doklady Tomskogo Gos. Un-ta Sistem Upravleniya i Radioelektroniki. 2013;1(27):75—79. (in Russian).
15. Potaraev V.V., Serebryanaya L.V. Avtomaticheskoe Postroenie Semanticheskoy Seti dlya Polucheniya Otvetov na Voprosy. Doklady BGUIR. 2020;18(4):44—52. (in Russian).
16. Caldarola E.G., Picariello A., Rinaldi A.M. Experiences in Wordnet Visualization with Labeled Graph Databases. Proc. VII Intern. Joint Conf. Knowledge Discovery, Knowledge Engineering and Knowledge Management. Lisbon, 2016;63(1):80—99.
17. Yao X., Bouma G., Zhang Y. Semantics-based Question Generation and Implementation. Dialogue & Discourse. 2012;3(2):11—42.
18. Posov I.A. Obzor Generatorov i Metodov Generatsii Uchebnykh Zadaniy. Obrazovatel'nye Tekhnologii i Obshchestvo. 2014;17(4):593—609. (in Russian).
19. Staudemeyer R.C., Morris E.R. Understanding LSTM — a Tutorial Into Long Short-term Memory Recurrent Neural Networks. arXiv.org. 2019;1:1—42.
20. Sutskever I., Vinyals O., Le Q.V. Sequence to Sequence Learning with Neural Networks. Proc. XXVII Intern. Conf. Neural Information Proc. Systems. 2014;2:3104—3112.
21. Poltorak A.V. Nabatov S.I. Analiz Sushchestvuyushchikh Arkhitektur Neyronnykh Setey dlya Generatsii Tekstov Estestvennogo Yazyka s Tsel'yu Issledovaniya Aktual'nykh Tekhnik pri Sozdanii Modeley Neyronnykh Setey. IT-Standart. 2020;3(24):47—53. (in Russian).
22. Liu T., Wei B., Chang B., Sui Z. Large-scale Simple Question Generation by Template-based seq2seq Learning. Proc. VI CCF Intern. Conf. Natural Language Proc. and Chinese Computing. Dalian, 2018;10619:75—87.
23. Vaswani A. e. a. Attention is All You Need. Proc. XXXI Conf. Neural Information Proc. Systems. 2017;1:1—15.
24. Lopez L.E., Cruz D.K., Cruz J.C.B., Cheng C. Simplifying Paragraph-level Question Generation Via Transformer Language Models. Proc. Pacific Rim Intern. Conf. Artificial Intelligence. 2021;13032(1):323—334.
25. Qiu X. e. a. Pre-trained Models for Natural Language Processing: a Survey. Sci. China Technolog. Sci. 2020;63(10):1872—1897.
26. Sai A.B., Mohankumar A.K., Khapra M.M. A Survey of Evaluation Metrics Used for NLG Systems. ACM Computing Surveys. 2022;55(2):1—39.
27. Koehn Ph. Statistical Machine Translation. N.-Y.: Cambridge University Press, 2010.
28. Chin-Yew Lin. ROUGE: a Package for Automatic Evaluation of Summaries. Text Summarization Branches Out. Barcelona: Association for Computational Linguistics, 2004:74—81.
29. Banerjee S., Lavie A. METEOR: an Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments. Proc. ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. 2005:65—72.
30. Zhao Y., Ni X., Ding Y., Ke Q. Paragraph-level Neural Question Generation with Maxout Pointer and Gated Self-attention Networks. Proc. Conf. Empirical Methods Natural Language Proc. 2018;1:3901—3910
---
For citation: Naumenko V.I., Petrov S.A. Review of Natural Language Processing Methods for Automatically Generating Test Tasks. Bulletin of MPEI. 2024;3:113—126. (in Russian). DOI: 10.24160/1993-6982-2024-3-113-126
---
Conflict of interests: the authors declare no conflict of interest