Оценка эффективности методов токенизации текста

  • Олег Васильевич Бартеньев
Ключевые слова: токен, словарь, классификатор, нейронная сеть, набор данных

Аннотация

Рассмотрены методы токенизации текста, использующие словарь токенов и обходящиеся без него. Приведены алгоритмы токенизации и формирования словарей токенов. Оценка эффективности методов токенизации выполнена на задачах разметки текста по частям речи (РТЧ), классификации документов (КД) и расстановки знаков препинания (РЗП). Задачи РТЧ и РЗП сведены к задаче классификации n-грамм (соответственно, n = 3 и n = 5). В качестве классификатора взята нейронная сеть — многослойный перцептрон, принимающий на входе в случае КД векторные представления документов, либо, если решается задача РТЧ или РЗП, — векторные представления n-грамм. Векторные представления сформированы с использованием word2vec-модели. Проводимые эксперименты позволяют оценить эффективность семи методов токенизации. Три из них, образующие группу G1, переводят элементы текста в токены, выбирая их из предварительно созданных словарей. Словари построены с употреблением методов BPE, BPE-dropout и Kudo. Другие четыре, входящие в группу G2, выполняют токенизацию, не обращаясь к словарю токенов — это методы, формирующие токены в виде исходных словоформ; начальных форм словоформ; основ словоформ; основ и аффиксов словоформ. Словари и векторные представления токенов формируются процедурами Python по корпусу текста, объединяющему корпусы задач КД и РЗП. Используемые корпусы содержат тексты на русском языке. В решаемых задачах примененные методы токенизации демонстрируют разную эффективность: рост F1 при употреблении лучшего метода группы G2 вместо лучшего метода группы G1 составил в задаче РТЧ — 4,04%; КД — 2,29%; РЗП — 3,34%.

Сведения об авторе

Олег Васильевич Бартеньев

кандидат технических наук, доцент кафедры прикладной математики и искусственного интеллекта НИУ «МЭИ», e-mail: mdf4@mail.ru

Литература

1. Keras [Электрон. ресурс] https://keras.io/ (дата обращения 01.02.2023).
2. Бартеньев О.В. Сравнительная оценка эффективности моделей текста в задаче классификации документов // Вестник МЭИ. 2021. № 5. С. 117—127.
3. Chi Z. e. a. XLM-E: Cross-lingual Language Model Pre-training via ELECTRA // Proceedings 60th Annual Meeting of the Association for Computational Linguistics. Dublin, 2022. V. 1. Pp. 6170—6182.
4. Arora G. iNLTK: Natural Language Toolkit for Indic Languages // Proc. Second Workshop for NLP Open Source Software (NLP-OSS). 2020. Pp. 66—71.
5. Kudo T., Richardson J. SentencePiece: a Simple and Language Independent Subword Tokenizer and Detokenizer for Neural Text Processing. // Proc. Conf. on Empirical Methods in Natural Language Processing: System Demonstrations. Brussels, 2018. Pp. 66—71.
6. Mikolov T. e. a. Distributed Representations of Words and Phrases and their Compositionality // Neural Information Processing Systems. 2013. V. 26. Pp. 1—9.
7. Le Q., Mikolov T. Distributed Representations of Sentences and Documents // Proc. XXXI Intern. Conf. Machine Learning. Beijing, 2014. Pp. 1188—1196.
8. Mikolov T. e. a. Advances in Pre-training Distributed Word Representations // Proceedings of LREC. Miyazaki, 2018. Pp. 52—55.
9. Pennington J., Socher R., Manning C. Glove: Global Vectors for Word Representation. // Proc. Conf. Empirical Methods in Natural Language Processing. 2014. Pp. 1532—1543.
10. Adesam Y., Berdicevskis A. Part-of-speech Tagging of Swedish Texts in the Neural Era // Proceedings XXIII Nordic Conf. Computational Linguistics (NoDaLiDa). Reykjavik, 2021. Pp. 200—209.
11. Haldar G., Mittal A., Gupta P. DSC-IITISM at FinCausal 2021: Combining POS Tagging with Attention-based Contextual Representations for Identifying Causal Relationships in Financial Documents // Proc. III Financial Narrative Processing Workshop. Lancaster, 2021. Pp. 49—53.
12. Alshammeri M., Atwell E., Alsalka M.A. Classifying Verses of the Quran using Doc2vec // Proc. XVIII Intern. Conf. Natural Language Processing. Silchar, 2021. Pp. 284—288.
13. Schmitt M. e. a. Joint Aspect and Polarity Classification for Aspect-based Sentiment Analysis with End-to-end Neural Networks 2018. In // Proc. Conf. Empirical Methods in Natural Language Processing. Brussels, 2018. Pp. 1109—1114.
14. Ebadulla D.M. e. a. A Comparative Study on Language Models for the Kannada Language // Proceedings IV Intern. Conf. Natural Language and Speech Processing. Trento, 2021. Pp. 280—284.
15. WordPiece Tokenization. [Электрон. ресурс] https://huggingface.co/course/chapter6/6?fw=pt (дата обращения 01.02.2023).
16. Alam T., Khan A., Alam F. Punctuation Restoration using Transformer Models for High-and Low-resource Languages // Proc. VI Workshop on Noisy User-generated Text. 2020. Pp. 132—142.
17. Pogoda M., Walkowiak T. Comprehensive Punctuation Restoration for English and Polish // Proc. Findings of the Association for Computational Linguistics: EMNLP. Punta Cana, 2021. Pp. 4610—4619.
18. Nagy A., Bial B., Ács J. Automatic Punctuation Restoration with BERT Models [Электрон. ресурс] https://arxiv.org/pdf/2101.07343v1.pdf#page=1 (дата обращения 01.02.2023).
19. Devlin J. e. a. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. - 2019. In // Proc. Conf. North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Minneapolis, 2019. V. 1. Pp. 4171—4186.
20. Sennrich R., Haddow B., Birch A. Neural Machine Translation of Rare Words with Subword Units 2016. In // Proc. 54th Annual Meeting of the Association for Computational Linguistics. Berlin, 2016. V. 1. Pp. 1715—1725.
21. Kudo T. Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates // Proc. 56th Annual Meeting of the Association for Computational Linguistics. Melbourne, 2018. V. 1. Pp. 66—75.
22. Provilkov I., Emelianenko D., Voita E. BPE-Dropout: Simple and Effective Subword Regularization // Proc. 58th Annual Meeting of the Association for Computational Linguistics. 2020. Pp. 1882—1892.
23. Papineni K. et. al. BLEU: a Method for Automatic Evaluation of Machine Translation. - 2002.In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics, pages 311–318, Philadelphia, Pennsylvania, USA. Association for Computational Linguistics.
24. IWSLT 15 English-Vietnamese Dataset. - 2015. [Электрон. ресурс] https://metatext.io/datasets/iwslt-15-english-vietnamese (дата обращения 01.02.2023).
25. Vaswani A. et. al. Attention is all you need. - 2017. 31st Conference on Neural Information Processing Systems (NIPS 2017), Long Beach, CA, USA.
26. BERT in DeepPavlov. [Электронный ресурс] URL: http://docs.deeppavlov.ai/en/master/features/models/bert.html (дата обращения 01.02.2022).
27. Бартеньев О. В. Автоматическая расстановка знаков препинания с помощью нейронных сетей // Вестник МЭИ. 2022. № 6. С. 146—159. DOI: 10.24160/1993-6982-2022-6-146-159.
28. Бабайцева В. В. Русский язык. Теория. – М.: Дрофа, 1998. – 432 с.
29. Основа слова. [Электрон. ресурс] https://studopedia.ru/6_82986_osnova-slova-tipi-osnov.html (дата обращения 01.02.2023).
30. Морфологический анализатор pymorphy2. [Электрон. ресурс] https://pymorphy2.readthedocs.io/en/stable/ (дата обращения 01.02.2023).
31. Открытый корпус. [Электрон. ресурс] http://opencorpora.org/ (дата обращения 01.02.2023).
32. NLTK Documentation. nltk.stem.snowball module. [Электрон. ресурс] https://www.nltk.org/api/nltk.stem.snowball.html (дата обращения 01.02.2023).
33. Gage P. A New Algorithm for Data Compression. – 1994. [Электрон. ресурс] https://www.derczynski.com/papers/archive/BPE_Gage.pdf (дата обращения 01.02.2023).
34. BERT base model (uncased). [Электрон. ресурс] https://huggingface.co/bert-base-uncased (дата обращения 01.02.2023).
35. Expectation–maximization algorithm. [Электрон. ресурс] https://en.wikipedia.org/wiki/Expectation%E2%80%93maximization_algorithm (дата обращения 01.02.2023).
36. SentencePiece Python Wrapper. [Электрон. ресурс] https://pypi.org/project/sentencepiece/ (дата обращения 01.02.2023).
37. Набор данных для разметки текста по частям речи. [Электрон. ресурс] https://disk.yandex.ru/d/op1mwroFBMyKcw (дата обращения 01.02.2023).
38. Набор данных для классификации документов. [Электрон. ресурс] https://www.kaggle.com/datasets/olegbartenyev/doc-cls (дата обращения 01.02.2023).
39. Корпус для создания словаря токенов. [Электрон. ресурс] https://disk.yandex.ru/d/uFPs-eRW6Kaa8Q (дата обращения 01.02.2023).
40. Scikit-learn. [Электронн. ресурс] http://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html\ (дата обращения 01.02.2023).
41. Бартеньев О. В. Параметры, влияющие на эффективность нейронной сети, созданной средствами Keras. [Электронн. ресурс] http://www.100byte.ru/python/factors/factors.html (дата обращения 01.02.2023).
42. BBC Dataset [Электрон. ресурс] http://www.mlg.ucd.ie/datasets/bbc.html (дата обращения 01.02.2023).
---
Для цитирования: Бартеньев О.В. Оценка эффективности методов токенизации текста // Вестник МЭИ. 2023. № 6. С. 144—156. DOI: 10.24160/1993-6982-2023-6-144-156
Опубликован
2023-09-05
Раздел
Математическое и программное обеспечение вычислительных систем, комплексов и компьютерных сетей (технические науки) (2.3.5)