Software Tools for Analyzing Messages of Participants in Public Information Channels

Authors

  • Павел [Pavel] Борисович [B.] Хорев [Khorev]
  • Полина [Polina] Андреевна [A.] Темерова [Temerova]

DOI:

https://doi.org/10.24160/1993-6982-2025-5-138-145

Keywords:

classification and clustering of short messages, artificial neural networks, spam detection, development of a chatbot for a Telegram channel

Abstract

The aim of the study is to develop a method and a chatbot that implements it for public Telegram channels, which will make it possible to delete spam messages from them that are not related to the channel’s main topic or carry advertising information. The main methods for classification and clustering of short text messages to detect spam in them are considered and analyzed. The K-means algorithm, self-organizing maps, spectral clustering, maximum likelihood estimate, topical clustering method, and latent semantic analysis were studied among various clustering methods. Among the classification methods, k-nearest neighbors, Bayes, support vectors, logistic regression, random trees, as well as classification based on artificial neural networks were considered. Based on the analysis results, a solution is proposed that is a combination of the support vector method and a convolutional neural network. Based on the proposed solution, a model of a short text message analyzer was developed, and using the Telegram Bot API interface, a chatbot for the Telegram messenger was developed, which was integrated into real user groups with regular active participants. The testing has shown that the model trained using the support vector method has an accuracy of 77%, and the model trained on the basis of a convolutional neural network has an accuracy of 95%. The study results can be used in administrating the Telegram messenger public information channels. In the chatbot developed on the basis of the proposed classification method, messages from the information channel users are processed in real time, and those that are identified as spam or as not related to the channel topic are deleted. The performance of the developed software has been confirmed by the results of its testing.

Author Biographies

Павел [Pavel] Борисович [B.] Хорев [Khorev]

Ph.D. (Techn.), Ph.D. (Techn.) of Applied Mathematics and Artificial Intelligence Dept., NRU MPEI», e-mail: khorevpb@mpei.ru

Полина [Polina] Андреевна [A.] Темерова [Temerova]

PJSC VTB, Data Analyst at the Retail Credit Risks Dept., e-mail: TemerovaPA@mpei.ru

References

1. Проноза А.А. и др. Методика выявления каналов распространения информации в социальных сетях // Вестник Санкт-Петербургского ун-та. Серия «Прикладная математика. Информатика. Процессы управления». 2018. Т. 14. Вып. 4. С. 362—377.
2. Семенова А.В. Современные подходы к методологии контент-аналитических исследований // Социологические методы в современной исследовательской практике: Сб. статей, посвященный памяти первого декана факультета социологии НИУ ВШЭ А.О. Крыштановского. М.: НИУ ВШЭ, 2011. С. 357—363.
3. Игнатов Д.И., Магизов Р.А. Анализ тримодальных данных на примере Интернет-сервисов социальных закладок // Социологические методы в современной исследовательской практике: Сб. статей, посвященный памяти первого декана факультета социологии НИУ ВШЭ А.О. Крыштановского. М.: НИУ ВШЭ, 2011. С. 315—322.
4. Jung H., Lee S. Research on Game Design Methodology Based on OpenAI API and Human Creativity // J. Next-generation Convergence Technology Association. 2024. V. 8(7). Pp. 1517—1527.
5. Ali M.A.A.Sр. AI-natural Language Processing (NLP) // Intern. J. Research in Appl. Sci. and Eng. Technol. 2021. V. 9(8). Pp. 135—140.
6. Мишина В.И. Сравнительный анализ платформ для разработки и развертывания бессерверных приложений в экосистеме Python // Оригинальные исследования. 2024. Т. 14. № 2. С. 9—14.
7. Плющ Н.О., Федькова Н.А. Проблемы и перспективы Yandex DataLens на рынке бизнес-аналитики // Вестник образовательного консорциума «Среднерусский университет». Серия «Информационные технологии». 2022. № 2(20). С. 22—26.
8. Sucipto S., Karaman Ja. Integration of Legalization Information System Web-based Using Shipping API and Telegram API // JUITA: J. Informatika. 2020. V. 8(2). P. 131.
9. Кожевников В.А., Сабинин О.Ю., Шац Ю.Е. Современные мессенджеры в качестве помощника администратора базы данных // ScienceRise. 2018. Т. 6. С. 32—36.
10. Попов В.А., Чеповский А.А. Модели импорта данных из мессенджера Telegram // Вестник Новосибирского государственного университета. Серия «Информационные технологии». 2022. Т. 20(2). С. 60—71.
11. Квасов М.Н., Зайцев Н.В., Рябов Г.А., Вовк А.Ю. Программное решение задачи сбора данных из мессенджера Telegram // Тенденции развития науки и образования. 2023. № 95—6. С. 23—28.
12. Тихонова М.И. Новый метод векторного представления слов посредством разложения PSD-матрицы в задачах NLP // Системы компьютерной математики и их приложения. 2018. № 19. С. 106—112.
13. Марков А.К., Семёночкин Д.О., Кравец А.Г., Яновский Т.А. Сравнительный анализ применяемых технологий обработки естественного языка для улучшения качества классификации цифровых документов // Intern. J. Open Information Technol. 2024. Т. 12(3). С. 66—77.
14. Datasets [Электрон. ресурс] https://www.kaggle.com/datasets?search=spam (дата обращения 05.02.2025).
15. Библиотека Deep-translator 1.11.4 [Электрон. ресурс] https://pypi.org/project/deep-translator/ (дата обращения 05.02.2025).
16. Янников И.М, Ершова М.В., Исенбаев А.Н. Методы и алгоритмы для поиска сходства между текстами // Интеллектуальные системы в производстве. 2024. Т. 22. № 2. С. 103—113.
17. Пальмов С.В., Кужаева М.Р. Классификатор на основе метода опорных векторов // Наука и бизнес: пути развития. 2023. № 1(139). С. 38—42.
18. Щукина Н.А. Нейросетевые модели в задаче классификации медицинских изображений // Моделирование, оптимизация и информационные технологии. 2021. Т. 9. № 4(35). С. 1—14.
19. Telegram Bot API [Электрон. ресурс] https://core.telegram.org/bots/api (дата обращения 05.02.2025).
20. Pedregosa F. e. a. Scikit-learn: Machine Learning in Python // J. Machine Learning Research. 2011. V. 12 (85). Pp. 2825—2830.
21. Табуев С. Обзор Keras для TensorFlow [Электрон. ресурс] https://habr.com/ru/articles/482126/ (дата обращения 05.02.2025).
---
Для цитирования: Хорев П.Б., Темерова П.А. Разработка программных средств анализа сообщений участников публичных информационных каналов // Вестник МЭИ. 2025. № 5. С. 138—145. DOI: 10.24160/1993-6982-2025-5-138-145
---
Конфликт интересов: авторы заявляют об отсутствии конфликта интересов
#
1. Pronoza A.A. i dr. Metodika Vyyavleniya Kanalov Rasprostraneniya Informatsii v Sotsial'nykh Setyakh. Vestnik Sankt-Peterburgskogo Un-ta. Seriya «Prikladnaya Matematika. Informatika. Protsessy Upravleniya». 2018;14;4:362—377. (in Russian).
2. Semenova A.V. Sovremennye Podkhody k Metodologii Kontent-analiticheskikh Issledovaniy. Sotsiologicheskie Metody v Sovremennoy Issledovatel'skoy Praktike: Sb. Statey, Posvyashchennyy Pamyati Pervogo Dekana Fakul'teta Sotsiologii NIU VSHE A.O. Kryshtanovskogo. M.: NIU VSHE, 2011:357—363. (in Russian).
3. Ignatov D.I., Magizov R.A. Analiz Trimodal'nykh Dannykh na Primere Internet-servisov Sotsial'nykh Zakladok. Sotsiologicheskie Metody v Sovremennoy Issledovatel'skoy Praktike: Sb. Statey, Posvyashchennyy Pamyati Pervogo Dekana Fakul'teta Sotsiologii NIU VSHE A.O. Kryshtanovskogo. M.: NIU VSHE, 2011:315—322. (in Russian).
4. Jung H., Lee S. Research on Game Design Methodology Based on OpenAI API and Human Creativity. J. Next-generation Convergence Technology Association. 2024;8(7):1517—1527.
5. Ali M.A.A.Sr. AI-natural Language Processing (NLP). Intern. J. Research in Appl. Sci. and Eng. Technol. 2021;9(8):135—140.
6. Mishina V.I. Sravnitel'nyy Analiz Platform dlya Razrabotki i Razvertyvaniya Besservernykh Prilozheniy v Ekosisteme Python. Original'nye Issledovaniya. 2024;14;2:9—14. (in Russian).
7. Plyushch N.O., Fed'kova N.A. Problemy i Perspektivy Yandex Datalens na Rynke Biznes-Analitiki. Vestnik Obrazovatel'nogo Konsortsiuma «Srednerusskiy Universitet». Seriya «Informatsionnye Tekhnologii». 2022;2(20):22—26. (in Russian).
8. Sucipto S., Karaman Ja. Integration of Legalization Information System Web-based Using Shipping API and Telegram API. JUITA: J. Informatika. 2020;8(2):131.
9. Kozhevnikov V.A., Sabinin O.Yu., Shats Yu.E. Sovremennye Messendzhery v kachestve Pomoshchnika Administratora Bazy Dannykh. ScienceRise. 2018;6:32—36. (in Russian).
10. Popov V.A., Chepovskiy A.A. Modeli Importa Dannykh iz Messendzhera Telegram. Vestnik Novosibirskogo Gosudarstvennogo Universiteta. Seriya «Informatsionnye Tekhnologii». 2022;20(2):60—71. (in Russian).
11. Kvasov M.N., Zaytsev N.V., Ryabov G.A., Vovk A.Yu. Programmnoe Reshenie Zadachi Sbora Dannykh iz Messendzhera Telegram. Tendentsii Razvitiya Nauki i Obrazovaniya. 2023;95—6:23—28. (in Russian).
12. Tikhonova M.I. Novyy Metod Vektornogo Predstavleniya Slov Posredstvom Razlozheniya PSD-matritsy v Zadachakh NLP. Sistemy Komp'yuternoy Matematiki i Ikh Prilozheniya. 2018;19:106—112. (in Russian).
13. Markov A.K., Semenochkin D.O., Kravets A.G., Yanovskiy T.A. Sravnitel'nyy Analiz Primenyaemykh Tekhnologiy Obrabotki Estestvennogo Yazyka dlya Uluchsheniya Kachestva Klassifikatsii Tsifrovykh Dokumentov. Intern. J. Open Information Technol. 2024;12(3):66—77. (in Russian).
14. Datasets [Elektron. Resurs] https://www.kaggle.com/datasets?search=spam (Data Obrashcheniya 05.02.2025).
15. Biblioteka Deep-translator 1.11.4 [Elektron. Resurs] https://pypi.org/project/deep-translator/ (Data Obrashcheniya 05.02.2025).
16. Yannikov I.M, Ershova M.V., Isenbaev A.N. Metody i Algoritmy dlya Poiska Skhodstva Mezhdu Tekstami. Intellektual'nye Sistemy v Proizvodstve. 2024;22;2:103—113. (in Russian).
17. Pal'mov S.V., Kuzhaeva M.R. Klassifikator na Osnove Metoda Opornykh Vektorov. Nauka i Biznes: Puti Razvitiya. 2023;1(139):38—42. (in Russian).
18. Shchukina N.A. Neyrosetevye Modeli v Zadache Klassifikatsii Meditsinskikh Izobrazheniy. Modelirovanie, Optimizatsiya i Informatsionnye Tekhnologii. 2021;9;4(35):1—14. (in Russian).
19. Telegram Bot API [Elektron. Resurs] https://core.telegram.org/bots/api (Data Obrashcheniya 05.02.2025).
20. Pedregosa F. e. a. Scikit-learn: Machine Learning in Python. J. Machine Learning Research. 2011;12 (85):2825—2830.
21. Tabuev S. Obzor Keras dlya TensorFlow [Elektron. Resurs] https://habr.com/ru/articles/482126/ (Data Obrashcheniya 05.02.2025). (in Russian)
---
For citation: Khorev P.B., Temerova P.A. Software Tools for Analyzing Messages of Participants in Public Information Channels. Bulletin of MPEI. 2025;5:138—145. (in Russian). DOI: 10.24160/1993-6982-2025-5-138-145
---
Conflict of interests: the authors declare no conflict of interest

Published

2025-06-24

Issue

Section

Mathematical and Software Support of Computer Systems, Complexes and Computer Networks (Technical Sciences) (2.3.5)