Разработка программных средств анализа сообщений участников публичных информационных каналов
Аннотация
Цель работы — разработка метода и реализующего его чат-бота для публичных Telegram-каналов, которые позволят удалять из них спам-сообщения, не относящиеся к основной тематике канала или несущие в себе рекламную информацию.
Рассмотрены и проанализированы основные методы классификации и кластеризации коротких текстовых сообщений для обнаружения в них спама. Среди методов кластеризации изучены алгоритм К-средних, самоорганизующиеся карты, спектральная кластеризация, оценка максимального правдоподобия, метод тематической кластеризации и латентно-семантический анализ. Среди методов классификации —методы k-ближайших соседей, Байеса, опорных векторов, логистической регрессии, случайных деревьев, а также классификация на основе искусственных нейронных сетей. По результатам проведенного анализа предложено решение, являющееся комбинацией метода опорных векторов и сверточной нейронной сети.
На основе предложенного решения создана модель анализатора коротких текстовых сообщений, а с использованием интерфейса Telegram Bot API — чат-бот для мессенджера Telegram, интегрированный в реальные группы пользователей с постоянными активными участниками. Проведенное тестирование показало, что точность модели, обученной методом опорных векторов, составила 77%, а модели, обученной на основе сверточной нейронной сети, — 95%.
Результаты работы могут найти применение при администрировании публичных информационных каналов мессенджера Telegram.
В чат-боте, спроектированном на основе предложенного метода классификации, в режиме реального времени обрабатываются сообщения пользователей информационного канала и удаляются те из них, которые идентифицированы как спам или как не относящиеся к теме канала. Эффективность разработанного программного средства подтверждена результатами его тестирования.
Литература
2. Семенова А.В. Современные подходы к методологии контент-аналитических исследований // Социологические методы в современной исследовательской практике: Сб. статей, посвященный памяти первого декана факультета социологии НИУ ВШЭ А.О. Крыштановского. М.: НИУ ВШЭ, 2011. С. 357—363.
3. Игнатов Д.И., Магизов Р.А. Анализ тримодальных данных на примере Интернет-сервисов социальных закладок // Социологические методы в современной исследовательской практике: Сб. статей, посвященный памяти первого декана факультета социологии НИУ ВШЭ А.О. Крыштановского. М.: НИУ ВШЭ, 2011. С. 315—322.
4. Jung H., Lee S. Research on Game Design Methodology Based on OpenAI API and Human Creativity // J. Next-generation Convergence Technology Association. 2024. V. 8(7). Pp. 1517—1527.
5. Ali M.A.A.Sр. AI-natural Language Processing (NLP) // Intern. J. Research in Appl. Sci. and Eng. Technol. 2021. V. 9(8). Pp. 135—140.
6. Мишина В.И. Сравнительный анализ платформ для разработки и развертывания бессерверных приложений в экосистеме Python // Оригинальные исследования. 2024. Т. 14. № 2. С. 9—14.
7. Плющ Н.О., Федькова Н.А. Проблемы и перспективы Yandex DataLens на рынке бизнес-аналитики // Вестник образовательного консорциума «Среднерусский университет». Серия «Информационные технологии». 2022. № 2(20). С. 22—26.
8. Sucipto S., Karaman Ja. Integration of Legalization Information System Web-based Using Shipping API and Telegram API // JUITA: J. Informatika. 2020. V. 8(2). P. 131.
9. Кожевников В.А., Сабинин О.Ю., Шац Ю.Е. Современные мессенджеры в качестве помощника администратора базы данных // ScienceRise. 2018. Т. 6. С. 32—36.
10. Попов В.А., Чеповский А.А. Модели импорта данных из мессенджера Telegram // Вестник Новосибирского государственного университета. Серия «Информационные технологии». 2022. Т. 20(2). С. 60—71.
11. Квасов М.Н., Зайцев Н.В., Рябов Г.А., Вовк А.Ю. Программное решение задачи сбора данных из мессенджера Telegram // Тенденции развития науки и образования. 2023. № 95—6. С. 23—28.
12. Тихонова М.И. Новый метод векторного представления слов посредством разложения PSD-матрицы в задачах NLP // Системы компьютерной математики и их приложения. 2018. № 19. С. 106—112.
13. Марков А.К., Семёночкин Д.О., Кравец А.Г., Яновский Т.А. Сравнительный анализ применяемых технологий обработки естественного языка для улучшения качества классификации цифровых документов // Intern. J. Open Information Technol. 2024. Т. 12(3). С. 66—77.
14. Datasets [Электрон. ресурс] https://www.kaggle.com/datasets?search=spam (дата обращения 05.02.2025).
15. Библиотека Deep-translator 1.11.4 [Электрон. ресурс] https://pypi.org/project/deep-translator/ (дата обращения 05.02.2025).
16. Янников И.М, Ершова М.В., Исенбаев А.Н. Методы и алгоритмы для поиска сходства между текстами // Интеллектуальные системы в производстве. 2024. Т. 22. № 2. С. 103—113.
17. Пальмов С.В., Кужаева М.Р. Классификатор на основе метода опорных векторов // Наука и бизнес: пути развития. 2023. № 1(139). С. 38—42.
18. Щукина Н.А. Нейросетевые модели в задаче классификации медицинских изображений // Моделирование, оптимизация и информационные технологии. 2021. Т. 9. № 4(35). С. 1—14.
19. Telegram Bot API [Электрон. ресурс] https://core.telegram.org/bots/api (дата обращения 05.02.2025).
20. Pedregosa F. e. a. Scikit-learn: Machine Learning in Python // J. Machine Learning Research. 2011. V. 12 (85). Pp. 2825—2830.
21. Табуев С. Обзор Keras для TensorFlow [Электрон. ресурс] https://habr.com/ru/articles/482126/ (дата обращения 05.02.2025).
---
Для цитирования: Хорев П.Б., Темерова П.А. Разработка программных средств анализа сообщений участников публичных информационных каналов // Вестник МЭИ. 2025. № 5. С. 138—145. DOI: 10.24160/1993-6982-2025-5-138-145
---
Конфликт интересов: авторы заявляют об отсутствии конфликта интересов
#
1. Pronoza A.A. i dr. Metodika Vyyavleniya Kanalov Rasprostraneniya Informatsii v Sotsial'nykh Setyakh. Vestnik Sankt-Peterburgskogo Un-ta. Seriya «Prikladnaya Matematika. Informatika. Protsessy Upravleniya». 2018;14;4:362—377. (in Russian).
2. Semenova A.V. Sovremennye Podkhody k Metodologii Kontent-analiticheskikh Issledovaniy. Sotsiologicheskie Metody v Sovremennoy Issledovatel'skoy Praktike: Sb. Statey, Posvyashchennyy Pamyati Pervogo Dekana Fakul'teta Sotsiologii NIU VSHE A.O. Kryshtanovskogo. M.: NIU VSHE, 2011:357—363. (in Russian).
3. Ignatov D.I., Magizov R.A. Analiz Trimodal'nykh Dannykh na Primere Internet-servisov Sotsial'nykh Zakladok. Sotsiologicheskie Metody v Sovremennoy Issledovatel'skoy Praktike: Sb. Statey, Posvyashchennyy Pamyati Pervogo Dekana Fakul'teta Sotsiologii NIU VSHE A.O. Kryshtanovskogo. M.: NIU VSHE, 2011:315—322. (in Russian).
4. Jung H., Lee S. Research on Game Design Methodology Based on OpenAI API and Human Creativity. J. Next-generation Convergence Technology Association. 2024;8(7):1517—1527.
5. Ali M.A.A.Sr. AI-natural Language Processing (NLP). Intern. J. Research in Appl. Sci. and Eng. Technol. 2021;9(8):135—140.
6. Mishina V.I. Sravnitel'nyy Analiz Platform dlya Razrabotki i Razvertyvaniya Besservernykh Prilozheniy v Ekosisteme Python. Original'nye Issledovaniya. 2024;14;2:9—14. (in Russian).
7. Plyushch N.O., Fed'kova N.A. Problemy i Perspektivy Yandex Datalens na Rynke Biznes-Analitiki. Vestnik Obrazovatel'nogo Konsortsiuma «Srednerusskiy Universitet». Seriya «Informatsionnye Tekhnologii». 2022;2(20):22—26. (in Russian).
8. Sucipto S., Karaman Ja. Integration of Legalization Information System Web-based Using Shipping API and Telegram API. JUITA: J. Informatika. 2020;8(2):131.
9. Kozhevnikov V.A., Sabinin O.Yu., Shats Yu.E. Sovremennye Messendzhery v kachestve Pomoshchnika Administratora Bazy Dannykh. ScienceRise. 2018;6:32—36. (in Russian).
10. Popov V.A., Chepovskiy A.A. Modeli Importa Dannykh iz Messendzhera Telegram. Vestnik Novosibirskogo Gosudarstvennogo Universiteta. Seriya «Informatsionnye Tekhnologii». 2022;20(2):60—71. (in Russian).
11. Kvasov M.N., Zaytsev N.V., Ryabov G.A., Vovk A.Yu. Programmnoe Reshenie Zadachi Sbora Dannykh iz Messendzhera Telegram. Tendentsii Razvitiya Nauki i Obrazovaniya. 2023;95—6:23—28. (in Russian).
12. Tikhonova M.I. Novyy Metod Vektornogo Predstavleniya Slov Posredstvom Razlozheniya PSD-matritsy v Zadachakh NLP. Sistemy Komp'yuternoy Matematiki i Ikh Prilozheniya. 2018;19:106—112. (in Russian).
13. Markov A.K., Semenochkin D.O., Kravets A.G., Yanovskiy T.A. Sravnitel'nyy Analiz Primenyaemykh Tekhnologiy Obrabotki Estestvennogo Yazyka dlya Uluchsheniya Kachestva Klassifikatsii Tsifrovykh Dokumentov. Intern. J. Open Information Technol. 2024;12(3):66—77. (in Russian).
14. Datasets [Elektron. Resurs] https://www.kaggle.com/datasets?search=spam (Data Obrashcheniya 05.02.2025).
15. Biblioteka Deep-translator 1.11.4 [Elektron. Resurs] https://pypi.org/project/deep-translator/ (Data Obrashcheniya 05.02.2025).
16. Yannikov I.M, Ershova M.V., Isenbaev A.N. Metody i Algoritmy dlya Poiska Skhodstva Mezhdu Tekstami. Intellektual'nye Sistemy v Proizvodstve. 2024;22;2:103—113. (in Russian).
17. Pal'mov S.V., Kuzhaeva M.R. Klassifikator na Osnove Metoda Opornykh Vektorov. Nauka i Biznes: Puti Razvitiya. 2023;1(139):38—42. (in Russian).
18. Shchukina N.A. Neyrosetevye Modeli v Zadache Klassifikatsii Meditsinskikh Izobrazheniy. Modelirovanie, Optimizatsiya i Informatsionnye Tekhnologii. 2021;9;4(35):1—14. (in Russian).
19. Telegram Bot API [Elektron. Resurs] https://core.telegram.org/bots/api (Data Obrashcheniya 05.02.2025).
20. Pedregosa F. e. a. Scikit-learn: Machine Learning in Python. J. Machine Learning Research. 2011;12 (85):2825—2830.
21. Tabuev S. Obzor Keras dlya TensorFlow [Elektron. Resurs] https://habr.com/ru/articles/482126/ (Data Obrashcheniya 05.02.2025). (in Russian)
---
For citation: Khorev P.B., Temerova P.A. Software Tools for Analyzing Messages of Participants in Public Information Channels. Bulletin of MPEI. 2025;5:138—145. (in Russian). DOI: 10.24160/1993-6982-2025-5-138-145
---
Conflict of interests: the authors declare no conflict of interest