Построение терминологических профилей научных сотрудников на основе публикаций в цифровой библиотеке eLIBRARY.RU
Аннотация
Проведено построение терминологических профилей специалистов на основе публикаций из цифровой библиотеки eLIBRARY. Усреднение индивидуальных терминологических профилей позволяет составить обобщенный профиль («портрет») малого научного коллектива (кафедры, лаборатории, отдела). Сопоставление индивидуальных профилей с помощью мер близости (например, косинусной меры) дает возможность группировать схожие профили и выявлять группы сотрудников, проводящих исследования в одной предметной области. Это помогает определять специализацию научного коллектива средствами Text Mining без использования субъективных экспертных оценок. Результаты, полученные с помощью профильного подхода, подтверждены путем построения графов соавторства и графа терминов в программе Gephi.
Составление терминологических профилей использовано также при разработке персонализированных систем поддержки научной деятельности. Данная система предназначена для оказания помощи пользователю (специалисту-предметнику) в выборе релевантных научных конференций и поиске полезных (по возможности пертинентных) публикаций. Для описания текстовых документов в работе взята векторная модель, веса терминов установлены с помощью расчета частоты встречаемости термина (или формулы tfc-взвешивания). На стадии предварительной обработки отсечены стоп-слова, редкочастотные слова и проведена лемматизация.
Разработанный профильный подход апробирован на примере малого научного коллектива, специализирующегося в области компьютерных наук (Computer Science). Построение терминологических профилей и их анализ позволил выделить направления, по которым специализируется члены коллектива, и разработать персонализированную систему поддержки научной деятельности, отслеживающую в автоматизированном режиме публикации в eLIBRARY по одному из актуальных направлений («Интеллектуальный анализ данных»).
Литература
2. Андреев А.М., Березкин Д.В., Козлов И.А. Подход к автоматизированному мониторингу тем на основе обнаружения событий в потоке текстовых документов // Информационно-измерительные и управляющие системы. 2017. № 3. С. 49—60.
3. Barakhnin V.B., Kozhemyakina O.Yu., Mukhamediev R.I., Borzilova Yu.S., Yakunin K.O. The Design of Structure of the Software System for Processing Text Document Corpus // Business Informatics. 2019. No. 4. Pp. 60—72.
4. Васенин В.А., Афонин С.А., Голомазов Д.Д. К созданию системы управления научной информацией на основе семантических технологий // Знания — Онтологии — Теории: Материалы Всеросс. конф. с международным участием. Новосибирск, 2011. С. 78—87.
5. Валько Д.В. Рекомендательная система на основе интеллектуального анализа наукометрического профиля исследователя // Программные продукты и системы. 2018. № 2. С. 275—283.
6. Shvets A., Devyatkin D., Sochenkov I., Tikhomirov I., Popov K., Yarygin K. Detection of Current Research Directions Based on Full-text Clustering // Proc. Sci. and Information Conf. London, 2015. Pp. 483—488.
7. Голицына О.Л., Куприянов В.М., Максимов Н.В. Информационные и технологические решения в задачах управления знаниями // Научно-техническая информация. 2015. Сер. 1. № 8. С. 1—12.
8. Slater S., Joksimovic S., Kovanovic V., Baker R.S., Gasevic D. Tools for Educational Data Mining: a Review // J. Educational and Behavioral Statistics. 2017. V. 42(1). Pp. 85—106.
9. Мохов А.С., Сафин Ш.И., Толчеев В.О. Анализ соответствия между научной и учебной деятельностью кафедры с использованием информационных технологий // Дистанционные образовательные технологии: Сб. статей IV Всерос. науч.-практ. конф. 2019. С. 232—236.
10. Маслихов С.Р., Мохов А.С., Толчеев В.О. Применение технологий интеллектуального анализа для оценки соответствия научного профиля кафедры и тематик лекционных курсов // «ИНФОТЕХ — 2019»: Сб. статей Всерос. науч.-техн. конф. 2019. С. 129—133.
11. Бершадский А.М., Бурукина И.П., Акимов А.А. Информационная система мониторинга деятельности кафедры // Информатизация образования и науки. 2011. № 3(11). С. 12—23.
12. Маннинг К., Рагхаван П., Шютце Х. Введение в информационный поиск. М.: Вильямс, 2014.
13. Chen K., Zhang Z., Long J., Zhang H. Turning from TF-IDF to TF-IGM for Term Weighting in Text Classification // Expert Syst. Appl. 2016. V. 66. Pp. 245—260.
14. Joulin A., Grave E., Bojanowski P., Mikolov T. Bag of Tricks for Efficient Text Classification // Proc. 15 Conf. European Chapter Association for Computational Linguistics, 2017. V. 2. Pp. 427—431.
15. Rani N., Sharma A., Pathak S. Text Classification Using Machine Learning Techniques: Comparative study // Intern. J. Future Revolution in Computer Sci. & Communication Eng. 2018. Iss. 3. Pp. 551—555.
16. Aggarwal C.C. Machine Learning for Text. N.Y.: Springer, 2018.
17. Специализированный информационно-аналитический ресурс, посвященный машинному обучению, распознаванию образов и интеллектуальному анализу данных [Электрон. ресурс] www.machinelearning.ru (дата обращения 22.02.2021).
18. Айсина Р.М. Обзор средств визуализации тематических моделей коллекций текстовых документов // Машинное обучение и анализ данных. 2015. T. 1. № 11. C. 1584—1618.
19. Козлов П.А., Мохов А.С., Толчеев В.О. Кластеризация научных публикаций кафедры (на основе данных из библиотеки elibrary.ru) // Нечеткие системы, мягкие вычисления и интеллектуальные технологии: Сб. трудов VIII Междунар. науч.-практ. конф. 2020. Т. 2. С. 189—199.
20. Флах П. Машинное обучение – наука и искусство построения алгоритмов. М.: ДМК-пресс, 2015.
---
Для цитирования: Козлов П.А., Мохов А.С., Толчеев В.О. Построение терминологических профилей научных сотрудников на основе публикаций в цифровой библиотеке eLIBRARY.RU // Вестник МЭИ. 2022. № 1. С. 111—119. DOI: 10.24160/1993-6982-2022-1-111-119.
#
1. Aggarwal C.C. Content-based Recommender Systems. N.-Y.: Springer, 2016:139—166.
2. Andreev A.M., Berezkin D.V., Kozlov I.A. Podkhod k avtomatizirovannomu Monitoringu Tem na Osnove Obnaruzheniya Sobytiy v Potoke Tekstovykh Dokumentov. Informatsionno-izmeritel'nye i Upravlyayushchie Sistemy. 2017;3:49—60. (in Russian).
3. Barakhnin V.B., Kozhemyakina O.Yu., Mukhamediev R.I., Borzilova Yu.S., Yakunin K.O. The Design of Structure of the Software System for Processing Text Document Corpus. Business Informatics. 2019;4:60—72.
4. Vasenin V.A., Afonin S.A., Golomazov D.D. K Sozdaniyu Sistemy Upravleniya Nauchnoy Informatsiey na Osnove Semanticheskikh Tekhnologiy. Znaniya — Ontologii — Teorii: Materialy Vseross. Konf. s Mezhdunarodnym Uchastiem. Novosibirsk, 2011:78—87. (in Russian).
5. Val'ko D.V. Rekomendatel'naya Sistema na Osnove Intellektual'nogo Analiza Naukometricheskogo Profilya Issledovatelya. Programmnye Produkty i Sistemy. 2018;2:275—283. (in Russian).
6. Shvets A., Devyatkin D., Sochenkov I., Tikhomirov I., Popov K., Yarygin K. Detection of Current Research Directions Based on Full-text Clustering. Proc. Sci. and Information Conf. London, 2015:483—488.
7. Golitsyna O.L., Kupriyanov V.M., Maksimov N.V. Informatsionnye i Tekhnologicheskie Resheniya v Zadachakh Upravleniya Znaniyami. Nauchno-tekhnicheskaya Informatsiya. 2015;1;8:1—12. (in Russian).
8. Slater S., Joksimovic S., Kovanovic V., Baker R.S., Gasevic D. Tools for Educational Data Mining: a Review. J. Educational and Behavioral Statistics. 2017;42(1):85—106.
9. Mokhov A.S., Safin Sh.I., Tolcheev V.O. Analiz Sootvetstviya Mezhdu Nauchnoy i Uchebnoy Deyatel'nost'yu Kafedry s Ispol'zovaniem Informatsionnykh Tekhnologiy. Distantsionnye Obrazovatel'nye Tekhnologii: Sb. Statey IV Vseros. Nauch.-prakt. Konf. 2019:232—236. (in Russian).
10. Maslikhov S.R., Mokhov A.S., Tolcheev V.O. Primenenie Tekhnologiy Intellektual'nogo Analiza dlya Otsenki Sootvetstviya Nauchnogo Profilya Kafedry i Tematik Lektsionnykh Kursov. «INFOTEKH — 2019»: Sb. Statey Vseros. Nauch.-tekhn. Konf. 2019:129—133. (in Russian).
11. Bershadskiy A.M., Burukina I.P., Akimov A.A. Informatsionnaya Sistema Monitoringa Deyatel'nosti Kafedry. Informatizatsiya Obrazovaniya i Nauki. 2011;3(11):12—23. (in Russian).
12. Manning K., Ragkhavan P., Shyuttse Kh. Vvedenie v Informatsionnyy Poisk. M.: Vil'yams, 2014. (in Russian).
13. Chen K., Zhang Z., Long J., Zhang H. Turning from TF-IDF to TF-IGM for Term Weighting in Text Classification. Expert Syst. Appl. 2016;66:245—260.
14. Joulin A., Grave E., Bojanowski P., Mikolov T. Bag of Tricks for Efficient Text Classification. Proc. 15 Conf. European Chapter Association for Computational Linguistics, 2017;2:427—431.
15. Rani N., Sharma A., Pathak S. Text Classification Using Machine Learning Techniques: Comparative study. Intern. J. Future Revolution in Computer Sci. & Communication Eng. 2018;3:551—555.
16. Aggarwal C.C. Machine Learning for Text. N.Y.: Springer, 2018.
17. Spetsializirovannyy Informatsionno-analiticheskiy Resurs, Posvyashchennyy Mashinnomu Obucheniyu, Raspoznavaniyu Obrazov i Intellektual'nomu Analizu Dannykh [Elektron. Resurs] www.machinelearning.ru (Data Obrashcheniya 22.02.2021). (in Russian).
18. Aysina R.M. Obzor Sredstv Vizualizatsii Tematicheskikh Modeley Kollektsiy Tekstovykh Dokumentov. Mashinnoe Obuchenie i Analiz Dannykh. 2015;1;11:1584—1618. (in Russian).
19. Kozlov P.A., Mokhov A.S., Tolcheev V.O. Klasterizatsiya Nauchnykh Publikatsiy Kafedry (na Osnove Dannykh iz Biblioteki elibrary.ru). Nechetkie Sistemy, Myagkie Vychisleniya i Intellektual'nye Tekhnologii: Sb. Trudov VIII Mezhdunar. Nauch.-prakt. Konf. 2020;2:189—199. (in Russian).
20. Flakh P. Mashinnoe Obuchenie – Nauka i Iskusstvo Postroeniya Algoritmov. M.: DMK-press, 2015. (in Russian).
---
For citation: Kozlov P.A., Mokhov A.S., Tolcheev V.O. Drawing Up Researcher Terminological Profiles Based on Publications in the Digital Library eLIBRARY.Ru. Bulletin of MPEI. 2022;1:111—119. (in Russian). DOI: 10.24160/1993-6982-2022-1-111-119.