Анализ и мониторинг рубрицирования электронных текстовых документов

  • Вадим [Vadim] Владимирович [V.] Борисов [Borisov]
  • Максим [Maksim] Иосифович [I.] Дли [Dli]
  • Павел [Pavel] Юрьевич [Yu.] Козлов [Kozlov]
Ключевые слова: автоматизированный анализ и нечеткое рубрицирование текстов, динамичный тезаурус, обработка обращений граждан, формализация электронных текстовых документов

Аннотация

Предложено решение задачи анализа и мониторинга рубрицирования электронных текстовых документов (ЭТД) в системах анализа жалоб, предложений и обращений граждан, поступающих в органы законодательной и исполнительной власти различного уровня с целью повышения качества и оперативности подготовки ответов. Показано, что рубрицирование подобных документов и мониторинг осуществляются в условиях нестационарности тезауруса (состава и важности слов), зависят от актуализации новых нормативных документов, что приводит к необходимости использования процедур динамической классификации при мониторинге рубрик ЭТД. Это определяет целесообразность мониторинга и периодического пересмотра рубричного поля с последующим изменением административных регламентов, закрепляющих выделенные рубрики за профильными департаментами в соответствии с ситуациями, требующими динамического изменения рубричного поля: выделением дополнительных «стыковых» рубрик, формированием новых рубрик, разделением, исключением и объединением рубрик. Для анализа и мониторинга рубрицирования электронных текстовых документов предложен способ, включающий в себя следующие основные этапы: задание рубрик и совокупности ЭТД, сопоставление ЭТД рубрикам, проверку условий изменения рубричного поля. Рассмотрены ситуации, требующие изменения рубричного поля, определены критериальные показатели, описаны условия и предложены правила для изменения рубрик. Предложеный способ анализа и мониторинга электронных текстовых документов позволяет обеспечить актуализацию рубрик в зависимости от структуры и показателей текстовых документов в условиях нестационарности состава тезауруса и важности ключевых слов рубрик.

Сведения об авторах

Вадим [Vadim] Владимирович [V.] Борисов [Borisov]

Учёная степень:

доктор технических наук

Место работы

кафедра Вычислительной техники Смоленского филиала НИУ «МЭИ»

Должность

профессор

Максим [Maksim] Иосифович [I.] Дли [Dli]

Учёная степень:

доктор технических наук

Место работы

кафедра Менеджмента и информационных технологий в экономике Смоленского филиала НИУ «МЭИ»

Должность

заведующий кафедрой, зам. директора по научной работе

Павел [Pavel] Юрьевич [Yu.] Козлов [Kozlov]

Место работы

кафедра Прикладной математики НИУ «МЭИ»

Должность

аспирант

Литература

1. Козлов П.Ю. Методы автоматизированного анализа коротких неструктурированных текстовых документов // Программные продукты и системы. 2017. № 1. С. 100—106.

2. Аналитическая справка о работе Аппарата Администрации Смоленской области с обращениями граждан [Офиц. сайт] https://www.admin smolensk.ru/obrascheniya_grazhdan/obzori_obrascheniy/news_16096.html (дата обращения 17.06.2017).

3. Обзор обращений граждан Администрации города Санкт-Петербурга [Офиц. сайт] http://gov.spb.ru/gov/obrasheniya–grazhdan/otchet–obrasheniya/?page=1 (дата обращения 25.06.2017).

4. Гимаров В.А., Дли М.И., Круглов В.В. Задачи распознания нестационарных образов // Известия РАН. Серия «Теория и системы управления». 2004. № 3. С. 92—96.

5. Гимаров В.А., Дли М.И. Нейросетевой алгоритм классификации сложных объектов // Программные продукты и системы. 2004. № 4. С. 51—56.

6. Singh. S. Dynamic Pattern Recognition for Temporal Data // Proc. 5 th European Congress on Intelligent Techniques and Soft Computing. Aachen, 1997. V 3. Pр. 1993—1997.

7. Учителев Н.В. Классификация текстовой информации с помощью SVM // Информационные технологии и системы. 2013. № 1. С. 335—340.

8. Заболеева-Зотова А.В., Петровский А.Б., Орлова Ю.А., Шитова Т.А. Автоматизированный анализ тематики текстов новостей // Intern. J. Information Content and Proc. 2016. V. 3. No. 3. Pp. 288—299.

9. Шаграев А.Г., Фальк В.Н. Линейные классификаторы в задаче классификации текстов // Вестник МЭИ. 2013. № 4. C. 204—209.

10. Фальк В.Н., Бочаров И.А., Шаграев А.Г. Трансдуктивное обучение логистической регрессии в задаче классификации текстов // Программные продукты и системы. 2014. № 2. С. 114—117.

11. Козлов П.Ю. Сравнение частотного и весового алгоритмов автоматического анализа документов // Научное обозрение. 2015. № 14. С. 245—250.

12. Протасов С. Грамматика связей Link Grammar. [Электрон. ресурс] http://sz.ru/parser/doc/ (дата обращения 10.07.2017).

13. Борисов В.В., Федулов А.С., Зернов М.М. Основы теории нечетких множеств. М.: Горячая линия–Телеком, 2014.

14. Гимаров В.А. Методы и автоматизированные системы динамической классификации сложных техногенных объектов: автореф. дисс. ... доктора техн. наук. М., 2004.
---
Для цитирования: Борисов В.В., Дли М.И., Козлов П.Ю. Анализ и мониторинг рубрицирования электронных текстовых документов // Вестник МЭИ. 2018. № 4. С. 121—127. DOI: 10.24160/1993-6982-2018-4-121-127.
#
1. Kozlov P.Yu. Metody Avtomatizirovannogo Analiza Korotkih Nestrukturirovannyh Tekstovyh Dokumentov. Programmnye Produkty i Sistemy. 2017;1:100—106. (in Russian).

2. Analiticheskaya Spravka o Rabote Apparata Administratsii Smolenskoy Oblasti s Obrashcheniyami Grazhdan [Ofits. Sayt] https://www.admin smolensk.ru/obrascheniya_grazhdan/obzori_obrascheniy/news_16096.html (Data Obrashcheniya 17.06.2017). (in Russian).

3. Obzor Obrashcheniy Grazhdan Administratsii Goroda Sankt-Peterburga [Ofits. Sayt] http://gov.spb.ru/gov/obrasheniya–grazhdan/otchet–obrasheniya/?page=1 (Data Obrashcheniya 25.06.2017). (in Russian).

4. Gimarov V.A., Dli M.I., Kruglov V.V. Zadachi Raspoznaniya Nestatsionarnyh Obrazov. Izvestiya RAN. Seriya «Teoriya i Sistemy Upravleniya». 2004; 3:92—96. (in Russian).

5. Gimarov V.A., Dli M.I. Neyrosetevoy Algoritm Klassifikatsii Slozhnyh Ob′ektov. Programmnye Produkty i Sistemy. 2004; 4:51—56. (in Russian).

6. Singh S. Dynamic Pattern Recognition for Temporal Data. Proc. 5 th European Congress on Intelligent Techniques and Soft Computing. Aachen, 1997; 3:1993—1997.

7. Uchitelev N.V. Klassifikatsiya Tekstovoy Informatsii s Pomoshch'yu SVM. Informatsionnye Tekhnologii I Sistemy. 2013; 1:335—340. (in Russian).

8. Zaboleeva-Zotova A.V., Petrovskiy A.B., Orlova Yu.A., Shitova T.A. Avtomatizirovannyy Analiz Tematiki Tekstov Novostey. Intern. J. Information Content and Proc. 2016;3;3:288—299. (in Russian).

9. Shagraev A.G., Fal'k V.N. Lineynye Klassifikatory v Zadache Klassifikatsii Tekstov. Vestnik MPEI. 2013; 4:204—209. (in Russian).

10. Fal'k V.N., Bocharov I.A., Shagraev A.G. Transduktivnoe Obuchenie Logisticheskoy Regressii v Zadache Klassifikatsii Tekstov. Programmnye Produkty I Sistemy. 2014; 2:114—117. (in Russian).

11. Kozlov P.Yu. Sravnenie Chastotnogo i Vesovogo Algoritmov Avtomaticheskogo Analiza Dokumentov. Nauchnoe Obozrenie. 2015; 14:245—250. (in Russian).

12. Protasov S. Grammatika Svyazey Link Grammar. [Elektron. Resurs] http://sz.ru/parser/doc/ (Data Obrashcheniya 10.07.2017). (in Russian).

13. Borisov V.V., Fedulov A.S., Zernov M.M. Osnovy Teorii Nechetkih Mnozhestv. M.: Goryachaya Liniya–Telekom, 2014. (in Russian).

14. Gimarov V.A. Metody i Avtomatizirovannye Sistemy Dinamicheskoy Klassifikatsii Slozhnyh Tekhnogennyh Ob′ektov: Avtoref. Diss. ... Doktora Tekhn. Nauk. M., 2004.
---
For citation: Borisov V.V., Dli M.I., Kozlov P.Yu. Analyzing and Monitoring the Assignment of Rubrics to Electronic Text Documents. MPEI Vestnik. 2018;4:121—127. (in Russian). DOI: 10.24160/1993-6982-2018-4-121-127.
Опубликован
2018-08-01
Раздел
Информатика, вычислительная техника и управление (05.13.00)