Влияние синонимического преобразования данных на качество моделей машинного обучения
Аннотация
В настоящей работе поднимается проблема, что персональные данные после обезличивания становятся непригодными для использования в некоторых задачах машинного обучения. Основная цель — изучение возможностей синонимического обезличивания данных для сохранения качества моделей машинного обучения согласно требованиям федерального закона о защите персональных данных. Проанализирован эффект обучения моделей глубокого обучения на обезличенных данных с применением классических методов обезличивания и синонимического преобразования, сравниваются метрики качества этих моделей с аналогичными моделями, обученными на необезличенных данных. Выявлено, что использование классических методов обезличивания привело к ухудшению характеристик моделей машинного обучения в среднем на 33%, в то время как модели, обученные на синонимически обезличенных данных, продемонстрировали сопоставимое качество с моделями, обученными на персональных данных. Синонимическое преобразование данных предложено как эффективный подход обезличивания данных для машинного обучения, увеличивающий их доступность для аналитики и исследований без ущерба для качества и снижающий риски, связанные с обработкой и передачей персональных данных.
Литература
2. Oleksy M., Ropiak N., Walkowiak T. Automated Anonymization of Text Documents in Polish // Proc. Computer Sci. 2021. V. 192. Pp. 1323—1333.
3. Saluja B., Kumar G., Sedoc J., Callison-Burch C. Anonymization of Sensitive Information in Medical Health Records // CEUR Workshop Proc. 2019. V. 2421. Pp. 647—653.
4. Волокитина Е.С. Алгоритмы анонимизации базы данных, содержащей персональные данные // В мире научных открытий. 2012. № 8(32). С. 22—37.
5. Саксонов Е.А., Шередин Р.В. Процедура обезличивания персональных данных // Наука и образование. 2011. № 3. С. 1.
6. Столбов А.П. Обезличивание персональных данных в здравоохранении // Врач и информационные технологии. 2017. № 3. С. 76—91.
7. Спеваков А.Г., Калуцкий И.В., Никулин Д.А., Шумайлова В.А. Обезличивание персональных данных при обработке в автоматизированных информационных системах // Телекоммуникации. 2016. № 10. С. 16—20.
8. Серышев А.С., Кротов А.Д., Ефанова Н.В. Разработка приложения для обезличивания персональных данных // Цифровизация экономики: направления, методы, инструменты. 2021. С. 294—297.
9. Методические рекомендации по применению приказа Роскомнадзора № 996 от 05 сентября 2013 г. «Об утверждении требований и методов по обезличиванию персональных данных».
10. Ивичев В.А., Игнатова Т.В. Технологии выявления и очистки персональных данных открытых источников // ЭКО. 2013. № 4(464). С. 168—179.
11. Kleinberg B., Davies T., Mozes M. Textwash — Automated Open-source Text Anonymisation // arXiv preprint arXiv: 2208.13081. 2022.
12. Kocaman V., Haq H.U., Talby D. Beyond Accuracy: Automated De-identification of Large Real-world Clinical Text Datasets // arXiv preprint arXiv: 2312.08495. 2023.
13. Presidio: Data Protection and De-identification SDK [Офиц. сайт] https://microsoft.github.io/presidio/ (дата обращения 29.12.2023).
14. Бабак Н.Г., Белорыбкин Л.Ю., Оцоков Ш.А., Теренин А.А., Шаброва А.И. Автоматическое обезличивание конфиденциальной информации // Russian Technol. J. 2023. Т. 11. № 5. С. 7—18.
15. Пат. № 2802549 РФ. Способ и система обезличивания конфиденциальных данных / Бабак Н.Г., Белорыбкин Л.Ю., Теренин А.А., Шаброва А.И. // Бюл. изобрет. 2023. № 25.
16. Пат. № 2804747. Способ и система обезличивания конфиденциальных данных / Бабак Н.Г., Белорыбкин Л.Ю., Теренин А.А., Шаброва А.И. // Бюл. изобрет. 2023. № 28.
17. Бабак Н.Г., Оцоков Ш.А. Методы генерации синтетических данных для обезличивания // Радиоэлектроника, электротехника и энергетика: Тез. докл. XXIX Междунар. науч.-техн. конф. студентов и аспирантов. М.: Радуга, 2023.
18. Roy A. Recent Trends in Named Entity Recognition (NER) // arXiv preprint arXiv: 2101.11420. 2021.
19. Lothritz C., Allix K., Veiber L., Klein J., Bissyande T.F.D.A. Evaluating Pretrained Transformer-based Models on the Task of Fine-grained Named Entity Recognition // Proc. XXVIII Intern. Conf. Computational Linguistics. 2020. Pp. 3750—3760.
20. Williams C.K.I. The Effect of Class Imbalance on Precision-recall Curves // Neural Computation. 2021. V. 33(4). Pp. 853—857.
21. Starostin A.S. e. a. FactRuEval 2016: Evaluation of Named Entity Recognition and Fact Extraction Systems for Russian // Computational Linguistics and Intellectual Technol.: Proc. Intern. Conf. «Dialogue 2016». 2016. Pp. 702—720.
22. Можарова В.А., Лукашевич Н.В. Двухэтапный подход к извлечению именованных сущностей // Труды конф. по искусственному интеллекту. 2016. Т. 2. С. 81—88.
23. Piskorski J. e. a. The Second Cross-lingual Challenge on Recognition, Normalization, Classification, and Linking of Named Entities across Slavic Languages // Proc. VII Conf. Workshop on Balto-Slavic Natural Language. 2019. Pp. 63—74.
24. Кукушкин А. Nerus —большой синтетический русскоязычный датасет с разметкой морфологии, синтаксиса и именованных сущностей [Офиц. сайт] https://natasha.github.io/nerus/ (дата обращения 29.12.2023).
25. Semiletov A. Toxic Russian Comments [Электрон. ресурс] https://www.kaggle.com/datasets/alexandersemiletov/toxic-russian-comments/ (дата обращения 29.12.2023).
26. Devlin J. e. a. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // arXiv preprint arXiv: 1810.04805v2. 2019.
27. Arkhipov M., Trofimova M., Kuratov Yu., Sorokin A. Tuning Multilingual Transformers for Named Entity Recognition on Slavic Languages // Proc. VII Conf. Workshop on Balto-Slavic Natural Language. 2019. Pp. 89—93.
28. Kuratov Y., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language // arXiv preprint arXiv: 1905.07213. 2019.
29. Vaswani A. e. a. Attention is All You Need // Advances in Neural Information Processing Systems. 2017. V. 30. Pp. 5998—6008.
30. Press O., Smith N.A., Lewis M. Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation // arXiv preprint arXiv: 2108.12409v2. 2022
---
Для цитирования: Бабак Н.Г., Белорыбкин Л.Ю., Оцоков Ш.А., Полетаев М.К., Теренин А.А., Шаброва А.И. Влияние синонимического преобразования данных на качество моделей машинного обучения // Вестник МЭИ. 2024. № 5. С. 168—178. DOI: 10.24160/1993-6982-2024-5-168-178
---
Конфликт интересов: авторы заявляют об отсутствии конфликта интересов
#
1. Federal'nyy Zakon № 152-FZ ot 27 Iyulya 2006 g. «O Personal'nykh Dannykh». (in Russian).
2. Oleksy M., Ropiak N., Walkowiak T. Automated Anonymization of Text Documents in Polish. Proc. Computer Sci. 2021;192:1323—1333.
3. Saluja B., Kumar G., Sedoc J., Callison-Burch C. Anonymization of Sensitive Information in Medical Health Records. CEUR Workshop Proc. 2019;2421:647—653.
4. Volokitina E.S. Algoritmy Anonimizatsii Bazy Dannykh, Soderzhashchey Personal'nye Dannye. V Mire Nauchnykh Otkrytiy. 2012;8(32):22—37. (in Russian).
5. Saksonov E.A., Sheredin R.V. Protsedura Obezlichivaniya Personal'nykh Dannykh. Nauka i Obrazovanie. 2011;3:1. (in Russian).
6. Stolbov A.P. Obezlichivanie Personal'nykh Dannykh v Zdravookhranenii. Vrach i Informatsionnye Tekhnologii. 2017;3:76—91. (in Russian).
7. Spevakov A.G., Kalutskiy I.V., Nikulin D.A., Shumaylova V.A. Obezlichivanie Personal'nykh Dannykh pri Obrabotke v Avtomatizirovannykh Informatsionnykh Sistemakh. Telekommunikatsii. 2016;10:16—20. (in Russian).
8. Seryshev A.S., Krotov A.D., Efanova N.V. Razrabotka Prilozheniya dlya Obezlichivaniya Personal'nykh Dannykh. Tsifrovizatsiya Ekonomiki: Napravleniya, Metody, Instrumenty. 2021:294—297. (in Russian).
9. Metodicheskie Rekomendatsii po Primeneniyu Prikaza Roskomnadzora № 996 ot 05 Sentyabrya 2013 g. «Ob Utverzhdenii Trebovaniy i Metodov po Obezlichivaniyu Personal'nykh Dannykh». (in Russian).
10. Ivichev V.A., Ignatova T.V. Tekhnologii Vyyavleniya i Ochistki Personal'nykh Dannykh Otkrytykh Istochnikov. EKO. 2013;4(464):168—179. (in Russian).
11. Kleinberg B., Davies T., Mozes M. Textwash — Automated Open-source Text Anonymisation. arXiv preprint arXiv: 2208.13081. 2022.
12. Kocaman V., Haq H.U., Talby D. Beyond Accuracy: Automated De-identification of Large Real-world Clinical Text Datasets. arXiv preprint arXiv: 2312.08495. 2023.
13. Presidio: Data Protection and De-identification SDK [Ofits. Sayt] https://microsoft.github.io/presidio/ (Data Obrashcheniya 29.12.2023).
14. Babak N.G., Belorybkin L.Yu., Otsokov Sh.A., Terenin A.A., Shabrova A.I. Avtomaticheskoe Obezlichivanie Konfidentsial'noy Informatsii. Russian Technol. J. 2023;11;5:7—18. (in Russian).
15. Pat. № 2802549 RF. Sposob i Sistema Obezlichivaniya Konfidentsial'nykh Dannykh. Babak N.G., Belorybkin L.Yu., Terenin A.A., Shabrova A.I. Byul. Izobret. 2023;25. (in Russian).
16. Pat. № 2804747. Sposob i Sistema Obezlichivaniya Konfidentsial'nykh Dannykh. Babak N.G., Belorybkin L.Yu., Terenin A.A., Shabrova A.I. Byul. Izobret. 2023;28. (in Russian).
17. Babak N.G., Otsokov Sh.A. Metody Generatsii Sinteticheskikh Dannykh dlya Obezlichivaniya. Radioelektronika, Elektrotekhnika i Energetika: Tez. Dokl. XXIX Mezhdunar. Nauch.-tekhn. Konf. Studentov i Aspirantov. M.: Raduga, 2023. (in Russian).
18. Roy A. Recent Trends in Named Entity Recognition (NER). arXiv preprint arXiv: 2101.11420. 2021.
19. Lothritz C., Allix K., Veiber L., Klein J., Bissyande T.F.D.A. Evaluating Pretrained Transformer-based Models on the Task of Fine-grained Named Entity Recognition. Proc. XXVIII Intern. Conf. Computational Linguistics. 2020:3750—3760.
20. Williams C.K.I. The Effect of Class Imbalance on Precision-recall Curves. Neural Computation. 2021;33(4):853—857.
21. Starostin A.S. e. a. FactRuEval 2016: Evaluation of Named Entity Recognition and Fact Extraction Systems for Russian. Computational Linguistics and Intellectual Technol.: Proc. Intern. Conf. «Dialogue 2016». 2016:702—720.
22. Mozharova V.A., Lukashevich N.V. Dvukhetapnyy Podkhod k Izvlecheniyu Imenovannykh Sushchnostey. Trudy Konf. po Iskusstvennomu Intellektu. 2016;2:81—88. (in Russian).
23. Piskorski J. e. a. The Second Cross-lingual Challenge on Recognition, Normalization, Classification, and Linking of Named Entities across Slavic Languages. Proc. VII Conf. Workshop on Balto-Slavic Natural Language. 2019:63—74.
24. Kukushkin A. Nerus — Bol'shoy Sinteticheskiy Russkoyazychnyy Dataset s Razmetkoy Morfologii, Sintaksisa i Imenovannykh Sushchnostey [Ofits. Sayt] https://natasha.github.io/nerus/ (Data Obrashcheniya 29.12.2023). (in Russian).
25. Semiletov A. Toxic Russian Comments [Elektron. Resurs] https://www.kaggle.com/datasets/alexandersemiletov/toxic-russian-comments/ (Data Obrashcheniya 29.12.2023).
26. Devlin J. e. a. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv: 1810.04805v2. 2019.
27. Arkhipov M., Trofimova M., Kuratov Yu., Sorokin A. Tuning Multilingual Transformers for Named Entity Recognition on Slavic Languages. Proc. VII Conf. Workshop on Balto-Slavic Natural Language. 2019:89—93.
28. Kuratov Y., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language. arXiv preprint arXiv: 1905.07213. 2019.
29. Vaswani A. e. a. Attention is All You Need. Advances in Neural Information Processing Systems. 2017;30:5998—6008.
30. Press O., Smith N.A., Lewis M. Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv preprint arXiv: 2108.12409v2. 2022
---
For citation: Babak N.G., Belorybkin L.Yu., Otsokov Sh.A., Poletaev M.K., Terenin A.A., Shabrova A.I. The Influence of Synonymous Data Transformation on the Performance of Machine Learning Models. Bulletin of MPEI. 2024;5:168—178. (in Russian). DOI: 10.24160/1993-6982-2024-5-168-178
---
Conflict of interests: the authors declare no conflict of interest