The Influence of Synonymous Data Transformation on the Performance of Machine Learning Models
DOI:
https://doi.org/10.24160/1993-6982-2024-5-168-178Keywords:
automated system, data augmentation and anonymization, information protection, machine learning, neural networks, data processing and transfer, personal dataAbstract
A problem lying in the fact that in some machine learning applications, personal data become unsuitable for use after they have been anonymized. The purpose of the analysis is to study the possibilities of synonymous anonymization---a processing that has to be carried out to comply with the requirements of the federal law on personal data protection---for preserving the quality of machine learning models. The effect of training deep learning models on anonymized data using classical anonymization and synonymous transformation methods is analyzed, and the performance metrics of these models are compared with similar models trained on personal data. It has been found that the use of classical anonymization methods resulted in that the performance of machine learning models became degraded by 33% on the average, while models trained on synonymously anonymized data showed a quality commensurable with that of models trained on personal data. Synonymous data transformation has been proposed as an effective data anonymization approach for machine learning, which makes these data more available for analysis and research purposes without compromising the performance and reduces the risks associated with the processing and transfer of personal data.
References
2. Oleksy M., Ropiak N., Walkowiak T. Automated Anonymization of Text Documents in Polish // Proc. Computer Sci. 2021. V. 192. Pp. 1323—1333.
3. Saluja B., Kumar G., Sedoc J., Callison-Burch C. Anonymization of Sensitive Information in Medical Health Records // CEUR Workshop Proc. 2019. V. 2421. Pp. 647—653.
4. Волокитина Е.С. Алгоритмы анонимизации базы данных, содержащей персональные данные // В мире научных открытий. 2012. № 8(32). С. 22—37.
5. Саксонов Е.А., Шередин Р.В. Процедура обезличивания персональных данных // Наука и образование. 2011. № 3. С. 1.
6. Столбов А.П. Обезличивание персональных данных в здравоохранении // Врач и информационные технологии. 2017. № 3. С. 76—91.
7. Спеваков А.Г., Калуцкий И.В., Никулин Д.А., Шумайлова В.А. Обезличивание персональных данных при обработке в автоматизированных информационных системах // Телекоммуникации. 2016. № 10. С. 16—20.
8. Серышев А.С., Кротов А.Д., Ефанова Н.В. Разработка приложения для обезличивания персональных данных // Цифровизация экономики: направления, методы, инструменты. 2021. С. 294—297.
9. Методические рекомендации по применению приказа Роскомнадзора № 996 от 05 сентября 2013 г. «Об утверждении требований и методов по обезличиванию персональных данных».
10. Ивичев В.А., Игнатова Т.В. Технологии выявления и очистки персональных данных открытых источников // ЭКО. 2013. № 4(464). С. 168—179.
11. Kleinberg B., Davies T., Mozes M. Textwash — Automated Open-source Text Anonymisation // arXiv preprint arXiv: 2208.13081. 2022.
12. Kocaman V., Haq H.U., Talby D. Beyond Accuracy: Automated De-identification of Large Real-world Clinical Text Datasets // arXiv preprint arXiv: 2312.08495. 2023.
13. Presidio: Data Protection and De-identification SDK [Офиц. сайт] https://microsoft.github.io/presidio/ (дата обращения 29.12.2023).
14. Бабак Н.Г., Белорыбкин Л.Ю., Оцоков Ш.А., Теренин А.А., Шаброва А.И. Автоматическое обезличивание конфиденциальной информации // Russian Technol. J. 2023. Т. 11. № 5. С. 7—18.
15. Пат. № 2802549 РФ. Способ и система обезличивания конфиденциальных данных / Бабак Н.Г., Белорыбкин Л.Ю., Теренин А.А., Шаброва А.И. // Бюл. изобрет. 2023. № 25.
16. Пат. № 2804747. Способ и система обезличивания конфиденциальных данных / Бабак Н.Г., Белорыбкин Л.Ю., Теренин А.А., Шаброва А.И. // Бюл. изобрет. 2023. № 28.
17. Бабак Н.Г., Оцоков Ш.А. Методы генерации синтетических данных для обезличивания // Радиоэлектроника, электротехника и энергетика: Тез. докл. XXIX Междунар. науч.-техн. конф. студентов и аспирантов. М.: Радуга, 2023.
18. Roy A. Recent Trends in Named Entity Recognition (NER) // arXiv preprint arXiv: 2101.11420. 2021.
19. Lothritz C., Allix K., Veiber L., Klein J., Bissyande T.F.D.A. Evaluating Pretrained Transformer-based Models on the Task of Fine-grained Named Entity Recognition // Proc. XXVIII Intern. Conf. Computational Linguistics. 2020. Pp. 3750—3760.
20. Williams C.K.I. The Effect of Class Imbalance on Precision-recall Curves // Neural Computation. 2021. V. 33(4). Pp. 853—857.
21. Starostin A.S. e. a. FactRuEval 2016: Evaluation of Named Entity Recognition and Fact Extraction Systems for Russian // Computational Linguistics and Intellectual Technol.: Proc. Intern. Conf. «Dialogue 2016». 2016. Pp. 702—720.
22. Можарова В.А., Лукашевич Н.В. Двухэтапный подход к извлечению именованных сущностей // Труды конф. по искусственному интеллекту. 2016. Т. 2. С. 81—88.
23. Piskorski J. e. a. The Second Cross-lingual Challenge on Recognition, Normalization, Classification, and Linking of Named Entities across Slavic Languages // Proc. VII Conf. Workshop on Balto-Slavic Natural Language. 2019. Pp. 63—74.
24. Кукушкин А. Nerus —большой синтетический русскоязычный датасет с разметкой морфологии, синтаксиса и именованных сущностей [Офиц. сайт] https://natasha.github.io/nerus/ (дата обращения 29.12.2023).
25. Semiletov A. Toxic Russian Comments [Электрон. ресурс] https://www.kaggle.com/datasets/alexandersemiletov/toxic-russian-comments/ (дата обращения 29.12.2023).
26. Devlin J. e. a. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // arXiv preprint arXiv: 1810.04805v2. 2019.
27. Arkhipov M., Trofimova M., Kuratov Yu., Sorokin A. Tuning Multilingual Transformers for Named Entity Recognition on Slavic Languages // Proc. VII Conf. Workshop on Balto-Slavic Natural Language. 2019. Pp. 89—93.
28. Kuratov Y., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language // arXiv preprint arXiv: 1905.07213. 2019.
29. Vaswani A. e. a. Attention is All You Need // Advances in Neural Information Processing Systems. 2017. V. 30. Pp. 5998—6008.
30. Press O., Smith N.A., Lewis M. Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation // arXiv preprint arXiv: 2108.12409v2. 2022
---
Для цитирования: Бабак Н.Г., Белорыбкин Л.Ю., Оцоков Ш.А., Полетаев М.К., Теренин А.А., Шаброва А.И. Влияние синонимического преобразования данных на качество моделей машинного обучения // Вестник МЭИ. 2024. № 5. С. 168—178. DOI: 10.24160/1993-6982-2024-5-168-178
---
Конфликт интересов: авторы заявляют об отсутствии конфликта интересов
#
1. Federal'nyy Zakon № 152-FZ ot 27 Iyulya 2006 g. «O Personal'nykh Dannykh». (in Russian).
2. Oleksy M., Ropiak N., Walkowiak T. Automated Anonymization of Text Documents in Polish. Proc. Computer Sci. 2021;192:1323—1333.
3. Saluja B., Kumar G., Sedoc J., Callison-Burch C. Anonymization of Sensitive Information in Medical Health Records. CEUR Workshop Proc. 2019;2421:647—653.
4. Volokitina E.S. Algoritmy Anonimizatsii Bazy Dannykh, Soderzhashchey Personal'nye Dannye. V Mire Nauchnykh Otkrytiy. 2012;8(32):22—37. (in Russian).
5. Saksonov E.A., Sheredin R.V. Protsedura Obezlichivaniya Personal'nykh Dannykh. Nauka i Obrazovanie. 2011;3:1. (in Russian).
6. Stolbov A.P. Obezlichivanie Personal'nykh Dannykh v Zdravookhranenii. Vrach i Informatsionnye Tekhnologii. 2017;3:76—91. (in Russian).
7. Spevakov A.G., Kalutskiy I.V., Nikulin D.A., Shumaylova V.A. Obezlichivanie Personal'nykh Dannykh pri Obrabotke v Avtomatizirovannykh Informatsionnykh Sistemakh. Telekommunikatsii. 2016;10:16—20. (in Russian).
8. Seryshev A.S., Krotov A.D., Efanova N.V. Razrabotka Prilozheniya dlya Obezlichivaniya Personal'nykh Dannykh. Tsifrovizatsiya Ekonomiki: Napravleniya, Metody, Instrumenty. 2021:294—297. (in Russian).
9. Metodicheskie Rekomendatsii po Primeneniyu Prikaza Roskomnadzora № 996 ot 05 Sentyabrya 2013 g. «Ob Utverzhdenii Trebovaniy i Metodov po Obezlichivaniyu Personal'nykh Dannykh». (in Russian).
10. Ivichev V.A., Ignatova T.V. Tekhnologii Vyyavleniya i Ochistki Personal'nykh Dannykh Otkrytykh Istochnikov. EKO. 2013;4(464):168—179. (in Russian).
11. Kleinberg B., Davies T., Mozes M. Textwash — Automated Open-source Text Anonymisation. arXiv preprint arXiv: 2208.13081. 2022.
12. Kocaman V., Haq H.U., Talby D. Beyond Accuracy: Automated De-identification of Large Real-world Clinical Text Datasets. arXiv preprint arXiv: 2312.08495. 2023.
13. Presidio: Data Protection and De-identification SDK [Ofits. Sayt] https://microsoft.github.io/presidio/ (Data Obrashcheniya 29.12.2023).
14. Babak N.G., Belorybkin L.Yu., Otsokov Sh.A., Terenin A.A., Shabrova A.I. Avtomaticheskoe Obezlichivanie Konfidentsial'noy Informatsii. Russian Technol. J. 2023;11;5:7—18. (in Russian).
15. Pat. № 2802549 RF. Sposob i Sistema Obezlichivaniya Konfidentsial'nykh Dannykh. Babak N.G., Belorybkin L.Yu., Terenin A.A., Shabrova A.I. Byul. Izobret. 2023;25. (in Russian).
16. Pat. № 2804747. Sposob i Sistema Obezlichivaniya Konfidentsial'nykh Dannykh. Babak N.G., Belorybkin L.Yu., Terenin A.A., Shabrova A.I. Byul. Izobret. 2023;28. (in Russian).
17. Babak N.G., Otsokov Sh.A. Metody Generatsii Sinteticheskikh Dannykh dlya Obezlichivaniya. Radioelektronika, Elektrotekhnika i Energetika: Tez. Dokl. XXIX Mezhdunar. Nauch.-tekhn. Konf. Studentov i Aspirantov. M.: Raduga, 2023. (in Russian).
18. Roy A. Recent Trends in Named Entity Recognition (NER). arXiv preprint arXiv: 2101.11420. 2021.
19. Lothritz C., Allix K., Veiber L., Klein J., Bissyande T.F.D.A. Evaluating Pretrained Transformer-based Models on the Task of Fine-grained Named Entity Recognition. Proc. XXVIII Intern. Conf. Computational Linguistics. 2020:3750—3760.
20. Williams C.K.I. The Effect of Class Imbalance on Precision-recall Curves. Neural Computation. 2021;33(4):853—857.
21. Starostin A.S. e. a. FactRuEval 2016: Evaluation of Named Entity Recognition and Fact Extraction Systems for Russian. Computational Linguistics and Intellectual Technol.: Proc. Intern. Conf. «Dialogue 2016». 2016:702—720.
22. Mozharova V.A., Lukashevich N.V. Dvukhetapnyy Podkhod k Izvlecheniyu Imenovannykh Sushchnostey. Trudy Konf. po Iskusstvennomu Intellektu. 2016;2:81—88. (in Russian).
23. Piskorski J. e. a. The Second Cross-lingual Challenge on Recognition, Normalization, Classification, and Linking of Named Entities across Slavic Languages. Proc. VII Conf. Workshop on Balto-Slavic Natural Language. 2019:63—74.
24. Kukushkin A. Nerus — Bol'shoy Sinteticheskiy Russkoyazychnyy Dataset s Razmetkoy Morfologii, Sintaksisa i Imenovannykh Sushchnostey [Ofits. Sayt] https://natasha.github.io/nerus/ (Data Obrashcheniya 29.12.2023). (in Russian).
25. Semiletov A. Toxic Russian Comments [Elektron. Resurs] https://www.kaggle.com/datasets/alexandersemiletov/toxic-russian-comments/ (Data Obrashcheniya 29.12.2023).
26. Devlin J. e. a. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv: 1810.04805v2. 2019.
27. Arkhipov M., Trofimova M., Kuratov Yu., Sorokin A. Tuning Multilingual Transformers for Named Entity Recognition on Slavic Languages. Proc. VII Conf. Workshop on Balto-Slavic Natural Language. 2019:89—93.
28. Kuratov Y., Arkhipov M. Adaptation of Deep Bidirectional Multilingual Transformers for Russian Language. arXiv preprint arXiv: 1905.07213. 2019.
29. Vaswani A. e. a. Attention is All You Need. Advances in Neural Information Processing Systems. 2017;30:5998—6008.
30. Press O., Smith N.A., Lewis M. Train Short, Test Long: Attention with Linear Biases Enables Input Length Extrapolation. arXiv preprint arXiv: 2108.12409v2. 2022
---
For citation: Babak N.G., Belorybkin L.Yu., Otsokov Sh.A., Poletaev M.K., Terenin A.A., Shabrova A.I. The Influence of Synonymous Data Transformation on the Performance of Machine Learning Models. Bulletin of MPEI. 2024;5:168—178. (in Russian). DOI: 10.24160/1993-6982-2024-5-168-178
---
Conflict of interests: the authors declare no conflict of interest

