Критерий оценки качества классификации за пределами обучающей выборки
Аннотация
Исследована распространённая проблема классификации на основе моделей машинного обучения. Ввиду непредсказуемости классификации объектов за пределами обучающей выборки классификаторы могут работать некорректно на новых данных, а также быть уязвимы к состязательным атакам. Сделано предположение о том, что при достаточно полной оценке качества классификатора этих проблем можно избежать. Проанализирована эффективность применения традиционного подхода к оценке качества классификации. Описаны недостатки традиционных показателей качества, не позволяющие оценить риск возникновения ошибок и степень подверженности модели машинного обучения состязательным атакам. Предложен новый критерий качества классификации, включающий четыре показателя: Excess, Deficit, Coating, Approx (EDCA). Вычисление показателей основано на соотношении размеров области пространства, занимаемого обучающей выборкой, и результатов классификации всех точек дискретизированного пространства признаков в рабочем диапазоне их значений. Выполнено экспериментальное исследование визуальной оценки и сравнения качества двух многоклассовых SVM классификаторов на характерных синтетических наборах данных с помощью традиционных и предлагаемых показателей качества. Продемонстрированы эффективность и преимущество введенных показателей по сравнению с традиционными. Подтверждена хорошая интерпретируемость значений показателей качества, а также субъективное соответствие метрик ожидаемым результатам сравнения двух SVM классификаторов. Есть основания полагать, что применение нового подхода к оценке качества позволит строить более надёжные классификаторы на основе машинного обучения.
Литература
2. From Roadblock to Scale: The Global Sprint Towards AI. New Research Commissioned by IBM in Partnership with Morning Consult. [Электрон. ресурс] www.filecache.mediaroom.com/mr5mr_ibmnews/183710/Roadblock-to-Scale-exec-summary.pdf (дата обращения 03.06.2021).
3. Pike S. Почему одного только машинного обучения недостаточно [Электрон. ресурс] www.kaspersky.ru/blog/ai-fails/18678/ (дата обращения 03.06.2021).
4. Goodfellow J.I., Shlens J., Sze Ch. Explaining and Harnessing Adversarial Examples. Mountain View: Google Inc., 2015.
5. Hern A. Want to Beat Facial Recognition? Get Some Funky Tortoiseshell Glasses. [Электрон. ресурс] www.theguardian.com/technology/2016/nov/03/how-funky-tortoiseshell-glasses-can-beat-facial-recognition (дата обращения 03.06.2021).
6. Гурина А.О., Елисеев В.Л. Нейросетевой метод классификации в условиях нестационарного множества классов // Информационные системы и технологии: Материалы XXVI Междунар. науч.-техн. конф. Н. Новгород : Изд-во Нижегородского гос. техн. ун-та им. Р.Е. Алексеева, 2020. С. 750—764.
7. Forman G. An Extensive Empirical Study of Feature Selection Metrics for Text Classification // J. Machine Learning Research. 2003. V. 3. Pp. 1287—1305.
8. Powers D. Evaluation: From Precision, Recall and F-Factor to ROC. Techn. Rep. Informedness, Markedness&Correlation, 2007.
9. Fawcett T. An Introduction to ROC Analysis // Pattern Recognition Letters. 2006. V. 27. Pp. 861—874.
10. Szegedy Ch. e. a. Intriguing Properties of Neural Networks // Proc. Computer Vision and Pattern Recognition Conf. 2014. Pp. 248—255.
11. Harris M. Researchers Find a Malicious Way to Meddle with Autonomous Cars. [Электрон. ресурс] www.caranddriver.com/news/a15340148/researchers-find-a-malicious-way-to-meddle-with-autonomous-cars 2 (дата обращения 03.06.2021).
12. Robin J., Liang P. Adversarial Examples for Evaluating Reading Comprehension Systems. Computation and Language [Электрон. ресурс] www.arxiv.org/pdf/1707.07328.pdf (дата обращения 03.06.2021).
13. Kurakin A., Goodfellow I., Bengio S. Adversarial Examples in the Physical World [Электрон. ресурс] www.arxiv.org/abs/1607.02533 (дата обращения 03.06.2021).
14. Mahmood S. e. a. Accessorize to a Crime: Real and Stealthy Attacks on State-of-the-art Face Recognition // Proc. ACM SIGSAC Conf. 2016. Pp. 1528—1540.
15. Shafahi A. e. a. Are Adversarial Examples Inevitable? [Электрон. ресурс] www.arxiv.org/pdf/1809.02104.pdf (дата обращения 03.06.2021).
16. Гурина А.О., Елисеев В.Л. Эмпирический критерий качества одноклассовой классификации // Информационные системы и технологии: Материалы XXVII Междунар. науч.-техн. конф. Н. Новгород: Изд-во Нижегородского гос. техн. ун-та им. Р.Е. Алексеева, 2021. С. 673—682.
---
Для цитирования: Гурина А.О., Елисеев В.Л. Критерий оценки качества классификации за пределами обучающей выборки // Вестник МЭИ. 2022. № 1. С. 98—110. DOI: 10.24160/1993-6982-2022-1-98-110.
---
Работа выполнена при поддержке: РФФИ (проект № 20-37-90073)
#
1. Shpringer E. 17 Primerov Primeneniya Mashinnogo Obucheniya v 5 Otraslyakh Biznesa. Cloud Solutions [Elektron. Resurs] www.mcs.mail.ru/blog/17-primerov-mashinnogo-obucheniya. (Data Obrashcheniya 03.06.2021). (in Russian).
2. From Roadblock to Scale: The Global Sprint Towards AI. New Research Commissioned by IBM in Partnership with Morning Consult. [Elektron. Resurs] www.filecache.mediaroom.com/mr5mr_ibmnews/183710/Roadblock-to-Scale-exec-summary.pdf (Data Obrashcheniya 03.06.2021).
3. Pike S. Pochemu Odnogo Tol'ko Mashinnogo Obucheniya Nedostatochno [Elektron. Resurs] www.kaspersky.ru/blog/ai-fails/18678/ (Data Obrashcheniya 03.06.2021). (in Russian).
4. Goodfellow J.I., Shlens J., Sze Ch. Explaining and Harnessing Adversarial Examples. Mountain View: Google Inc., 2015.
5. Hern A. Want to Beat Facial Recognition? Get Some Funky Tortoiseshell Glasses. [Elektron. Resurs] www.theguardian.com/technology/2016/nov/03/how-funky-tortoiseshell-glasses-can-beat-facial-recognition (Data Obrashcheniya 03.06.2021).
6. Gurina A.O., Eliseev V.L. Neyrosetevoy Metod Klassifikatsii v Usloviyakh Nestatsionarnogo Mnozhestva Klassov. Informatsionnye Sistemy i Tekhnologii: Materialy XXVI Mezhdunar. Nauch.-tekhn. Konf. N. Novgorod : Izd-vo Nizhegorodskogo Gos. Tekhn. Un-ta im. R.E. Alekseeva, 2020:750—764. (in Russian).
7. Forman G. An Extensive Empirical Study of Feature Selection Metrics for Text Classification. J. Machine Learning Research. 2003;3:1287—1305.
8. Powers D. Evaluation: From Precision, Recall and F-Factor to ROC. Techn. Rep. Informedness, Markedness&Correlation, 2007.
9. Fawcett T. An Introduction to ROC Analysis. Pattern Recognition Letters. 2006;27:861—874.
10. Szegedy Ch. e. a. Intriguing Properties of Neural Networks. Proc. Computer Vision and Pattern Recognition Conf. 2014:248—255.
11. Harris M. Researchers Find a Malicious Way to Meddle with Autonomous Cars. [Elektron. Resurs] www.caranddriver.com/news/a15340148/researchers-find-a-malicious-way-to-meddle-with-autonomous-cars 2 (Data Obrashcheniya 03.06.2021).
12. Robin J., Liang P. Adversarial Examples for Evaluating Reading Comprehension Systems. Computation and Language [Elektron. Resurs] www.arxiv.org/pdf/1707.07328.pdf (Data Obrashcheniya 03.06.2021).
13. Kurakin A., Goodfellow I., Bengio S. Adversarial Examples in the Physical World [Elektron. Resurs] www.arxiv.org/abs/1607.02533 (Data Obrashcheniya 03.06.2021).
14. Mahmood S. e. a. Accessorize to a Crime: Real and Stealthy Attacks on State-of-the-art Face Recognition. Proc. ACM SIGSAC Conf. 2016:1528—1540.
15. Shafahi A. e. a. Are Adversarial Examples Inevitable? [Elektron. Resurs] www.arxiv.org/pdf/1809.02104.pdf (Data Obrashcheniya 03.06.2021).
16. Gurina A.O., Eliseev V.L. Empiricheskiy Kriteriy Kachestva Odnoklassovoy Klassifikatsii. Informatsionnye Sistemy i Tekhnologii: Materialy XXVII Mezhdunar. Nauch.-tekhn. Konf. N. Novgorod: Izd-vo Nizhegorodskogo Gos. Tekhn. Un-ta im. R.E. Alekseeva, 2021:673—682. (in Russian).
---
For citation: Gurina A.O., Eliseev V.L. The Classification Quality Assessment Criterion Outside a Training Set. Bulletin of MPEI. 2022;1:98—110. (in Russian). DOI: 10.24160/1993-6982-2022-1-98-110.
---
The work is executed at support: RFBR (Project No. 20-37-90073)