Оценка результатов применения алгоритмов снижения размерности для предсказания эффективности кластеризации
Аннотация
Исследована возможность оценки эффективности различных методов снижения размерности до этапа кластеризации многомерных данных. Основное внимание уделено анализу того, насколько хорошо данные, прошедшие через разные алгоритмы снижения размерности, подходят для последующей кластеризации.
В рамках работы использованы различные алгоритмы снижения размерности (PCA, Isomap, Locally Linear Embedding, MDS, Spectral Embedding, T-SNE и UMAP) на четырёх наборах многомерных спектров бензинов. Результаты снижения размерности оценены с помощью коэффициента силуэта кластера (SC) и индекса Дэвиса-Боулдина (DBI). После этого выполнены кластеризация оценённых данных с применением различных алгоритмов (DBSCAN, HDBSCAN, K-Means, Spectral Clustering) и оценка кластеризации с помощью скорректированного индекса Рэнда (ARS). Затем проведено сравнение, насколько соответствуют друг другу оценки кластеризации и снижения размерности.
Удалось достоверно оценить большинство алгоритмов снижения размерности с помощью коэффициента силуэта кластера и индекса Дэвиса–Боулдина. Наиболее точные результаты дали метрики Чебышёва, евклидова, манхэттенская и квадратная евклидова. Также два наиболее эффективных алгоритма T-SNE и UMAP оказались единственными алгоритмами, которые удалось оценить с помощью оценки DBI.
Полученные данные могут быть использованы для выбора оптимального алгоритма снижения размерности перед выполнением кластеризации многомерных данных, а также для оценки качества предварительной обработки данных.
Успешно продемонстрирована корреляция между оценками методов снижения размерности и эффективностью последующей кластеризации. Алгоритмы T-SNE и UMAP показали наилучшие результаты по оценке, а метрики Чебышёва, евклидова, манхэттенская и квадратная евклидова дали наиболее точные результаты для этих алгоритмов.
Литература
2. Филатов А.С. и др. Кластеризация многомерных спектральных данных с применением алгоритма уменьшения размерности // Научно-технический вестник Поволжья. 2023. № 10. С. 273—277.
3. Красников С.А., Овчинникова М.А., Гусев К.В. Визуализация больших данных в виде многомерных векторов на плоскость // Научно-технический вестник Поволжья. 2024. № 1. С. 155—158.
4. Вагин В.А., Краснов А.Е., Никольский Д.Н. Быстрые методы снижения размерности спектральных данных для их образной визуализации // Журнал прикладной спектроскопии. 2019. Т. 86. № 1. С. 116—121.
5. Вагин В.А., Краснов А.Е., Никольский Д.Н. Снижение размерности спектральных данных в Фурье-спектроскопии // Акустооптические и радиолокационные методы измерений и обработки информации: Материалы XII Междунар. науч.-техн. конф. М.: Научно-технологический центр уникального приборостроения РАН, 2019. С. 76—80.
6. Краснов А.Е., Вагин В.А., Никольский Д.Н. Нейросетевой метод снижения размерности спектральных данных // Современные технологии обработки сигналов: Доклады II Всерос. конф. М.: Московское НТО радиотехники, электроники и связи им. А.С. Попова, 2019. С. 136—141.
7. Chacón J.E., Rastrojo A.I. Minimum Adjusted Rand Index for Two Clusterings of a Given Size // Adv. Data Anal. Classif. 2023. V. 17. Pp. 125—133.
8. Журавлёва В.В., Маничева А.С. Упрощённый показатель силуэта для определения качества кластерных структур // Известия Алтайского гос. ун-та. 2022. № 4(126). С. 110—114.
9. Яблонцева А.Д. Индекс Дэвиса-Болдина для оценки кластеризации методом k-средних в Python // Modern Sci. 2021. № 7. С. 388—392.
10. Sculley D. Web-scale k-means Clustering // Proc. 19th Intern. Conf. World Wide Web. 2010. Pp. 1177—1178.
---
Для цитирования: Филатов А.С., Николаева С.В. Оценка результатов применения алгоритмов снижения размерности для предсказания эффективности кластеризациих // Вестник МЭИ. 2025. № 5. С. 114—119. DOI: 10.24160/1993-6982-2025-5-114-119
---
Конфликт интересов: авторы заявляют об отсутствии конфликта интересов
#
1. Erokhin S.D., Borisenko B.B., Martishin I.D., Fadeev A.S. Analiz Sushchestvuyushchikh Metodov Snizheniya Razmernosti Vkhodnykh Dannykh. T-Comm: Telekommunikatsii i Transport. 2022;16;1:30—37. (in Russian).
2. Filatov A.S. i dr. Klasterizatsiya Mnogomernykh Spektral'nykh Dannykh s Primeneniem Algoritma Umen'sheniya Razmernosti. Nauchno-tekhnicheskiy Vestnik Povolzh'ya. 2023;10:273—277. (in Russian).
3. Krasnikov S.A., Ovchinnikova M.A., Gusev K.V. Vizualizatsiya Bol'shikh Dannykh v Vide Mnogomernykh Vektorov na Ploskost'. Nauchno-tekhnicheskiy Vestnik Povolzh'ya. 2024;1:155—158. (in Russian).
4. Vagin V.A., Krasnov A.E., Nikol'skiy D.N. Bystrye Metody Snizheniya Razmernosti Spektral'nykh Dannykh dlya Ikh Obraznoy Vizualizatsii. Zhurnal Prikladnoy Spektroskopii. 2019;86;1:116—121. (in Russian).
5. Vagin V.A., Krasnov A.E., Nikol'skiy D.N. Snizhenie Razmernosti Spektral'nykh Dannykh v Fur'e-spektroskopii. Akustoopticheskie i Radiolokatsionnye Metody Izmereniy i Obrabotki Informatsii: Materialy XII Mezhdunar. Nauch.-tekhn. konf. M.: Nauchno-tekhnologicheskiy Tsentr Unikal'nogo Priborostroeniya RAN, 2019:76—80. (in Russian).
6. Krasnov A.E., Vagin V.A., Nikol'skiy D.N. Neyrosetevoy Metod Snizheniya Razmernosti Spektral'nykh Dannykh. Sovremennye Tekhnologii Obrabotki Signalov: Doklady II Vseros. Konf. M.: Moskovskoe NTO Radiotekhniki, Elektroniki i Svyazi im. A.S. Popova, 2019:136—141. (in Russian).
7. Chacón J.E., Rastrojo A.I. Minimum Adjusted Rand Index for Two Clusterings of a Given Size. Adv. Data Anal. Classif. 2023;17:125—133.
8. Zhuravleva V.V., Manicheva A.S. Uproshchennyy Pokazatel' Silueta dlya Opredeleniya Kachestva Klasternykh Struktur. Izvestiya Altayskogo Gos. Un-ta. 2022;4(126):110—114. (in Russian).
9. Yablontseva A.D. Indeks Devisa-Boldina dlya Otsenki Klasterizatsii Metodom k-srednikh v Python. Modern Sci. 2021;7:388—392.
10. Sculley D. Web-scale k-means Clustering. Proc. 19th Intern. Conf. World Wide Web. 2010:1177—1178
---
For citation: Filatov A.S., Nikolaeva S.V. Evaluating the Results of Applying Dimensionality Reduction Algorithms for Predicting the Clustering Performance. Bulletin of MPEI. 2025;5:114—119. (in Russian). DOI: 10.24160/1993-6982-2025-5-114-119
---
Conflict of interests: the authors declare no conflict of interest