Czasopismo
Tytuł artykułu
Autorzy
Warianty tytułu
Automatic Determination of the Number of Clusters Using Spectral Clustering
Języki publikacji
Abstrakty
W artykule przetestowano przydatność pięciu indeksów oceny jakości klasyfikacji w zagadnieniu doboru liczby klas w klasyfikacji spektralnej uwzględniającej cztery typy odległości (kwadrat odległości euklidesowej, odległość euklidesowa, odległość miejska, odległość GDM1). W eksperymentach wykorzystano klasyczne dane metryczne o znanej strukturze klas obiektów wygenerowane z wykorzystaniem z funkcji cluster.Gen pakietu clusterSim oraz nieklasyczne zbiory danych utworzone z wykorzystaniem funkcji pakietu mlbench, geozoo oraz zbiorów własnych. Dla modeli w każdym eksperymencie wygenerowano 40 zbiorów danych, przeprowadzono klasyfikację spektralną z zastosowaniem odpowiedniego indeksu i otrzymane rezultaty klasyfikacji porównano ze znaną strukturą klas za pomocą skorygowanego indeksu Randa.(abstrakt oryginalny)
The paper tested the usefulness of five indices assessing the quality of classification (within-group dispersion, Davies-Bouldin index, Caliński & Harabasz index, Hartigan index, Krzanowski & Lai index) in the issue of selection of the number of clusters in the spectral clustering taking into account four types of distance (squared Euclidean distance, Euclidean distance, Manhattan distance, GDM1 distance). The article evaluates twenty clustering procedures (four spectral clustering methods and five indices) based on two types of simulated data (classic and non-classic). Each clustering result was compared with the known cluster structure applying corrected Rand index.(original abstract)
Rocznik
Tom
Strony
33--43
Opis fizyczny
Twórcy
autor
- Uniwersytet Ekonomiczny we Wrocławiu
Bibliografia
- Everitt B.S., Landau S., Leese M., Stahl D. (2011), Cluster Analysis, Wiley, Chichester.
- Girolami M. (2002), Mercer kernel-based clustering in feature space, \"IEEE Transactions on Neural Networks\", vol. 13, no. 3, pp. 780-784.
- Hubert L., Arabie P. (1985), Comparing partitions, \"Journal of Classification\", no. 1, pp. 193-218.
- Karatzoglou A. (2006), Kernel Methods. Software, Algorithms and Applications, Rozprawa doktorska, Uniwersytet Techniczny we Wiedniu.
- Kolupa M. (1976), Elementarny wykład algebry liniowej dla ekonomistów, Państwowe Wydawnictwo Naukowe, Warszawa.
- Ng A., Jordan M., Weiss Y. (2002), On Spectral Clustering: Analysis and an Algorithm, [w:] T. Dietterich, S. Becker, Z. Ghahramani (red.), Advances in Neural Information Processing Systems 14, MIT Press, Cambridge, pp. 849-856.
- Poland J., Zeugmann T. (2006), Clustering the Google Distance with Eigenvectors and Semidefinite Programming, Knowledge Media Technologies, First International Core-to-Core Workshop, Dagstuhl, July 23-27, Germany.
- Shortreed S. (2006), Learning in Spectral Clustering, Rozprawa doktorska, University of Washington.
- Verma D., Meila M. (2003), A Comparison of Spectral Clustering Algorithms, Technical report UWCSE- 03-05-01, University of Washington.
- von Luxburg U. (2007), A Tutorial on Spectral Clustering, Max Planck Institute for Biological Cybernetics, Technical Report TR-149.
- Walesiak M. (2005), Rekomendacje w zakresie strategii postępowania w procesie klasyfikacji zbioru obiektów, [w:] A. Zeliaś (red.), Przestrzenno-czasowe modelowanie i prognozowanie zjawisk gospodarczych, Wydawnictwo AE, Kraków, s. 185-203.
- Walesiak M. (2009), Analiza skupień, [w:] M. Walesiak, E. Gatnar (red.), Statystyczna analiza danych z wykorzystaniem programu R, Wydawnictwo Naukowe PWN, Warszawa, s. 407-433.
- Walesiak M. (2011), Uogólniona miara odległości GDM w statystycznej analizie wielowymiarowej z wykorzystaniem programu R, Wydawnictwo UE, Wrocław.
- Walesiak M. (2012), Klasyfikacja spektralna a skale pomiaru zmiennych, \"Przegląd Statystyczny\" z. 1, s. 13-31.
- Walesiak M., Dudek A. (2009), Odległość GDM dla danych porządkowych a klasyfikacja spektralna, Prace Naukowe UE we Wrocławiu nr 84, s. 9-19.
- Walesiak M., Dudek A. (2010), Klasyfikacja spektralna z wykorzystaniem odległości GDM, [w:] K. Jajuga, M. Walesiak (red.), Klasyfikacja i analiza danych - teoria i zastosowania, Taksonomia 17, Prace Naukowe UE we Wrocławiu nr 107, s. 161-171.
- Walesiak M., Dudek A. (2012), clusterSim package, URL http://www.R-project.org.
- Wang J. (2010), Consistent selection of the number of clusters via crossvalidation, \"Biometrika\" vol. 97, issue 4, pp. 893-904.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171250567