Optymalizacja liczby skupień na podstawie wybranych wskaźników jakości grupowania

Bryja, Anna

Artykuł - szczegóły

Czasopismo

Zeszyty Naukowe / Uniwersytet Ekonomiczny w Krakowie

2012 | nr 892 | 53--67

Tytuł artykułu

Optymalizacja liczby skupień na podstawie wybranych wskaźników jakości grupowania

Autorzy

Anna Bryja

Warianty tytułu

The Optimisation of Cluster Number on the Basis of Selected Cluster Validity Indexes

Języki publikacji

Abstrakty

Wybór liczby grup, na jakie należy podzielić dane, jest jednym z największych problemów związanych z analizą skupień. Opublikowano wiele prac na temat metod mających ułatwiać wybór optymalnej liczby grup, których efektywność jest najczęściej oceniana na podstawie wyników analiz zbiorów o znanej strukturze klas. W pracy podjęto próbę oceny przydatności kilku tego typu metod polecanych w literaturze przedmiotu podczas dzielenia zbioru mającego ponad 35 tys. obiektów na podstawie 11 zmiennych. W trakcie eksploracyjnej analizy wykorzystano 5 indeksów jakości grupowania (indeks Calińskiego i Harabasza, indeks Huberta i Levine'a, indeks Dunna, indeks SI Rousseeuwa, indeks Daviesa i Bouldina) oraz sprawdzian krzyżowy, a miarą stabilności był skorygowany indeks Randa. Na podstawie wyników skomentowano użyteczność testowanych miar. (abstrakt autora)

Selecting the number of clusters to use is one of the biggest problems in cluster analysis. Numerous methods to help one to choose the best number of clusters have been published. Their effectiveness is usually evaluated on the basis of the results of clustering data sets, which contain a known number of groups. This paper presents methods to help determine the best number of clusters. They are presented and used in the analysis of a large data set: 5 cluster validity indexes (Caliński and Harabasz, Hubert and Levine, Dunn, Davies and Bouldin, Rousseeuw) and cross-validation - stability were measured by corrected Rand index. The usefulness of these techniques was then compared and evaluated. (original abstract)

Słowa kluczowe

Analiza skupień Metody grupowania Analiza porównawcza

Cluster analysis Grouping methods Comparative analysis

Czasopismo

Zeszyty Naukowe / Uniwersytet Ekonomiczny w Krakowie

Rocznik

2012

Numer

nr 892

Strony

53--67

Opis fizyczny

Twórcy

autor

Anna Bryja

Uniwersytet Ekonomiczny w Krakowie, doktorantka

Bibliografia

Bel Mufti G., Bertrand P., El Moubarki L. [2005], Determining the Number of Groups from Measures of Cluster Stability, citeseerx.ist.psu.edu.
Ben-David S., Pal D., Simon H.U. [2007], Stability of k-means Clustering, http://www.cs.uwaterloo.ca/~dpal/papers/stability/stability.pdf.
Caliński T., Harabasz J. [1974], A Dendrite Method for Cluster Analysis, "Communications in Statistics - Theory and Methods", nr 3.
Denoued L., Garreta H., Guenoche A. [2005], Comparison of Distance Indices between Partitions, conferences.telecombretagne.eu/asmda2005/IMG/pdf/proceedings/432.pdf.
Dudoit S., Fridlyand J. [2002], A Prediction-based Resampling Method for Estimating the Number of Clusters in a Dataset, "Genome Biology", nr 3(7).
Grabiński T. [1992], Metody taksonometrii, Wydawnictwo AE w Krakowie, Kraków.
Hubert L., Arabie P. [1985], Comparing Partitions, "Journal of Classification", nr 2.
Kolenda M. [2006], Taksonomia numeryczna. Klasyfikacja, porządkowanie i analiza obiektów wielocechowych, Wydawnictwo AE we Wrocławiu, Wrocław.
Korzeniewski J. [2006], Ocena porównawcza kilku metod wyznaczania liczby skupień w zbiorze danych [w:] Taksonomia 13. Klasyfikacja i analiza danych - teoria i zastosowanie, red. K. Jajuga, M. Walesiak, Wydawnictwo AE we Wrocławiu, Wrocław.
Kreiger A.M., Green P.E. [1999], A Cautionary Note on Using Internal Cross Validation to Select the Number of Clusters, "Psychometrika", vol. 64, nr 3.
Marenkov V., Legendre P. [2001], Optimal Variable Weighting for Ultrametric and Additive Trees and k -means Partitioning: Methods and Software, "Journal of Classification", nr 18.
McIntyre R.M., Blashfield R.K. [1980], A Nearest - Centroid Technique for Evaluating the Minimum - Variance Clustering Procedure, "Multivariate Behavioral Research", nr 2.
Milligan G.W., Cooper M.C. [1985], An Examination of Procedures for Determining the Number of Clusters in Data Set, "Psychometrika", vol. 50, nr 2.
Najman K., Najman K. [2005], Analityczne metody ustalania liczby skupień [w:] Taksonomia 12. Klasyfikacja i analiza danych - teoria i zastosowanie, red. K. Jajuga, M. Walesiak, Wydawnictwo AE we Wrocławiu, Wrocław.
Najman K., Najman K. [2006], Wykorzystanie indeksu silhouette do ustalania optymalnej liczby skupień, "Wiadomości Statystyczne", nr 6.
Rousseeuw P.J. [1987], Silhouettes: A Graphical Aid to the Interpretation and Validation of Cluster Analysis, "Journal of Computational and Applied Mathematics", nr 20.
Steinley D. [2006], K-means Clustering: A Half-century Synthesis, "British Journal of Matematical and Statistical Psychology", nr 59.
Tibshirani R., Walter G., Hastie T. [2001], Estimating the Number of Cluster in a Data Set via the Gap Statistic, "Journal of the Royal Statistical Society", ser. B, vol. 63, part 2.
Walesiak M. [2009], Analiza skupień [w:] Statystyczna analiza danych z wykorzystaniem programu R, red. M. Walesiak, E. Gatnar, Wydawnictwo Naukowe PWN, Warszawa.

Typ dokumentu

Bibliografia

Identyfikatory

Identyfikator YADDA

bwmeta1.element.ekon-element-000171230457

Komentarze

Musisz być zalogowany aby pisać komentarze.

Zeszyty Naukowe / Uniwersytet Ekonomiczny w Krakowie

Optymalizacja liczby skupień na podstawie wybranych wskaźników jakości grupowania

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane