PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2012 | nr 892 | 53--67
Tytuł artykułu

Optymalizacja liczby skupień na podstawie wybranych wskaźników jakości grupowania

Autorzy
Warianty tytułu
The Optimisation of Cluster Number on the Basis of Selected Cluster Validity Indexes
Języki publikacji
PL
Abstrakty
Wybór liczby grup, na jakie należy podzielić dane, jest jednym z największych problemów związanych z analizą skupień. Opublikowano wiele prac na temat metod mających ułatwiać wybór optymalnej liczby grup, których efektywność jest najczęściej oceniana na podstawie wyników analiz zbiorów o znanej strukturze klas. W pracy podjęto próbę oceny przydatności kilku tego typu metod polecanych w literaturze przedmiotu podczas dzielenia zbioru mającego ponad 35 tys. obiektów na podstawie 11 zmiennych. W trakcie eksploracyjnej analizy wykorzystano 5 indeksów jakości grupowania (indeks Calińskiego i Harabasza, indeks Huberta i Levine'a, indeks Dunna, indeks SI Rousseeuwa, indeks Daviesa i Bouldina) oraz sprawdzian krzyżowy, a miarą stabilności był skorygowany indeks Randa. Na podstawie wyników skomentowano użyteczność testowanych miar. (abstrakt autora)
EN
Selecting the number of clusters to use is one of the biggest problems in cluster analysis. Numerous methods to help one to choose the best number of clusters have been published. Their effectiveness is usually evaluated on the basis of the results of clustering data sets, which contain a known number of groups. This paper presents methods to help determine the best number of clusters. They are presented and used in the analysis of a large data set: 5 cluster validity indexes (Caliński and Harabasz, Hubert and Levine, Dunn, Davies and Bouldin, Rousseeuw) and cross-validation - stability were measured by corrected Rand index. The usefulness of these techniques was then compared and evaluated. (original abstract)
Rocznik
Numer
Strony
53--67
Opis fizyczny
Twórcy
autor
  • Uniwersytet Ekonomiczny w Krakowie, doktorantka
Bibliografia
  • Bel Mufti G., Bertrand P., El Moubarki L. [2005], Determining the Number of Groups from Measures of Cluster Stability, citeseerx.ist.psu.edu.
  • Ben-David S., Pal D., Simon H.U. [2007], Stability of k-means Clustering, http://www.cs.uwaterloo.ca/~dpal/papers/stability/stability.pdf.
  • Caliński T., Harabasz J. [1974], A Dendrite Method for Cluster Analysis, "Communications in Statistics - Theory and Methods", nr 3.
  • Denoued L., Garreta H., Guenoche A. [2005], Comparison of Distance Indices between Partitions, conferences.telecombretagne.eu/asmda2005/IMG/pdf/proceedings/432.pdf.
  • Dudoit S., Fridlyand J. [2002], A Prediction-based Resampling Method for Estimating the Number of Clusters in a Dataset, "Genome Biology", nr 3(7).
  • Grabiński T. [1992], Metody taksonometrii, Wydawnictwo AE w Krakowie, Kraków.
  • Hubert L., Arabie P. [1985], Comparing Partitions, "Journal of Classification", nr 2.
  • Kolenda M. [2006], Taksonomia numeryczna. Klasyfikacja, porządkowanie i analiza obiektów wielocechowych, Wydawnictwo AE we Wrocławiu, Wrocław.
  • Korzeniewski J. [2006], Ocena porównawcza kilku metod wyznaczania liczby skupień w zbiorze danych [w:] Taksonomia 13. Klasyfikacja i analiza danych - teoria i zastosowanie, red. K. Jajuga, M. Walesiak, Wydawnictwo AE we Wrocławiu, Wrocław.
  • Kreiger A.M., Green P.E. [1999], A Cautionary Note on Using Internal Cross Validation to Select the Number of Clusters, "Psychometrika", vol. 64, nr 3.
  • Marenkov V., Legendre P. [2001], Optimal Variable Weighting for Ultrametric and Additive Trees and k -means Partitioning: Methods and Software, "Journal of Classification", nr 18.
  • McIntyre R.M., Blashfield R.K. [1980], A Nearest - Centroid Technique for Evaluating the Minimum - Variance Clustering Procedure, "Multivariate Behavioral Research", nr 2.
  • Milligan G.W., Cooper M.C. [1985], An Examination of Procedures for Determining the Number of Clusters in Data Set, "Psychometrika", vol. 50, nr 2.
  • Najman K., Najman K. [2005], Analityczne metody ustalania liczby skupień [w:] Taksonomia 12. Klasyfikacja i analiza danych - teoria i zastosowanie, red. K. Jajuga, M. Walesiak, Wydawnictwo AE we Wrocławiu, Wrocław.
  • Najman K., Najman K. [2006], Wykorzystanie indeksu silhouette do ustalania optymalnej liczby skupień, "Wiadomości Statystyczne", nr 6.
  • Rousseeuw P.J. [1987], Silhouettes: A Graphical Aid to the Interpretation and Validation of Cluster Analysis, "Journal of Computational and Applied Mathematics", nr 20.
  • Steinley D. [2006], K-means Clustering: A Half-century Synthesis, "British Journal of Matematical and Statistical Psychology", nr 59.
  • Tibshirani R., Walter G., Hastie T. [2001], Estimating the Number of Cluster in a Data Set via the Gap Statistic, "Journal of the Royal Statistical Society", ser. B, vol. 63, part 2.
  • Walesiak M. [2009], Analiza skupień [w:] Statystyczna analiza danych z wykorzystaniem programu R, red. M. Walesiak, E. Gatnar, Wydawnictwo Naukowe PWN, Warszawa.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171230457

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.