PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2007 | nr 5 | 601--610
Tytuł artykułu

Analiza podobieństwa wyników grupowania uzyskanych w oparciu o metodę k-średnich dla wybranych metod ustalania optymalnej liczby skupień

Autorzy
Warianty tytułu
Similarity Analysis Grouping Results Basis of Algorithm K-means for Selected Methods Determining the Number of Clusters
Języki publikacji
PL
Abstrakty
Przedstawiono wybrane, najczęściej opisywane w literaturze mierniki służące do oceny podobieństwa wyników dwóch klasyfikacji, takie jak: miara Rand`a, skorygowana miara Rand`a, współczynniki Jaccard`a i indeks Fowkles`a i Mallows`a. Własności tych mierników weryfikowano na przygotowanych 15 zbiorach testowych.
EN
Clustering is an unsupervised classification scheme where no a priori knowledge of data set is available. The prediction of correct number of clusters is a fundamental problem in classification problem. Many clustering algorithms require the definition of the number of clusters beforehand. To overcome this problem, various cluster validity indices have been proposed to assess the quality of a clustering partition. In the literature of clustering, a large number of cluster validity indices are there. In this article, a cluster validity indexes and its methodology were described, which can provide a measure of goodness of clustering on different partitions of a data set. Results were demonstrating basis of k-means algorithm. Cluster validity indexes may be an effective tool to discovery knowledge in data sets. The problem of measuring the correspondence between partitions of an object set has attracted substantial interest in the literature of classification. A possibility of comparison between different partitions for example by different classification methods, different combinations of characteristics, observations from different periods, of a given set, is considered. In this paper, there is presented well-known measures of classification partition, like Rand Statistic, Jaccard Coefficient, Fowlkes and Mallows index. The resulting between partitions were defined the following indices to measure the degree of similarity. Theoretical considerations are illustrated by the 15 numerical examples. (original abstract)
Rocznik
Numer
Strony
601--610
Opis fizyczny
Twórcy
Bibliografia
  • Arabie P., Boorman S.A. (1973), Multidimensional scaling of measures of distance between partitions, Journal of Mathematical Psychology, 10.
  • Ayala G., Epifanio I., Simó A., Zapater V. (2006), Clustering of spatial point patterns, Computational Statistics & Data Analysis 50.
  • Ball G., Hall D.J., (1965), ISODATA, A novel method of data analysis and pattern classification. Menlo Park: Stanford Research Institute.
  • Calinski R.B., Harabasz J. (1974), A dendrité method for cluster analysis. Communications in Statistics, 3.
  • Davies D.L., Bouldin D.W. (1979), A cluster separation measure. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1.
  • Fowkles E.B., Mallows C.L. (1983), A Method for Comparing two hierarchical clusterings, Journal of the American Statistical Association, 78.
  • Friedman H.P., Rubin J. (1967), On some invariant criteria for grouping data. Journal of the American Statistical Association, 62.
  • Goodman L.A., Kruskal W.H. (1979), Measures of association for cross classifications, Springer-Verlag, New York, Heidelberg.
  • Gordon A.D. (1987), A review of hierarchical classification, Journal of the Royal Statistical Society ser. A.
  • Hartigan J.A. (1975), Clustering Algorithms. New York, Wiley.
  • Hubert L.J., Arabie P. (1985), Comparing partitions, Journal of Classification, no. 1.
  • Kaufman L., Rousseeuw P.J. (1990), Finding Groups in Data, A Wiley-Interscience Publication, John Wiley & Sons, Inc.
  • Maimon O., Rokach L. (2005), Data mining and knowledge discovery handbook, Springer.
  • Mirkin B. (2005), Clustering for Data Mining, Chapman&Hall/CRC.
  • Najman K., Najman K. (2005), Analityczne metody ustalania liczby skupień, Prace Naukowe Akademii Ekonomicznej we Wrocławiu, Nr 1076
  • Taksonomia 12, Klasyfikacja i analiza danych - teoria i zastosowania, Wrocław.
  • Najman K., Najman K. (2006), Analityczne metody ustalania liczby skupień w rozmytych zbiorach danych. Prace Naukowe Akademii Ekonomicznej we Wrocławiu, Taksonomia 13: Klasyfikacja i analiza danych - teoria i zastosowania.
  • Nowak E. (1985), Wskaźnik podobieństwa wyników podziału, Przegląd Statystyczny, z. l.
  • Rand W.M. (1971), Objective criteria for the evaluation of clustering methods, Journal of the American Statistical Association, vol. 66, no. 336.
  • Rohlf F.J. (1974), Methods of Comparing Classifications, Annual Review of Ecology and Systematics, 5.
  • Rohlf F.J. (1982), Consensus Indices for Comparing Classifications, Mathematical Biosciences, 59.
  • Scott A.J., Symons M.J. (1971), Clustering methods based on likelihood ratio criteria, Biometrics, 27.
  • Szmigiel C. (1976), Wskaźnik zgodności kryteriów podziału, Przegląd Statystyczny, z. 4.
  • Wallace D.L. (1983), A method for comparing two hierarchical clustering: comment, Journal of the American Statistical Association, vol. 78, no. 383.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000156721188

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.