Wskaźniki liczby skupień dla danych binarnych oparte na macierzy rozrzutu

Najman, Krzysztof

Artykuł - szczegóły

Czasopismo

Prace i Materiały Wydziału Zarządzania Uniwersytetu Gdańskiego

2007 | nr 3 | 203--210

Tytuł artykułu

Wskaźniki liczby skupień dla danych binarnych oparte na macierzy rozrzutu

Autorzy

Krzysztof Najman

Warianty tytułu

Determining the Number of Clusters in Binary Data Sets

Języki publikacji

Abstrakty

Poddano analizie 6 indeksów ustalania optymalnej liczby skupień w binarnych zbiorach danych. Ocenie poddano międzyinnymi następujące indeksy ustalania optymalnej liczby skupień: indeks Scott`a - Symons`a, indeks Marriot`a i 4 wiarianty indeksu Fierdnan`a - Rubin`a.

In this paper the performance of six indexes for determining the number of clusters in a binary data set is analyzed. To ensure that the right number of clusters is known, only artificial sets, designed to simulate data, are used. The resultant optimal clusters have been found to be stable for the different validity indices used, e.g.: Scott-Symons, Marriot and 4 variant's of Friedman-Rubin Index. For the evaluation of the performance of the indexes, k-means and hierarchical algorithms are applied. The selection of the number of clusters based on the indexes values for the different number of clusters is done in an automatic way. It was shown that these indexes mightn't support the prediction of the optimal cluster partitioning for those binary data sets. (original abstract)

Słowa kluczowe

Symulacja Hierarchiczne metody klasyfikacyjne Analiza skupień

Simulation Hierarchical classification methods Cluster analysis

Czasopismo

Prace i Materiały Wydziału Zarządzania Uniwersytetu Gdańskiego

Rocznik

2007

Numer

nr 3

Strony

203--210

Opis fizyczny

Twórcy

autor

Krzysztof Najman

Bibliografia

Ball G., Hali D.J., (1965), ISODATA, A novel method of data analysis and pattern classyfication. Menlo Park: Stanford Research Institute.
Calinski R.B., Harabasz J. (1974), A dendrite method for cluster analysis. Communications in Statistics, 3, 1-27.
Davies D.L., Bouldin D.W. (1979), A cluster separation measure. IEEE Transactions on Pattern Analysis and Machine Intelligence, l, 224-227.
Dolnicar S., Leisch F., Weingessel A., Buchta C., Dimitradou E. (1998), A Comparison of Several Cluster Algorithms on Artificial Binary Data Scenarios from Tourism Marketing. Working Paper 7, SFB, Adaptive Information Systems and Modeling in Economics and Management Science.
Edwards A.W.F., Cavalli-Sforza L. (1965), A method for clustering analysis. Biometrics, 21, 362-375.
Friedman H.P., Rubin J. (1967), On some invariant criteria for grouping data. Journal of the American Statistical Association, 62, 1159-1178.
Hartigan J.A. (1975), Clustering Algorithms. New York, Wiley.
Hubert L.J, Levin J.R. (1976), A general statistical framework for assessing categorical clustering in free recall. Psychological Bulletin 83, 1072-1080.
Marriot F.H.C. (1971), Practical problems in a method of cluster analysis. Biometrics, 27, 501-514.
Milligan G.W., Cooper M.C. (1985), An examination of procedures for determining the number of clusters in a data set. Psychometrika - vol. 50, no. 2, 159-179.
Najman K., Najman K. (2005), Analityczne metody ustalania liczby skupień. Prace Naukowe Akademii Ekonomicznej we Wrocławiu, Taksonomia 12: Klasyfikacja i analiza danych - teoria i zastosowania.
Najman K., Najman K. (2006), Analityczne metody ustalania liczby skupień w rozmytych zbiorach danych. Prace Naukowe Akademii Ekonomicznej we Wrocławiu, Taksonomia 13: Klasyfikacja i analiza danych - teoria i zastosowania.
Scott A.J., Symons M.J. (1971), Clustering methods based on likelihood ratio criteria. Biometrics, 27, 387-397.

Typ dokumentu

Bibliografia

Identyfikatory

Identyfikator YADDA

bwmeta1.element.ekon-element-000150760491

Komentarze

Musisz być zalogowany aby pisać komentarze.

Prace i Materiały Wydziału Zarządzania Uniwersytetu Gdańskiego

Wskaźniki liczby skupień dla danych binarnych oparte na macierzy rozrzutu

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane