PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2010 | 17 | nr 107 Klasyfikacja i analiza danych - teoria i zastosowania | 432--438
Tytuł artykułu

Badanie odporności metody HINoV na błędnie zadaną liczbę skupień w zbiorze danych

Warianty tytułu
Investigating the Robustness of HINoV to Wrongly Predetermined Number of Clusters
Języki publikacji
PL
Abstrakty
Metoda HINoV służąca do wybierania zmiennych w analizie skupień jest popularna i jest jedną z najlepszych [Steinley, Brusco 2008]. Nieznana jest jednak efektywność tej metody wtedy, gdy liczba skupień w zbiorze danych jest błędnie zadana. Taka sytuacja jest powszechna, gdyż indeksy wyznaczające liczbę skupień mają na ogół charakter optymalizacyjny dla przyjętej metody grupowania i popełniają dość duże błędy. W artykule zbadana jest odporność metody na kilku tysiącach zbiorów danych wygenerowanych w postaci mieszanin rozkładów normalnych. Dobór liczb skupień, liczby zmiennych istotnych i maskujących, stopnia zachodzenia skupień na siebie, rozkładów zmiennych maskujących jest taki sam jak w eksperymencie symulacyjnym Steinleya i Brusco [2008].(abstrakt oryginalny)
EN
The HINoV method for choosing variables in the context of cluster analysis is very popular one and one of the best [Steinley, Brusco 2008]. However, the efficiency this method to the wrongly predetermined number of clusters remains an uninvestiga problem. The situation in which we cannot have precise knowledge about the number clusters in a data set is very common since the indices most of which are of optimi nature usually go wrong. In the paper, the robustness of HINoV is investigated in a b simulation experiment on thousands of data sets in the form of the mixture of no distributions. The organization of the experiment with respect to the number of variabl clusters, distributions etc. follows the experiment conducted by Steinley and Brusco [2008].(original abstract)
Twórcy
  • Uniwersytet Łódzki
Bibliografia
  • Brusco M., Cradit D., A variable-selection heuristic for k-means clustering, "Psyehometrika" 2001 no 66.
  • Carmone F.J. Jr., Kara A., Maxwell S., HINoV: a new model to improve market segment definition by identifying noisy variables, "Journal of Marketing Research" 1999 vol. 36.
  • Dash M., Liu H., Feature Selection for Clustering, Proceedings of Fourth Pacific-Asia Conference on Knowledge Discovery and Data Mining, (PAKDD), 2000.
  • Dy J., Brodley C., Feature Subset Selection and Order Identification for Unsupervised Learning, Proc. 17th International Conf. on Machine Learning, 2000.
  • Friedman J., Meulman J., Clustering objects on subsets of attributes, "Journal of the Royal Statistical Society", Series В 66, 2004.
  • Law M., Jain A., Figueiredo M., Feature Selection in Mixture-Based Clustering , IEEE Transaction on Pattren Analysis and Machine Inteligence, 2003.
  • Montanari A., Lizzani L., A projection pursuit approach to variable selection, "Computation Statistics and Data Analysis" 2001 vol. 35(4).
  • Najman K., Najman K., Analityczne metody ustalania liczby skupień, Prace Naukowe Akademii Ekonomicznej we Wrocławiu nr 1076, AE, Wrocław 2005.
  • Raftery A.E., Dean N., Variable Selection for Model Based Clustering, JASA 101, 2006.
  • Steinley D., Brusco M., A new variable weighting and selection procedure for k-means cluster analysis, "Multivariate Behavioral Research" 2008 no 43.
  • Steinley D., Brusco M., Selection of variables in cluster analysis: an empirical comparison of eight procedures, "Psychometrika" 2008 no 73.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171339825

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.