PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2014 | 22 | nr 327 Klasyfikacja i analiza danych - teoria i zastosowania | 220--228
Tytuł artykułu

Problem wyboru liczby klas w taksonomicznej analizie danych symbolicznych

Autorzy
Treść / Zawartość
Warianty tytułu
Problem of determining the number of clusters in taxonomic analysis of symbolic data
Języki publikacji
PL
Abstrakty
W artykule rozważono problem wyboru liczby klas w analizie skupień obiek-tów symbolicznych. Zaproponowano procedurę, która ułatwi określenie struktury zbioru obiektów. Obejmuje ona ustalenie przedziału liczby klas, selekcję zmiennych symbolicz-nych z wykorzystaniem procedur formalnych, zastosowanie hierarchicznych i optymaliza-cyjnych metod klasyfikacji oraz ocenę wskazań indeksów wyboru liczby klas. Najlepsze wyniki uzyskano po wyeliminowaniu zmiennych zakłócających metodą HINoV oraz zasto-sowaniu metod Warda i DCLUST. Wskazania indeksów były jednak zróżnicowane w zależ-ności od zastosowanej metody klasyfikacji i jej własności. Zatem ostateczna decyzja zależy od przyjętego celu badania.(abstrakt oryginalny)
EN
The problem of selecting the number of clusters was examined in the paper. A procedure, which may support revealing the structure of objects set, was proposed. It was based on determining a range of the number of clusters, selecting the symbolic variables with the use of formal algorithms, applying hierarchical, as well as optimization methods of cluster analysis, and also statistical indices of selecting the number of clusters. Eliminating noisy variables with the use of HINoV method and than applying Ward's and DCLUST methods produced the best results. However, the recommendations of indices were diversi-fied due to the method of clustering and its properties. A final decision of the number of clusters must be determined as regards the objective of research.(original abstract)
Słowa kluczowe
Twórcy
autor
  • Uniwersytet Ekonomiczny we Wrocławiu
Bibliografia
  • Anderberg M.R. (1973), Cluster Analysis for Applications, Academic Press Inc., New York.
  • Bock H.H., Diday E. (red.) (2000), Analysis of Symbolic Data. Exploratory Methods for Extracting Statistical Information from Complex Data, Springer Verlag, Berlin - Heidelberg.
  • Carmone F.J., Kara A., Maxwell S. (1999), HINoV: A new method to improve market segment definition by identifying noisy variables, "Journal of Marketing Research", November, vol. 36, s. 501-509.
  • Diday E., Noirhomme-Fraiture M. (red.) (2008), Symbolic data analysis and the Sodas software, John Wiley & Sons, Chichester.
  • Dudek A. (2007), Cluster quality indexes for symbolic classification. An examination, [w:] H.H.-J. Lenz, R. Decker (red.), Advances in Data Analysis, Springer, Berlin, s. 31-38.
  • Everitt B.S., Landau S., Leese M. (2001), Cluster Analysis, Arnold, London.
  • Gowda C.K., Diday E. (1994), Symbolic clustering algorithm using similarity and dissimilarity measures, [w:] E. Diday, Y. Lechevallier, M. Schader, P. Bertrand, B. Burtschy (red.), New ap-proaches in classification and data analysis, Springer Verlag, Berlin - Heidelberg , s. 414-421.
  • Grabiński T. (1992), Metody taksonometrii, Wyd. AE w Krakowie, Kraków.
  • Hair J.F., Black W.C., Babin B.J., Anderson R.E., Tatham R.L. (2006), Multivariate Data Analysis, Pearson Prentice Hall, New Jersey.
  • Hardy A., Lallemand P., Determination of the number of clusters for symbolic objects described by interval variables, [w:] K. Jajuga, A. Sokołowski, H.-H. Bock (red.), Classification, clustering and data analysis, Springer, Berlin - Heidelberg, s. 311-318.
  • Hardy A. (2005), Validation of unsupervised symbolic classification, Proceedings of ASMDA 2005 Conference (asmda2005.enst-bretagne.fr/IMG/pdf/proceedings/379.pdf).
  • Ichino M., Feature selection for symbolic data classification, [w:] E. Diday, Y. Lechevallier, P.B. Schader, B. Burtschy (red.), New Approaches in Classification and data analysis, Springer Verlag, Berlin - Heidelberg, s. 423-429.
  • Jain A.K., Dubes R.C. (1998), Algorithms for clustering data, Prentice Hall, Englewood Cliffs, New Jersey.
  • Lechevallier Y. (red.) (2001), Scientific report for unsupervised classification, validation and cluster representation, Analysis System of Symbolic official Data - Project number IST-2000-25161.
  • Malerba D., Esposito F., Giovalle V., Tamma V. (2001), Comparing Dissimilarity Measures for Symbolic Data Analysis, [w:] P. Nanopoulos (red.), New Techniques and Technologies for Statis-tics: Exchange of Technology and Know-how, s. 473-481.
  • Malerba D., Esposito F., Monopoli M. (2002), Comparing dissimilarity measures for probabilistic symbolic objects, [w:] A. Zanasi, C.A. Brebbia, N.F.F. Ebecken, P. Melli (red.), Data Mining III, "Series Management Information Systems", vol. 6, WIT Press, Southampton, s. 31-40.
  • Mali K., Mitra S. (2003), Clustering and its validation in a symbolic framework, Pattern Recognition Letters, 24, s. 2367-2376.
  • Milligan G.W., Clustering validation: results and implications for applied analyses, [w:] P. Arabie, L.J. Hubert, G. de Soete (red.), Clustering and classification, World Scientific, Singapore 1996, s. 341-375.
  • Milligan G.W., Cooper M.C. (1985), An examination of procedures for determining the number of clusters in a data set, Psychometrika, 50, s. 159-179.
  • Pełka M., Wilk J., Metody selekcji zmiennych symbolicznych w zagadnieniach klasyfikacji, [w:] K. Jajuga, M. Walesiak (red.), Klasyfikacja i analiza danych - teoria i zastosowania, Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu nr 107, Taksonomia 17, Wrocław 2010, 216-223.
  • Punj G., Stewart D.W. (1983), Cluster Analysis in Marketing Research: Review and Suggestions for Application, "Journal of Marketing Research", Mai, vol. 20, s. 134-148.
  • Verde R., Lechevallier Y., Chavent M. (2003), Symbolic clustering interpretation and visualization, "The Electronic Journal of Symbolic Data Analysis", vol. 1, no. 1.
  • Walesiak M., Dudek A. (2008), Identification of noisy variables for nonmetric and symbolic data in cluster analysis, [w:] C. Preisach, H. Burkhardt, L. Schmidt-Thieme, R. Decker (red.), Data analysis, machine learning and applications, Springer Verlag, Berlin - Heidelberg, s. 85-92.
  • Walesiak M. (2004), Problemy decyzyjne w procesie klasyfikacji zbioru obiektów, [w:] J. Dziechciarz (red.), Zastosowania metod ilościowych, Prace Naukowe Akademii Ekonomicznej we Wrocławiu nr 1010, Ekonometria 13, Wrocław, s. 52-71.
  • Wedel M., Kamakura W.A. (1998), Market Segmentation: Conceptual and Methodological Funda-tions, Kluwer Academic Publisher, Dordrecht.
  • Wilk J. (2010), Cluster analysis methods in symbolic data analysis, [w:] J. Pociecha (red.), Data Analysis Methods in Economic Research, Studia i Prace UE w Krakowie nr 11, Kraków, s. 39-54.
  • Wilk J., Dudek A. (2009), Metody doboru zmiennych w procesie klasyfikacji obiektów symbolicznych, [w:] J. Dziechciarz (red.), Zastosowania metod ilościowych, Prace Naukowe Uniwersytetu Eko-nomicznego we Wrocławiu nr 84, Ekonometria 27, Wrocław, s. 20-28.
  • Wilk J. (2005), Miary odległości obiektów opisanych zmiennymi symbolicznymi z wagami, [w:] K. Jajuga, M. Walesiak (red.), Klasyfikacja i analiza danych - teoria i zastosowania, Prace Nau-kowe Akademii Ekonomicznej we Wrocławiu nr 1126, "Taksonomia 13, Wrocław, s. 224-236.
  • Wilk J. (2006), Problemy klasyfikacji obiektów symbolicznych. Symboliczne miary odległości, [w:] J. Garczarczyk (red.), Ilościowe i jakościowe metody badania rynku. Pomiar i jego skuteczność, Zeszyty Naukowe AE nr 71, Wydawnictwo AE w Poznaniu, Poznań, s. 69-83.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171282895

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.