PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2016 | 26 | nr 426 Klasyfikacja i analiza danych - teoria i zastosowania | 13--21
Tytuł artykułu

Identyfikacja obserwacji odstających w analizie skupień

Autorzy
Treść / Zawartość
Warianty tytułu
Influence of Outliers on Results of Cluster Analysis
Języki publikacji
PL
Abstrakty
W ramach przeprowadzonego badania dokonano analizy porównawczej me-tod identyfikujących obserwacje odstające w zbiorze danych przestrzennych. Wykorzystano w tym celu metodę k-średnich oraz dane charakteryzujące gminy województwa zachodnio-pomorskiego pod względem poziomu dochodów i zadłużenia. Ocenie poddano wyniki uzy-skane za pomocą wybranych metod wykrywania obserwacji odstających typu false positive: metody zaproponowanej przez Wanga, Zhanga, Li i Songa, jej autorskiej modyfikacji, me-tody Kandogana oraz metody Outlier Removal Clustering. Jako miarę homogeniczności po-działu zastosowano miarę stopnia zróżnicowania obiektów wewnątrz skupiska. Uzyskane rezultaty pozwalają stwierdzić, że wszystkie zastosowane metody generują praktycznie identyczne wyniki. Występujące różnice polegają wyłącznie na odmiennej kolejności wska-zywania obserwacji odstających(abstrakt oryginalny)
EN
The research concerns comparison of methods that enable identifying spatial outliers. The analysis was based on the statistical data describing income and public debt of gminas of Zachodniopomorskie voivodship. All considerations were applied to partitions made by k-means method. Identification of false positive outliers was provided by means of Wang, Zhang, Li and Song method, author's modification of this method and additionally methods proposed by Kandogan and Hautamäki. The level of objects' differentiation within group was used as a measure of homogeneity of partitions. The received results were very similar for all considered methods. Some differences occur only in order of indicated outliers(original abstract)
Twórcy
autor
  • Uniwersytet Szczeciński
Bibliografia
  • Aggarwal C., Yu P., 2001, Outlier detection for high dimensional data, Proceedings of the ACM SIGMOD International Conference on Management of Data, vol. 30, no. 2, s. 37-46.
  • Batóg J., Batóg B., 2014, Analiza wpływu obserwacji nietypowych na wyniki modelowania regional-nej wydajności pracy, Zeszyty Naukowe Uniwersytetu Szczecińskiego nr 811, Studia i Prace Wydziału Nauk Ekonomicznych i Zarządzania nr 36, Metody ilościowe w ekonomii, t. 1, Wy-dawnictwo Naukowe Uniwersytetu Szczecińskiego, s. 125-138.
  • Chandola V., Banerjee A., Kumar V., 2009, Anomaly detection: A Survey, ACM Computing Surveys (CSUR), vol. 41, no. 3, article no. 15, DOI: 10.1145/1541880.1541882.
  • Cherednichenko S., 2005, Outlier Detection in Clustering, Master's Thesis, University of Joensuu, Department of Computer Science, http://www.cs.uku.fi/pub/Theses/2005_MSc_ Cherednichenko_Svetlana.pdf (22.06.2015).
  • Duan L., Xu L., Liu Y., Lee J., 2009, Cluster-based outlier detection, Annals of Operations Research, vol. 168, no. 1, s. 151-168.
  • Ghosh-Dastidar B., Schafer J.L., 2006, Outlier detection and editing procedures for continuous multi-variate data, Journal of Official Statistics, vol. 22, no. 3, s. 487-506.
  • Guha S., Rastogi R., Shim K., 1998, CURE an efficient clustering algorithm for large databases, Proceedings of the ACM SIGMOD International Conference on Management of Data, vol. 27, no. 2, s. 73-84.
  • Hautamäki V., Cherednichenko S., Kärkkäinen I., Kinnunen T., Fränti P., 2005, Improving k-means by outlier removal, [w]: H. Kalviainen, J. Parkkinen, A. Kaarna (red.), Image Analysis, 14th Scandinavian Conference, SCIA 2005, Joensuu, Finland, June 19-22, 2005, Proceedings, Series Lecture Notes in Computer Science, vol. 3540, Springer, Berlin-Heidelberg, s. 978-987, DOI: 10.1007/11499145_99.
  • Hawkins D.M., 1980, Identification of Outliers, Chapman and Hall, London.
  • Hodge V.J., Austin J., 2004, A survey of outlier detection methodologies, Artificial Intelligence Review, vol. 22, no. 2, s. 85-126, DOI: 10.1007/s10462-004-4304-y.
  • Jayakumar G.S.D.S., Thomas B.J., 2013, A new procedure of clustering based on multivariate outlier detection, Journal of Data Science, vol. 11, no. 1, s. 69-84.
  • Kandogan E., 2012, Just-in-Time Annotation of Clusters, Outliers, and Trends in Point-based Data Visualizations, IBM Center for Advanced Visualization, IBM Research, IEEE Conference on Visual Analytics Science and Technology, Seattle.
  • Rousseeuw P.J., Leroy A.M., 1987, Robust Regression and Outlier Detection, John Wiley &Sons, New York.
  • Shekhar S., Lu C., Zhang P., 2003, A unified approach to detecting spatial outliers, GeoInformatica, vol. 7, no. 2, s. 139-166, DOI: 10.1023/A:1023455925009.
  • Wang H., Zhang X., Li S., Song X., 2010, Spatial clustering and outlier analysis for the regionaliza-tion of maize cultivation in China, Proceedings of the 9th WSEAS International Conference on Applied Computer and Applied Computational Science, s. 31-36, http://www.wseas.us/e-library/conferences/2010/Hangzhou/Acacos/Acacos-04.pdf (14.04.2015).
  • Zhang T., Ramakrishnan R., Livny M., 1997, BIRCH: A new data clustering algorithm and its appli-cations, Data Mining and Knowledge Discovery, vol. 1, no. 2, s. 141-18
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171434984

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.