Identyfikacja obserwacji odstających w analizie skupień

Batóg, Jacek

doi:10.15611/pn.2016.426.01

Artykuł - szczegóły

Czasopismo

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

2016 | 26 | nr 426 Klasyfikacja i analiza danych - teoria i zastosowania | 13--21

Tytuł artykułu

Identyfikacja obserwacji odstających w analizie skupień

Autorzy

Jacek Batóg

Treść / Zawartość

Pełne teksty:

http://www.dbc.wroc.pl/publication/36799 [zdalny]

Warianty tytułu

Influence of Outliers on Results of Cluster Analysis

Języki publikacji

Abstrakty

W ramach przeprowadzonego badania dokonano analizy porównawczej me-tod identyfikujących obserwacje odstające w zbiorze danych przestrzennych. Wykorzystano w tym celu metodę k-średnich oraz dane charakteryzujące gminy województwa zachodnio-pomorskiego pod względem poziomu dochodów i zadłużenia. Ocenie poddano wyniki uzy-skane za pomocą wybranych metod wykrywania obserwacji odstających typu false positive: metody zaproponowanej przez Wanga, Zhanga, Li i Songa, jej autorskiej modyfikacji, me-tody Kandogana oraz metody Outlier Removal Clustering. Jako miarę homogeniczności po-działu zastosowano miarę stopnia zróżnicowania obiektów wewnątrz skupiska. Uzyskane rezultaty pozwalają stwierdzić, że wszystkie zastosowane metody generują praktycznie identyczne wyniki. Występujące różnice polegają wyłącznie na odmiennej kolejności wska-zywania obserwacji odstających(abstrakt oryginalny)

The research concerns comparison of methods that enable identifying spatial outliers. The analysis was based on the statistical data describing income and public debt of gminas of Zachodniopomorskie voivodship. All considerations were applied to partitions made by k-means method. Identification of false positive outliers was provided by means of Wang, Zhang, Li and Song method, author's modification of this method and additionally methods proposed by Kandogan and Hautamäki. The level of objects' differentiation within group was used as a measure of homogeneity of partitions. The received results were very similar for all considered methods. Some differences occur only in order of indicated outliers(original abstract)

Słowa kluczowe

Analiza skupień Analiza porównawcza

Cluster analysis Comparative analysis

Czasopismo

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

Rocznik

2016

Tom

Numer

nr 426 Klasyfikacja i analiza danych - teoria i zastosowania

Strony

13--21

Opis fizyczny

Twórcy

autor

Jacek Batóg

Uniwersytet Szczeciński

Bibliografia

Aggarwal C., Yu P., 2001, Outlier detection for high dimensional data, Proceedings of the ACM SIGMOD International Conference on Management of Data, vol. 30, no. 2, s. 37-46.
Batóg J., Batóg B., 2014, Analiza wpływu obserwacji nietypowych na wyniki modelowania regional-nej wydajności pracy, Zeszyty Naukowe Uniwersytetu Szczecińskiego nr 811, Studia i Prace Wydziału Nauk Ekonomicznych i Zarządzania nr 36, Metody ilościowe w ekonomii, t. 1, Wy-dawnictwo Naukowe Uniwersytetu Szczecińskiego, s. 125-138.
Chandola V., Banerjee A., Kumar V., 2009, Anomaly detection: A Survey, ACM Computing Surveys (CSUR), vol. 41, no. 3, article no. 15, DOI: 10.1145/1541880.1541882.
Cherednichenko S., 2005, Outlier Detection in Clustering, Master's Thesis, University of Joensuu, Department of Computer Science, http://www.cs.uku.fi/pub/Theses/2005_MSc_ Cherednichenko_Svetlana.pdf (22.06.2015).
Duan L., Xu L., Liu Y., Lee J., 2009, Cluster-based outlier detection, Annals of Operations Research, vol. 168, no. 1, s. 151-168.
Ghosh-Dastidar B., Schafer J.L., 2006, Outlier detection and editing procedures for continuous multi-variate data, Journal of Official Statistics, vol. 22, no. 3, s. 487-506.
Guha S., Rastogi R., Shim K., 1998, CURE an efficient clustering algorithm for large databases, Proceedings of the ACM SIGMOD International Conference on Management of Data, vol. 27, no. 2, s. 73-84.
Hautamäki V., Cherednichenko S., Kärkkäinen I., Kinnunen T., Fränti P., 2005, Improving k-means by outlier removal, [w]: H. Kalviainen, J. Parkkinen, A. Kaarna (red.), Image Analysis, 14th Scandinavian Conference, SCIA 2005, Joensuu, Finland, June 19-22, 2005, Proceedings, Series Lecture Notes in Computer Science, vol. 3540, Springer, Berlin-Heidelberg, s. 978-987, DOI: 10.1007/11499145_99.
Hawkins D.M., 1980, Identification of Outliers, Chapman and Hall, London.
Hodge V.J., Austin J., 2004, A survey of outlier detection methodologies, Artificial Intelligence Review, vol. 22, no. 2, s. 85-126, DOI: 10.1007/s10462-004-4304-y.
Jayakumar G.S.D.S., Thomas B.J., 2013, A new procedure of clustering based on multivariate outlier detection, Journal of Data Science, vol. 11, no. 1, s. 69-84.
Kandogan E., 2012, Just-in-Time Annotation of Clusters, Outliers, and Trends in Point-based Data Visualizations, IBM Center for Advanced Visualization, IBM Research, IEEE Conference on Visual Analytics Science and Technology, Seattle.
Rousseeuw P.J., Leroy A.M., 1987, Robust Regression and Outlier Detection, John Wiley &Sons, New York.
Shekhar S., Lu C., Zhang P., 2003, A unified approach to detecting spatial outliers, GeoInformatica, vol. 7, no. 2, s. 139-166, DOI: 10.1023/A:1023455925009.
Wang H., Zhang X., Li S., Song X., 2010, Spatial clustering and outlier analysis for the regionaliza-tion of maize cultivation in China, Proceedings of the 9th WSEAS International Conference on Applied Computer and Applied Computational Science, s. 31-36, http://www.wseas.us/e-library/conferences/2010/Hangzhou/Acacos/Acacos-04.pdf (14.04.2015).
Zhang T., Ramakrishnan R., Livny M., 1997, BIRCH: A new data clustering algorithm and its appli-cations, Data Mining and Knowledge Discovery, vol. 1, no. 2, s. 141-18

Typ dokumentu

Bibliografia

Identyfikatory

DOI

10.15611/pn.2016.426.01

Identyfikator YADDA

bwmeta1.element.ekon-element-000171434984

Komentarze

Musisz być zalogowany aby pisać komentarze.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

Identyfikacja obserwacji odstających w analizie skupień

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane