Próba oceny wpływu wybranych metod imputacji danych na wyniki klasyfikacji obiektów z wykorzystaniem drzew klasyfikacyjnych

Misztal, Małgorzata

Artykuł - szczegóły

Czasopismo

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

2011 | 18 | nr 176 Klasyfikacja i analiza danych - teoria i zastosowania | 246--253

Tytuł artykułu

Próba oceny wpływu wybranych metod imputacji danych na wyniki klasyfikacji obiektów z wykorzystaniem drzew klasyfikacyjnych

Autorzy

Małgorzata Misztal

Warianty tytułu

An Attempt to Assess the Influence of Selected Imputation Methods on the Classification of Objects Based on Classification Trees

Języki publikacji

Abstrakty

W praktycznych zastosowaniach metod statystycznych często pojawia się problem występowania w zbiorach danych brakujących wartości. W takiej sytuacji wymienić można trzy sposoby postępowania: (1) odrzucenie obiektów z wartościami brakującymi, (2) wykorzystanie algorytmu uczącego do rozwiązania problemu brakujących wartości w fazie uczenia, (3) imputację brakujących wartości przed zastosowaniem algorytmu uczącego. Celem głównym pracy jest ocena wpływu wymienionych metod na wyniki klasyfikacji obiektów za pomocą drzew klasyfikacyjnych w sytuacji występowania braków danych.(abstrakt oryginalny)

Incomplete data are quite common in practical applications of statistical methods. Dealing with data sets with missing values we can: (1) discard observations with missing values, (2) rely on the learning algorithm to deal with missing values in training phase or (3) impute all missing values before training. The main goal of the paper is to assess the influence of these strategies on the results of object classification by means of classification trees in the case of incomplete data.(original abstract)

Słowa kluczowe

Drzewa klasyfikacyjne Klasyfikacja danych

Classification trees Data classifications

Czasopismo

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

Rocznik

2011

Tom

Numer

nr 176 Klasyfikacja i analiza danych - teoria i zastosowania

Strony

246--253

Opis fizyczny

Twórcy

autor

Małgorzata Misztal

Uniwersytet Łódzki

Bibliografia

Blake C., Keogh E., Merz C.J., UCI Repository of Machine Learning Datasets, Department of Information and Computer Science, University of California, Irvine 1988.
Breiman L., Friedman J., Olshen R., Stone C., Classification and Regression Trees, CRC Press, London 1984.
Buuren S. van, Groothuis-Oudshoorn K., MICE: Mulitvariate Imputation by Chained Equations in R, "Journal of Statistical Software" 2010 (w druku).
Hastie T., Tibshirani R., Friedman J., The Elements of Statistical Learning. Data Mining, Inference and Prediction, Springer, New York 2008.
Kim H., Loh W.-Y., Classification Trees with Unbiased Multiway Splits, "Journal of American Statistical Association" 2001, 96, s. 598-604.
Little R.J.A., Rubin D.B., Statistical Analysis with Missing Data, Wiley, New Jersey 2002.
Paradysz J., Szymkowiak M., Źródła danych ludnościowych, "Metodologia Badań Demograficznych", Zeszyt nr 15 Sekcji Analiz Demograficznych, KND PAN, Warszawa 2007, 7-26.
Wayman J.C., Multiple Imputation for Missing Data: What Is It and How Can I Use It?, http://www.csos.jhu.edu/contact/staff/jwayman_pub/wayman_multimp_aera2003.pdf, 2003.
www.stat.wisc.edu/~loh/cruise.

Typ dokumentu

Bibliografia

Identyfikatory

Identyfikator YADDA

bwmeta1.element.ekon-element-000171370415

Komentarze

Musisz być zalogowany aby pisać komentarze.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

Próba oceny wpływu wybranych metod imputacji danych na wyniki klasyfikacji obiektów z wykorzystaniem drzew klasyfikacyjnych

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane