Czasopismo
Tytuł artykułu
Autorzy
Warianty tytułu
An Attempt to Assess the Influence of Selected Imputation Methods on the Classification of Objects Based on Classification Trees
Języki publikacji
Abstrakty
W praktycznych zastosowaniach metod statystycznych często pojawia się problem występowania w zbiorach danych brakujących wartości. W takiej sytuacji wymienić można trzy sposoby postępowania: (1) odrzucenie obiektów z wartościami brakującymi, (2) wykorzystanie algorytmu uczącego do rozwiązania problemu brakujących wartości w fazie uczenia, (3) imputację brakujących wartości przed zastosowaniem algorytmu uczącego. Celem głównym pracy jest ocena wpływu wymienionych metod na wyniki klasyfikacji obiektów za pomocą drzew klasyfikacyjnych w sytuacji występowania braków danych.(abstrakt oryginalny)
Incomplete data are quite common in practical applications of statistical methods. Dealing with data sets with missing values we can: (1) discard observations with missing values, (2) rely on the learning algorithm to deal with missing values in training phase or (3) impute all missing values before training. The main goal of the paper is to assess the influence of these strategies on the results of object classification by means of classification trees in the case of incomplete data.(original abstract)
Rocznik
Tom
Strony
246--253
Opis fizyczny
Twórcy
autor
- Uniwersytet Łódzki
Bibliografia
- Blake C., Keogh E., Merz C.J., UCI Repository of Machine Learning Datasets, Department of Information and Computer Science, University of California, Irvine 1988.
- Breiman L., Friedman J., Olshen R., Stone C., Classification and Regression Trees, CRC Press, London 1984.
- Buuren S. van, Groothuis-Oudshoorn K., MICE: Mulitvariate Imputation by Chained Equations in R, "Journal of Statistical Software" 2010 (w druku).
- Hastie T., Tibshirani R., Friedman J., The Elements of Statistical Learning. Data Mining, Inference and Prediction, Springer, New York 2008.
- Kim H., Loh W.-Y., Classification Trees with Unbiased Multiway Splits, "Journal of American Statistical Association" 2001, 96, s. 598-604.
- Little R.J.A., Rubin D.B., Statistical Analysis with Missing Data, Wiley, New Jersey 2002.
- Paradysz J., Szymkowiak M., Źródła danych ludnościowych, "Metodologia Badań Demograficznych", Zeszyt nr 15 Sekcji Analiz Demograficznych, KND PAN, Warszawa 2007, 7-26.
- Wayman J.C., Multiple Imputation for Missing Data: What Is It and How Can I Use It?, http://www.csos.jhu.edu/contact/staff/jwayman_pub/wayman_multimp_aera2003.pdf, 2003.
- www.stat.wisc.edu/~loh/cruise.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171370415