PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2013 | 21 | nr 279 Klasyfikacja i analiza danych - teoria i zastosowania | 135--145
Tytuł artykułu

Ocena wpływu wybranych metod imputacji na wyniki klasyfikacji obiektów w modelach drzew klasyfikacyjnych

Warianty tytułu
Assessment of the Influence of Selected Imputation Methods on the Results of Object Classification Using Classification Trees
Języki publikacji
PL
Abstrakty
W przeciwieństwie do większości metod statystyki wielowymiarowej drzewa klasyfikacyjne należą do grupy algorytmów uczących, w których w oryginalny sposób rozwiązano problem występowania brakujących wartości w analizowanych zbiorach danych. W pracy zbadano wpływ wybranych metod imputacji danych na wyniki klasyfikacji obiektów z wykorzystaniem drzew klasyfikacyjnych CART i CRUISE oraz porównano procedury imputacji zaimplementowane bezpośrednio w obu algorytmach budowy drzewa. Wykorzystano podejście symulacyjne, generując różne proporcje i mechanizmy powstawania braków danych w zbiorach danych pochodzących z repozytorium baz danych na Uniwersytecie Kalifornijskim w Irvine oraz z badań własnych.(abstrakt oryginalny)
EN
In contrast with most multivariate statistical analysis methods, classification tree is an example of the learning algorithm coping with missing values in special, original way. In the paper the influence of some selected missing data techniques on the results of object classification using CART and CRUISE classification trees was assessed. All the procedures were compared by artificially simulating different proportions and mechanisms of missing data using complete data sets mainly from the UCI repository of machine learning databases.(original abstract)
Twórcy
  • Uniwersytet Łódzki
Bibliografia
  • Blake C., Keogh E., Merz C.J., UCI Repository of Machine Learning Datasets, Department of Information and Computer Science, University of California, Irvine 1988.
  • Breiman L., Friedman J., Olshen R., Stone C., Classification and Regression Trees, CRC Press, London 1984.
  • Breiman L., Random forests, "Machine Learning" 2001, vol. 45, no. 1, p. 5-32.
  • Hastie T., Tibshirani R., Friedman J., The Elements of Statistical Learning. Data Mining, Inference and Prediction, Springer, New York 2008.
  • Kim H., Loh W.-Y., Classification trees with unbiased multiway splits, "Journal of American Statistical Association" 2001, vol. 96, p. 598-604.
  • Little R. J. A., Rubin D. B., Statistical Analysis with Missing Data, Second Edition, Wiley, New Jersey 2002.
  • Misztal M., Wpływ wybranych metod uzupełniania brakujących danych na wyniki klasyfikacji obiektów z wykorzystaniem drzew klasyfikacyjnych w przypadku zbiorów danych o niewielkiej liczebności - ocena symulacyjna, [w:] Taksonomia 19, Klasyfikacja i analiza danych - teoria i zastosowania, red. K. Jajuga, M. Walesiak, Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu nr 242, Wydawnictwo UE we Wrocławiu, Wrocław, 2012, s. 371-379.
  • Stekhoven D.J., Bühlmann P., MissForest - Nonparametric Missing Value Imputation for Mixed-Type Data, "Bioinformatics" 2012, vol. 28, no. 1, p. 112-118.
  • Song Q., Shepperd M., Chen X., Liu J., Can k-NN imputation improve the performance of C4.5 with small software project data sets? A comparative evaluation, "Journal of System and Software" 2008, vol. 81, no. 12, p. 2361-2370.
  • Twala B., An empirical comparison of techniques for handling incomplete data using decision trees, "Applied Artificial Intelligence" 2009, vol. 23, p. 373-405.
  • Twala B., Jones M. C., Hand D. J., Good methods for coping with missing data in decision trees, "Pattern Recognition Letters" 2008, vol. 29, no. 7, p. 950-956.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171267195

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.