Analiza porównawcza wybranych metod szacowania błędu predykcji klasyfikatora

Herman, Sergiusz

Artykuł - szczegóły

Czasopismo

Przegląd Statystyczny

2016 | 63 | z. 4 | 449--463

Tytuł artykułu

Analiza porównawcza wybranych metod szacowania błędu predykcji klasyfikatora

Autorzy

Sergiusz Herman

Treść / Zawartość

Pełne teksty:

http://keii.ue.wroc.pl/przeglad/Rok 2016/Zeszyt 4/2016_63_4_449-463.pdf [zdalny]

Warianty tytułu

Comparative Analysis of Selected Methods for Estimating the Prediction Error of Classifier

Języki publikacji

Abstrakty

Klasyfikacją nazywamy algorytm postępowania, który przydziela badane obserwacje/obiekty, bazując na ich cechach do określonych populacji. W tym celu konstruowany jest odpowiedni model - klasyfikator. Miarą jego jakości jest przede wszystkim zdolność predykcyjna, mierzona m.in. za pomocą prawdziwego błędu predykcji. Wartość tego błędu, ze względu na brak odpowiednio dużej, niezależnej próby testowej, musi być często szacowana na podstawie dostępnej próby uczącej. Celem artykułu jest dokonanie przeglądu oraz empirycznej analizy porównawczej wybranych metod szacowania błędu predykcji klasyfikatora, skonstruowanego z wykorzystaniem liniowej analizy dyskryminacyjnej. Zbadano, czy wyniki analizy uzależnione są od wielkości próby oraz metody wyboru zmiennych do modelu. Badanie empiryczne zostało przeprowadzone na przykładzie problemu prognozowania upadłości spółek akcyjnych w Polsce. (abstrakt oryginalny)

Classification is an algorithm, which assigns studied companies, taking into consideration their attributes, to specific population. An essential part of it is classifier. Its measure of quality is especially predictability, measured by true error rate. The value of this error, due to lack of sufficiently large and independent test set, must be estimated on the basis of available learning set. The aim of this article is to make a review and compare selected methods for estimating the pre-diction error of classifier, constructed with linear discriminant analysis. It was examined if the results of the analysis depends on the sample size and the method of selecting variables for a model. Empirical research was made on example of problem of bankruptcy prediction of join-stock companies in Poland. (original abstract)

Słowa kluczowe

Klasyfikacja Estymacja Teoria prognozy

Classification Estimation Forecast theory

Czasopismo

Przegląd Statystyczny

Rocznik

2016

Tom

Numer

z. 4

Strony

449--463

Opis fizyczny

Twórcy

autor

Sergiusz Herman

Uniwersytet Ekonomiczny w Poznaniu

Bibliografia

Braga-Neto U. M., Dougherty E. R., (2004), Is Cross-validation for Small-sample Microarray Classification?, Bioinformatics, 20 (3), 374-380.
Efron B., (1983), Estimating the Error Rate of a Prediction Rule: Improvement on Cross-Validation, Journal of the American Statistical Association, 78 (382), 316-331.
Efron B., Tibshirani R. J., (1997), Improvements on Cross-Validation: The .632+ Bootstrap Method, Journal of the American Statistical Association, 92 (438), 548-560.
Gatnar E., (2001), Nieparametryczna metoda dyskryminacji i regresji, Wydawnictwo Naukowe PWN, Warszawa.
Gatnar E., (2008), Podejście wielomodelowe w zagadnieniach dyskryminacji i regresji, Wydawnictwo Naukowe PWN, Warszawa.
Geisser S., (1975), The Predictive Sample Reuse Method With Applications, Journal of the American Statistical Association, 70, 320-328.
Hadasik D., (1998), Upadłość przedsiębiorstw w Polsce i metody jej prognozowania, Zeszyty naukowe - seria II, Prace habilitacyjne, Zeszyt 153, Akademia Ekonomiczna w Poznaniu, Poznań .
Hanczar B., Dougherty E. R., (2013), The Reliability of Estimated Confidence Intervals for Classification Error Rates When Only a Single Sample is Available, Pattern Recognition, 46, 1067-1077.
Hand D. J., (1981), Discrimination and Classification, John Wiley & Sons, Chichester.
Isaksson A., Wallman M., Goransson H., Gustafsson M. G., (2008), Cross-Validation and Bootstrapping are Unreliable in Small Sample Classification, Pattern Recognition, 29, 1960-1965.
Jiang W., Simon R., (2007), A Comparison of Bootstrap Methods and an Adjusted Bootstrap Approach for Estimating Prediction Error in Microarray Classification, Statistics in Medicine, 26, 5320-5334.
Kim J. H., (2009), Estimating Classification Error Rate: Repeated Cross-Validation, Repeated Hold-Out and Bootstrap, Computational Statistics and Data Analysis, 53, 3735-3745.
Lachenbruch P. A., Mickey M. R., (1968), Estimation of Error Rates in Discriminant Analysis, Technometrics, 10, 1-11.
McLachlan G. J., (1992), Discriminant Analysis and Statistical Pattern Recognition, John Wiley & Sons, Inc.
Molinaro A. M., Simon R., Pfeiffer R. M., (2005), Prediction Error Estimation: A Comparison of Resampling Methods, Bioinformatics, 21, 3301-3307.
Ripley B. D., (1996), Pattern Recognition and Neural Networks, Cambrige University Press.
Simon R., Radmacher M. D., Dobbin K., McShane L. M., (2003), Pitfalls in the Use of DNA Microarray Data for Diagnostic and Prognostic Classification, Journal of the National Cancer Institute, 95 (1), 14-18.
Wehberg S., Schumacher M., (2004), A Comparison of Nonparametric Error Rate Estimation Methods in Classification Problems, Biometrical Journal, 46, 35-47.

Typ dokumentu

Bibliografia

Identyfikatory

Identyfikator YADDA

bwmeta1.element.ekon-element-000171449575

Komentarze

Musisz być zalogowany aby pisać komentarze.

Przegląd Statystyczny

Analiza porównawcza wybranych metod szacowania błędu predykcji klasyfikatora

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane