PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2014 | 23 | nr 328 Klasyfikacja i analiza danych - teoria i zastosowania | 146--155
Tytuł artykułu

Indukcja reguł dla danych niekompletnych i niezbalansowanych: modele klasyfikatorów i próba ich zastosowania do predykcji ryzyka operacyjnego w torakochirurgii

Treść / Zawartość
Warianty tytułu
Classification Rules Extraction for Missing and Imbalance Data: Models of Classifiers and Initial Results in the Rules-based Thoracic Surgery Risk Prediction
Języki publikacji
PL
Abstrakty
Artykuł dotyczy klasyfikacji obiektów w sytuacji łącznego występowania wielu niedoskonałości dostępnych danych, w szczególności: niekompletności i niezbalan-sowania danych. Zaproponowano zastosowanie podejścia wykorzystującego adaptacje wzmocnionych, wrażliwych na koszt klasyfikatorów SVM. Porównano efektywność podej-ścia z klasyfikatorami dla danych niezbalansowanych, dostępnymi w środowiskach uczenia maszynowego KEEL i WEKA. Rozważono też zagadnienie interpretowalności wyników klasyfikacji (indukcja reguł i drzew decyzyjnych z efektywnych modeli typu "czarna skrzynka"). Omówiono przykładowe zastosowanie do klasyfikacji zaktualizowanych baz danych medycznych z Wrocławskiego Ośrodka Torakochirurgii.(abstrakt oryginalny)
EN
The classification problem of multi-faceted imperfect data, e.g. with missing values and at the same time with class imbalance, is considered. Aspects of the classification effectiveness and interpretability of the results through classification rules extraction for the "black-box" like classifiers are discussed. An approach based on a boosted SVM classifier and an oracle-based decision rules extraction procedure is proposed and applied to a sample hospital data base of Wrocław Thoracic Surgery Centre. The research was performed using Imbalanced Learning Module of the KEEL Data Mining software package and WEKA Ma-chine Learning environment.(original abstract)
Twórcy
autor
  • Politechnika Wrocławska
  • Politechnika Wrocławska
  • Uniwersytet Medyczny im. Piastów Śląskich we Wrocławiu
  • Uniwersytet Medyczny im. Piastów Śląskich we Wrocławiu
  • Uniwersytet Medyczny im. Piastów Śląskich we Wrocławiu
  • Uniwersytet Medyczny im. Piastów Śląskich we Wrocławiu
Bibliografia
  • Alcalá-Fdez J., Fernández A., Luengo J., Derrac J., García S., Sánchez L., Herrera F., 2011, KEEL data-mining software tool: Data set repository, integration of algorithms and experimental ana- lysis framework, Journal of Multiple-Valued Logic & Soft Computing, vol. 17(2-3), s. 255-287.
  • Barakat N., Bradley A.P., 2010, Rule extraction from support vector machines: A review, Neurocom-puting, vol. 74(41277), s. 178-190.
  • Barandela R., Valdovinos R.M., Sánchez J.S., 2003, New applications of ensembles of classifiers, Pattern Analysis and Applications, vol. 6, s. 245-256.
  • Bradley A., Marshall A., Abdelaziz M., Hussain K., Agostini P., Bishay E., Kalkat M., Steyn R., Rajesh P., Dunn J., Naidu B., 2012, Thoracoscore fails to predict complications following elective lung resection, European Respiratory Journal, 40(6), 1496-1501.
  • Chawla N.V., Bowyer K.W., Hall L.O., 2002, SMOTE: Synthetic Minority Over-sampling TEchnique, Journal of Artificial Intelligence Research, vol. 16, s. 321-357.
  • Ferguson M.K., Siddique J., Karrison T., 2008, Modeling major lung resection outcomes using classifica-tion trees and multiple imputation techniques, European Journal of Cardio-Thoracic Surgery, vol. 34(5), s. 1085-1089.
  • Fernández A., García S., Luengo J., Bernadó-Mansilla E., Herrera F., 2010, Genetics-Based Machine Learning for Rule Induction: State of the Art, Taxonomy, and Comparative Study, IEEE Transactions on Evolutionary Computation, vol. 14(6), s. 913-941.
  • Freund Y., Schapire R.E., Hill M., 1996, Experiments with a New Boosting Algorithm, Proceedings of the 13th International Conference on Machine Learning, Morgan Kaufmann, s. 148-156.
  • Galar M., Fernández A., Barrenechea E., Bustince H., Herrera F., 2012, A Review on Ensembles for the Class Imbalance Problem: Bagging-, Boosting-, and Hybrid-Based Approaches, IEEE Transactions On Systems, Man and Cybernetics-Part C: Applications and Reviews, vol. 42(4), s. 463-484.
  • García S., Fernández A., Herrera F., 2009, Enhancing the effectiveness and interpretability of deci-sion tree and rule induction classifiers with evolutionary training set selection over imbalanced problems, Applied Soft Computing, vol. 9(4), s. 1304-1314.
  • Gatnar E., 1998, Symboliczne metody klasyfikacji danych, PWN, Warszawa.
  • Gatnar E., 2001, Nieparametryczna metoda dyskryminacji i regresji, WN PWN, Warszawa
  • Gatnar E., 2008, Podejście wielomodelowe w zagadnieniach dyskryminacji i regresji, WN PWN, Warszawa.
  • Keerthi S.S., Shevade S.K., Bhattacharyya C., Murthy K.R.K., 2001, Improvements to Platt's SMO algorithm for SVM classifier design, Neural Computation, 13, s. 637-649.
  • Liu X-Y., Wu J., Zhou Z-H., 2009, Exploratory undersampling for class-imbalance learning, IEEE Transactions on Systems, Man, and Cybernetics, Part B, vol. 39(2), 539-550.
  • Lubicz M., Rzechonek A., Pawełczyk K., Kołodziej J., Adamiak J., 2010, Knowledge extraction and surgical risk modelling: intelligent support for thoracic surgery, [w:] Applications of Systems Science, A. Grzech i in. (red.), EXIT, Warszawa, s. 327-336.
  • Lubicz M., Zięba M., Pawełczyk K., Rzechonek A., Kołodziej J., 2013, Modele eksploracji danych niezbilansowanych - procedury klasyfikacji dla zadania analizy ryzyka operacyjnego, Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu nr 278, Wrocław, s. 262-270.
  • Lubicz M., Zięba M., Rzechonek A., Pawełczyk K., Kołodziej J., Błaszczyk J., 2012, Analiza porów-nawcza wybranych technik eksploracji danych do klasyfikacji danych medycznych z brakującymi obserwacjami, Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu nr 242, Wrocław, s. 416-425.
  • Marshall A., Altman D.G., Royston P., Holder R.L., 2010, Comparison of techniques for handling missing covariate data within prognostic modelling studies: a simulation study, BMC Medical Research Methodology, vol. 10(7).
  • Mediratta N., Shackcloth M., Page R., Woolley S., Asante-Siaw J., Poullis M., 2014, Should males ever undergo wedge resection for stage 1 non-small-cell lung cancer? A propensity analysis. Eu-ropean Journal of Cardio-Thoracic Surgery (w druku).
  • Poullis M., McShane J., Shaw M., Woolley S., Shackcloth M., Page R., Mediratta N., 2013, Predic-tion of in-hospital mortality following pulmonary resections: improving on current risk models, European Journal of Cardio-Thoracic Surgery, vol. 44, s. 238-243.
  • Qadri S.S.A., Jarvis M., Ariyaratnam P., Chaudhry M.A., Cale A.R.J., Griffin S., Cowen M.E., Loubani M., 2013, Could Thoracoscore predict postoperative mortality in patients undergoing pneumonectomy?, European Journal of Cardio-Thoracic Surgery (w druku).
  • Rivo E., De La Fuente J., Rivo A., García-Fontán E., Cañizares M.-A., Gil, P., 2012, Cross-Industry Standard Process for data mining is applicable to the lung cancer surgery domain, improving decision making as well as knowledge and quality management, Clinical and Translational On-cology, vol. 14(1), s. 73-79.
  • Santos-Garcıa G., Varela G., Novoa N., Jimenez M.F., 2004, Prediction of postoperative morbidity after lung resection using an artificial neural network ensemble, Artificial Intelligence in Medi-cine, 30(1), s. 61-69.
  • Seiffert C., Khoshgoftaar T., Van Hulse J., Napolitano A., 2010, Rusboost: A hybrid approach to alleviating class imbalance, IEEE Transactions on Systems, Man and Cybernetics, Part A, vol. 40(1), s. 185-197.
  • Stefanowski J., 2001, Algorytmy indukcji reguł decyzyjnych w odkrywaniu wiedzy, rozprawa habilita-cyjna, Wydawnictwo Politechniki Poznańskiej, seria Rozprawy, nr 361, Poznań.
  • Tickle A.B., Andrews R., Golea M., Diederich J., 1998, The truth will come to light: directions and challenges in extracting the knowledge embedded within trained artificial neural networks, IEEE Transactions on Neural Networks, vol. 9(6), s.1057-1068.
  • Ting K.M., 2002, An instance-weighting method to induce cost-sensitive trees, IEEE Transactions on Knowledge and Data Engineering, vol. 14(3), s. 659-665.
  • Wang B., Japkowicz N., 2010, Boosting support vector machines for imbalanced datasets, Knowledge and Information Systems, vol. 25, s. 1-20.
  • Warwick R., Mediratta N., Shackcloth M., Shaw M., McShane J., Poullis M., 2014, Preoperative red cell distribution width in patients undergoing pulmonary resections for non-small-cell lung can-cer, European Journal of Cardio-Thoracic Surgery, vol. 45, s. 108-113.
  • Witten I.H., Frank E., Hall M.A., 2011, Data Mining: Practical Machine Learning Tools and Tech-niques, Elsevier, Amsterdam.
  • Zhu Z.-H., Sun B.-Y., Ma Y., Shao J.-Y., Long H., Zhang X., Fu J.-H., Zhang L.-J., Su X.-D., Wu Q.-L., Ling P., Chen M., Xie Z.-M., Hu Y., Rong T.-H., 2009, Three Immunomarker Support Vector Machines-Based Prognostic Classifiers for Stage IB Non-Small-Cell Lung Cancer, Journal of Clinical Oncology, vol. 27(7), s. 1091-1099.
  • Zięba M., 2013, Opracowanie zespołów klasyfikatorów SVM dla danych niezbalansowanych na potrzeby wspomagania decyzji w systemach informatycznych, rozprawa doktorska, Politechnika Wrocławska.
  • Zięba M., Tomczak J.M., Lubicz M., Świątek J., 2014, Boosted SVM for extracting rules from imbal-anced data in application to prediction of the post-operative life expectancy in the lung cancer patients, Applied Soft Computing Journal, vol. 14(A), s. 99-108.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171283263

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.