PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2013 | 20 | nr 278 Klasyfikacja i analiza danych - teoria i zastosowania | 262--270
Tytuł artykułu

Modele eksploracji danych niezbilansowanych - procedury klasyfikacji dla zadania analizy ryzyka operacyjnego

Warianty tytułu
Modelling Class Imbalance Problems: Comparing Classification Approaches for Surgical Risk Analysis
Języki publikacji
PL
Abstrakty
W zadaniach klasyfikacji z wykorzystaniem danych rzeczywistych, na przykład w analizie danych medycznych, pojawiają się problemy konstrukcji klasyfikatorów, wynikające ze specyfiki analizowanych danych, związane m.in. z niezbilansowaniem zbiorów danych przy znacznej przewadze liczebności jednej bądź kilku klas. Celem pracy jest analiza porównawcza wybranych podejść do klasyfikacji danych niezbilansowanych. W badaniach zastosowano implementacje technik klasyfikacji w środowiskach uczenia maszynowego KEEL i WEKA. Jako dane do klasyfikacji wykorzystano zaktualizowaną bazę danych o pacjentach leczonych operacyjnie z powodu raka płuca we Wrocławskim Ośrodku Torakochirurgii w latach 2000-2011.(abstrakt oryginalny)
EN
In classification tasks based on real-world data, for instance when analyzing medical data, it is quite often necessary to deal with problems related to the nature of data, in particular with class imbalance, when the number of examples that represent one class is much lower than the ones of the other classes. The aim of this paper is to perform comparative analysis of selected classification approaches, designed for imbalanced data sets. The research was performed using Imbalanced Learning Module of the KEEL Data Mining software package and WEKA Machine Learning environment. The source data was extracted from updated hospital data base of surgical lung cancer patients treated at Wrocław Thoracic Surgery Centre in the period 2000-2011.(original abstract)
Twórcy
autor
  • Politechnika Wrocławska
  • Politechnika Wrocławska
  • Akademia Medyczna we Wrocławiu
  • Akademia Medyczna we Wrocławiu
  • Akademia Medyczna we Wrocławiu
Bibliografia
  • Alcalá-Fdez J., Fernandez A., Luengo J., Derrac J., García S., Sánchez L., Herrera F., KEEL data-mining software tool: data set repository, integration of algorithms and experimental analysis framework, "Journal of Multiple-Valued Logic and Soft Computing" 2011, vol. 17(2-3), s. 255-287.
  • Chawla N.V., Bowyer K.W., Hall L.O., Kegelmeyer W.P., SMOTE: Synthetic Minority Oversampling TEchnique, "Journal of Artificial Intelligence Research" 2002, vol. 16, s. 321-357.
  • Ferguson M.K., Siddique J., Karrison T., Modeling major lung resection outcomes using classification trees and multiple imputation techniques, "European Journal of Cardio-Thoracic Surgery" 2008, vol. 34, s. 1085-1089.
  • Galar M., Fernández A., Barrenechea E., Bustince H., Herrera F., A Review on Ensembles for the Class Imbalance Problem: Bagging-, Boosting-, and Hybrid-Based Approaches, IEEE Transactions On Systems, Man and Cybernetics-Part C: Applications and Reviews 2012, vol. 42(4), s. 463-484.
  • Gatnar W., Podejście wielomodelowe w zagadnieniach dyskryminacji i regresji, WN PWN, Warszawa 2008.
  • He H., Garcia E.A., Learning from Imbalanced Data, IEEE Transactions on Knowledge and Data Engineering 2009, vol. 21(9), s. 1263-1284.
  • Lubicz M., Zięba M., Rzechonek A., Pawełczyk K., Kołodziej J., Błaszczyk J., Analiza porównawcza wybranych technik eksploracji danych do klasyfikacji danych medycznych z brakującymi obserwacjami, [w:] K. Jajuga, M. Walesiak (red.), Taksonomia 19, Klasyfikacja i analiza danych - teoria i zastosowania, Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu, 2012, s. 416-425.
  • Rivo E., De La Fuente J., Rivo A., García-Fontán E., Cañizares M.-A., Gil, P., Cross-Industry Standard Process for data mining is applicable to the lung cancer surgery domain, improving decision making as well as knowledge and quality management, "Clinical and Translational Oncology" 2012, vol. 14(1), s. 73-79.
  • Sun Y., Kamel M., Wong A., Wang Y., Cost-sensitive boosting for classification of imbalanced data, "Pattern Recognition" 2007, vol. 40, s. 3358-3378.
  • Tang Y., Zhang Y-Q., Chawla N.V., Krasser S., SVMs Modeling for Highly Imbalanced Classification, IEEE Transactions On Systems, Man and Cybernetics-Part B: Cybernetics 2009, vol. 39(1), s. 281-288.
  • Zięba M., Ensemble decision trees for customer classification in service oriented systems, Wydział Informatyki i Zarządzania Politechniki Wrocławskiej (niepublikowana praca magisterska), 2011.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171250767

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.