PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2016 | nr 426 Taksonomia 26. Klasyfikacja i analiza danych - teoria i zastosowania | 89--98
Tytuł artykułu

Problemy doboru zmiennych objaśniających w klasyfikacji danych medycznych

Autorzy
Treść / Zawartość
Warianty tytułu
Feature Selection and its Impact on Classifier Effectiveness - Case Study for Medical Data
Języki publikacji
PL
Abstrakty
Artykuł dotyczy zagadnienia doboru zmiennych objaśniających w modelach klasyfikacji obiektów z uczeniem dla danych niezrównoważonych. Zbadano wpływ metod doboru zmiennych w połączeniu z metodami wstępnego przetwarzania danych na jakość klasyfikacji dla wybranych grup klasyfikatorów. W komputerowej analizie porównawczej wykorzystano dane z Wrocławskiego Ośrodka Torakochirurgii. Obliczenia przeprowadzono w pakiecie uczenia maszynowego WEKA(abstrakt oryginalny)
EN
The article concerns the problems of feature selection in supervised classification models for incomplete and imbalanced data. We compared the results of the application of feature selection methods implemented in the WEKA and STATISTICA machine learning environments. The impact of particular feature selection methods applied in conjunction with the pre-processing methods of missing and imbalanced date on the effectiveness and efficiency of selected single and ensemble classifiers was analyzed. The comparative analysis used updated data from the Wrocław Centre for Thoracic Surgery, on patients operated between 2006 and 2013 due to lung cancer. Sets of rules relating to hospital clinical and managerial decisions have been extracted for selected feature selection and classification methods, and for data relating to preoperative risk assessment(original abstract)
Twórcy
autor
  • Politechnika Wrocławska
Bibliografia
  • Bertolazzi P., Felici G., Festa P., Fiscon G., Weitschek E., 2016, Integer programming models for feature selection: New extensions and a randomized solution algorithm, European Journal of Operations Research, vol. 250, no. 2, s. 389-399.
  • Bolón-Canedo V., Sánchez-Maroño N., Alonso-Betanzos A., 2013, A review of feature selection methods on synthetic data, Knowledge and Information Systems, vol. 34, no. 3, s. 483-519.
  • Bolón-Canedo V., Sánchez-Maroño N., Alonso-Betanzos A., 2015, Recent advances and emerging challenges of feature selection in the context of big data, Knowledge-Based Systems, vol. 86, s. 33-45.
  • Chawla N.V., Bowyer K.W., Hall L.O., 2002, SMOTE: Synthetic Minority Over-sampling TEchnique, Journal of Artificial Intelligence Research, vol. 16, s. 321-357.
  • Dash M., Liu H., 2003, Consistency-based search in feature selection, Artificial Intelligence, vol. 151, no. 1-2, s. 155-176.
  • Dessi N., Pes B., 2015, Similarity of feature selection methods: An empirical study across data inten-sive classification tasks, Expert Systems with Applications, vol. 42, no. 10, s. 4632-4642.
  • Duch W., 2006, Filter Methods, [w:] I. Guyon, S. Gunn, M. Nikravesh, L.A. Zadeh (red.), Feature Extraction: Foundations and Applications, Springer, Berlin.
  • Frénay B., Verleysen M., 2014, Classification in the presence of label noise: A survey, IEEE Transac-tions on Neural Networks and Learning Systems, vol. 25, no. 5, s. 845-869.
  • Galar M., Fernández A., Barrenechea E., Bustince H., Herrera F., 2012, A review on ensembles for the class imbalance problem: Bagging, boosting, and hybrid-based approaches, IEEE Trans-actions on Systems, Man and Cybernetics, Part C: Applications and Reviews, vol. 42, no. 4, s. 463-484.
  • García-Laencina P.J., Sancho-Gómez J.L., Figueiras-Vidal A.R., 2009, Pattern classification with missing data: A review, Neural Computing and Applications, vol. 19, no. 2, s. 263-282.
  • García-Nieto J.M., Alba E., Jourdan L., Talbi E.-G., 2009, Sensitivity and specificity based multi-objective approach for feature selection: Application to cancer diagnosis, Information Pro-cessing Letters, vol. 109, no. 16, s. 887-896.
  • Gatnar E., 2008, Podejście wielomodelowe w zagadnieniach dyskryminacji i regresji, Wydawnictwo Naukowe PWN, Warszawa.
  • Goldberg D.E., 1989, Genetic Algorithms in Search, Optimization and Machine Learning, Addison-Wesley, Boston.
  • Guyon I., Elisseeff A., 2006, An introduction to feature extraction, [w:] I. Guyon, S. Gunn, M. Nikravesh, L.A. Zadeh (red), Feature Extraction: Foundations and Applications, Springer, Berlin.
  • Hall M.A., 1999, Correlation-based Feature Subset Selection for Machine Learning, PhD Thesis, The University of Waikato.
  • Hall M.A., Holmes G., 2003, Benchmarking attribute selection techniques for discrete class data mining, IEEE Transactions on Knowledge and Data Engineering, vol. 15, no. 3, s. 1437-1447.
  • Hand D., Mannila H., Smyth P., 2005, Eksploracja danych, WNT, Warszawa.
  • Hartono P., Hashimoto S., 2007, Learning from imperfect data, Applied Soft Computing, vol. 7, no. 1, s. 353-363.
  • He H., Garcia A., 2009, Learning from Imbalanced Data, IEEE Transactions on Knowledge and Data Engineering, vol. 21, no. 9, s. 1263-1284.
  • Hira Z.M., Gillies D.F., 2015, A review of feature selection and feature extraction methods applied on microarray data, Advances in Bioinformatics, vol. 2015, article ID 198363.
  • Kelleher J.D., Mac Namee B., D'Arcy A., 2015, Fundamentals of Machine Learning for Predictive Data Analytics, MIT Press.
  • Kohavi R, John G.H., 1997, Wrappers for feature subset selection, Artificial Intelligence, vol. 97, no. 1/2, s. 273-324.
  • Kononenko I., 1994, Estimating attributes: Analysis and extensions of Relief, [w:] European Confer-ence on Machine Learning: ECML-94, Springer, s. 171-182.
  • Koronacki J., Ćwik J., 2005, Statystyczne systemy uczące się, WNT, Warszawa.
  • Larose D.T., 2008, Metody i modele eksploracji danych, Wydawnictwo Naukowe PWN, Warszawa.
  • Liu H., Setiono R., 1996, A probabilistic approach to feature selection - a filter solution, [w:] 13th International Conference on Machine Learning, s. 319-327.
  • López F.G., Torres M.G., Batista B.M., Moreno Pérez J.A., Moreno-Vega J.M., 2006, Solving feature subset selection problem by a parallel scatter search, European Journal of Operational Research, vol. 169, no. 2, s. 477-489.
  • López V., Fernández A., García S., Palade V., Herrera F., 2013, An insight into classification with imbalanced data: Empirical results and current trends on using data intrinsic characteristics, In-formation Sciences, vol. 250, s. 113-141.
  • Lubicz M., Zięba M., Pawełczyk K., Rzechonek A., Marciniak M., Kołodziej J., 2014, Indukcja reguł dla danych niekompletnych i niezbalansowanych: modele klasyfikatorów i próba ich zastosowa-nia do predykcji ryzyka operacyjnego w torakochirurgii, Prace Naukowe Uniwersytetu Ekono-micznego we Wrocławiu, nr 328, s. 146-155.
  • Mangat V., Vig R., 2014, Novel associative classifier based on dynamic adaptive PSO: Application to determining candidates for thoracic surgery, Expert Systems with Applications, vol. 41, no. 18, s. 8234-8244.
  • Quinlan J.R., 1986, Induction of decision trees, Machine Learning, vol. 1, no. 1, s. 81-106.
  • Sáez J.A., Galar M., Luengo J., Herrera F., 2013, Tackling the problem of classification with noisy data using Multiple Classifier Systems: Analysis of the performance and robustness, Information Sciences, vol. 247, s. 1-20.
  • Sáez J.A., Luengo J., Herrera F., 2016, Evaluating the classifier behavior with noisy data considering performance and robustness: The equalized loss of accuracy measure, Neurocomputing, vol. 176, s. 26-35.
  • Sobczak W., Malina W., 1978, Metody selekcji informacji, WNT, Warszawa.
  • Sokolova M., Lapalme G., 2009, A systematic analysis of performance measures for classification tasks, Information Processing and Management, vol. 45, no. 4, s. 427-437.
  • Vergara J.R., Estevez P.A., 2014, A review of feature selection methods based on mutual information, Neural Computing and Applications, vol. 24, no. 1, s. 175-186.
  • Witten I.H., Frank E., Hall M.A., 2011, Data Mining: Practical Machine Learning Tools and Tech-niques, Elsevier, Amsterdam.
  • Zhu X.,Wu X., 2004, Class noise vs. attribute noise: A quantitative study, Artificial Intelligence Review, vol. 22, no. 3, s. 177-210.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171435190

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.