PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2011 | nr 206 Advanced Information Technologies for Management - AITM 2011: Inteligent Technologies and Applications | 213--223
Tytuł artykułu

Feature Selection Methods in Data Mining Techniques

Warianty tytułu
Metody selekcji cech w technikach data mining
Języki publikacji
EN
Abstrakty
EN
Data mining techniques are largely based on machine learning algorithms. They are to serve to extract data models which, due to their large information content, are not recognized by people. Data redundancy poses a problem both for data mining algorithms as well as people, which is why various methods are used in order to reduce the amount of analyzed data, including data mining methods such as feature selection. The article outlines basic issues linked with feature selection and contains an analysis of five feature selection algorithms belonging to the filter category. Results obtained by each method were validated with the help of CART decision tree algorithms. The CART analysis revealed that the results of each of the five algorithms are acceptable. (original abstract)
Techniki data mining w większości oparte są na algorytmach uczenia maszynowego. Służą one wykrywaniu w danych wzorców, które z powodu bardzo dużej ilości informacji są niewidoczne dla człowieka. Jednak dla algorytmów data mining, podobnie jak dla człowieka, problemem jest nadmiarowość danych. W związku z tym stosowane są metody mające na celu redukcję ilości danych analizowanych przez metody data mining, takie jak np. selekcja cech. W artykule omówiono podstawowe zagadnienia związane z zagadnieniem selekcji cech. Przybliżono i zbadano działanie pięciu algorytmów selekcji cech, należących do kategorii filtrów. Walidacja wyników selekcji wykonanej za pomocą każdej z metod została wykonana z użyciem algorytmu drzew decyzyjnych CART. Uzyskane rezultaty wskazują na akceptowalność wyników otrzymanych z użyciem każdej z badanych metod. (abstrakt oryginalny)
Twórcy
  • Zachodniopomorski Uniwersytet Technologiczny w Szczecinie
  • Zachodniopomorski Uniwersytet Technologiczny w Szczecinie
Bibliografia
  • Ahmad A., Dey L. (2005), A feature selection technique for classificatory analysis, Pattern Recognition Letters, Vol. 26, pp. 43-56.
  • Chizi B., Maimon O. (2010), Dimension reduction and feature selection, [in:] O. Maimon, L. Rokach (Eds.), Data Mining and Knowledge Discovery Handbook, Springer, New York, pp. 83-100.
  • Cortez P., Cerdeira A., Almeida F., Matos T., Reis J. (2009), Modeling wine preferences by data mining from physicochemical properties, Decision Support Systems, Vol. 47, No. 4, pp. 547-553.
  • Guyon I. (2008), Practical feature selection: From correlation to causality, [in:] F. Fogelman-Soulié, D. Perrotta, J. Piskorski, R. Steinberger (Eds.), Mining Massive Data Sets for Security: Advances in Data Mining, Search, Social Networks and Text Mining, and Their Applications to Security, IOS Press, Amsterdam, pp. 27-43.
  • Hall M.A. (2000), Correlation-based feature selection for discrete and numeric class machine learning, [in:] ICML'00 Proceedings of the 17th International Conference on Machine Learning, pp. 359-366.
  • Hall M.A., Holmes G. (2003), Benchmarking attribute selection techniques for discrete class data mining, IEEE Transactions on Knowledge and Data Engineering, Vol. 15, No. 3, pp. 1437-1447.
  • Hall M.A., Smith L.A. (1998), Practical feature subset selection for machine learning, [in:] Proceedings of Australasian Computer Science Conference, pp. 181-191.
  • Hall M.A., Smith L.A. (1999), Feature selection for machine learning: Comparing a correlation-based filter approach to the wrapper, [in:] Proceedings of the 12th International Florida Artificial Intelligence Research Society Conference, pp. 235-239.
  • Hand D., Mannila H., Smyth D. (2005), Eksploracja danych, WNT, Warszawa, pp. 414-416.
  • Hsu H., Hsieh C., Lu M. (2011), Hybrid feature selection by combining filters and wrappers, Expert Systems with Applications, Vol. 38, pp. 8144-8150.
  • Kannan S.S., Ramaraj N. (2010), A novel hybrid feature selection via Symmetrical Uncertainty ranking based local memetic search algorithm, Knowledge-Based Systems, Vol. 23, pp. 580-585.
  • Kira K., Rendell L.A. (1992), A practical approach to feature selection, [in:] ML92 Proceedings of the 9th International Workshop on Machine Learning, pp. 249-256.
  • Kononenko I. (1994), Estimating attributes: Analysis and extensions of RELIEF, Lecture Notes in Computer Science, Vol. 784, pp. 171-182.
  • Kononenko I., Hong S.J. (1997), Attribute selection for modelling, Future Generation Computer Systems, Vol. 13, No. 2-3, 1997, pp. 181-195.
  • Liu H., Setiono R. (1996), A probabilistic approach to feature selection - A filter solution, The 13th International Conference on Machine Learning ICML'96, pp. 319-327.
  • Liu H., Yu L., Motoda H. (2003), Feature extraction, selection, and construction, [in:] N. Ye (Ed.), The Handbook of Data Mining, Lawrence Erlbaum Associates, Mahwah, pp. 409-424.
  • Michalak K., Kwaśnicka H. (2006), Correlation-based feature selection strategy in classification problems, International Journal of Applied Mathematics and Computer Science, Vol. 16, No. 4, pp. 503-511.
  • Rokach L., Maimon O. (2010a), Classification trees, [in;] O. Maimon, L. Rokach (Eds.), Data Mining and Knowledge Discovery Handbook, Springer, New York, pp. 149-174.
  • Rokach, L., Maimon, O. (2010b), Supervised learning, [in:] O. Maimon, L. Rokach (Eds.), Data Mining and Knowledge Discovery Handbook, Springer, New York, pp. 133-148.
  • UCI Machine Learning Repository, http://archive.ics.uci.edu/ml/index.html
  • Webb G.I. (2003), Association rules, [in:] N. Ye (Ed.), The Handbook of Data Mining, Lawrence Erlbaum Associates, Mahwah, pp. 25-40.
  • Witten I.H., Frank E. (2005), Data Mining. Practical Machine Learning Tools and Techniques, Elsevier, San Francisco, pp. 288-295.
  • Yu L., Liu H. (2003), Feature selection for high-dimensional data: A fast correlation-based filter solution, [in:] Proceedings of the 20th International Conference on Machine Learning (ICML-03), pp. 856-863.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171202663

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.