Selekcja zmiennych w klasyfikacji - propozycja algorytmu

Korzeniewski, Jerzy

Artykuł - szczegóły

Czasopismo

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

2014 | 23 | nr 328 Klasyfikacja i analiza danych - teoria i zastosowania | 69--75

Tytuł artykułu

Selekcja zmiennych w klasyfikacji - propozycja algorytmu

Autorzy

Jerzy Korzeniewski

Treść / Zawartość

Pełne teksty:

http://www.dbc.wroc.pl/publication/27854 [zdalny]

Warianty tytułu

Variable Selection in Classification - Algorithm Proposal

Języki publikacji

Abstrakty

Selekcja zmiennych w klasyfikacji obiektów ze zbiorem uczącym jest ważna zarówno w przypadku metod pojedynczych, jak i zagregowanych. Najprostszym sposobem selekcji jest sprawdzenie korelacji każdej zmiennej z prawidłową klasyfikacją obiektów na zbiorze uczącym. Ten naturalny sposób ma jednak poważne ograniczenia wynikające z tego, że im słabsza skala pomiaru wartości zmiennej, tym trudniej mierzyć siłę korelacji. W arty-kule zaproponowana jest metoda pomiaru siły korelacji za pomocą współczynnika korelacji liniowej pomiędzy odległościami pomiędzy parami obiektów na badanej zmiennej i na zmiennej reprezentującej etykiety klas. Zmienne, które mają siłę korelacji poniżej ustalone-go progu, są eliminowane. Efektywność takiej metody selekcji jest zbadana na zbiorach danych empirycznych z repozytorium UCI Uniwersytetu Kalifornijskiego (UCI Machine Learning Repository). Wyniki są porównane z wynikami procedur stepclass oraz Boruta dostępnymi w języku R.(abstrakt oryginalny)

Selection of variables in classification is important both in the case of single and aggregated methods. The simplest way of selecting variables is to check their correlation with the proper classification of objects on the training set. This natural way, however, has serious limitations stemming from the fact that for weak measurement scales finding corre-lation is troublesome. The paper proposes a method of measuring the strength of correlation by means of the linear correlation coefficient based on the distances between pairs of obser-vations for arbitrary single attribute and the class labels attribute. The attributes with correla-tion below a certain threshold are rejected. The efficiency of the method is investigated on UCI data sets. The results are compared with stepclass and Boruta procedures available in R language.(original abstract)

Słowa kluczowe

Uczenie maszynowe Klasyfikacja

Machine learning Classification

Czasopismo

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

Rocznik

2014

Tom

Numer

nr 328 Klasyfikacja i analiza danych - teoria i zastosowania

Strony

69--75

Opis fizyczny

Twórcy

autor

Jerzy Korzeniewski

Uniwersytet Łódzki

Bibliografia

Dash M., Liu H. (b.d.w.), Feature Selection for Classification, unpublished manuscript.
Gatnar E., Walesiak M. (2004), Metody statystycznej analizy wielowymiarowej w badaniach marketingowych, Wydawnictwo AE we Wrocławiu, Wrocław.
Korzeniewski J. (2012), Metody selekcji zmiennych w analizie skupień. Nowe procedury. Wydawnictwo Uniwersytetu Łódzkiego.
Mahdi E., Fazekas G. (2011), Feature Selection as an Improving Step for Decision Tree Construction, 2009 International Conference on Machine Learning and Computing, IPCSIT, Singapore.

Typ dokumentu

Bibliografia

Identyfikatory

Identyfikator YADDA

bwmeta1.element.ekon-element-000171283207

Komentarze

Musisz być zalogowany aby pisać komentarze.

Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu. Taksonomia

Selekcja zmiennych w klasyfikacji - propozycja algorytmu

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane