PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2014 | 23 | nr 328 Klasyfikacja i analiza danych - teoria i zastosowania | 69--75
Tytuł artykułu

Selekcja zmiennych w klasyfikacji - propozycja algorytmu

Treść / Zawartość
Warianty tytułu
Variable Selection in Classification - Algorithm Proposal
Języki publikacji
PL
Abstrakty
Selekcja zmiennych w klasyfikacji obiektów ze zbiorem uczącym jest ważna zarówno w przypadku metod pojedynczych, jak i zagregowanych. Najprostszym sposobem selekcji jest sprawdzenie korelacji każdej zmiennej z prawidłową klasyfikacją obiektów na zbiorze uczącym. Ten naturalny sposób ma jednak poważne ograniczenia wynikające z tego, że im słabsza skala pomiaru wartości zmiennej, tym trudniej mierzyć siłę korelacji. W arty-kule zaproponowana jest metoda pomiaru siły korelacji za pomocą współczynnika korelacji liniowej pomiędzy odległościami pomiędzy parami obiektów na badanej zmiennej i na zmiennej reprezentującej etykiety klas. Zmienne, które mają siłę korelacji poniżej ustalone-go progu, są eliminowane. Efektywność takiej metody selekcji jest zbadana na zbiorach danych empirycznych z repozytorium UCI Uniwersytetu Kalifornijskiego (UCI Machine Learning Repository). Wyniki są porównane z wynikami procedur stepclass oraz Boruta dostępnymi w języku R.(abstrakt oryginalny)
EN
Selection of variables in classification is important both in the case of single and aggregated methods. The simplest way of selecting variables is to check their correlation with the proper classification of objects on the training set. This natural way, however, has serious limitations stemming from the fact that for weak measurement scales finding corre-lation is troublesome. The paper proposes a method of measuring the strength of correlation by means of the linear correlation coefficient based on the distances between pairs of obser-vations for arbitrary single attribute and the class labels attribute. The attributes with correla-tion below a certain threshold are rejected. The efficiency of the method is investigated on UCI data sets. The results are compared with stepclass and Boruta procedures available in R language.(original abstract)
Twórcy
  • Uniwersytet Łódzki
Bibliografia
  • Dash M., Liu H. (b.d.w.), Feature Selection for Classification, unpublished manuscript.
  • Gatnar E., Walesiak M. (2004), Metody statystycznej analizy wielowymiarowej w badaniach marketingowych, Wydawnictwo AE we Wrocławiu, Wrocław.
  • Korzeniewski J. (2012), Metody selekcji zmiennych w analizie skupień. Nowe procedury. Wydawnictwo Uniwersytetu Łódzkiego.
  • Mahdi E., Fazekas G. (2011), Feature Selection as an Improving Step for Decision Tree Construction, 2009 International Conference on Machine Learning and Computing, IPCSIT, Singapore.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171283207

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.