Clustering Methods Applied to Reduce the Training Sample Size in Support Vector Machines

Trzęsiok, Michał

Artykuł - szczegóły

Czasopismo

Acta Universitatis Lodziensis. Folia Oeconomica

2009 | 225 Methodological Aspects and Applications of Multivariate Statistical Analysis | 227--233

Tytuł artykułu

Clustering Methods Applied to Reduce the Training Sample Size in Support Vector Machines

Autorzy

Michał Trzęsiok

Warianty tytułu

Wykorzystanie metod taksonomicznych do redukcji liczebności zbioru uczącego w metodzie wektorów nośnych

Języki publikacji

Abstrakty

Support vector machines belong to the group of methods of supervised learning. They generate non-linear models with good generalization abilities. The core of SVMs algorithm is the quadratic program which is solved for obtaining the optimal separating hyperplane. Because finding the solution of this quadratic program is computationally expensive, SVMs are not feasible for very large data sets. As a solution Wang, Wu and Zhang (2005) suggested to combine the AT-means clustering technique with SVMs to reduce the number of support vectors. The paper presents a common approach using K-medoids and compares it with the original SVMs. (original abstract)

Metoda wektorów nośnych jest metodą dyskryminacji generującą nieliniowe modele o dużym stopniu uogólnienia (małych błędach klasyfikacji na zbiorach testowych). Jednak ze względu na dużą złożoność obliczeniową, związaną z koniecznością rozwiązania zadania optymalizacji wypukłej, które jest podstawowym elementem algorytmu metody, stosowanie metody, szczególnie w przypadku zbiorów uczących o dużej liczebności, nie zawsze jest możliwe. Złożoność obliczeniowa algorytmu metody wektorów nośnych zależy przede wszystkim od liczby obserwacji w zbiorze uczącym. Jako rozwiązanie tego problemu Wang, Wu i Zhang zaproponowali pogrupowanie danych ze zbioru uczącego za pomocą taksonomicznej metody AT-średnich i zastosowanie metody wektorów nośnych na dużo mniej licznym zbiorze środków ciężkości tak otrzymanych klas. W artykule przedstawiona została ocena analogicznego podejścia, wykorzystującego do grupowania metodę K-medoidów oraz porównanie z oryginalną metodą wektorów nośnych. (abstrakt oryginalny)

Słowa kluczowe

Taxonomic methods K-means methods Support Vector Machines (SVM)

Metody taksonomiczne Metoda k-średnich Metoda wektorów nośnych (SVM)

Czasopismo

Acta Universitatis Lodziensis. Folia Oeconomica

Rocznik

2009

Tom

225 Methodological Aspects and Applications of Multivariate Statistical Analysis

Strony

227--233

Opis fizyczny

Twórcy

autor

Michał Trzęsiok

The Karol Adamiecki University of Economics in Katowice, Poland

Bibliografia

Burbidge R., Buxton B. (2001), An introduction to support vector machines for data mining, Keynote Papers, Young {OR} 12, eds Sheppee M. Operational Research Society, 3-15.
Cristianini N., Shawe-Taylor J. (2000), An introduction to support vector machines (and other kernel-based learning methods), Cambridge University Press, Cambridge.
Friedman J. (2003), Recent advances in predictive (machine) learning, Stanford University, Department of Statistics, Stanford, Technical Report.
Gatnar E., Walesiak M. [eds] (2004), The methods of multivariate statistical analysis in marketing research, University of Economics Press, Wroclaw (in polish).
Leisch F., Dimitriadou E. (2004), The mlbench Package - a collection for artificial and real-world machine learning benchmarking problems, R package, Version 1.1-0. Available at: http://cran.R-project.org.
Valentini G., Dictterich T. G. (2003), Low bias bagged support vector machine, „International Conference on Machine Learning ICML-2003", Washington, DC.
Vapnik V. (1998), Statistical learning theory, John Wiley & Sons, New York.
Wang J., Wu X., Zhang C. (2005), Support vector machines based on K-means clustering for real-time business intelligence systems, „Int. J. Business Intelligence and Data Mining", 1, 1, 54-64.

Typ dokumentu

Bibliografia

Identyfikatory

Identyfikator YADDA

bwmeta1.element.ekon-element-000165210267

Komentarze

Musisz być zalogowany aby pisać komentarze.

Acta Universitatis Lodziensis. Folia Oeconomica

Clustering Methods Applied to Reduce the Training Sample Size in Support Vector Machines

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane