Zastosowanie metod pełnotekstowej analizy skupień do kategoryzacji dokumentów w języku polskim

Abramowicz, Witold; Ceglarek, Dariusz

Artykuł - szczegóły

Czasopismo

Prace Naukowe / Akademia Ekonomiczna w Katowicach

2002 | Systemy wspomagania organizacji SWO '2002 | 331--342

Tytuł artykułu

Zastosowanie metod pełnotekstowej analizy skupień do kategoryzacji dokumentów w języku polskim

Autorzy

Witold Abramowicz , Dariusz Ceglarek

Warianty tytułu

Języki publikacji

Abstrakty

Występująca obecnie na świecie olbrzymia ilość informacji powoduje konieczność budowy i rozwijania coraz doskonalszych narzędzi wspomagających wyszukiwanie informacji relewantnej dla użytkownika. Wyszukiwanie dokumentów, ich filtrowanie i kategoryzację można potraktować jako zagadnienia klasyfikacji dokumentów. W artykule zajmujemy się klasyfikacją dokumentów przy pomocy metod analizy skupień (ang. clustering analysis). Problem klasyfikacji dokumentów jest niezwykle skomplikowany ze względu na złożoność języka naturalnego i ogromny wymiar przestrzeni klasyfikacyjnej cech związany z liczbą słów występujących w języku naturalnym. W pracy jako algorytmu klasyfikującego użyto algorytmu Warda, ponieważ algorytm ten minimalizuje wariancję wewnątrzskupieniową, dzięki czemu uzyskam klasy są wzajemnie względnie odległe od siebie. Autorzy przeprowadzili szereg eksperymentów dotyczących kategoryzacji dokumentów w języku polskim. Dla dokumentów w języku polskim konieczne okazało się użycie słownika, który sprowadza formy fleksyjne do formy podstawowej (np. dla rzeczowników jest to mianownik w liczbie pojedynczej). Uzyskana w wyniku eksperymentów jakość klasyfikacji na poziomie 80-86 % dla języka polskiego, jest porównywalna z wynikami uzyskanymi w innych badaniach [6, 10] dla języka angielskiego. Nowością w pracy jest wbudowanie w algorytm klasyfikacyjny struktury słownikowej - tezaurusa - tworzącego hierarchiczną strukturę pojęć w ramach rozpoznawanych tematów dokumentów. Mechanizm ten pozwolił autorom na uzyskanie wyższej (90-93 %) jakości klasyfikacji dokumentów.(abstrakt oryginalny)

Słowa kluczowe

Mierniki jakości klasyfikacji Metoda Warda Dokumentacja Tezaurus

Measures of clustering quality Ward method Documentation Thesaurus

Czasopismo

Prace Naukowe / Akademia Ekonomiczna w Katowicach

Rocznik

2002

Tom

Systemy wspomagania organizacji SWO '2002

Strony

331--342

Opis fizyczny

Twórcy

autor

Witold Abramowicz

Uniwersytet Ekonomiczny w Poznaniu

autor

Dariusz Ceglarek

Bibliografia

Backer E. (1988) Computer-Assisted Reasoning in Cluster Analysis, Prentice Hall
Gordon A.D. (1999) Classification, Chapman & Hall/CRC, Washington DC
Fowlkes E.B., Granadesikan R., Kettenring J.R. (1988) Variable selection in clustering. Journal of Classification, Vol. 3, s. 205- 228
Hearst M.A., Pedersen J.O. (1996) Reexamining the cluster hypothesis: Scatter/Gather on retrieval results. Proceedings of 19th Annual International Conference on Research and Development in Information Retrieval, s. 76-83
Hull D., Pedersen J, Schutze H. (1996) Document routing as statistical classification. In AAAI Spring Symp. On Machine Learning in Information Access Technical Papers, Palo Alto, March 1996
Lewis D.D., Ringutte M. (1996) "A comparison of two learning algorithms for text categorization", Third Annual Symp. On Document Analysis and Information Retrieval, Las Vegas, s. 81- 93
Li Y.H., Jain A.K. (1998) "Classification of text documents", The Computer Journal, vol. 41. No. 8
Pazzani M., Muramatsu J., Billsus D. (1996) "Identifying interesting web sites", AAAI Spring Symp. On Machine Learning in Information Access Technical Papers, Palo Alto, s. 229-237
Gentle Introduction to RainBow. URL: http://www.cs.cmu.edu/afs/cs/project/theo-11/www/nai've- -bayes/gentle_in troduction.html
Schutze H., Hull D. and Pedersen J. (1995) A comparison of classifiers and document representation for the routing problem. Proceedings of 18th Annual International Conference on Research and Development in Information Retrieval, s. 229-237
Sokal R.R., Sneath P.H, (1973) Numerical Taxonomy, Freeman, San Francisco
Weiss S., Kasif S. and Brill E. (1996) Text classification in USENET newsgroups: a progress report. In AAAI Spring Symp. On Machine Learning in Information Access Technical Paoers
Yang Y (1994) Expert network: Effective and efficient learning from human decisions in text categorization and retrieval. Proceedings of 17th Annual International Conference on Research and Development in Information Retrieval, s. 13-22
Zamir O., Etzioni O. (1998) Web document clustering: A feasibility demonstration. Proceedings of the 21s1 Annual International Conference on Research and Development in Information Retrieval, s. 46-54

Typ dokumentu

Bibliografia

Identyfikatory

Identyfikator YADDA

bwmeta1.element.ekon-element-000171301117

Komentarze

Musisz być zalogowany aby pisać komentarze.

Prace Naukowe / Akademia Ekonomiczna w Katowicach

Zastosowanie metod pełnotekstowej analizy skupień do kategoryzacji dokumentów w języku polskim

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane