PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2002 | Systemy wspomagania organizacji SWO '2002 | 331--342
Tytuł artykułu

Zastosowanie metod pełnotekstowej analizy skupień do kategoryzacji dokumentów w języku polskim

Warianty tytułu
Języki publikacji
PL
Abstrakty
Występująca obecnie na świecie olbrzymia ilość informacji powoduje konieczność budowy i rozwijania coraz doskonalszych narzędzi wspomagających wyszukiwanie informacji relewantnej dla użytkownika. Wyszukiwanie dokumentów, ich filtrowanie i kategoryzację można potraktować jako zagadnienia klasyfikacji dokumentów. W artykule zajmujemy się klasyfikacją dokumentów przy pomocy metod analizy skupień (ang. clustering analysis). Problem klasyfikacji dokumentów jest niezwykle skomplikowany ze względu na złożoność języka naturalnego i ogromny wymiar przestrzeni klasyfikacyjnej cech związany z liczbą słów występujących w języku naturalnym. W pracy jako algorytmu klasyfikującego użyto algorytmu Warda, ponieważ algorytm ten minimalizuje wariancję wewnątrzskupieniową, dzięki czemu uzyskam klasy są wzajemnie względnie odległe od siebie. Autorzy przeprowadzili szereg eksperymentów dotyczących kategoryzacji dokumentów w języku polskim. Dla dokumentów w języku polskim konieczne okazało się użycie słownika, który sprowadza formy fleksyjne do formy podstawowej (np. dla rzeczowników jest to mianownik w liczbie pojedynczej). Uzyskana w wyniku eksperymentów jakość klasyfikacji na poziomie 80-86 % dla języka polskiego, jest porównywalna z wynikami uzyskanymi w innych badaniach [6, 10] dla języka angielskiego. Nowością w pracy jest wbudowanie w algorytm klasyfikacyjny struktury słownikowej - tezaurusa - tworzącego hierarchiczną strukturę pojęć w ramach rozpoznawanych tematów dokumentów. Mechanizm ten pozwolił autorom na uzyskanie wyższej (90-93 %) jakości klasyfikacji dokumentów.(abstrakt oryginalny)
Twórcy
  • Uniwersytet Ekonomiczny w Poznaniu
Bibliografia
  • Backer E. (1988) Computer-Assisted Reasoning in Cluster Analysis, Prentice Hall
  • Gordon A.D. (1999) Classification, Chapman & Hall/CRC, Washington DC
  • Fowlkes E.B., Granadesikan R., Kettenring J.R. (1988) Variable selection in clustering. Journal of Classification, Vol. 3, s. 205- 228
  • Hearst M.A., Pedersen J.O. (1996) Reexamining the cluster hypothesis: Scatter/Gather on retrieval results. Proceedings of 19th Annual International Conference on Research and Development in Information Retrieval, s. 76-83
  • Hull D., Pedersen J, Schutze H. (1996) Document routing as statistical classification. In AAAI Spring Symp. On Machine Learning in Information Access Technical Papers, Palo Alto, March 1996
  • Lewis D.D., Ringutte M. (1996) "A comparison of two learning algorithms for text categorization", Third Annual Symp. On Document Analysis and Information Retrieval, Las Vegas, s. 81- 93
  • Li Y.H., Jain A.K. (1998) "Classification of text documents", The Computer Journal, vol. 41. No. 8
  • Pazzani M., Muramatsu J., Billsus D. (1996) "Identifying interesting web sites", AAAI Spring Symp. On Machine Learning in Information Access Technical Papers, Palo Alto, s. 229-237
  • Gentle Introduction to RainBow. URL: http://www.cs.cmu.edu/afs/cs/project/theo-11/www/nai've- -bayes/gentle_in troduction.html
  • Schutze H., Hull D. and Pedersen J. (1995) A comparison of classifiers and document representation for the routing problem. Proceedings of 18th Annual International Conference on Research and Development in Information Retrieval, s. 229-237
  • Sokal R.R., Sneath P.H, (1973) Numerical Taxonomy, Freeman, San Francisco
  • Weiss S., Kasif S. and Brill E. (1996) Text classification in USENET newsgroups: a progress report. In AAAI Spring Symp. On Machine Learning in Information Access Technical Paoers
  • Yang Y (1994) Expert network: Effective and efficient learning from human decisions in text categorization and retrieval. Proceedings of 17th Annual International Conference on Research and Development in Information Retrieval, s. 13-22
  • Zamir O., Etzioni O. (1998) Web document clustering: A feasibility demonstration. Proceedings of the 21s1 Annual International Conference on Research and Development in Information Retrieval, s. 46-54
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171301117

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.