Czasopismo
Tytuł artykułu
Autorzy
Warianty tytułu
Języki publikacji
Abstrakty
Wobec coraz powszechniejszej informatyzacji życia ilość informacji gromadzonych i przechowywanych w bazach danych wzrosła gwałtownie, prowadząc często do jej nadmiarowości. Warto zauważyć, że wiele z tych informacji zawartych jest w dokumentach tekstowych. Systemy komputerowe z odpowiednim oprogramowaniem są w stanie magazynować olbrzymie zasoby tekstowe. Wpływa to na konieczność tworzenia narzędzi statystycznych wspomagających człowieka w analizie dokumentów tekstowych. Potrzebne są metody pozwalające na przetwarzanie tych zasobów i pozyskiwanie z nich informacji. Zaproponowane narzędzia muszą być również adekwatne do postawionych problemów badawczych. Naprzeciw tym potrzebom wychodzi eksploracyjna analiza dokumentów tekstowych, określana jako text mining. Jedną z twórców tej analizy jest M. Hearst, która zdefiniowała text mining jako proces mający na celu wydobycie z zasobów tekstowych nieznanych wcześniej informacji (zob.: Hearst 1999). Eksploracyjna analiza tekstu jest to pewien zbiór metod i koncepcji zaimplementowanych w postaci algorytmów komputerowych, które pozwalają w sposób zautomatyzowany pozyskiwać i przetwarzać informacje z dokumentów tekstowych (por. Lula 2005). W wielu przypadkach omawiana analiza dokumentów tekstowych wykorzystuje metody statystyki opisowej, jak również znacznie bardziej zaawansowane narzędzia wielowymiarowej analizy statystycznej, np. metody taksonomiczne czy dyskryminacyjne. Z tego też względu czasem dokonuje się pewnych porównań analizy text mining do data mining, czyli eksploracyjnej analizy danych. To, co jest główną różnicą pomiędzy tymi koncepcjami, to stopień ustrukturyzowania danych. Struktura dokumentów tekstowych określona jest bowiem w sposób nieprecyzyjny i dość dowolny, co jest często problemem w przeprowadzanych badaniach. (fragment tekstu)
Rocznik
Strony
67--79
Opis fizyczny
Twórcy
autor
- Uniwersytet Ekonomiczny w Katowicach
Bibliografia
- Breiman L., Friedman J., Olshen R., Stone C. (1984), Classification and Regression Trees, Chapman & Hall, New York
- Feinerer I. (2008), An Introduction to Text Mining in R, R News, No. 8(2), s. 19-22, http://CRAN.R-project.org/doc/Rnews/
- Feinerer I., Hornik K., Meyer D. (2008), Text Mining Infrastructure in R, Journal of Statistical Software, Vol. 25, s. 1-54
- Gatnar E. (2001), Nieparametryczna metoda dyskryminacji i regresji, Biblioteka Ekonometryczna, Wydawnictwo Naukowe PWN, Warszawa
- Harst M. (1999), Untangling Text Data Mining, Proceedings of ACL99: the 37th annual meeting of the Association for Computational Linguistics on Computational Linguistics, Association for Computational Linguistics, Morristown, NJ, USA, s. 3-10
- Lula P. (2005), Text Mining jako narzędzie pozyskiwania informacji z dokumentów tekstowych, www.statsoft.pl.czytelnia.html
- Lula P. (2006), Wykorzystanie informacji pochodzących z dokumentów tekstowych w problemach modelowania i klasyfikacji, w: Taksonomia 13. Klasyfikacja i analiza danych, red. K. Jajuga, M. Walesiak, Prace Naukowe Akademii Ekonomicznej we Wrocławiu nr 1126, Wrocław, s. 130-136
- Lula P. (2011), Automatyczna analiza opinii konsumenckich, w: Taksonomia 18. Klasyfikacja i analiza danych, red. K. Jajuga, M. Walesiak, Prace Naukowe Uniwersytetu Ekonomicznego we Wrocławiu, nr 176, Wrocław, s. 51-62
- Morgan J.N., Sonquist J.A. (1963), Problems in the Analysis of Survey Data and a Proposal, Journal of the American Statistical Association, Vol. 58, s. 417-434
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171271973