PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2006 | nr 16 Współczesne trendy w informatyce ekonomicznej | 259--275
Tytuł artykułu

Ekstrakcja i agregacja treści z wykorzystaniem zmodyfikowanej metody XPatx

Warianty tytułu
Contenr exteaction and aggregation using a modified XPath method
Języki publikacji
PL
Abstrakty
W artykule tym przedstawiliśmy ogólny model systemu ekstrakcji i agregacji treści, możliwego do wykorzystania w procesach gospodarczych. W kolejnym kroku przedstawiliśmy ogólną wizję rozwiązania, która z kolei pozwoliła nam na przedstawienie bardziej szczegółowego modelu, będącego podstawą implementacji systemu wykorzystanego do przeprowadzenia badań i demonstracji możliwości stworzenia systemu ekstrakcji i agregacji treści nadającego się do wykorzystania w praktyce gospodarczej. Poprawność modelu została zweryfikowana badaniami empirycznymi, w których wy-kazaliśmy, że zaproponowana metoda ekstrakcji cechuje się wyższą odpornością od dotychczas stosowanej w narzędziach ekstrakcji treści ze źródeł internetowych. (abstrakt oryginalny)
EN
Even though there exist Web data and information extraction systems and there are first approaches towards presenting content aggregation systems, we are still lacking comprehensive approaches towards Web content extraction and aggregation methods. Especially when it comes to robustness of the methods, so that a proper content aggregation is possible. In this paper we present a proposal of a generic model of a Web content extraction and aggregation system. The model proposal is following a general vision of the solution. The proposed model has been implemented as a proof-of-concept prototype. After proposing the model we show results of a study, timing at verifying the method and showing that the proposed model and the method are superior to the currently used Web content extraction method. (original abstract)
Bibliografia
  • Abe M., Hori M., Robust Pointing by XPath Language: Authoring Support and Empirical Eva-luation, w: Proceedings of2003 Symposium on Applications and the Internet (SAINT 2003), 27-31 January 2003, IEEE Computer Society, Orlando 2003, s. 156-165.
  • Anderson C.R., Horvitz E., Web Montage: A Dynamic Personalized Start Page, w: WWW2002, ACM Press, Honolulu 2002.
  • Baldacchino C., Armistead C., Parker D., Information overload: it's time to face the problem, -"Management Services" 2002, No 46, s. 18-19.
  • Beged-Dov G" Brickley D., Dornfest R., Davis I., Dodds L., Eisenzopf J., Galbraith D., Guha R.V., MacLeod K., Miller E" Swartz A., Vlist E.v.d., RDF Site Summary (RSS) 1.0.
  • Berglund A., Boag S., Chamberlin D., Fernandez M.F., Kay M., Robie J., Simeon J., XML Path Language (XPath) Version 2.0 - W3C Candidate Recommendation, World Wide Web Consortium (W3C).
  • Buyukkokten O., Garcia-Molina H., Paepcke A., Accordion Summarization for End-Game Browsing on PDAs and Cellular Phones, w: Proceedings of Conference on Human Factors in Computing Systems (CHI 2001), 2001.
  • Buyukkokten O., Garcia-Molina H., Paepcke A., Seeing the Whole in Parts: Text Summarization for Web Browsing on Handheld Devices, w: Proceedings of 10th International World- Wide Web Conference, 2001.
  • Chan A.T.S., Mobile cookies management on a smart card, "Communications of the ACM" 2005, Vol. 48, No 11, s. 38-43.
  • Clark J., DeRose S., XML Path Language (XPath) Version 1.0 - W3C Recommendation, World Wide Web Consortium (W3C).
  • Edmunds A., Morris A., The problem of information overload in business organisations: a review of the literature, "International Journal of Information Management" 2000, Vol. 20, No 1, s. 17-28.
  • Ettredge M., Richardson V.J., Scholz S., Financial Data at Corporate Web Sites: Do Information Clientels Matter? w: Proceedings of the 33rd Hawaii International Conference on System Sciences - 2000,2000.
  • Ettredge M., Richardson V.J., Scholz S., A Web Site Design Model for Financial Information, "Communications of the ACM" 2001, Vol. 44, No 11, s. 51-59.
  • Farhoomand A.F., Drury D.H., Managerial information overload, "Communications of the ACM" 2002, Vol. 45, No 10, s. 127-131.
  • Freire J., Kumar B., Lieuwen D., WebViews: Accessing Personalized Web Content and Services, w: Proceedings of the 10th international conference on World Wide Web, V.Y. Shen, N. Saito, M.R. Lyu, M.E. Zurko (eds.), ACM Press New York, Hong Kong 2001, s. 576-586.
  • Kaczmarek T., Integracja danych z głębokiego internetu dla potrzeb analizy otoczenia przedsiębiorstwa, w: Wydział Ekonomii, Akademia Ekonomiczna w Poznaniu, Poznań 2006.
  • Kowalkiewicz M., Orłowska M., Kaczmarek T., Abramowicz W. Robust Web Content Extraction, w: Proceedings of the 15th International World Wide Web Conference, ACM Press, Edinburgh 2006.
  • Kowalkiewicz M., Orłowska M., Kaczmarek T., Abramowicz W., Towards more personalized Web: Extraction and integration of dynamic content from the Web, w: Proceedings of the 8th Asia Pacific Web Conference APWeb 2006, Springer Verlag, Harbin 2006.
  • Laender A.H.F., Ribeiro-Neto B.A., De Silva A.S., Teixeira, J.S. A brief survey of web data extraction tools, "ACM SIGMOD Record" June 2002, Vol. 31, No 2, s. 84-93.
  • MacSkassy S.A., Hirsch H., Provost F., Sankaranarayanan R., Dhar, V., Intelligent Information Triage, w: SIGIR 2001, ACM Press, New Orleans 2001, s. 318-326.
  • Podraża K. Złapani w sieć, "Piar.pl" 2006, nr 1, s. 16.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171221607

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.