PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2018 | nr 53 Modelowanie danych panelowych : teoria i praktyka : VII Krajowa Konferencja | 147--162
Tytuł artykułu

Anonimowość w Internecie - identyfikacja płci użytkowników na podstawie historii odwiedzanych stron internetowych

Treść / Zawartość
Warianty tytułu
Anonymity on the Internet - identifying the gender of users based on the history of visited websites
Języki publikacji
PL
Abstrakty
W artykule przedstawiono metodę identyfikacji płci użytkowników Internetu. Proponowana metoda wykorzystuje dane z profili użytkowników zawierających adresy stron internetowych i częstotliwość odwiedzin. Podejście to łączy w sobie analizę leksykalną słów z domen internetowych, sztuczne sieci neuronowe, wyrafinowaną matematycznie wektorową reprezentację profili użytkowników oraz regresję logistyczną jako główny klasyfikator. Analizę empiryczną przeprowadzono na podstawie 10 mln profili polskich użytkowników, osiągając skuteczność klasyfikacji na poziomie 82%. Dodatkowe korzyści z badania to stworzenie listy najczęściej odwiedzanych stron internetowych według płci w Polsce w 2017 r. oraz określenie sposobu wyszukiwania podobnych portali internetowych, który może być wykorzystany w spersonalizowanym marketingu jako źródło oszczędności w postaci zmniejszenia niepotrzebnych wydatków na źle ukierunkowaną reklamę. (abstrakt oryginalny)
EN
In this article, a method of gender identification of Internet users was presented. The proposed method uses data from user profiles containing website addresses and the frequency of their visits. This approach combines the lexical analysis of the words from the Internet addresses, neural networks, mathematically sophisticated vector representation of the user profiles, and logistic regression as the main classifier. The empirical analysis was performed on the basis of 10 million profiles of Polish users, giving 82% of classification efficiency. Additional benefits from the study were the lists of the most preferred websites per gender in Poland in 2017, and the way of finding similar Internet portals, which can be used in personalized marketing as a source of savings in the form of reducing unnecessary expenses for badly targeted advertising. (original abstract)
Twórcy
  • Cloud Technologies
  • Szkoła Główna Handlowa w Warszawie
Bibliografia
  • Bengio Y., Ducharme R., Vincent P., Jauvin Ch., A neural probabilistic language model, "Journal of Machine Learning Research" 2003, vol. 3, s. 1137-1155.
  • Bernardelli M., Cheater detection in Real Time Bidding system - panel approach, "Roczniki Kolegium Analiz Ekonomicznych" 2015, nr 39, s. 11-23.
  • Fisher R. A., The use of multiple measurements in taxonomic problems, "Annals of Eugenics" 1936, vol. 7 (2), s. 179-188.
  • Han J., Kamber M., Pei J., Data Mining: Concepts and Techniques, Morgan Kaufman, 2000.
  • Kohavi R., A study of cross-validation and bootstrap for accuracy estimation and model selection, "Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence" 1995, vol. 2 (12), s. 1137-1143.
  • McTear M., Callejas Z., Griol Barres D., The Conversational Interface. Talking to Smart Devices, Springer, 2016.
  • Powers D. M. W., Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation, "Journal of Machine Learning Technologies" 2011, vol. 2 (1), s. 37-63.
  • Singhal A., Modern Information Retrieval: A Brief Overview, "Bulletin of the IEEE Computer Society Technical Committee on Data Engineering" 2011, vol. 24 (4), s. 35-43.
  • Hill F., Cho K., Jean S., Devin C., Bengio Y., Embedding Word Similarity with Neural Machine Translation, 2014, arXiv:1412.6448.
  • http://scikit-learn.org/stable/ (odczyt: 11.04.2018).
  • https://code.google.com/archive/p/word2vec/ (odczyt: 11.04.2018).
  • https://iab.org.pl/badania-i-publikacje/perspektywy-rozwojowe-reklamy-online-wpolsce- 2017-2018/ (odczyt: 25.05.2018).
  • https://radimrehurek.com/gensim/models/word2vec.html (odczyt: 11.04.2018).
  • https://www.gemius.pl/wszystkie-artykuly-aktualnosci/wyniki-badania-gemiuspbi-zakwiecien- 2018.html (odczyt: 25.05.2018).
  • Levy O., Goldberg Y., Linguistic Regularities in Sparse and Explicit Word Representations, Proceedings of the Eighteenth Conference on Computational Natural Language Learning, Association for Computational Linguistics 2014, s. 171-180, https://aclanthology.coli.uni-saarland.de/papers/W14-1618/w14-1618.
  • Mikolov T., Chen K., Corrado G., Dean J., Efficient Estimation of Word Representations in Vector Space, 2013, arxiv.org/abs/1301.3781.
  • Mikolov T., Sutskever I., Chen K., Corrado G. S., Dean J., Distributed representations of words and phrases and their compositionality. Advances in Neural Information Processing Systems, 2013, https://arxiv.org/abs/1310.4546.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171531624

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.