Anonimowość w Internecie - identyfikacja płci użytkowników na podstawie historii odwiedzanych stron internetowych

Lipiński, Łukasz; Bernardelli, Michał

Artykuł - szczegóły

Czasopismo

Roczniki Kolegium Analiz Ekonomicznych / Szkoła Główna Handlowa

2018 | nr 53 Modelowanie danych panelowych : teoria i praktyka : VII Krajowa Konferencja | 147--162

Tytuł artykułu

Anonimowość w Internecie - identyfikacja płci użytkowników na podstawie historii odwiedzanych stron internetowych

Autorzy

Łukasz Lipiński , Michał Bernardelli

Treść / Zawartość

Pełne teksty:

http://rocznikikae.sgh.waw.pl/p/roczniki_kae_z53_09.pdf [zdalny]

Warianty tytułu

Anonymity on the Internet - identifying the gender of users based on the history of visited websites

Języki publikacji

Abstrakty

W artykule przedstawiono metodę identyfikacji płci użytkowników Internetu. Proponowana metoda wykorzystuje dane z profili użytkowników zawierających adresy stron internetowych i częstotliwość odwiedzin. Podejście to łączy w sobie analizę leksykalną słów z domen internetowych, sztuczne sieci neuronowe, wyrafinowaną matematycznie wektorową reprezentację profili użytkowników oraz regresję logistyczną jako główny klasyfikator. Analizę empiryczną przeprowadzono na podstawie 10 mln profili polskich użytkowników, osiągając skuteczność klasyfikacji na poziomie 82%. Dodatkowe korzyści z badania to stworzenie listy najczęściej odwiedzanych stron internetowych według płci w Polsce w 2017 r. oraz określenie sposobu wyszukiwania podobnych portali internetowych, który może być wykorzystany w spersonalizowanym marketingu jako źródło oszczędności w postaci zmniejszenia niepotrzebnych wydatków na źle ukierunkowaną reklamę. (abstrakt oryginalny)

In this article, a method of gender identification of Internet users was presented. The proposed method uses data from user profiles containing website addresses and the frequency of their visits. This approach combines the lexical analysis of the words from the Internet addresses, neural networks, mathematically sophisticated vector representation of the user profiles, and logistic regression as the main classifier. The empirical analysis was performed on the basis of 10 million profiles of Polish users, giving 82% of classification efficiency. Additional benefits from the study were the lists of the most preferred websites per gender in Poland in 2017, and the way of finding similar Internet portals, which can be used in personalized marketing as a source of savings in the form of reducing unnecessary expenses for badly targeted advertising. (original abstract)

Słowa kluczowe

Internet Big Data Preferencje konsumenta Użytkownicy internetu Płeć

Internet Big Data Consumer preferences Internet users Gender

Czasopismo

Roczniki Kolegium Analiz Ekonomicznych / Szkoła Główna Handlowa

Rocznik

2018

Numer

nr 53 Modelowanie danych panelowych : teoria i praktyka : VII Krajowa Konferencja

Strony

147--162

Opis fizyczny

Twórcy

autor

Łukasz Lipiński

Cloud Technologies

autor

Michał Bernardelli

Szkoła Główna Handlowa w Warszawie

Bibliografia

Bengio Y., Ducharme R., Vincent P., Jauvin Ch., A neural probabilistic language model, "Journal of Machine Learning Research" 2003, vol. 3, s. 1137-1155.
Bernardelli M., Cheater detection in Real Time Bidding system - panel approach, "Roczniki Kolegium Analiz Ekonomicznych" 2015, nr 39, s. 11-23.
Fisher R. A., The use of multiple measurements in taxonomic problems, "Annals of Eugenics" 1936, vol. 7 (2), s. 179-188.
Han J., Kamber M., Pei J., Data Mining: Concepts and Techniques, Morgan Kaufman, 2000.
Kohavi R., A study of cross-validation and bootstrap for accuracy estimation and model selection, "Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence" 1995, vol. 2 (12), s. 1137-1143.
McTear M., Callejas Z., Griol Barres D., The Conversational Interface. Talking to Smart Devices, Springer, 2016.
Powers D. M. W., Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation, "Journal of Machine Learning Technologies" 2011, vol. 2 (1), s. 37-63.
Singhal A., Modern Information Retrieval: A Brief Overview, "Bulletin of the IEEE Computer Society Technical Committee on Data Engineering" 2011, vol. 24 (4), s. 35-43.
Hill F., Cho K., Jean S., Devin C., Bengio Y., Embedding Word Similarity with Neural Machine Translation, 2014, arXiv:1412.6448.
http://scikit-learn.org/stable/ (odczyt: 11.04.2018).
https://code.google.com/archive/p/word2vec/ (odczyt: 11.04.2018).
https://iab.org.pl/badania-i-publikacje/perspektywy-rozwojowe-reklamy-online-wpolsce- 2017-2018/ (odczyt: 25.05.2018).
https://radimrehurek.com/gensim/models/word2vec.html (odczyt: 11.04.2018).
https://www.gemius.pl/wszystkie-artykuly-aktualnosci/wyniki-badania-gemiuspbi-zakwiecien- 2018.html (odczyt: 25.05.2018).
Levy O., Goldberg Y., Linguistic Regularities in Sparse and Explicit Word Representations, Proceedings of the Eighteenth Conference on Computational Natural Language Learning, Association for Computational Linguistics 2014, s. 171-180, https://aclanthology.coli.uni-saarland.de/papers/W14-1618/w14-1618.
Mikolov T., Chen K., Corrado G., Dean J., Efficient Estimation of Word Representations in Vector Space, 2013, arxiv.org/abs/1301.3781.
Mikolov T., Sutskever I., Chen K., Corrado G. S., Dean J., Distributed representations of words and phrases and their compositionality. Advances in Neural Information Processing Systems, 2013, https://arxiv.org/abs/1310.4546.

Typ dokumentu

Bibliografia

Identyfikatory

Identyfikator YADDA

bwmeta1.element.ekon-element-000171531624

Komentarze

Musisz być zalogowany aby pisać komentarze.

Roczniki Kolegium Analiz Ekonomicznych / Szkoła Główna Handlowa

Anonimowość w Internecie - identyfikacja płci użytkowników na podstawie historii odwiedzanych stron internetowych

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane