PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
2018 | 14 | nr 375 | 121--140
Tytuł artykułu

Prognozowanie dziennych obrotów przedsiębiorstwa za pomocą algorytmu XGBoost - studium przypadku

Autorzy
Warianty tytułu
Forecasting Daily Turnover Using XGBoost Algorithm - a Case Study
Języki publikacji
PL
Abstrakty
Celem niniejszego artykułu było zbadanie możliwości wykorzystania algorytmu Extreme Gradient Boosting (XGBoost) jako narzędzia prognozowania obrotów przedsiębiorstwa. Na studium przypadku wybrano udostępnione przez firmę Rossmann (wraz z prośbą o opracowanie innowacyjnej metody prognozowania) dane, obejmujące informacje z mikro- i makrootoczenia oraz obrotów 1115 oddziałów. Działanie algorytmu porównano z klasycznymi modelami SARIMAX i Holta-Wintersa, wykorzystując walidację krzyżową oraz testy statystycznej istotności różnic trafności predykcji. Badano metryki średniego błędu procentowego, współczynnik Theila oraz skorygowany współczynnik determinacji. Wyniki przekazano do weryfikacji firmie Rossmann. Potwierdzono, iż XGBoost po zastosowaniu odpowiedniej obróbki danych i sposobu uczenia osiąga lepsze rezultaty niż modele klasyczne.(abstrakt oryginalny)
EN
The goal of this paper was to investigate use of the Extreme Gradient Boosting XGBoost algorithm as a forecasting tool. The data provided by the Rossman Company, with a request to design an innovative prediction method, has been used as a base for this case study. The data contains details about micro- and macro-environment, as well as turnover of 1115 stores. Performance of the algorithm was compared to classical forecasting models SARIMAX and Holt-Winters, using time-series cross validation and tests for statistical importance in prediction quality differences. Metrics of root mean squared percentage error (RMSPE), Theil's coefficient and adjusted correlation coefficient were analyzed. Results where then passed to Rossman for verification on a separate validation set, via Kaggle.com platform. Study results confirmed, that XGBoost, after using proper data preparation and training method, achieves better results than classical models.(original abstract)
Rocznik
Tom
14
Numer
Strony
121--140
Opis fizyczny
Twórcy
  • Uniwersytet Ekonomiczny we Wrocławiu
Bibliografia
  • Boneau C.A. (1960), The Effects of Violations of Assumptions Underlying the T Test, "Psychological Bulletin", Vol. 57(1), s. 49-64.
  • Breiman L. (2001), Random Forests, "Machine Learning", Vol. 45(1), s. 5-32.
  • Breiman L., Friedman J., Stone Ch.J., Olshen R.A. (2017), Classification and Regression Trees, CRC Press, Boca Raton, FL.
  • Chen T., Guestrin C. (2016), XGBoost: A Scalable Tree Boosting System [w:] Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining - KDD '16, ACM Press, New York, s. 785-794.
  • Cichosz P. (2007), Systemy uczące się, Wyd. 2. Wydawnictwa Naukowo-Techniczne, Warszawa.
  • Cieślak M. (2005), Prognozowanie gospodarcze: metody i zastosowania, Wyd. 4, Wydawnictwo Naukowe PWN, Warszawa.
  • De Livera A.M., Hyndman R.J., Snyder R.D. (2011), Forecasting Time Series with Complex Seasonal Patterns Using Exponential Smoothing, "Journal of the American Statistical Association", Vol. 106, s. 1513-1527.
  • Flach P.A. (2012), Machine Learning: The Art and Science of Algorithms that Make Sense of Data, Cambridge University Press, Cambridge.
  • Ghosh R., Purkayastha P. (2017), Forecasting Profitability in Equity Trades Using Random Forest, Support Vector Machine and XgBoost [w:] 10th International Conference on Recent Trades in Engineering Science and Management, s. 473-486.
  • Gumus M., Kiran M.S. (2017), Crude Oil Price Forecasting Using XGBoost [w:] 2017 International Conference on Computer Science and Engineering (UBMK), IEEE, Piscataway Township, NJ, s. 1100-1103.
  • Gurnani M., Korke Y., Shah P., Udmale S., Sambhe V., Bhirud S. (2017), Forecasting of Sales by Using Fusion of Machine Learning Techniques [w:] 2017 International Conference on Data Management, Analytics and Innovation (ICDMAI), IEEE, Piscataway Township, NJ, s. 93-101.
  • Hyndman R., Athanasopoulos G. (2018), Forecasting: Principles and Practice, Otexts, Melbourne, http://otexts.org/fpp2/ (dostęp: 13.05.2019).
  • Hyndman R., Yeasmin K. (2007), Automatic Time Series Forecasting: The Forecast Package for R, "Journal of Statistical Software", Vol. 27(9), s. 1-23.
  • Kutner M.H., Neter J., Nachtsheim C.J., Li W. (2013), Applied Linear Statistical Models, McGraw-Hill, Boston.
  • Lumley T., Diehr P., Emerson S., Chen L. (2002), The Importance of the Normality Assumption in Large Public Health Data Sets, "Annual Review of Public Health", Vol. 23(1), s. 151-169.
  • Mitchell T. (1997), Machine Learning, McGraw-Hill, New York.
  • Morzy T. (2013), Eksploracja danych: metody i algorytmy, Wydawnictwo Naukowe PWN, Warszawa.
  • Pavlyshenko B.M. (2016), Linear, Machine Learning and Probabilistic Approaches for Time Series Analysis [w:] 2016 IEEE First International Conference on Data Stream Mining & Processing (DSMP), IEEE, s. 377-381.
  • Shearer C. (2000), The CRISP-DM Model: The New Blueprint for Data Mining, "Journal of Data Warehousing", Vol. 5, No. 4, s. 13-22.
  • Welch B.L. (1947), The Generalisation of 'Student's' Problem when Several Different Population Variances are Involved, "Biometrika", Vol. 34, No. 1/2, s. 28-35.
  • Zagdański A., Suchwałko A. (2016), Analiza i prognozowanie szeregów czasowych: praktyczne wprowadzenie na podstawie środowiska R, Wydawnictwo Naukowe PWN, Warszawa.
  • Zaki M.J., Meira W. (2014), Data Mining and Analysis: Fundamental Concepts and Algorithms, Cambridge University Press, Cambridge.
  • Zeliaś A., Pawełek B., Wanat S. (2013), Prognozowanie ekonomiczne: teoria, przykłady, zadania, Wyd. 3, Wydawnictwo Naukowe PWN, Warszawa.
  • [www 1] https://www.kaggle.com/c/rossmann-store-sales
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171558412

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.