PL EN


Preferencje help
Widoczny [Schowaj] Abstrakt
Liczba wyników
Czasopismo
2023 | nr 4 | 419--436
Tytuł artykułu

Comparison of Different Approaches Using Random Forest for Imbalanced Credit Data

Autorzy
Warianty tytułu
Porównanie różnych podejść wykorzystujących lasy losowe dla niezbilansowanych danych kredytowych
Języki publikacji
EN
Abstrakty
EN
Credit scoring models are extensively used in credit risk management of individual customers. These models are based on econometric methods using past data about customers, both defaulters and non- -defaulters. These models focus on the optimal separation between good and bad customers taking into account two types of errors that appear, namely: the False Positive (Type 1 error) and the False Negative (Type 2 error). The purpose of the project was to focus on the problem of unbalanced data. Different balancing methods have been applied to the data set obtained from the financial institution operating in the European market. Various levels of unbalance have been considered and different statistical assessment metrics have been compared. (original abstract)
Tempo rozwoju zaawansowanych technologii z roku na rok staje się coraz szybsze. Ilość gromadzonych danych stale rośnie. Jednocześnie możliwe jest prowadzenie badań związanych z posiadanymi danymi. Jedną z kwestii, na którą warto zwrócić uwagę, jest problem danych niezbilansowanych. Ten typ danych charakteryzuje się znaczną dysproporcją między przypadkami reprezentującymi poszczególne klasy. Liczba obserwacji należących do analizowanej klasy (nazywanej klasą mniejszościową) jest znacznie mniejsza niż liczba pozostałych obserwacji (nazywanych klasą większościową). Przedmiotem zainteresowania w niniejszym projekcie badawczym będzie klasa, która w zbiorze danych ma niewystarczającą liczbę obserwacji. (skrócony abstrakt oryginalny)
Czasopismo
Rocznik
Numer
Strony
419--436
Opis fizyczny
Twórcy
  • Warsaw School of Economics, Poland
Bibliografia
  • Abedin M.Z., Guotai C., Hajek P. (2022), Combining weighted SMOT10.1007E with ensemble learning for the class-imbalanced prediction of small business credit risk, Complex and Intelligent Systems, DOI: 10.1007/s40747-021-00614-4.
  • Alberto F., García S., Galar M., Prati R., Krawczyk B., Herrera F. (2018), Learning from Imbalanced Data Sets, Springer Nature Switzerland AG.
  • Baesens B., Van Gestel T., Viaene S., Stepanova M., Suykens J., Vanthienen J. (2003), Benchmarking state of the art classification algorithms for credit scoring, Journal of the Operational Research Society, 54(6), 627-635.
  • Bahnsen A.C., Aouada D., Ottersten B. (2015), Example-dependent cost-sensitive decision trees, Expert Systems with Applications, 42(19), 6609-6619.
  • BIS (2005), Basel committee newsletter no. 6: Validation of low-default portfolios in the Basel II framework. Technical report, Bank for International Settlements, Basel Committee on Banking Supervision.
  • Breiman L. (2001), Random Forests, Machine Learning, 45(1), 5-32.
  • Chawla N.V., Bowyer K.W., Hall L.O., Kegelmeyer W.P. (2002), SMOTE: Synthetic Minority Over-sampling Technique, Journal of Artificial Intelligence Research, 16, 321-357.
  • Domingos P. (1999), MetaCost: a general method for making classifiers cost-sensitive, KDD‚ 99: Proceedings of the fifth ACM SIGKDD international conference on knowledge discovery and data mining, DOI: 10.1145/312129.312220.
  • Japkowicz N. (2000), Learning from imbalanced data sets: a comparison of various strategies, https://sci2s.ugr.es/keel/pdf/specific/congreso/aaai2000-workshop.pdf.
  • Japkowicz N., Stephen S. (2002), The class imbalance problem: a systematic study, Intelligent Data Analysis, 6, 429-449.
  • Lessmann S., Baesens B., Seow H.-V., Thomas L.C. (2015), Benchmarking state-of-the-art classification algorithms for credit scoring: an update of research, European Journal of Operational Research, 247(1), 124-136.
  • Mqadi N.M., Naicker N., Adeliy T. (2021), Solving misclassification of the credit card imbalance problem using near miss, Mathematical Problems in Engineering, DOI: 10.1155/2021/7194728.
  • Namvar A., Siami M., Rabhi F., Naderpour M. (2018), Credit risk prediction in an imbalanced social lending environment, Computer Science, https://arxiv.org/abs/1805.00801.
  • Niu K., Zhang Z., Liu Y., Li R. (2020), Resampling ensemble model based on data distribution for imbalanced credit risk evaluation in P2P lending, Information Sciences, 536, 120-134.
  • Pazzani M.J., Merz C., Murphy P., Ali K., Hume T., Brunk C. (1994), Reducing misclassification costs, in: Proceedings of the Eleventh International Conference on Machine Learning, Morgan Kaufmann.
  • Rao C., Liu M., Goh M., Wen J. (2020), A 2-stage modified random forest model for credit risk assessment of P2P network lending to "Three Rurals" borrowers, Applied Soft Computing, 95.
  • Shi S., Li J., Zhu D., Yang F., Xu Y. (2023), A hybrid imbalanced classification model based on data density, Information Sciences, 624, 50-67.
  • Shen F., Wang R., Shen Y. (2019), A cost-sensitive logistic regression credit scoring model based on multi-objective optimization approach, Technological and Economic Development of Economy, 1-25, DOI: /10.3846/tede.2019.11337.
  • Thomas L.C., Edelman D.B., Crook J.N. (2002), Credit Scoring and Its Applications, SIAM.
  • Weiss G., Provost F. (2003), Learning when training data are costly: the effect of class distribution on tree induction, Journal of Artificial Intelligence Research, 19, 315-354.
  • Yeh I.C., Lien C.H. (2009), The comparisons of data mining techniques for the predictive accuracy of probability of default of credit card clients, Expert Systems with Applications, 36(2), 2473-2480.
  • Xia Y., Liu C., Liu N. (2017), Cost-sensitive boosted tree for loan evaluation in peer-to-peer lending, Electronic Commerce Research and Applications, 24, 30-49, DOI: 10.1016/j.elerap.2017.06.004.
  • Xiao J., Zhou X., Zhong Y., Xie L., Gu X., Liu D. (2020), Cost-sensitive semi-supervised selective ensemble model for customer credit scoring, Knowledge-Based Systems, 189, 105118, DOI: 10.1016/j.knosys.2019.105118.
  • ZhuL., Qiua D., Ergua D., Yinga C., Liu K. (2019), A study on predicting loan default based on the random forest algorithm, Procedia Computer Science, 162, 503-513.
Typ dokumentu
Bibliografia
Identyfikatory
Identyfikator YADDA
bwmeta1.element.ekon-element-000171672174

Zgłoszenie zostało wysłane

Zgłoszenie zostało wysłane

Musisz być zalogowany aby pisać komentarze.
JavaScript jest wyłączony w Twojej przeglądarce internetowej. Włącz go, a następnie odśwież stronę, aby móc w pełni z niej korzystać.