Giliojo mokymo metodo taikymas fizinių asmenų kreditingumo vertinimui
Magistriniame darbe analizuojama problema – giliojo mokymo algoritmo pritaikymas kredito vertinimo procese. Giliojo mokymo metodas (ConvNet) pastaraisiais metais yra mokslininkų plačiai analizuojama tema, nes kas mėnesį yra sužinomi nauji tinklo panaudojimo atvejai ir tinklo patobulinimai, kurie panaikina prieš tai buvusius apribojimus. Tačiau finansiniams duomenims šio algoritmo pritaikomumo klasifikavimo uždavinių kategorijoje nebuvo rasta. Todėl pasirinkta aktuali finansų rinkose fizinių asmenų kredito vertinimo tema, kuri plačiai analizuojama mokslinėje literatūroje, panaudojant skirtingus klasifikavimo algoritmus, paskolas suskirstant į „geras“ ir „blogas“ klases. Darbu siekiama ištirti ir nustatyti giliojo mokymo metodo taikymo galimybes kredito vertinime. Tikslas pasiektas per tris etapus (teorinį, metodinį ir tyrimą). Teorinė ir metodinė darbo dalys atskleidžia kredito vertinimo temos ištirtumą ir galimas ConvNet metodo panaudojimo galimybes šios temos vystyme. ConvNet metodui yra svarbu informaciją pateikti normalizuotą ir skaitine forma, todėl paruošti duomenų masyvų duomenys yra pateikiami tinklui. Tyrime analizuojami trys skirtingi kredito vertinimo duomenų rinkiniai: Vokietijos, Australijos ir Japonijos. Sudaryti skirtingi ConvNet tinklai kiekvienam duomenų rinkiniui, paremti grįžties metodo logika, kai siekiama optimizuoti modelio tikslumą. Pasiektas aukščiausias ConvNet tikslumas Vokietijos duomenų rinkiniui – 73,4 proc. (modelis netinkamas, neviršyta atsitiktinė riba 76,16 proc.), Australijos – 86,67 proc. (modelis tinkamas), Japonijos – 86,96 proc. (modelis tinkamas). ConvNet tinklo architektūros, pasižymėjusios aukštu tikslumo rezultatu, išsiskyrė tuo, kad pirmame konvoliuciniame sluoksnyje yra aukštas slinkimo žingsnis. Gauti rezultatai palyginami su „WEKOS“ paketo ir kitų autorių darbuose naudojamų klasifikatorių tikslumais. Tolimesnė ConvNet metodo plėtotė yra tikslinga, esant didesniam duomenų atributų ir pavyzdžių kiekiui. Taip pat būtų tikslinga analizuoti skirtingų klasifikatorių kombinacijas tarpusavyje (įtraukiant ir ConvNet metodą) ir svorių klasifikatorių balsavimo įtaką tikslumo rezultatams.
This Master’s thesis describes the problem of deep learning (ConvNet) model using for credit scoring. The deep learning topic has been widely analyzed by scientists in recent years. The new ConvNet applications and Network improvements are discovered every month, eliminating previous restrictions. However, there was not found any research of ConvNet application for financial data classification problem solving. Therefore, the topic of credit scoring has been chosen, which is widely analyzed in scientific literature using different classification algorithms, dividing loans into “good” (paying for their financial liabilities) and “bad” (defaulting) classes. The main aim of work: to research and determine the possibilities of applying the deep learning method in the credit scoring. The aim was achieved through three parts (theoretical, methodical and research) of the work. Theoretical and methodical parts of the work are revealed in the literature review of methods used and the potential of the ConvNet for credit scoring topic. For ConvNet it’s important to provide data in numerical normalized form. Three different credit scoring data sets (German, Australian, Japan) were analyzed. For each data set different random ConvNet were created, based on the logic of the wrapper method (to optimize the accuracy). The highest ConvNet accuracy for German data set – 73.4 percent (the model is inappropriate, the random baseline of 76.16 percent is not exceeded), Australia – 86.67 percent (appropriate), Japan –86.96 percent (appropriate). The research results were compared with the accuracy of the classifications used in the “WEKA” package and other authors' works. The further development of the ConvNet is expedient in a larger number of data attributes and samples, either in the combinations of different voting of classifications algorithms (including the ConvNet method).