Вісник Чернігівського Державного Технологічного Університету

УДК 004.75

А.М. Волокита, канд. техн. наук

С.В. Піх, магістр

В.В. Воробйов, магістр

Д.С. Вітюк, магістр

Національний технічний університет України «Київський політехнічний інститут», м. Київ, Україна

ДОСЛІДЖЕННЯ ЕФЕКТИВНОСТІ ПРИВАТНОЇ ХМАРНОЇ СИСТЕМИ
ДЛЯ ОБЧИСЛЕНЬ КРЕДИТНОГО СКОРИНГУ

А.Н. Волокита, канд. техн. наук

С.В. Пих, магистр

В.В. Воробйов, магистр

Д.С. Витюк, магистр

Национальный технический университет Украины «Киевский политехнический институт», г. Киев, Украина

ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ ПРИВАТНОЙ ОБЛАЧНОЙ СИСТЕМЫ ДЛЯ ВЫЧИСЛЕНИЙ КРЕДИТНОГО СКОРИНГА

Artem Volokyta, PhD in Technical Sciences

Sviatoslav Pikh, master

Vitalii Vorobiov, master

Dmytro Vitiuk, master

National Technical University of Ukraine «Kyiv Polytechnic Institute», Kyiv, Ukraine

THE INVESTIGATION OF THE EFFICIENCY OF PRIVATE CLOUD-SYSTEMS FOR CALCULATION THE SCORECARD COEFFICIENT

Запропоновано приватну хмарну систему для розподілених обчислень коефіцієнтів скорингових карт. Проведено експериментальні дослідження ефективності запропонованої системи.

Ключові слова: приватна хмара, скорингові карти, лінійне програмування, регресійний аналіз.

Предложено частную облачную систему для распределенных вычислений коэффициентов скоринговых карт. Проведены экспериментальные исследования эффективности предложенной системы.

Ключевые слова: приватное облако, скоринговые карты, линейное программирование, регрессионный анализ.

Proposed private cloud system for distributed computing coefficients scorecard. Experimental research on the effectiveness of the proposed system.

Key words: private cloud, scorecards, linear programming, regression analysis.

Вступ. Кредитний скоринг – це метод класифікації різних груп потенційних клієнтів в умовах, коли доступна інформація не про параметри, які поділяють ці групи, а тільки про деякі вторинні змінні. Доступна інформація про потенційних позичальників міститься в заповнених ними анкетах. Такі фактори, як річний дохід, розмір непогашеного боргу, володіння нерухомістю або автомобілем, стаж роботи на останньому місці, вік і т. ін. потенційно пов'язані з кредитоспроможністю і тому можуть виявитися вхідними змінними в моделі [1; 2]. Якщо деяким соціальним характеристикам клієнта присвоїти певні ваги, то кожного нового клієнта можна, на основі його анкети, віднести до певної групи. Набір цих характеристик та відповідних вагових коефіцієнтів, називають скоринговою картою, розроблення якої проводиться на основі статистичного оброблення великих масивів історичних даних по прецедентах. Згідно з Fair & Isaac у ході побудови скорингової моделі можуть бути враховані 50-60 змінних, внаслідок кореляцій у кінцеву модель потрапляють не більше 8-12 [3].

Хмарні обчислення являють собою модель для забезпечення зручного мережевого доступу до загального пулу обчислювальних ресурсів (наприклад, мереж, серверів, систем зберігання даних, програм та послуг), що налаштовуються і які можна швидко виділити і надати з мінімальними управлінськими зусиллями або мінімальним втручанням з боку постачальника послуг [4].

Аналіз останніх досліджень і публікацій. Нині для кредитного скорингу використовуються методи статистики (дискримінантний аналіз, лінійна регресія, логістична регресія, дерева класифікації), дослідження операцій (лінійне програмування, нелінійна оптимізація) і штучного інтелекту (нейронні мережі, експертні системи, генетичні алгоритми, методи найближчих сусідів, байєсовські мережі, логіко-імовірнісні методи). Зазначені методи можуть застосовуватися як окремо, так і в різних комбінаціях.

Приватні хмари поєднують у собі гнучкість і цінові переваги «хмари» з контролем за наданням послуг і безпекою (рис. 1).

Рис. 1. Характеристики приватної хмарної хмари

Приватні хмари пропонують шлях міграції, дозволяючи віртуалізувати і модифікувати необхідні додатки з потрібним темпом. Це дає можливість захистити інвестиції в інфраструктуру, додатки та інформацію, забезпечивши при цьому ефективне і гнучке використання даних ресурсів [5; 6; 7].

Постановка задачі пошуку коефіцієнтів скорингових карт. Проблему кредитного скорингу можна розглядати як завдання класифікації: знаючи відповіді на питання анкети x ∈ A, визначити, до якої групи належить позичальник: x ∈ Ag для «хороших клієнтів», і x ∈ Ab для «поганих». При цьому необхідно розуміти, що абсолютно точна класифікація принципово неможлива.

Згідно з проведеними дослідженнями [8], до теперішнього часу не отримано відомостей про значні переваги якого-небудь з традиційних методів скорингу в точності одержуваних результатів, тобто рівні похибок під час використання цих методів є порівнянними. Так, для одних методів (лінійна регресія) бажано використання рівних часток «поганих» і «хороших», тоді як інші методи (дерева класифікації, байєсовські мережі) вимагають, щоб вибірка відображала реальне співвідношення «поганих» і «хороших» клієнтів. Більшість статистичних методів призводять до побудови правила класифікації, заснованого на лінійній скорингової функції.

У процесі реалізації будемо розглядати 2 методи: регресійний аналіз як один з найпоширеніших методів та лінійне програмування, що дає можливість включити в програму додаткові обмеження [9; 10].

Рівняння множинної регресії (з багатьма змінними) у вигляді:

де – вектор незалежних (пояснюючих) змінних; - вектор параметрів (що визначаються); – випадкова помилка (похибка); – залежна (пояснювальна) змінна. Для оцінювання параметрів використовується метод найменших квадратів.

У методі лінійного програмування є набір даних, що включає в себе відповіді на питання для кожного з N клієнтів і індикатори . Лінійна функцію s(x), яка розділяє «хороших» і «поганих» клієнтів, шукається з міркувань мінімізації помилки .

Мінімізація проводиться за змінним . Додаткові обмеження можна накласти через обмеження відповідних ваг .

Розроблення системи. У цій роботі використана модель тонкого клієнта, в межах якої вся логіка та управління даними зосереджені на сервері, а клієнтська програма забезпечує тільки функції рівня представлення.

Вимоги до системи. Для виконання обчислень обраними методами розроблена система, яка відповідає таким вимогам:

заснована на клієнт-серверній архітектурі для доступу через відкрите API;
повністю віртуальна, щоб підходити під визначення приватної cloud-системи;
забезпечує можливість виконувати планування та розподілення задачі пошуку коефіцієнтів скорингових карт;
обмеження: планувальник повинен постійно отримувати інформацію від вузлів про їх стан.

Для створення приватної хмари обрано open source рішення для віртуалізації Openstack 2011.3 [11]. Це рішення дозволяє замінити метод планування для прикладної задачі обчислення коефіцієнтів скорингових карт. Загальна структура системи представлена на рис. 2 і передбачає використання клієнт-серверної архітектури.

Рис. 2. Структура приватної хмарної системи

Розподілення завдань по ресурсах у неоднорідних розподілених системах належить до класу NP-повних задач. Як метод планування обрано метод покрокового планування [12]. Метод підходить для неоднорідних систем, в яких банки можуть виконувати власні обчислювання. Обладнання можна використати як компоненти неоднорідної системи зі збереженням однорідності обчислювального середовища. Для моделювання використовуватимемо віртуальні вузли на основі ОС Ubuntu 12.04 [13]. Через обмеження моделювання для проведення тестів використовуватимемо 4 віртуальні вузли.

Віртуалізація виконана за допомогою пакета з відкритим кодом Openstack, загальна структура системи віртуалізації представлена на рис. 3.

Рис. 3. Структура системи віртуалізації OpenStack

Планувальник потактово виконує такі дії:

1. Перевірка потоку вхідних заявок і формування черг.

2. Оцінювання вимогливості задач до ресурсів.

3. Планування розкладу задач від найбільш вимогливих до найменш вимогливих.

4. Перевірка журналу планування та завантаження задач на ресурси.

Розроблювана система призначена для управління сервером та обчислювальними вузлами: створення API для зовнішнього клієнта, планування задач, управлінням передачею даних, запуску прикладних задач на обчислювальних вузлах та організацію зберігання даних у розподіленій системі.

Для вирішення прикладної математичної задачі побудови скорингової карти використані готові реалізації:

- реалізацію регресійного аналізу у бібліотеці org.apache.commons.math.stat;

- реалізацію методу лінійного програмування в бібліотеці lp_solve 5.5.2.0.

Бібліотека Apache commons-math включає базові методи математичної статистики, частотні розподіли, двоваріантну регресію, функцію хі-квадрат та статистичні тести ANOVA [14].

Бібліотека lp_solve 5.5.2.0 спеціалізована на методах лінійного програмування, має відкриті коди та API, що підходить для розроблення системи побудови скорингових карт [15].

Експериментальні дослідження. У більшості банків використовуються різні види скорингу: Application scoring для оцінювання кредитної заявки, скоринг поведінки, або Behavioral scoring, для аналізу дій позичальника та його платоспроможності, Сollection scoring для роботи з простроченою заборгованістю і Fraud scoring, націлений на оцінку ймовірності шахрайських дій з боку позичальника. Крім перерахованих, є такі технології скорингу, які дозволяють аналізувати ефективність спрямованих споживачеві пропозицій (скоринг відгуку, Response scoring) і оцінювати ймовірність, що споживач піде до іншого банку (скоринг втрат, Attrition scoring).

Для тестування системи використовується вибірка з 15 анкетних питань, кожна з відповідей оцінюється коефіцієнтом, нормалізованим до інтервалу [-1;1]. Еталон визначає «правильні» відповіді в анкеті. Керуючись еталоном, згенеровано експериментальну вибірку анкет, які є вхідними даними методів регресійного аналізу і лінійного програмування для отримання скорингових карт.

Оскільки для обчислення рейтингу анкети використовують суму ненормованих коефіцієнтів, то можна побачити, що по кожному з методів похибка симетрична. Метод лінійного програмування має в середньому меншу похибку, ніж регресійний аналіз. Числові дані для порівняння та відносні похибки кожного з методів також наведено в табл.

Таблиця

Дані точності обчислень регресійного аналізу та лінійного програмування

№ коеф.	Еталон	Лінійний метод	Регресійний метод	δ лін. методу	δ регр. методу
1	-0,2	-0,13043	-0,39722	0,347863	0,986077
2	0,4	0,373731	0,075457	0,065673	0,811357
3	0,32	0,235657	0,481272	0,263572	0,503975
4	0,12	0,132875	0,133429	0,107289	0,111906
5	0,3	0,411536	0,300159	0,371788	0,00053
6	0,24	0,221411	0,34919	0,077452	0,454957
7	0,72	0,530287	0,739118	0,263491	0,026552
8	0,8	0,850655	0,174108	0,063318	0,782366
9	0,76	0,479773	0,338125	0,36872	0,555099
10	0,12	0,101027	0,042181	0,158107	0,648493
11	-0,1	-0,08138	-0,11746	0,186249	0,17456
12	0,26	0,238436	0,36683	0,082937	0,410885
13	-0,32	-0,35167	-0,32975	0,09898	0,030473
14	-0,1	-0,10532	-0,01784	0,053152	0,821575
15	-0,12	-0,09338	-0,23706	0,221814	0,975516
16	0,36	0,336559	0,217071	Наукова бібліотека ЧНТУ © 2012