Credit Scoring

Kreditinstitute benötigen Schätzungen für die Ausfallwahrscheinlichkeiten ihrer Kunden. Im Retail-Bereich werden diese mithilfe von statistischen Methoden ermittelt. Tatsächlich handelt es sich beim Credit-Scoring-Prozess um ein klassisches Beispiel von Data Science, auch wenn üblicherweise auf traditionelle Methoden der Statistik zurückgegriffen wird. Hier gibt es allerdings großes Potenzial für Innovationen aus dem Bereich des Maschinellen Lernens.

  • Etablierte Modelle binden große Kapazitäten von qualifizierten Mitarbeitern.
  • Manueller Aufwand wird durch Maschinelles Lernen reduziert.
  • Neuartige Datenquellen können vergleichsweise einfach integriert werden.
  • Moderne Verfahren weisen eine höhere Trennschärfe auf.
  • Aktuelle Verbesserungen der Verfahren hinsichtlich Transparenz können den Einsatz ermöglichen.
  • Eine Einführung als Challenger-Modelle zur Modellrisikomessung ist sinnvoll.

Im Folgenden stellen wir Ihnen anhand des Credit Scorings den Ablauf eines Data Science Projektes ausführlich dar.

Problemstellung

Eine präzise Bestimmung der Ausfallwahrscheinlichkeiten (PDs) ist nicht nur aus Sicht des Risikomanagements, sondern auch aus betriebswirtschaftlicher Sicht von großer Wichtigkeit für ein Kreditinstitut. Dementsprechend hoch sind Investitionen hinsichtlich Mitarbeiterkapazitäten und -qualifikation und technischer Infrastruktur. Da Methoden des maschinellen Lernens in vielen Bereichen die Vorhersagequalität enorm gesteigert haben, ist es naheliegend, den Einsatz dieser Algorithmen auch für das Credit Scoring in Erwägung zu ziehen. Aber auch unabhängig von der Erzielung höherer Genauigkeit ist es sinnvoll, moderne Verfahren begleitend zu den klassischen Ansätzen zu verwenden. Sie können im Rahmen der Modellvalidierung und der Messung des Modellrisikos als Challenger-Modelle dienen und damit dabei helfen, die Vorhersagequalität und eventuelle Schwächen des eingesetzten Modells zu bewerten.

Formulieren einer Fragestellung

Der Data Science Prozess beginnt mit der Formulierung einer Fragestellung. Gemäß den aufsichtsrechtlichen und betriebswirtschaftlichen Anforderungen soll die Ausfallwahrscheinlichkeit bezüglich eines Prognosehorizonts von 12 Monaten ermittelt werden. Die durch das Modell zu beantwortende Frage lautet demnach:

Mit welcher Wahrscheinlichkeit fällt ein Kreditnehmer innerhalb eines Jahres aus?

Datenaggregation

Zunächst muss eine geeignete Datenbasis hergestellt werden. Oft müssen dazu Informationen aus verschiedenen internen und externen Datenbanken zusammengezogen werden. Hierbei gilt für Maschinelles Lernen zwar grundsätzlich die Prämisse "je mehr Daten, desto besser", aber es sollten natürlich Informationen gesammelt werden, die voraussichtlich für die Bestimmung von Kreditausfallwahrscheinlichkeiten relevant sind. Man verwendet beispielsweise zunächst die Stammdaten, welche die Bank für jeden Kunden besitzt. Dabei handelt es sich um grundlegende Informationen wie das Alter, den Beschäftigungsstatus und das Einkommen. Zusätzlich fließen in den Credit-Scoring Prozess oft Daten von Ratingagenturen wie der Schufa ein. All diese Datenquellen müssen anschließend zusammengeführt werden, wobei auf technische Faktoren wie Datentypen geachtet werden muss.

Datenaufbereitung

Anschließend sind die Daten in ein Format zu überführen, das für eine statistische Auswertung geeignet und für die verwendeten Analysemethoden interpretierbar ist. Unter anderem werden in diesem Schritt fehlende Werte betrachtet, die aus unterschiedlichen Gründen vorliegen können. Abhängig von Datentyp, Datenquelle und Bedeutung der Variablen sind unterschiedliche Maßnahmen durchzuführen, um die Daten nicht zu verfälschen und sie optimal aufzubereiten.

Datenanalyse

Bevor mit der Modellbildung begonnen wird, ist es nach unserer Erfahrung empfehlenswert, zunächst mithilfe klassischer statistischer Methoden grundlegende Erkenntnisse aus den Daten abzuleiten. Die Erkenntnisse unterstützen nicht nur bei der anschließenden Modellbildung, sondern können auch Verbesserungspotenziale bei der Datenqualität aufzeigen und bereits vorab wertvolle Erkenntnisse generieren. Es kommen Techniken zum Einsatz, die die Variablen skalieren und transformieren, um eine möglichst hohe Informationsdichte und Vorhersagekraft der einzelnen Variablen zu erzielen. Weiterhin werden grundlegende Zusammenhänge in den Daten identifiziert, die bei der Interpretation der Methoden unterstützen und potentielle Fallstricke aufdecken können.

Modellbildung

Auf Basis der so gewonnenen Einsichten wird nun eine Vielzahl von Modellen gebildet, welche die Ausfallwahrscheinlichkeit berechnen. Für das Credit-Scoring greifen Kreditinstitute üblicherweise auf die Logistische Regression zurück. Dieses Modell ist an verschiedene Annahmen gebunden und bedarf daher insbesondere einer Vorauswahl der einfließenden Variablen. Für den zuständigen Mitarbeiter bedeutet dies oft einen hohen manuellen Aufwand bei der Anpassung eines solchen Modells an aktuelle Daten. Weiterhin konnten wir in einem Forschungsprojekt gemeinsam mit einer führenden deutschen Bank zeigen, dass bestimmte Methoden des Maschinellen Lernens eine bessere Trennschärfe aufweisen, bei gleichzeitiger Reduktion des manuellen Aufwands. In einem Data Science Projekt im Bereich Credit-Scoring testen wir diese aussichtsreichen Kandidaten und führen umfassende Validierungsmaßnahmen durch, um zu beurteilen, ob sie eine signifikant höhere Vorhersagequalität aufweisen.

Ableiten von Handlungsempfehlungen

Damit aus den Ergebnissen des Modells ein betriebswirtschaftlicher Nutzen gezogen werden kann, ist eine präzise und anschauliche Kommunikation der Ergebnisse und die Ableitung sinnvoller Handlungsempfehlungen von entscheidender Bedeutung. Dies ist insbesondere bei "Black Box" Modellen eine große Herausforderung, da sich die vom Modell erlernte Logik nicht unmittelbar extrahieren lässt. Bei der Auswahl eines Vorhersagemodells für das Credit-Scoring muss neben der Vorhersagequalität die Erklärbarkeit eine entscheidende Rolle spielen. 

Backtesting

Schließlich kann die Qualität des Modells nach der Produktivnahme durch einen Vergleich der Modellaussagen mit der Realität bewertet werden. Hier ist insbesondere auf die Auswahl korrekter Metriken zu achten. Alle im Prozess gewonnenen Erkenntnisse über die Daten, die Qualität der Modelle und des erzielten Nutzens fließen als Grundlage in das nächste Data Science Projekt ein.


Erfahren Sie mehr...