Data-Science-Verfahren zur Früherkennung von Ausfallrisiken

Nachrichtenbasierte Frühwarnsysteme


Nachrichtenbasierte Frühwarnsysteme: Data-Science-Verfahren zur Früherkennung von Ausfallrisiken Comment

Wie bereits durch Basel II vorgegeben, messen Banken Kreditrisiken mittels interner und externer Ratingverfahren. Aufgrund aufwendiger Ermittlungs- und Validierungsprozesse liegen Ratings allerdings meist nur jährlich oder vierteljährlich vor. Zur Behebung dieses Problems wurden marktdatenbasierte Frühwarnsysteme eingeführt, die Aktienkurse und Credit Spreads in Echtzeit berücksichtigen. Allerdings können hiermit nicht-gelistete Unternehmen, zu denen keine Marktdaten existieren, und damit ein Großteil des Mittelstands nicht berücksichtigt werden.

Demgegenüber enthalten Internet-Nachrichten, insbesondere von Lokalzeitungen, oder Social-Media-Einträge wertvolle Informationen, die auf Insolvenzen hindeuten können. Verfahren aus dem Bereich Big Data und Data Science ermöglichen die effiziente Auswertung derartiger Nachrichten und die Klassifikation nach Insolvenz-Signalen. Damit können wesentliche Informationslücken von Bankportfolien geschlossen und bisher nicht automatisiert auswertbare Informationen Eingang in die Frühwarnprozesse von Finanzdienstleistern finden.

Kreditrisiken und Ratings

Nicht zuletzt in der Finanzkrise 2007 und 2008 ist deutlich geworden, dass Finanzdienstleister zahlreichen, zum Teil hochkomplexen Risiken ausgesetzt sind. Unter diesen Risiken, zu denen zum Beispiel Kreditrisiken, Marktrisiken oder operationelle Risiken gehören, machen bei Banken oftmals die Kreditrisiken den Löwenanteil aus (ein Blick in die Geschäftsberichte deutscher Großbanken ergibt einen Anteil von zum Teil deutlich über der Hälfte der Gesamtrisiken. So betrug 2014 das aus dem Kreditrisiko stammende erforderliche Eigenkapital für die Deutsche Bank 40% und für die Commerzbank 75% des gesamten ökonomischen Kapitals). Unter Kreditrisiken im engeren Sinn versteht man dabei Risiken, die sich aus einer möglichen Bonitätsverschlechterung und insbesondere einer Insolvenz von Kreditnehmern ergeben.

Dementsprechend groß ist das Interesse der Banken, diese Risiken zu quantifizieren, um eine fundierte ökonomische Basis für Kreditentscheidungen zu erlangen und bei einem sich verschlechternden Risikoprofil entsprechend gegensteuern zu können.

Regulatorisch ist das Vorgehen zur Ermittlung und Eigenkapitalunterlegung unter Berücksichtigung der Kreditrisiken bereits durch Basel II aus dem Jahr 2004 verbindlich geregelt.

Für die Ermittlung des Kreditrisikos sind generell drei Parameter essentiell:

  • Die Ausfallwahrscheinlichkeit (PD; Probability of Default): Wahrscheinlichkeit eines definierten Kreditereignisses (beispielsweise Insolvenz) innerhalb eines Jahres
  • Die Verlustquote (LGD; Loss Given Default): Tatsächlicher Anteil des Verlusts am Gesamt-Kredit-Exposure im Falle einer Insolvenz
  • Die Kredithöhe zum Zeitpunkt des Ausfalls (EaD; Exposure at Default)

Während der EaD von Banken im Allgemeinen mit Cashflow-Simulationen ermittelt wird, die auf Markt- sowie institutsinternen Geschäftsdaten basieren, werden für die PD und den LGD Ratings herangezogen.

PD-Ratings entsprechen dabei unmittelbar Ausfallwahrscheinlichkeiten für einen Horizont von einem Jahr und werden – wie von Basel II vorgeschrieben – entweder von den Rating-Agenturen bezogen (externe Ratings) beziehungsweise von den Banken errechnet (interne Ratings).

Rating-Erstellung und Frühwarnsysteme

Banken können – sofern sie die Genehmigung der Aufsicht dazu erhalten haben – interne Ratings gemäß dem IRBA (Internal Ratings-Based Approach) von Basel II verwenden.

Zur Ermittlung interner Ratings werden historische Daten zu Insolvenzen über einen mehrjährigen Zeitraum herangezogen. Mittels statistischer Analysen wird hierbei festgestellt, welche qualitativen und quantitativen Parameter eines Kreditnehmers signifikante Indikatoren für eine Insolvenz sind. Als qualitative Parameter kommen hierbei "Noten" zum Beispiel zur Qualität des Managements, der künftigen Geschäftsaussichten oder der Wettbewerbsfähigkeit infrage. Typische quantitative Parameter sind Bilanz- und GuV-Kennzahlen wie der Verschuldungsgrad, die Eigenkapitalquote oder EBIT. Daneben können auch makroökonomische Parameter und Marktdaten wie etwa das BIP, die Inflationsrate oder der Ölpreis in Ratings einfließen.

Im einfachsten Fall erfolgt die Rating-Berechnung mithilfe von Scorecard-Modellen, deren Parameter anhand der historischen sowie externer Referenz-Daten durch Regressionen geschätzt werden. Daneben kommen auch komplexere simulationsbasierte Verfahren zum Einsatz. Ratingmodelle unterscheiden sich generell von Kundensegment zu Kundensegment, da Parameter wie die Verschuldungsquote für Banken eine völlig andere Bedeutung als für Industrieunternehmen haben und viele Geschäftsfelder (beispielsweise Immobilien) zahlreiche – oft länderspezifische – Besonderheiten aufweisen.

Die Modelle müssen mindestens einmal jährlich durch unabhängige Einheiten validiert werden. Hierbei wird mit verschiedenen statistischen Testverfahren (beispielsweise Trennschärfe, Gini-Koeffizient und adjustiertem Bestimmtheitsmaß R2) überprüft, inwiefern die Modelle angemessen sind und die Parameter neu kalibriert werden müssen. Insbesondere zwei Testverfahren sind vor diesem Hintergrund von Bedeutung:

  • Benchmarking: Es wird überprüft, inwiefern die internen Verfahren die Ratings externer Agenturen wiedergeben.
  • Backtesting: Die errechneten Ausfallwahrscheinlichkeiten für das letzte Jahr werden den tatsächlichen Insolvenzen gegenübergestellt.

Generell bedingen der hohe Validierungsaufwand und die Verfügbarkeit qualitativer und quantitativer Parameter, dass Ratings immer nur jährlich oder maximal vierteljährlich vorliegen (Auf Transaktionsdaten basierende Ratings können dieses Problem abmildern. Dies erfordert jedoch, dass die (Haupt-)Konten der jeweiligen Kunden bei der kreditgebenden Bank liegen).

Demgegenüber können sich die tatsächlichen Bonitäten von Kunden oft schlagartig ändern, etwa infolge der Insolvenz eines Großkunden oder durch das Bekanntwerden von Qualitätsproblemen. Um auf Einzelkredit-Ebene (beispielsweise durch Neuverhandlung der Konditionen, Intensivbetreuung, Einstellung oder Gewährung weiterer Kreditlinien) oder Portfolio-Ebene (beispielsweise durch Anpassung der Zielmärkte für weitere Kreditvergaben) rechtzeitig reagieren zu können, sind Banken daher auf Frühwarnindikatoren angewiesen. Dementsprechend wurden bereits hohe Summen in die Entwicklung von Frühwarnsystemen zur Erkennung möglicher Ausfallrisiken investiert. Diese sind in der Branche bereits seit mehreren Jahren im Einsatz und basieren in der Regel auf zwei Gruppen von Marktdaten:

  • Aktienkurse: Unter der Annahme eines effizienten Kapitalmarkts sind in den Kursen sämtliche Informationen zur künftigen Geschäftsentwicklung enthalten. Unüblich starke Kursstürze können daher – bei gleichbleibender Verschuldung – als Warnsignale für eine Bonitätsverschlechterung aufgefasst werden (Merton-Modell).
  • Credit Spreads: Die Ausfallwahrscheinlichkeit spiegelt sich – ebenfalls unter der Annahme eines effizienten Kapitalmarkts – direkt in den Aufschlägen wieder, die Unternehmen zusätzlich zum risikofreien Zins zahlen müssen.

Frühwarnsysteme liefern im Allgemeinen Warnsignale bezüglich einer möglichen Rating-Verschlechterung. Anhand dieser Warnsignale können im Anschluss Re-Ratings getriggert und weitergehende Analysen durchgeführt sowie gegebenenfalls Portfolio- und Strategie-Anpassungen vorgenommen werden.

Ein wesentlicher Nachteil marktdatenbasierter Frühwarnsysteme ist, dass oftmals keine Marktdaten vorhanden sind. Bei – im Mittelstand üblichen – nicht-gelisteten Unternehmen ist eine frühzeitige Erkennung von Risiken daher nicht auf diese Weise möglich.

Das Internet als Informationsquelle

Im Zeitalter des Internets und insbesondere der Social-Media-Plattformen verbreiten sich Informationen in Sekundenbruchteilen weltweit. Da jeder User seine Meinung und sein Wissen allen mitteilen kann, sind oftmals hochgradig relevante Informationen zu Unternehmen öffentlich verfügbar. Die Kehrseite der Medaille ist allerdings, dass auch Falschinformationen und Gerüchte schnell verbreitet werden. Eine gründliche Analyse der Nachrichtenquellen hinsichtlich ihrer Glaubwürdigkeit ist daher unabdingbar.

Demgegenüber bieten ins Internet gestellte Artikel von Zeitungen, renommierten Blogs und weiteren anerkannten Nachrichtenquellen oft ebenfalls aktuelle und bonitätsrelevante Informationen zu Unternehmen – unabhängig davon, ob diese gelistet sind oder nicht. Insbesondere Lokalzeitungen sind aufgrund ihrer guten Vernetzung im Allgemeinen bestens über die Situation regionaler Unternehmen informiert. Entsprechende negative Meldungen gehen tatsächlichen Insolvenzen zum Teil mehrere Monate voraus, wie die folgenden Meldungen demonstrieren:

  • Ultrasonic AG (insolvent am 10.03.2015): "Ultrasonic AG: CEO und COO sowie Großteil der liquiden Mittel verschwunden", dpa-AFX (16.09.2014)
  • Deltoton GmbH (insolvent am 19.02.2015): "Anlagebetrug bei Deltoton ehemals Frankonia – fünf Männer in Untersuchungshaft", Versicherungsbote (28.12.2014)
  • Mitteldeutsche Fahrradwerke AG (insolvent am 29.09.2014): "Staatsanwaltschaft ermittelt gegen Ex-Mifa-Vorstand", Handelsblatt (26.08.2014)

Prinzipiell können damit durch das Beobachten relevanter Nachrichten wertvolle Informationen über möglicherweise drohende Insolvenzen gewonnen werden. Aufgrund der Vielzahl an Datenquellen und der Größe der Kundenportfolien vieler Banken ist eine manuelle Analyse allerdings kaum möglich. Verfahren aus dem Bereich Big Data und Data Science beziehungsweise Machine Learning bieten die Mittel für eine diesbezügliche automatisierte Beobachtung.

Big Data und Data-Science-Verfahren

Die Hard- und Software-Entwicklungen der letzten Jahre ermöglichen die strukturierte Analyse großer, teils unstrukturierter und aus verschiedenen Datenquellen stammenden Daten mittels verteilter Systeme (Big Data). Selbst mehrere Terabyte große Datenmengen sind aktuell (2016) problemlos verarbeitbar. Als Open Source vorliegende Software-Frameworks wie Hadoop und Spark ermöglichen hierbei die effiziente Parallelisierung von Rechenschritten über mehrere Rechner, sodass viel größere Datenmengen analysiert werden können als dies mit Einzelrechnern möglich wäre (auf Serverfarmen von Google und Yahoo sind zum Teil mehrere Tausend Computer zusammengeschaltet). Selbst Analysen von gesprochenen Nachrichten, Videos und Social-Media-Einträgen sind so möglich.

Daneben hat es im Bereich der Datenwissenschaft (Data Science) große Fortschritte bezüglich hocheffizienter Analyseverfahren für große Datenmengen gegeben. Zahlreiche hochkomplexe "Machine Learning"-Algorithmen können auf effiziente Weise Gesetzmäßigkeiten und Muster identifizieren. Die infrage kommenden Algorithmen lassen sich hierbei in zwei Gruppen unterteilen:

  • Supervised Algorithms ("beaufsichtigt"): Die Algorithmen "lernen" anhand vorgegebener Trainings-Daten, zwischen verschiedenen Kategorien zu unterscheiden. Nach dem "Training" können neue Datensets (mit bestimmten Konfidenzniveaus) den jeweiligen Kategorien zugeteilt werden. Gängige Algorithmen sind beispielsweise "Decision Trees" (Algorithmen auf Basis informationstheoretischer Entscheidungsbäume), "naive Bayes" (als Ausgangsbasis dient die Bayes-Formel zur Ermittlung bedingter Wahrscheinlichkeiten), "Support Vector Machine" (hierbei werden Hyperflächen als Kategorie-Grenzen für mehrdimensionale Datensätze ermittelt) oder logistische Regressionen. Daneben werden oft "Ensemble Learner" eingesetzt, die als Meta-Modelle mehrere verschiedene Algorithmen aussuchen und – je nach Verfahren – zum Beispiel die "Mehrheitsmeinung" ermitteln.
  • Unsupervised Algorithms ("unbeaufsichtigt"): Hier findet kein "Training" statt. Der Algorithmus gruppiert die Daten stattdessen mit vorgegebenen Kriterien zu Clustern beziehungsweise identifiziert Ausreißer und Anomalien. Im weiteren Sinne fällt auch der Kaufempfehlungs-Algorithmus von Amazon in diese Gruppe.

Die genannten Algorithmen sind inzwischen in vielen zum Teil frei erhältlichen Software-Paketen wie R, Python, RapidMiner oder kommerziellen Programmen wie SAS, Lavastorm und IBM Analytics implementiert.

Textanalysen von Nachrichten

Texte können wie andere Daten auch mittels der genannten Algorithmen analysiert werden, müssen jedoch zuvor entsprechend vorbereitet werden. Üblicherweise werden hierfür zunächst sehr häufig vorkommende Wörter (beispielsweise "der", "die", "das", "und", "oder") sowie als irrelevant erachtete Begriffe (beispielsweise "Login", "Logout" oder Unternehmensnamen in Trainings-Daten) entfernt (Stopwords). Im Anschluss werden – je nach zu analysierender Sprache – Wortstämme gebildet.

Pro Text kann dann ein Eintrag in einer "Term Document Matrix" (TDM) erstellt werden, einer hochdimensionalen Datenstruktur, deren Dimensionen Wörtern und häufigen Wortkombinationen entsprechen (die Einträge der TDM sind für gewöhnlich für das jeweilige Wort bzw. die Wortkombination ("n-gram") ermittelte "Term Frequency - Inverse Document Frequency" (TF-IDF), einer Kennzahl, die die Signifikanz eines Wortes (bzw. Wortkombination) für das jeweilige Dokument im Vergleich zu seinem allgemeinen Vorkommen angibt). Die TDM weist für gewöhnlich sehr viele Dimensionen auf und wird daher meist nach informationstheoretischen Gesichtspunkten auf einige hundert Dimensionen reduziert (eine wichtige Kennzahl dafür ist die "Information Gain" (Informationsgewinn). Diese gibt an, wie groß die Entropieabnahme der Text-Gesamtheit ist, wenn ausschließlich das gewählte Wort (bzw. die Wortkombination) als Trennkriterium verwendet wird). Die so bearbeitete TDM kann im Anschluss mit den genannten Algorithmen analysiert werden. Die Gruppierung von Texten zu verschiedenen Kategorien ist nach entsprechendem "Training" genauso möglich wie die Gruppierung von Artikeln oder die Identifizierung ungewöhnlicher Einträge.

Gängige Anwendungen für die genannten Verfahren sind beispielsweise die Gruppierung von unternehmensinternen Dokumenten oder die Klassifikation von Handelsnachrichten nach ihrer Relevanz bis hin zum nachrichtenbasierten algorithmischen Handel.

Der Weg zum nachrichtenbasierten Rating-Frühwarnsystem

Mit den genannten Analyseverfahren steht die Basis für ein nachrichtenbasiertes Frühwarnsystem zur Verfügung. Sofern eine Liste insolvent gegangener Unternehmen (inklusive des jeweiligen Insolvenzdatums) vorliegt, die

  • sich namentlich eindeutig voneinander trennen lassen,
  • denselben – von der Bank definierten – Branchen und Kundensegmenten angehören,
  • keinen Branchen angehören, die "intrinsisch" viele Nachrichten produzieren (beispielsweise Medien),
  • bekannt genug sind, um in Internet-Foren, Lokalzeitungen etc. präsent zu sein

und eine Referenz-Liste nicht-insolventer Unternehmen erstellt wurde, lassen sich entsprechende Nachrichten beziehen und als Trainings-Daten für Klassifikations-Algorithmen verwenden. Hierbei sind jedoch zwingend urheberrechtliche Restriktionen bezüglich des Speicherns von Nachrichten zu beachten.

Nach dem Training der Algorithmen können Nachrichten zu Unternehmen derselben "Referenzklasse" hinsichtlich Insolvenz-Signalen untersucht werden. Liegen Wörter oder Wortkombinationen vor, die eine große Ähnlichkeit zu denen im Falle insolvent gegangener Unternehmen aufweisen, erfolgt eine Zuordnung in die entsprechende Kategorie.

Obwohl das Verfahren damit prinzipiell funktionsfähig ist, müssen Banken vor einem tatsächlichen Einsatz mehrere weitere Punkte klären, wie

  • die organisatorische Einbindung hinsichtlich der Festlegung von Verantwortlichkeiten und Zuständigkeiten, Prozessen und Arbeitsanweisungen sowie der Einbindung in die Reporting-Prozesse
  • Verfahren zur Sicherstellung der methodischen Korrektheit, insbesondere hinsichtlich der Kompatibilität zu Rating-Methoden, Definition von Validierungsschritten und Metriken (beispielsweise analog PD)
  • den automatischen und anonymen Bezug der Trainings- und Analyse-Daten
  • die IT-Integration hinsichtlich Datenmodell, -haushalt und -pflege, Definition von Schnittstellen, Run- und Change-Prozesse
  • rechtliche Fragestellungen bezüglich Urheberrecht, Vertraulichkeit und Datenschutz sowie mögliche Auswirkungen auf die Reputation

Ausblick

Nach der erfolgreichen Integration in die Prozesslandschaft bieten sich für die Banken zahlreiche Vorteile und Weiterentwicklungsmöglichkeiten.

Generell verbessert sich der Überblick über die Risikosituation. Durch die frühzeitige Erkennung bisher unerkannter Kredit-Risiken verbessert sich insbesondere die Reaktionsfähigkeit im Vorfeld drohender Verluste. Die Nachrichtenlage kann zudem als wichtiger Zusatzparameter zu den Ratings in die Portfolio-Analysen einfließen und zum Aufzeigen möglicher unerkannter Problemfelder führen.

Aus prozessualer Sicht verbessert sich insbesondere die Informationsverarbeitungs-Effizienz durch das Realtime-Screening großer Portfolien. Suchergebnisse können archiviert und zielgruppenbezogen in Reports dargestellt werden.

Schließlich hat ein webbasiertes Frühwarnsystem das Potential zur Erweiterung des Monitorings beliebiger Risiken bis hin zu den "Unknown Unknowns". Perspektivisch sind hierbei Erweiterungen hin zu einem umfassenden Monitoring interner und externer Bedrohungen unter Einbeziehung von Reputationsrisiken vorstellbar.

Autor:

Dr. Dimitrios Geromichalos ist Team Manager Risikomanagement bei der EXXETA AG. Er verfügt über langjährige Erfahrung als Bankangestellter, Prüfer und Berater in der Finanzdienstleistungsbranche. Sein Fokus liegt im quantitativen Risk Management und der Anwendung von Data-Science-Verfahren auf Fragestellungen der Finanzbranche.

Dr. Dimitrios Geromichalos ist Team Manager Risikomanagement bei der EXXETA AG.

[ Source of cover photo: © everythingpossible - Fotolia.com ]
Risk Academy

The seminars of the RiskAcademy® focus on methods and instruments for evolutionary and revolutionary ways in risk management.

More Information
Newsletter

The newsletter RiskNEWS informs about developments in risk management, current book publications as well as events.

Register now
Solution provider

Are you looking for a software solution or a service provider in the field of risk management, GRC, ICS or ISMS?

Find a solution provider
Ihre Daten werden selbstverständlich vertraulich behandelt und nicht an Dritte weitergegeben. Weitere Informationen finden Sie in unseren Datenschutzbestimmungen.