Analysen: Alles im Kasten


Ein wichtiges Teilgebiet der Predictive Analytics versucht die Frage zu beantworten, ob Kunden eine bestimmte Aktion durchführen werden oder nicht. Die möglichen verwendbaren Modelle sind zahlreich und ihr Innenleben ist nicht immer leicht zu durchschauen. Gibt es Möglichkeiten, das Verhalten der Black Box besser zu verstehen?

Als Anwendungsbeispiel nehmen wir eine Online-Bank her, die von Zeit zu Zeit personalisierte Neuigkeiten an den Kunden senden möchte, um diesen zu informieren und bei Anlagelaune zu halten. Hier sei ein neuer Fonds in Planung, der demnächst aufgelegt werden soll. Welche Kunden profitieren von dieser Nachricht?

Natürlich möchte man einen Kunden nicht mit für ihn unnützen Informationen ablenken oder sogar belästigen. Die Nachricht soll zielgerichtet an möglichst interessierte Kunden verschickt werden. In der Nachricht ist ein Link angegeben, der ausführliche Informationen zum Fonds liefert. Das Anklicken dient als Nachweis des Interesses.

Hier in diesem Beispiel sollen der Einfachheit halber nur die relativ statischen Fakten über den Kunden hergenommen werden, die sich kurzfristig nicht ändern werden. Der Ansatz könnte noch in der Form erweitert werden, dass er auch die bisherigen Reaktionen auf Newszusendungen beinhaltet.

Vorliegende Informationen über die BankkundenVorliegende Informationen über die Bankkunden

Für jeden Kunden liegen somit Angaben über die obenstehenden Kriterien vor. Aus den bisherigen Erfahrungen wurden die orangefarbenen Variablen als diejenigen mit gesichertem Einfluss angenommen.

Unsere Bank besitzt ca. 1 Mio. Kunden, die zugestimmt haben, mit weiteren Informationen versorgt zu werden.

In einer Testaussendung wurden etwa 10.000 Kunden zufällig aus der Gesamtheit aller Kunden ausgewählt und ihr Reaktionsverhalten auf den Newsbeitrag analysiert. Die gewonnenen Erkenntnisse sollen auf eine zweite, mit der ersten Gruppe überschneidungsfreie Kontrollgruppe angewendet werden, bevor die große Aussendung an eine hoffentlich hochinteressierte Teilmenge der übrigen Kunden stattfinden wird.

Zunächst soll veranschaulicht werden, warum simples Auszählen der Testaussendung zur Bestimmung der besten Kundensegmente meistens keine gute Idee ist. Werden alle 5 relevanten Dimensionen in einer grafischen Tabelle verwendet und wird gezählt, wie häufig eine bestimmte Kombination auftrat und wie oft geklickt wurde, ergibt sich die folgende, absteigend nach Häufigkeiten sortierte, hier verkürzt dargestellte Tabelle:

Anzahlen und Klickhäufigkeiten für bestimmte KundensegmenteAnzahlen und Klickhäufigkeiten für bestimmte Kundensegmente

Während die zuerst genannten Kombinationen noch relativ häufig vorkommen und ein Schätzer, der z. B. auf 143 Beobachtungen aufbaut, einigermaßen stabil ist, taucht ein Großteil der Kombinationen sehr selten oder gar nicht auf.

Von den 1377 Kombinationen dieser Tabelle treten beispielsweise 486 Kombinationen nur mit einer einzigen Beobachtung auf. Wenn die wahre Klickwahrscheinlichkeit 50 % beträgt, kann das Ergebnis einer solchen Mini-Stichprobe nun 1 Klicker oder 0 Klicker sein. Arbeitet man ohne weitere Vorsichtsmaßnahmen direkt mit den relativen Häufigkeiten, wird die wahre Klickwahrscheinlichkeit dann mit 100 % entweder deutlich über- oder mit 0 % deutlich unterschätzt.

Dass die Fallanzahlen pro Kombination mit wachsender Anzahl der verwendeten Dimensionen schrumpfen, nennt man auch den „Curse of dimensionality“.

Hat man nun außerdem in der Kontrollgruppe oder in der Massenaussendung Kunden mit Eigenschaftskombinationen, die in der Testaussendung nicht vorkamen, lässt sich durch simples Zählen überhaupt keine Prognose erstellen.

Gesucht ist deshalb ein probabilistisches Modell, das mit den Daten der Testaussendung angepasst wird und anschließend für jeden Kunden mit seinen Eigenschaften eine Wahrscheinlichkeit generieren kann, dass der Link in der Nachricht angeklickt wird. Solche Modelle sind mächtiger als ebenfalls existente, die nur die Entscheidung ja/nein ausgeben, aber dieses sozusagen ohne nähere quantitative Begründung.

Liegt ein probabilistisches Modell vor, besitzt dieses somit den Vorteil, dass der Threshold, ab welcher Höhe die Aussendung erfolgen soll, auch nachträglich verändert werden kann.

DeltaMaster liefert mit dem Selector ein Analyseverfahren, das ein solches Modell generieren kann. Die Anwendung des Selectors soll hier jedoch nicht im Vordergrund stehen, sondern die Analyse der Ergebnisse. Alternativ könnte die Vorhersage auch mit einem externen Modell generiert worden sein, beispielsweise durch ein neuronales Netz, welchem man gerne Black-Box-Eigenschaften nachsagt. Ein solches neuronales Netz kann gut funktionieren, aber wie die vorhergesagten Wahrscheinlichkeiten entstehen, kann schwerer nachvollzogen werden.

Angenommen, wir haben mit den 5 genannten Dimensionen mit den Daten der Testaussendung ein Modell angepasst und für die Kontrollgruppe die Wahrscheinlichkeiten vorhersagen lassen, dass ein Kunde klicken wird. Zu jeder Kunden-Id existiert dann eine mit dem Modell vorhergesagte Wahrscheinlichkeit M_p_klick, die für die ersten 10 Kunden so aussehen könnte:

Vorhergesagte Klickwahrscheinlichkeiten für die ersten 10 KundenVorhergesagte Klickwahrscheinlichkeiten für die ersten 10 Kunden

Möchte man genau wissen, welche Personen laut Modell als besonders klickfreudig eingeschätzt werden, muss man auch alle 5 im Modell verwendeten Dimensionen angeben. Die letzten beiden Spalten geben den Klickanteil und die Anzahl der jeweils betroffenen Kunden in der ca. 10.000 Personen umfassenden Kontrollgruppe an.

Kundeneigenschaften mit vorhergesagter hoher KlickaffinitätKundeneigenschaften mit vorhergesagter hoher Klickaffinität

Die in dieser Tabelle aufgeführten ermittelten Wahrscheinlichkeiten werden prinzipiell später für die Auswahl der Adressaten verwendet. Vereinfacht gesagt werden alle Kunden mit einer Klickwahrscheinlichkeit über einem noch zu bestimmenden Threshold benachrichtigt.

Wir wollen uns hier aber eher mit Möglichkeiten der Interpretation der Eigenschaften der klickenden Kunden beschäftigen.

Dieser Ausschnitt legt nahe, dass hohes Einkommen und die passende Altersklasse 4 zumindest nicht schaden können.

Leider hat diese Tabelle aber insgesamt knapp 1400 Einträge und ist dementsprechend unübersichtlich. Außerdem werden die meisten sichtbaren Variablenkombinationen auch häufig nur von 1 oder 2 Personen erfüllt und jede Zeile erfasst somit nur einen sehr kleinen Ausschnitt des Kundenkreises. Eine solche Tabelle verspricht somit nur bedingt schnell erfassbare Erkenntnisse.

Wir versuchen nun, uns mit Boxplots einen besseren Überblick zu verschaffen, wie das angepasste Modell „denkt“. Dazu werden statistische Analysewerte wie Median und Quartile zu den Klickwahrscheinlichkeiten M_p_klick auf der Ebene der Kunden_Id erzeugt:

Definition von LageparameternDefinition von Lageparametern

Die Namen für die Quartile und die anderen Größen wurden für die folgende Tabelle verkürzt. Wir verwenden hier zur besseren Orientierung die Konvention, dass alle Größen, die aus dem angepassten Modell folgen, mit einem M anfangen.

Wenn nun weniger als 5 Dimensionen in einer Tabelle auftreten, so variieren die Kunden in den nicht sichtbaren Dimensionen und werden fast immer verschiedene Klickwahrscheinlichkeiten besitzen, deren Verteilung mit dem Boxplot gut wiedergegeben werden kann. Zur Erinnerung: Der Boxplot-Balken zeigt die Werte Minimum, unteres Quartil (25 % – Punkt), Median (50 % – Punkt), oberes Quartil (75 % – Punkt) und Maximum in kompakter Form.

Für unsere 5 im Modell verwendeten Dimensionen ergeben sich beispielsweise die folgenden eindimensionalen Tabellen (klicken Sie bitte auf die Grafik für eine vergrößerte Darstellung!):

Die Verteilung der vorhergesagten Wahrscheinlichkeiten für die 5 im Modell verwendeten VariablenDie Verteilung der vorhergesagten Wahrscheinlichkeiten für die 5 im Modell verwendeten Variablen

Je stärker ein Wert einer Variable die Wahrscheinlichkeit beeinflusst, desto schmaler wird der Boxplot speziell im Bereich des Intervalls vom unteren Quartil MQ25 bis zum oberen Quartil MQ75. Maximum und Minimum sind etwas empfindlichere Maße.

Da übrigens die zwei Personen mit der kleinsten (7.9 %), bzw. der größten (90.1 %) vorhergesagten Wahrscheinlichkeit in jeder der 5 Einzeltabellen auftauchen, ist automatisch eine gemeinsame, vergleichbare Skala über die 5 Tabellen hinweg garantiert.

Es lässt sich nun ablesen, dass speziell das Jahreseinkommen die Richtung vorgibt. Bei den beiden niedrigen Gehaltsklassen ist die Bereitschaft zum Anklicken tendenziell geringer.

Weiterhin ist es möglich, die Qualität des Modells anhand eines einfachen Kriteriums zu überprüfen. Der angegebene Mittelwert wird auf den vorhergesagten Wahrscheinlichkeiten berechnet. Die Summe der Wahrscheinlichkeiten in einem Segment entspricht gleichzeitig der erwarteten Anzahl von Klickern. Teilt man diese Zahl durch die Anzahl der Kunden dieses Segments, entsteht besagter Mittelwert.

Wenn die Qualität des Modells gut ist, sollte dieser Mittelwert ungefähr dem tatsächlichen Anteil auf der Kontrollgruppe, der in der letzten Spalte angegeben ist, entsprechen.

Im Falle der Altersstufen sind die Werte sehr ähnlich, für die anderen Dimensionen ergibt sich, dass das Modell die Wahrscheinlichkeiten stärker spreizt, als es den tatsächlich beobachteten Anteilen entspricht. Wahrscheinlichkeiten über 50 % fallen im Vergleich zu den tatsächlichen Anteilen etwas zu hoch, Wahrscheinlichkeiten unter 50 % etwas zu niedrig aus.

Die Sortierung der Mittelwerte entspricht hier aber fast immer der Sortierung der tatsächlichen Anteile.

Selbst für Variablen, die bei der Modellierung nicht verwendet wurden, kann womöglich eine Struktur beobachtet werden:

Die Verteilung der vorhergesagten Wahrscheinlichkeiten für 3 im Modell nicht verwendete VariablenDie Verteilung der vorhergesagten Wahrscheinlichkeiten für 3 im Modell nicht verwendete Variablen

Autobesitz hat hier einen offensichtlichen Zusammenhang mit der vorhergesagten Wahrscheinlichkeit, hervorgerufen durch Korrelationen mit den 5 verwendeten Variablen, höchstwahrscheinlich hauptsächlich mit der Gehaltsklasse.

Man kann sich auch Kombinationen von zwei Dimensionen anzeigen lassen. Nehmen wir beispielsweise das aktuelle Jahreseinkommen in Kombination mit der Kreditkarte, ergibt sich folgendes Bild:

Boxplots für Einkommen-Kreditkarten-KombinationenBoxplots für Einkommen-Kreditkarten-Kombinationen

Studiert man diese Boxplots, so ließe sich vereinfachend die Aussage ableiten, dass eine normale Kreditkarte ein Ausschlusskriterium für besonders hohe Klickwahrscheinlichkeiten ist. Für mittlere Klickraten muss bei normaler Kreditkarte kompensierend wenigstens ein hohes Einkommen vorliegen. Bei niedrigen Einkommen ist das Fondsinteresse generell gering.

Modelle ließen sich nun für verschiedene demnächst aufgelegte Produkte der näheren Zukunft erstellen und eine Auswahl derjenigen Produkte wird dann dem Kunden per Newsletter vorgestellt, die laut Modellvorhersage im Vergleich zu den anderen Produkten die höchsten vorhergesagten Klickwahrscheinlichkeiten erreichen und gleichzeitig auch einen Mindestschwellwert wie bspw. 50 % übertreffen. Dabei könnten bei einem Überangebot von möglichen Vorschlägen noch andere Attribute zur Diversifikation berücksichtigt werden.

Die Festlegung des Thresholds kann überhaupt aber nur dann erfolgen, wenn eine negative Reaktion wie etwa das Abbestellen des Newstickers in einer passenden Weise bewertet werden kann.

Bisher wurde nur ein einziges Modell für die Vorhersage verwendet. Üblicherweise durchläuft man hier noch eine Optimierungsschleife. Bereits durch die Wahl der zu verwendenden Dimensionen könnte ein Performancesprung erreicht werden.

Liegen mehrere Verfahren für die Modellierung der Klickwahrscheinlichkeit vor, so kann mit Methoden der Modellauswahl der bezüglich zur Zielsetzung am besten passende Ansatz ausgewählt werden.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.