Analysen: Publisher or perish


Automatisiert Berichte zu aktualisieren und zu verteilen – mit dem Publisher werden derartige Routineaufgaben zur kinderleichten Übung. Die gewonnene Zeit lässt sich nutzen, um nun weiterführende, komplexere Analysen durchzuführen – natürlich mit dem Publisher.

Der Publisher – in DeltaMaster 5 als Berichtsserver bekannt – ist universell einsetzbar, um Berichte aktualisiert und konfektioniert in einer für den Adressaten genehmen Form zu übermitteln. Dieser kann dabei aus einer großen Anzahl von möglichen Formaten (z. B. Word, PDF, Powerpoint, Excel, DeltaMaster-Analysesitzung, Mobile, Html usw.) und diversen Verteilungsarten (file, ftp, mail, print, repository) eine passende Kombination auswählen.

Weniger bekannt ist, dass der Publisher nicht nur Monatsberichte verteilen kann, sondern auch bei der Erstellung von komplexeren Analysen hilfreich zur Seite steht.

In unserem Szenario betrachten wir einen Lebensmittelhändler, der mehrere Filialen betreibt und nun gerne einmal überprüfen will, welche Produkte des Öfteren gemeinsam im Einkaufswagen landen. Wir schauen hier auf die etwas höher gelegene Ebene der Produktkategorie, die bereits mehrere mögliche Einzelprodukte zusammenfasst – bspw. Nudeln als Oberbegriff anstelle der tatsächlich verfügbaren konkreten Produkte von diversen Marken in diversen Packungsgrößen.

Die von DeltaMaster erzeugten relevanten RegelnDie von DeltaMaster erzeugten relevanten Regeln

In unserem fiktiven Beispiel haben wir die an einem Vormittag angefallenen 5000 Einkäufe aus den insgesamt 12 Filialen ausgewertet.

Die in DeltaMaster verwendete Warenkorbanalyse ergibt die oben stehenden Regeln (klicken Sie bitte auf die Grafik für eine vergrößerte Darstellung!).

Schauen wir uns einmal die wichtigsten Kennzahlen der ersten erzeugten Regel genauer an:

Bei Milchreis und Joghurt geht etwas!Bei Milchreis und Joghurt geht etwas!

Bei 2.50 % der Einkäufe – also für 125 Kunden – waren Milchreis und Joghurt gemeinsam im Einkaufswagen. Insgesamt hatten 459 Kunden Milchreis und 934 Kunden Joghurt gekauft (diese absoluten Anzahlen sind an anderer Stelle einsehbar!).

Zur Veranschaulichung sei noch folgende Hilfstabelle mit benötigten Häufigkeiten angegeben:

Hilfstabelle der relevanten HäufigkeitenHilfstabelle der relevanten Häufigkeiten

Mit ihrer Hilfe lässt sich die Berechnung der angegebenen Kennzahlen der Regel leichter nachvollziehen:

Von den 459 Kunden mit Milchreis hatten 125 Kunden auch den Joghurt im Wagen, das sind 125 / 459 = 27.23 % (-> abhäng. Wahrscheinlichkeit). Von den 5000 Kunden hatten 934 Joghurt gekauft, das entspricht einer Quote von 934 / 5000 = 18.68 %. Die 27.23 % sind im Vergleich hierzu 27.23 / 18.68 = 1.46-mal (-> Lift) höher. Es ist also 1.46-mal wahrscheinlicher, einen Kunden mit Joghurt anzutreffen, wenn man sich auf die Milchreiskunden beschränkt.

4541 Kunden hatten keinen Milchreis gekauft. Hiervon hatten 809 den Joghurt erworben, das entspricht einer Quote von 809 / 4541 = 17.82 % (-> ConfNotA_B). Das heißt, teilt man die Kunden in Milchreiskunden und Nicht-Milchreiskunden auf, so trifft man in der ersten Gruppe mit einer 27.23 / 17.82 = 1.53-mal (->Relatives Risiko) höheren Wahrscheinlichkeit Joghurtkäufer an.

Schließlich gibt die Regelstärke (Conviction) eine weitere Möglichkeit an, die Besonderheit der Regel zu messen. Hier muss etwas um die Ecke gedacht werden und es werden die Kunden betrachtet, die zwar Milchreis, aber nicht den Joghurt kaufen: 334 / 459 = 72.77 % kaufen Milchreis, aber nicht den Joghurt. Insgesamt gesehen kaufen 4066 / 5000 = 81.32 % nicht den Joghurt. Milchreis auf dem Warenband verringert somit definitiv die Chance, einen Nicht-Joghurtkäufer vor sich zu haben. Minus mal Minus ergibt Plus. Der Quotient der Prozentzahlen beträgt 81.31 / 72.77 = 1.12 und dies ist die Definition der Regelstärke.

Gute Regeln haben möglichst große Werte bei der Häufigkeit und der abhängigen Wahrscheinlichkeit, während die Kennzahlen Lift, Relatives Risiko und Regelstärke tunlichst deutlich größer als 1 sein sollten.

Nach diesem kleinen Ausflug in die Bedeutung der wichtigsten Kennzahlen der Warenkorbanalyse kommen wir zum eigentlichen Thema dieses Blogbeitrags: Wie kann der Publisher bei der Analyse behilflich sein?

Hier in unserem Szenario hatte der Filialleiter von Filiale 11 angemahnt, dass die Kombination Trockenobst und Gans bei ihm doch gut lief und er sich wundert, eine passende Regel im zugeschickten Bericht nicht entdecken zu können. Tatsächlich ergibt die globale Warenkorbanalyse einen wenig beeindruckenden, vernachlässigbaren Zusammenhang:

Kein Zusammenhang zwischen Trockenobst und Gans?Kein Zusammenhang zwischen Trockenobst und Gans?

Wie passt das mit der Beobachtung in der Filiale 11 zusammen?

Hier wurde vergessen zu berücksichtigen, dass das Sortiment von Filiale zu Filiale variiert und außerdem möglicherweise regionale Vorlieben vorliegen könnten. Nur 28 der 108 Produktkategorien sind in allen 12 Filialen vertreten.

Wenn nun beispielsweise ein Wenn-Produkt in allen, aber ein Dann-Produkt nur in 2 Filialen zu erwerben ist, wird die abhängige Wahrscheinlichkeit sehr gering sein, da ja die Kunden in 10 der 12 Filialen gar nicht die Möglichkeit haben, das Dann-Produkt zu kaufen. Zusätzlich wird die Häufigkeit des gemeinsamen Kaufes gering sein, sodass die Regel eine etwaige angesetzte Mindesthäufigkeit von vornherein nicht überschreitet.

In unserer Analyse werden somit die 28 global erhältlichen Stammproduktkategorien tendenziell bevorzugt und lokale Abhängigkeiten leicht übersehen. Um diesem Nachteil entgegenzuwirken, bleibt uns nichts anderes übrig, als die Analyse pro Filiale durchzuführen.

Hier kommt der Publisher in Gestalt des Berichtsmappengenerators ins Spiel. Dieser erlaubt, einen beliebigen Bericht mehrfach unter variierenden Bedingungen zu iterieren und sämtliche Berichte in einer einzigen das-Sitzung abzuspeichern.

Bei 12 Filialen könnte man wohl noch die Berichte manuell anlegen, aber schneller und sicherer geht es automatisiert.

Hier generieren wir eine Warenkorbanalyse für jede der 12 Filialen. Dabei haben wir nun für die Regelgenerierung einen Mindest-Lift von 1.5 und eine Mindesthäufigkeit von 1 % angesetzt.

Nach ein paar Sekunden ist der Publisher-Job auch bereits wieder beendet und hat eine das-Datei generiert, die individuelle Berichte für die Filialen enthält:

Automatisch generierte Warenkorbanalysen für alle FilialenAutomatisch generierte Warenkorbanalysen für alle Filialen

Der Filialleiter von 11 ist nun auch zufrieden, da die von ihm getätigten Beobachtungen über Trockenobst und Gans durch die gefundene Regel bestätigt werden:

Trockenobst und Gans bilden in Filiale 11 eine gern gekaufte KombinationTrockenobst und Gans bilden in Filiale 11 eine gern gekaufte Kombination

Für die Filiale 11 gilt: In einem Warenkorb mit einer Gans trifft man Trockenobst mit einer 3.4-mal höheren Wahrscheinlichkeit an als in einem Warenkorb ohne Gans.

Nun lassen sich die spezifischen Regeln jeder Filiale in Ruhe inspizieren. Sollten in einer Filiale keine Regeln erzeugt werden, da Mindest-Lift und Mindesthäufigkeit nicht erreicht werden, lässt sich im Reiter Exception Reporting der Berichtseigenschaften des Ausgangsberichts angeben, dass ein solcher Bericht vom Publisher dann überhaupt nicht angezeigt werden soll.

Mit dem Berichtsmappengenerator ließen sich sogar 2 oder mehr Dimensionen kombinieren: Sei jede Filiale in Regale oder Parzellen eingeteilt (deren Nummerierungen zwischen Filialen nicht vergleichbar sind) und es seien nur Regeln innerhalb eines Regals/einer Parzelle gesucht, so ließen sich (bei angenommenen 25 Parzellen pro Markt) die entstehenden 12 * 25 = 300 Warenkorbanalysen gleichermaßen automatisch generieren! Viel Spaß dem Mitarbeiter, der dies manuell durchführen möchte!

Die Ergebnissitzung besitzt dann zum Beispiel die folgende Ordnerstruktur:

300 Warenkorbanalysen per Knopfdruck!300 Warenkorbanalysen per Knopfdruck!

Berichte ohne Regeln ließen sich wieder per Exception Reporting unterdrücken.

Kehren wir zu unserem eindimensionalen Beispiel zurück. Hier ist noch nicht das Ende der Analysen-Fahnenstange erreicht: Vielleicht möchte man die Regeln der einzelnen Filialen direkter vergleichen.

Die Berichte lassen sich nach Excel exportieren – entweder manuell oder eben wieder mit dem Publisher, indem z. B. in einer Kopie des bereits angelegten Jobs anstelle „das“ das Ausgabeformat „xls“ gewählt wird – und weiterverarbeiten.

Aus der Häufigkeit und dem Lift lässt sich die Cosinus-Ähnlichkeit berechnen, die im Blog-Beitrag Wie man einen Korb bekommt bereits näher beschrieben wurde. Je größer der Wert, umso größer die Überlappung der Käufer, die die beiden Produkte erwerben.

Über alle Filialen hinweg lassen sich nun beispielweise die Top-Regeln berechnen:

Diese Produkte werden in der jeweils genannten Filiale gerne zusammen gekauftDiese Produkte werden in der jeweils genannten Filiale gerne zusammen gekauft

Der Cosinus-Zusammenhang ist ein symmetrisches Maß, deshalb erscheinen hier immer zwei Regeln zu einem Produktpaar.

Beide Regeln mitzuführen ist im folgenden Fall nützlich, wenn passende Ergänzungsprodukte mit Cross-Selling-Potenzial gesucht werden.

Beispielsweise wurden günstig Schweineschnitzel eingekauft. In welcher Filiale gibt es passende Kandidaten für eine Werbeaktion? Die Analyse mit DeltaMaster ergibt folgende Vorschläge:

Wenn Schweineschnitzel, dann ...Wenn Schweineschnitzel, dann …

In den Filialen 2 und 7 kann man hier einige gut passende Kombinationen entdecken.

Regeln bzw. ihre Kennzahlen ließen sich auch über die Zeit verfolgen, um ihre Stabilität besser einschätzen zu können.

Die Übertragbarkeit von erzeugten Regeln auf andere Filialen ließe sich je nach Hypothese testen. Tritt beispielsweise nur bei der einzigen Filiale mit einem geringen räumlichen Abstand – etwa bei Positionierung innerhalb eines Regals – zwischen zwei Produkten ein hoher Zusammenhang auf, könnte in den anderen Filialen geprüft werden, ob tatsächlich eine verringerte räumliche Nähe gemeinsame Käufe erhöht.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.