Gruppierung: Klassen-Keile

Die Responsequote einer Werbeaktion soll nach Alter der kontaktierten Personen ausgewertet werden. Das Alter ist in Jahren angegeben; bei der Auswertung sollen jedoch einige wenige zusammenhängende Altersklassen gebildet werden, die bzgl. der Responsequote als homogen angesehen werden können.

Eine übliche Methode besteht darin, ohne Berücksichtigung der Quote einfach gleich große Intervalle zu bilden: 15-25, 25-35, 35-45 usw. Dieses Vorgehen ist suboptimal, falls in einem solchen Intervall ein Bruch der Quote auftritt – bspw. könnten sich im ersten Intervall Volljährige anders verhalten als die jüngeren Personen dieser Gruppe.

Problem der Zusammenfassung von KlassenEin häufiges Problem: wie fasst man nach Alter der Befragten zusammen? Gleichbreite Gruppen sind eine ebenso häufige wie unbefriedigende Antwort. Unser Algorithmus kann das besser.

Eine weitere Möglichkeit wäre, direkt die Responsequote zu verwenden und einen automatisierten Ansatz der Gruppierung zu verwenden, den wir in Niveauänderungen in Zeitreihen beschrieben haben. Bei der direkten Verwendung der Quote geht jedoch die Information verloren, wie viele Personen kontaktiert wurden und wie viele von ihnen geantwortet haben. Solange alle Altersstufen ungefähr gleich häufig vertreten sind, ist dies kein Problem. Falls jedoch die Anzahl der Kontaktierten über die Altersstufen variiert, können bei Verwendung der einfachen Quote Alterklassen mit nur wenigen Beobachtungen einen unangemessen großen Einfluss bekommen.

Wir haben deshalb einen Algorithmus entwickelt, der mit diesem Problem umgehen kann.

Betrachten wir die folgende einfache Tabelle mit künstlichen Daten, bei der 10 Altersstufen vertreten sind, von denen Stufe 4 als einzige eine geringe Anzahl aufweist.

Alter12345678910
Anzahl1001001008100100100100100100
Response2627236282340423840
Quote26%27%23%75%28%23%40%42%38%40%

Angenommen, es werden nur 2 Segmente benötigt. Gehen wir nur nach der Quote, werden mit unserem Algorithmus aus Niveauänderungen in Zeitreihen folgende zwei Segmente erzeugt: das erste enthält die Altersstufen 1 bis 3 und das zweite die restlichen Stufen von 4-10. Unser speziell für Häufigkeiten optimierter Algorithmus berücksichtigt hingegen, dass der Schätzer 75% bei Stufe 4 auf recht schwachen Füßen steht (nur 8 Beobachtungen!).

Der Algorithmus erkennt, dass die Stufen 5 und 6 viel besser zu 1 bis 3 passen und die abweichende Quote der Stufe 4 wird „überstimmt“, da sie nur aus wenigen Beobachtungen berechnet wird. Die folgende Grafik zeigt die erhaltene Einteilung:

Optimale Aufteilung in 2 GruppenOptimale Aufteilung in 2 Gruppen

Der weiße waagerechte Strich gibt für jede Altersstufe die erwartete Responsehäufigkeit an, falls die Rücklaufquote aus allen Stufen der zusammengefassten Elemente berechnet wird, bspw. ergibt sich für die zweite Gruppe ein Wert von (40+42+38+40)/(100+100+100+100)=40% und für die erste Gruppe ein Wert von 26.2%.

Wird eine Anzahl von 4 Segmenten vorgegeben, entsteht diese nicht allzu überraschende Aufteilung:

Die erwartete Aufteilung in 4 GruppenDie erwartete Aufteilung in 4 Gruppen

Der Algorithmus arbeitet flott: Die automatische Einteilung von Daten mit 100 Altersstufen in 15 zusammenhängende Bereiche wie in unserer ersten Grafik dargestellt benötigt weniger als 1 Sekunde.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.