Prognosen: Wie erwartet weniger als erwartet

Sollte man das eigene Vermögen dem Fondsmanager des Jahres anvertrauen? Wird der Bewerber mit dem besten Abschneiden beim Eignungstest das halten, was er verspricht? Wir erläutern heute, warum es eigentlich nicht überraschen sollte, dass ein ausgewählter Bestperformer dazu neigt, in der Folge eher schwächere Ergebnisse als erwartet abzuliefern.

Betrachten wir einmal eine Gruppe von Personen, deren Potenzial beurteilt werden soll. Dies kann beispielsweise über einen Leistungstest in der Schule, durch das Umsatzergebnis der geführten Filiale oder aufgrund des relativen Zuwachses des verwalteten Fonds erfolgen.

In unserem Szenario hat jede Person ein theoretisches Potenzial; das tatsächlich erhaltene Ergebnis wird aber auch zufällig durch die Tagesform der Kandidaten beeinflusst. Als Modell verwenden wir eine Normalverteilung, deren Erwartung das theoretische Potenzial beschreibt und deren Varianz den zufälligen Einfluss wiedergibt. Wir nehmen an, dass die Tagesform der Kandidaten nicht von einer gemeinsamen externen Quelle abhängt, sodass keine Korrelationen zwischen den Kandidaten auftreten.

Werfen wir zunächst einmal einen Blick auf einen Extremfall der Verteilung der Potenziale: Alle beteiligten 7 Personen haben in unserem ersten Beispiel die exakt gleichen Anlagen mit einem theoretischen Potenzial von 50 und einer Standardabweichung von 10. Wir gehen vom Testszenario aus und in der folgenden Grafik sind auch die Ergebnisse des einzigen durchgeführten Tests eingetragen (bitte klicken Sie auf die Grafik für eine vergrößerte Darstellung!):

Testergebnisse von 7 Personen

Hier hatte Person 1 einen Wert von 59 erzielt. Müssten wir eine einzige Person aussuchen, so kann dies nach logischen Gesichtspunkten nur Person 1 sein. Wird diese Person nun ausgewählt und später einem erneuten Test unterzogen, so ist der erwartete Score aber weiterhin nur 50. D. h. in diesem Kontext ist es plausibel, dass der maximale Score über alle Personen hinweg eher höher als 50 liegt, der erwartete Score bei einem zweiten Test weiterhin bei 50 verbleibt und somit mit einer höheren Wahrscheinlichkeit von einer Enttäuschung auszugehen ist.

Wir können auch einmal alle 7 Personen in einem zweiten Durchlauf B antreten lassen und Punkte für Ränge vergeben – 7 Punkte für den ersten Platz bis zu 1 Punkt für den letzten Platz. Die folgende Grafik visualisiert, wie viele Punkte im zweiten Durchlauf B erzielt wurden, wenn im ersten Durchlauf A eine bestimmte Punktzahl erzielt wurde. Die roten Linien zeigen auf die durchschnittlichen Punktzahlen im Durchgang B bei 100.000 Simulationsdurchgängen.

Tendenz zur Mitte

Wie man sieht, spielt der Platz des ersten Durchlaufs A keine Rolle: Jede Punktzahl im Durchlauf B wird mit gleicher Wahrscheinlichkeit erzielt, unabhängig vom Wert des Durchlaufs A. Deshalb ist die mittlere Punktzahl im Durchlauf B auch 4, egal wie viele Punkte im ersten Durchgang A erzielt wurden. Für die Topscorer des ersten Durchlaufs mit 7 Punkten heißt dies, dass sie im Durchschnitt absteigen. Die schwächelnden Personen des ersten Durchgangs hingegen werden tendenziell eher besser platziert sein.

Betrachten wir wieder den Fall, dass nur eine Person ausgewählt wird und sich im Alltag (= Test B) bewähren muss. Kann man die erwartete Enttäuschung berechnen? Eine exakte Ableitung ist nicht ohne – der Verfasser dieses Blogartikels hat gerade einmal einen exakten Ausdruck für die Erwartung des Maximums bei zwei beteiligten Versuchspersonen gefunden – hier beträgt die Erwartung

Bei den gegebenen 7 Personen begnügen wir uns hier mit Simulationsergebnissen. Für insgesamt 100.000 Durchläufe (100.000-mal “7 Personen treten an, eine wird ausgewählt und absolviert einen zweiten Test”) haben wir jeweils die maximale Punktzahl ermittelt und im Histogramm am rechten Bildrand wiedergegeben.

Die erwartete Enttäuschung beträgt 14 Punkte.

Im Mittel liegt des Maximum von 7 unabhängig normalverteilten Zufallszahlen N(50;10) bei ca. 64. Das heißt, wird somit die Person mit dem Maximum ausgewählt, so beträgt das erwartete Absacken ganze 14 Punkte.

Betrachten wir nun eine weitere Konstellation, bei der die 7 Teilnehmer mit 35, 40, 45, 50, 55, 60 und 65 unterschiedliche erwartete Potenziale besitzen:

Die erwartete Enttäuschung beträgt 9 Punkte.

Über Simulationen kann man die Erwartung des Maximums mit etwa 70 schätzen. Hier besitzen aber die Personen unterschiedlich große Wahrscheinlichkeiten, das beste Testergebnis zu stellen. Aus der Simulation gewonnene Schätzer dieser Wahrscheinlichkeiten sind in der Grafik unten angegeben. Beispielsweise erzielt die Person mit dem höchsten erwarteten Potenzial 65 in ca. 50.5 % aller Durchläufe das beste Ergebnis, aber selbst die Person mit dem geringsten erwarteten Potenzial 35 hat in immerhin 0.2 % der Durchläufe am besten abgeschnitten.

Aus diesen Anteilen lässt sich die erwartete Punktzahl der ausgewählten Person zu 0.002 * 35+ 0.007 * 40 + 0.022 * 45 + 0.057 * 50 + 0.135 * 55 + 0.272 * 60 + 0.505 *65 = 61 schätzen. Auch hier wird also im Mittel die ausgewählte Person im zweiten Durchgang ein um ca. 9 Punkte schlechteres Ergebnis erzielen.

Werden wieder alle 7 Personen zum zweiten Test eingeladen und vergeben wir wieder Punkte (7 für den 1. Platz bis zu 1 für den 7. Platz), so besteht der folgende durchschnittliche Zusammenhang zwischen den Punktzahlen in Durchgang A und Durchgang B:

Leichte Tendenz zur Mitte

Immerhin gibt es hier eine sichtbare Korrelation zwischen den Punktzahlen aus den beiden Durchläufen. Nichtsdestotrotz ist auch hier das Phänomen zu beobachten, das als Regression zur Mitte bezeichnet wird: Personen, die im 1. Durchgang sehr gute Ergebnisse erzielt haben, werden im zweiten eher schwächer abschneiden und umgekehrt werden die Underperformer der ersten Runde sich im Vergleich zum ersten Durchgang öfter verbessern.

Der Begriff “Regression zur Mitte” verführt zu folgendem Experiment aus dem Bereich der Predictive Analytics: Wir lassen alle sieben Personen zu zwei Tests A und B antreten und versuchen, aus dem Ergebnis des Tests A das Ergebnis des Tests B vorherzusagen. Damit etwas mehr Daten für den folgenden Plot zur Verfügung stehen, nehmen wir an, dass wir nicht nur eine, sondern 100 derartige Gruppen vorliegen haben. Es ergibt sich dann die folgende Punktwolke:

Regression zur Mitte

Schauen wir auf die Formel B = 25 + 0.5 * A der angegebenen Regressionsgeraden, so ergibt eine kleine Umformung

B = 50 + 0.5 * ( A – 50 )

Hier wird deutlich, warum der Begriff “Regression zur Mitte” verwendet wird: 50 ist das mittlere erwartete Potenzial aller Personen. Für die Vorhersage des B-Resultats wird jeweils die Abweichung zum mittleren erwarteten Potenzial halbiert. Bei einem Ergebnis von A = 70 ergibt sich ein Überschuss von A – 50 = 20. Dieser wird halbiert und wieder zum mittleren Wert addiert. Es ergibt sich eine Prognose von 60 für den Durchgang B. Analog wird für einen niedrigen Wert von A = 30 im zweiten Durchgang 40 vorhergesagt.

Kehren wir zurück zur einfachen Siebenergruppe, aus der wir nach dem ersten Test A eine Person auswählen.

Der erwartete Score der ausgewählten Person aus Durchgang A liegt immer mindestens so hoch wie das Maximum der erwarteten Potenziale aller 7 Personen (hier im Beispiel gilt 70 >= 65). Im Durchgang B ist nun nur noch eine Person unterwegs. Im besten Fall ist dies Person Nr. 7 mit der Erwartung von 65, aber es kann mit einer positiven Wahrscheinlichkeit auch jede der anderen Personen sein, die jedoch eine geringere Erwartung besitzen. Das erwartete Ergebnis der ausgewählten Person in Durchgang B kann also höchstens 65 sein (hier im Beispiel gilt: 61 <= 65).

Dies bedeutet, dass die ausgewählte Person in der Erwartung nie positiv überraschen kann (im Einzelfall kann sich die ausgewählte Person steigern, aber im Mittel über viele solcher Testsituationen nicht.)

Gibt es denn nicht wenigstens ein bisschen Hoffnung? Nicht systematisch enttäuscht wird man, wenn die ausgewählte Person diejenige mit dem höchsten erwarteten Potenzial ist. Eine Möglichkeit, diesen Zustand zu erreichen, besteht darin, mehrere unabhängige Tests durchführen zu lassen, bevor die Auswahl aufgrund der mittleren Performanz getroffen wird.

Die folgende Grafik zeigt das Ergebnis bei Verwendung des Mittelwertes aus 25 Tests:

Der beste Bewerber setzt sich fast immer durch!

Hier wird der beste Kandidat in über 96 % aller Fälle ausgewählt, für die restlichen 4% ist es der zweitbeste Teilnehmer. Die erwartete Performanz des ausgewählten Kandidaten liegt somit nur noch knapp unter den optimalen 65.

Anschaulich gesprochen sind keine Enttäuschungen zu erwarten, wenn der oder die optimalen Testkandidaten auch an einem schlechten Tag besser abschneiden als die geringer qualifizierten Personen an einem guten Tag. Durch die Verwendung des Mittelwerts einer genügend großen Anzahl von Tests lässt sich dieser Zustand immer erreichen.

Eine interessante Erweiterung wäre gegeben, wenn die zufälligen Schwankungen nicht nur durch den Kandidaten entstehen, sondern auch teilweise durch Variationen der Tests generiert werden. Hier wäre es statthaft, z.B. positive Korrelationen zwischen den Testergebnissen der Kandidaten anzunehmen.

Bezüglich der Regression zur Mitte ist vor allem in der Versuchsplanung Vorsicht geboten: Werden Versuchspersonen aus einer Stichprobe beispielsweise aufgrund ihres hohen Blutdruckes für die Medikamenteneinnahme ausgewählt, dann ist bereits ein blutdrucksenkender Effekt allein wegen der Regression zur Mitte zu erwarten. Wenn den in einem Test am schlechtesten abschneidenden Schülern Nachhilfe empfohlen wird, sollte sich der Nachhilfelehrer die tendenziell besseren Noten vielleicht doch nicht vollständig auf die Fahne schreiben!

Donnerstag, 1. September 2016

Prognosen Regression Regression to the Mean Regression zur Mitte Selektion Auswahl Fondsmanager Maxima Predictive Analytics

Veranstaltungs-Tipp

On-Demand-Webinar 22. April 2024 Webinar: Selfservice mit DeltaMaster und Microsoft Excel

Mit Selfservice-BI lassen sich Managementinformationen ergänzen, z. B. aus Excel- oder Access-Dateien. Wie auf Basis einer Excel-Tabelle eine DeltaMaster-Anwendung entsteht, sehen Sie im Webinar [...]

Anmeldung

Mit Selfservice-BI lassen sich Managementinformationen ergänzen, z. B. aus Excel- oder Access-Dateien. Wie auf Basis einer Excel-Tabelle eine DeltaMaster-Anwendung entsteht, sehen Sie im Webinar.

On-Demand-Webinar 2. Mai 2024 Webinar: DeltaMaster ETL

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

Anmeldung

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

On-Demand-Webinar 7. Mai 2024 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Über den Autor

Dr. Achim Lewandowski

ist zu Hause in der Grundlagen- und Anwendungsforschung von Bissantz & Company.

Letzte Blogartikel

Forschung Benutzerdefinierte Filter für Zielbericht zuweisen

Benutzerdefinierte Filter helfen im neuen Release von DeltaMaster, Verknüpfungen von Grafischen Tabellen zu Zielberichten flexibler anzulegen [...]

mehr erfahren

Forschung Steuereinnahmen der Länder

Steuereinnahmen der Länder - es war schon immer viel Fantasie im Spiel, wenn es um das Erfinden und Eintreiben von Steuern ging. Wie haben [...]

mehr erfahren

Forschung Studienanfänger und Studierende in Deutschland

Studienanfänger stehen jedes Jahr vor einer wichtigen Entscheidung: Welches der fast 300 Studienfächer entspricht den eigenen Neigungen und [...]

mehr erfahren

Forschung Neue Aggregationstypen in der DeltaApp

Der Aggregationstyp Summation ist bei hierarchischen Modellen im Bereich Business Intelligence vorherrschend: Der Gesamtumsatz ergibt sich beispielsweise [...]

mehr erfahren

Forschung Aufstiegs-BAföG in der DeltaApp

In einer sich schnell verändernden Welt ist lebenslanges Lernen unerlässlich. Mit dem Aufstiegs-BAfög werden bestimmte Fortbildungen unterstützt [...]

mehr erfahren

Bissantz News Wissen auf Abruf: das Bissantz Help Center

Viele Nutzer legen direkt in DeltaMaster und DeltaApp los und verstehen intuitiv, wie Berichte genutzt werden können. Wer lieber mit einer [...]

mehr erfahren

Data Warehousing Float – ein problematischer Datentyp

Dieser Beitrag zeigt, wie es bei relationalen Eingabeanwendungen zu Rundungsfehlern im Zusammenhang mit float kommen kann und wie man dies vermeidet [...]

mehr erfahren

Data Warehousing Reverse Engineering im Bissantz Application Designer

Dieser Beitrag stellt die neue Funktion des „Reverse Engineering“ im Bissantz Application Designer vor. Damit lassen sich bestehende relationale [...]

mehr erfahren

Bissantz News Daten- und Softwaresicherheit bei Bissantz

TISAX-Verlängerung und Penetrationstest-Zertifizierung Informationssicherheit hat bei Bissantz & Company höchste Priorität – deshalb werden [...]

mehr erfahren

Forschung Flächennutzung in Deutschland

Veränderungen verstehen: Wer Abweichungen und Verschiebungen seiner Kennzahlen auf den Grund gehen will, kann in DeltaMaster eine Vielzahl [...]

mehr erfahren

Vorheriger Artikel

Prognosen: Wie bestellt und nicht abgeholt

Nächster Artikel

Visualisierung: Raum in der kleinsten Hütte (I)

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Zur Speicherung der Einstellungen, die Sie in der Cookie-Leiste ausgewählt haben.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Microsoft Azure CDN
Anbieter	Microsoft Azure
Zweck	Das Cookie dient der Lastverteilung der Anfragen (Load-Balancing) durch Seitennutzer bei der Nutzung des Dienstes.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ARRAffinity,ARRAffinitySameSite
Cookie Laufzeit	Sitzung

Name	Polylang
Anbieter	Eigentümer dieser Website
Zweck	Speichert die aktuelle Sprache.
Cookie Name	pll_language
Cookie Laufzeit	1 Jahr

Name	cloud.bissantz.de
Anbieter	Bissantz
Zweck	Dieser Cookie dient der Erfassung der Position des Seitenbesuchers um eine möglichst effeziente und schnelle Zuteilung zu einem nahen Server zu ermöglichen.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ASLBSA,ASLBSACORS
Cookie Laufzeit	Sitzung

Name	UserLike (verwendet den Webfont Loader und das Google-API CDN)
Anbieter	https://www.userlike.com/de/
Zweck	Notwendig zur umfassenden Information, z. B. auch für Datenschutzfragen.
Datenschutzerklärung	https://www.userlike.com/de/terms#privacy-policy
Host(s)	userlike.com
Cookie Laufzeit	365 Tage

Akzeptieren	Google Tag Manager
Name	Google Tag Manager
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google zur Steuerung der erweiterten Script- und Ereignisbehandlung.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	Facebook Pixel
Name	Facebook Pixel
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Cookie von Facebook, das für Website-Analysen, Ad-Targeting und Anzeigenmessung verwendet wird.
Datenschutzerklärung	https://www.facebook.com/policies/cookies
Cookie Name	_fbp,act,c_user,datr,fr,m_pixel_ration,pl,presence,sb,spin,wd,xs
Cookie Laufzeit	Sitzung / 1 Jahr

Akzeptieren	Google Optimize
Name	Google Optimize
Anbieter	Google
Zweck	Das Google Website-Optimierungstool ist eine kostenlos verfügbare Software zur Durchführung von A/B- und Multivariatentests im Webdesign.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de

Akzeptieren	Facebook
Name	Facebook
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Mit der Zustimmung können z. B. unsere Beiträge direkt in Ihrem Facebook-Profil geteilt werden und Sie erlauben Facebook, Informationen über Sie zu verarbeiten, damit Ihnen personalisierter Content angezeigt werden kann.
Datenschutzerklärung	https://www.facebook.com/privacy/explanation
Host(s)	.facebook.com
Cookie Laufzeit	730 Tage

Prognosen: Wie erwartet weniger als erwartet

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Forschung.