Relevanz: Zu viel Lärm um nichts

Big Data ist das Modewort der Zeit. Daten, die man schon hat, nicht auszuwerten, erscheint kurios, auch wenn es sehr viele sind. Aber wo ist die Grenze? Wie „big“ darf es werden? Wir sind ins Labor gegangen und haben an Zehntausend Zeitreihen Gesetzmäßigkeiten entdeckt, die man in Projekten zu den Themen Big Data und Predictive Analytics kennen sollte.

Höchstwahrscheinlich hat wohl die Verfügbarkeit von billigen Massenspeichern dazu geführt, erst einmal alle anfallenden und beziehbaren Daten zu sammeln, unabhängig davon, ob diese tatsächlich eine Relevanz für das tägliche Geschäft haben werden. Die Angst, möglicherweise gut funktionierende Prädiktoren aus Versehen frühzeitig auszusortieren und sie dann wohlmöglich nicht mehr für die perfekte Formel zur Verfügung zu haben, ist groß.

Wenn unkritisch Unmengen von vorrätigen Datenreihen zur Erklärung von beobachteten Effekten in Betracht gezogen und systematisch auf ihre Prognosefähigkeit getestet werden, schießt man jedoch unter Umständen bei der Analyse über das Ziel hinaus.

Nehmen wir beispielsweise einmal an, dass wir eine monatliche Zeitreihe mit insgesamt 24 Werten über zwei Jahre verfolgen:

Eine Zeitreihe im Zentrum des Interesses

Weiterhin stellen wir uns vor, dass ein riesiger Pool von Indexzeitreihen zur Verfügung steht. Um einen möglicherweise eingeschlagenen Holzweg noch eindringlicher verdeutlichen zu können, nehmen wir weiterhin an, dass der Pool gar nicht aus realen Zeitreihen besteht, sondern einfach nur unabhängige, identisch normalverteilte Zufallszahlen enthält, die in Segmenten zu jeweils 24 Werten abgerufen werden können. D. h. solchermaßen definierte Zeitreihen haben sogar konstante Erwartung.

Nichtsdestotrotz betrachten wir Korrelationen jeweils zwischen einer Zeitreihe aus dem Pool und unserer gegebenen Zeitreihe. Die Zeitreihe mit der größten Korrelation bei einer Poolgröße von 10000 ist in der folgenden Abbildung in Rot zu sehen, die grüne Zeitreihe zeigt eine mögliche abgeleitete Prognose:

Die beste Zeitreihe (rot) mit einer Korrelation von 0.73 und die abgeleitete Vorhersage (grün)

Eine rein zufällig, ohne systematischen Trend erzeugte Zeitreihe weist somit bereits eine beachtliche Korrelation mit der ausgewählten Zeitreihe auf. Schon an dieser Stelle sollte man im Dunstkreis von Big Data vernommenen Äußerungen, dass Korrelationen Modellbildung ersetzen werden, mit einer gesunden Portion Skepsis begegnen. Eine hohe Korrelation mit einer Indexzeitreihe allein ist somit noch kein hinreichender Grund für einen kausalen Zusammenhang.

Wir könnten ja auch versuchen, mehrere der 10000 Zeitreihen zu verwenden, um unsere uns interessierende Zeitreihe (blau) vorherzusagen. Vier mit einer schrittweisen Prozedur ausgewählte Zeitreihen liefern über eine multiple Regression die folgende Prognose ab:

Eine überzeugende Vorhersage (grün) auf der Basis von vier Inputzeitreihen

Es ist schon erstaunlich, welch vermeintliche Prognosekraft Zufallsvektoren zu besitzen scheinen, wenn sie aus einer hinreichend großen Menge ausgewählt werden können. Dass die vermeintliche hohe Prognosegüte nur eine Illusion darstellt, wäre spätestens bei einer Fortsetzung der Prognosen schmerzlich sichtbar geworden.

Stellen wir uns nun einmal vor, dass wir unseren Pool von 10000 Zeitreihen auf besonders ähnliche Paare hin durchforsten. Hier wird also jede Zeitreihe mit jeder verglichen. Bei 10000 Zeitreihen ergibt sich somit eine stattliche Anzahl von 10000*(10000-1)/2 = 49.995.000 Vergleichen. Das ähnlichste Paar zeigt im Scatterplot eine sehr strukturierte Punktwolke:

Strukturierte Punktwolke

Trotzdem ist auch diese Punktwolke “mit klarem Trend” nur durch gezielte Selektion aus einer sehr großen Menge mit unstrukturiertem Rauschen entstanden.

Versuchen wir einmal, ein handfesteres Beispiel genauer zu analysieren. Daytrader, die der technischen Analyse vertrauen, suchen gerne nach Regelmäßigkeiten in den Kursverläufen. Hier nehmen wir an, dass wir die qualitativen minütlichen Änderungen des DAX in den ersten 20 Minuten des Handelstages beobachten.

In Wirklichkeit sei das Modell jedoch ein Random Walk, d. h. der DAX steigt oder fällt von Minute zu Minute mit Wahrscheinlichkeit p = 0.5 und dies erfolgt unabhängig von der Historie. Wir haben nun an 500 fiktiven Handelstagen für jedes Paar (i, j) gezählt, wie häufig Änderungen in den Minuten-Intervallen [i-1 ; i] und [j-1 ; j] das gleiche Vorzeichen haben:

Gleiche Tendenzen beim Paar [1 ; 2] und [2 ; 3]

Wir wissen nicht, von welchen Gefühlen der Daytrader überwältigt wird, wenn er das goldglänzende Kästchen mit satten 282 anstelle der erwarteten 250 Übereinstimmungen bei der Kombination (2, 3), d. h. bei den Intervallen [1 ; 2] und [2 ; 3], erblicken darf.

Wie sollte man dieser Abweichung zur Erwartung begegnen? Dringen wir doch einmal tiefer in die Materie ein.

Für ein festes Paar (i, j) ist die Anzahl der Übereinstimmungen G mit gleichem Trendvorzeichen binomialverteilt:

Hat man sich vor der Datenerhebung ein festes Paar (i, j) ausgesucht und möchte die Hypothese “Es ist ja nur ein Random Walk” gegen positive Zusammenhänge testen, so ist die Wahrscheinlichkeit für eine Abweichung nach oben in einem einzelnen Paar beispielsweise mit P( G >= 276) ~ 0.01123 bzw. P( G >= 277) ~ 0.00884 gegeben.

Wird somit das Signifikanzniveau alpha = 0.01 vorgegeben, würde man bei 277 oder mehr Übereinstimmungen die Hypothese des Random Walks auf jeden Fall verwerfen, bei 276 Übereinstimmungen (P( G = 276) ~0.00239 ) könnte ein weiteres Zufallsexperiment mit einer auf [0 ; 1] gleichverteilten Zufallszahl Z durchgeführt werden, das bei Z <= 0.484 die Hypothese verwirft, damit das Signifikanzniveau voll ausgeschöpft wird (0.00884 + 0.484 *0.00239 ~0.01 ).

Da das erwähnte Kästchen 282 Übereinstimmungen aufweist und wir somit über der kritischen Grenze liegen, haben wir anscheinend einen bemerkenswerten Zusammenhang gefunden, der sich doch vergolden lassen sollte.

Doch Obacht: Hier haben wir aber 20 * 19 / 2 = 190 Paare, die wir simultan auf Auffälligkeiten untersuchen. Es lässt sich zeigen, dass für p = 0.5 die Anzahlen der Übereinstimmungen in den Paaren (i, j) und (j, k) trotz des gemeinsamen Index j unabhängig verteilt sind. Zunächst folgt sowieso, dass auch bei einem Random Walk 190 * 0.01 ~ 2 Auffälligkeiten erwartet werden können, obwohl es eigentlich nichts zu sehen gibt. Wir können sogar die Wahrscheinlichkeit, mindestens ein signifikantes Ergebnis zu erhalten, wegen der genannten Unabhängigkeit exakt berechnen:

In 85 % aller Fälle “ist da irgendetwas”.

Augenscheinlich führt ein naives Vorgehen zu ständigen Fehlalarmen: In 85 % aller Fälle sehen wir mindestens ein Paar, für welches die beobachtete Trendübereinstimmung über unserer kritischen Grenze liegt – obwohl in Wirklichkeit keinerlei Zusammenhang besteht.

Um nicht auf solche durch “große” (190 ist da noch relativ klein) Anzahlen von unabhängigen Tests gefundenen Auffälligkeiten reinzufallen, muss das Signifikanzniveau eines einzelnen Tests angepasst werden. Wir hätten gerne erreicht, dass bei einem Random Walk die Wahrscheinlichkeit, überhaupt mindestens eine Auffälligkeit – über alle 190 Paare hinweg – zu entdecken, alpha = 0.01 betragen soll. Hierzu ist die Gleichung

zu lösen. Nach etwas Rechnerei ergibt sich, dass bei einem Wert von k = 294 und mehr die Hypothese eines Random Walks auf jeden Fall verworfen wird, für jedes Paar (i, j) mit k = 293 wird noch eine gleichverteilte Zufallszahl Z erzeugt und die Hypothese dann verworfen, wenn Z <= 0.22436 ist. Mit diesem Vorgehen wird die Nullhypothese bei tatsächlichem Vorliegen eines Random Walks mit exakt p = 0.01 verworfen.

Nun wird ersichtlich, dass das güldene Feld von oben mit k = 282 noch überhaupt keinen Anlass geben kann, nervös zu werden. Die hohe Abweichung nach oben ist normal, wenn so viele Paare auf einmal betrachtet werden.

Es sollte deutlich geworden sein, dass eine große Anzahl von untersuchten Modellen bzw. von parallel durchgeführten Analysen bei der Auswertung nicht unberücksichtigt bleiben darf. Die Kriterien, die die Relevanz eines Ergebnis bewerten, müssen immer – wie im beschriebenen Beispiel illustriert – an die Rahmenbedingungen angepasst werden.

Freitag, 1. Juli 2016

Daytrading Korrelationen Multiple Tests Predictive Analytics Scheinkorrelation Zeitreihen Aktienprognose Big Data

Veranstaltungs-Tipp

On-Demand-Webinar 2. Mai 2024 Webinar: DeltaMaster ETL

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

Anmeldung

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

On-Demand-Webinar 7. Mai 2024 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

On-Demand-Webinar 13. Mai 2024 Webinar: Reporting mit DeltaMaster

DeltaMaster-Berichte geben Signale, die unmissverständlich zeigen, wo gehandelt werden muss. Im Webinar zeigen wir Ihnen die drei leistungsfähigsten Methoden für die interaktive Ad-hoc-Analyse von [...]

Anmeldung

Über den Autor

Dr. Achim Lewandowski

ist zu Hause in der Grundlagen- und Anwendungsforschung von Bissantz & Company.

Letzte Blogartikel

Forschung Benutzerdefinierte Filter für Zielbericht zuweisen

Benutzerdefinierte Filter helfen im neuen Release von DeltaMaster, Verknüpfungen von Grafischen Tabellen zu Zielberichten flexibler anzulegen [...]

mehr erfahren

Forschung Steuereinnahmen der Länder

Steuereinnahmen der Länder - es war schon immer viel Fantasie im Spiel, wenn es um das Erfinden und Eintreiben von Steuern ging. Wie haben [...]

mehr erfahren

Forschung Studienanfänger und Studierende in Deutschland

Studienanfänger stehen jedes Jahr vor einer wichtigen Entscheidung: Welches der fast 300 Studienfächer entspricht den eigenen Neigungen und [...]

mehr erfahren

Forschung Neue Aggregationstypen in der DeltaApp

Der Aggregationstyp Summation ist bei hierarchischen Modellen im Bereich Business Intelligence vorherrschend: Der Gesamtumsatz ergibt sich beispielsweise [...]

mehr erfahren

Forschung Aufstiegs-BAföG in der DeltaApp

In einer sich schnell verändernden Welt ist lebenslanges Lernen unerlässlich. Mit dem Aufstiegs-BAfög werden bestimmte Fortbildungen unterstützt [...]

mehr erfahren

Planung Vollständiges Wiederherstellungsmodell – Back-ups im Rhythmus der Planung

In diesem Beitrag soll eine spezifische Back-up-Strategie für eine DeltaMaster-Planungsumgebung beschrieben werden, die auf dem vollständigen [...]

mehr erfahren

Bissantz News Wissen auf Abruf: das Bissantz Help Center

Viele Nutzer legen direkt in DeltaMaster und DeltaApp los und verstehen intuitiv, wie Berichte genutzt werden können. Wer lieber mit einer [...]

mehr erfahren

Data Warehousing Float – ein problematischer Datentyp

Dieser Beitrag zeigt, wie es bei relationalen Eingabeanwendungen zu Rundungsfehlern im Zusammenhang mit float kommen kann und wie man dies vermeidet [...]

mehr erfahren

Data Warehousing Reverse Engineering im Bissantz Application Designer

Dieser Beitrag stellt die neue Funktion des „Reverse Engineering“ im Bissantz Application Designer vor. Damit lassen sich bestehende relationale [...]

mehr erfahren

Bissantz News Daten- und Softwaresicherheit bei Bissantz

TISAX-Verlängerung und Penetrationstest-Zertifizierung Informationssicherheit hat bei Bissantz & Company höchste Priorität – deshalb werden [...]

mehr erfahren

Vorheriger Artikel

Klassifikation: Zusammen sind wir stark

Nächster Artikel

Prognosen: Wie bestellt und nicht abgeholt

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Zur Speicherung der Einstellungen, die Sie in der Cookie-Leiste ausgewählt haben.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Microsoft Azure CDN
Anbieter	Microsoft Azure
Zweck	Das Cookie dient der Lastverteilung der Anfragen (Load-Balancing) durch Seitennutzer bei der Nutzung des Dienstes.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ARRAffinity,ARRAffinitySameSite
Cookie Laufzeit	Sitzung

Name	Polylang
Anbieter	Eigentümer dieser Website
Zweck	Speichert die aktuelle Sprache.
Cookie Name	pll_language
Cookie Laufzeit	1 Jahr

Name	cloud.bissantz.de
Anbieter	Bissantz
Zweck	Dieser Cookie dient der Erfassung der Position des Seitenbesuchers um eine möglichst effeziente und schnelle Zuteilung zu einem nahen Server zu ermöglichen.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ASLBSA,ASLBSACORS
Cookie Laufzeit	Sitzung

Name	UserLike (verwendet den Webfont Loader und das Google-API CDN)
Anbieter	https://www.userlike.com/de/
Zweck	Notwendig zur umfassenden Information, z. B. auch für Datenschutzfragen.
Datenschutzerklärung	https://www.userlike.com/de/terms#privacy-policy
Host(s)	userlike.com
Cookie Laufzeit	365 Tage

Akzeptieren	Google Tag Manager
Name	Google Tag Manager
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google zur Steuerung der erweiterten Script- und Ereignisbehandlung.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	Facebook Pixel
Name	Facebook Pixel
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Cookie von Facebook, das für Website-Analysen, Ad-Targeting und Anzeigenmessung verwendet wird.
Datenschutzerklärung	https://www.facebook.com/policies/cookies
Cookie Name	_fbp,act,c_user,datr,fr,m_pixel_ration,pl,presence,sb,spin,wd,xs
Cookie Laufzeit	Sitzung / 1 Jahr

Akzeptieren	Google Optimize
Name	Google Optimize
Anbieter	Google
Zweck	Das Google Website-Optimierungstool ist eine kostenlos verfügbare Software zur Durchführung von A/B- und Multivariatentests im Webdesign.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de

Akzeptieren	Facebook
Name	Facebook
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Mit der Zustimmung können z. B. unsere Beiträge direkt in Ihrem Facebook-Profil geteilt werden und Sie erlauben Facebook, Informationen über Sie zu verarbeiten, damit Ihnen personalisierter Content angezeigt werden kann.
Datenschutzerklärung	https://www.facebook.com/privacy/explanation
Host(s)	.facebook.com
Cookie Laufzeit	730 Tage

Relevanz: Zu viel Lärm um nichts

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Forschung.