Zeitmustererkennung: Segmentierung von Niveauänderungen in Zeitreihen

In Zeitreihen erkennt das menschliche Auge beinahe mühelos, wenn Werte sich auf einem neuen Niveau einpendeln. Das gilt jedenfalls für sehr deutliche Muster. Können wir dem Rechner diese visuelle Kompetenz einhauchen? Werden sogar schwierigere Muster erkannt?

Gegeben sei eine Zeitreihe, die aus 42 Werten besteht. Wenn wir versuchen, sie in Segmente zu unterteilen, die sich durch unterschiedliche Niveaus auszeichnen, stellen sich zwei Fragen: Wie viele Segmente sollten wir nehmen und an welchen Stellen sollte die Zeitreihe zerlegt werden? Wir widmen uns hier der zweiten Frage, nehmen also die Anzahl der Segmente als gegeben an.

Mit bloßem Auge erkennen wir in diesen 42 Werten mehrere Phasen mit unterschiedlichen Wertniveaus

W. D. Fisher hat für dieses Problem 1958 folgendes vorgeschlagen (*): Trenne die Zeitreihe so, dass sich Werte innerhalb eines Segmentes möglichst ähnlich sind, d.h. wenig um den Mittelwert des Segments schwanken. Versuche dabei, die Summe der quadrierten Abweichungen zu minimieren.

Wie weit käme man allein durch systematisches Probieren? Bei 42 Werten gibt es 41 Stellen, an denen die Zeitreihe in 2 Segmente „aufgetrennt“ werden kann (zwischen 1 und 2, 2 und 3,…, 41 und 42). Nehmen wir eine Anzahl von 3 Segmenten als gegeben an, so benötigen wir 2 Trennstellen, die wir aus diesen 41 möglichen Trennstellen auswählen müssen. In unserem Beispiel gibt es dann genau

Möglichkeiten, die Zeitreihe aufzuspalten. Zur Berechnung der Aufteilung mit der kleinsten Summe der quadrierten Abweichungen hätte man den Algorithmus von Fisher noch nicht gebraucht. Unsere zweite Grafik zeigt diese Aufteilung mit dem jeweiligen Mittelwert und jeweils +/- einer Standardabweichung.

So wird die Zeitreihe segmentiert, wenn wir uns eine Aufteilung in 3 Segmente wünschen.

Bei 8 statt 3 Segmenten existieren bereits

Wahlmöglichkeiten für die 7 Trennstellen. Fishers Algorithmus ist schnell und findet in etwa einer Zehntelsekunde eine Lösung. Das Ergebnis sieht man in unserer dritten Grafik. Für diese Zeitreihe sind 8 Segmente wohl etwas zu viel (Dreiecke kennzeichnen singuläre Abschnitte mit nur einem Zeitpunkt).

Die beste Aufteilung in 8 Segmente

Die Rechenzeit hängt vor allem von der Anzahl der Beobachtungen und der Anzahl der Segmente ab, weniger von den Werten der Zeitreihe. Die Trennung einer Zeitreihe mit z.B. 120 Monatswerten in 10 Segmente benötigt weniger als 1 Sekunde für die optimale Auswahl unter immerhin fast 10 Billionen möglicher Segmentierungen.

10 Jahre in 10 Segmenten in 1 Sekunde

In unserem Verfahren müssen wir die Anzahl der Segmente vorgeben. Das macht die Methode vor allem für interaktives Data Mining interessant. Die Rechenzeit steigt polynomial mit der Anzahl der Werte. Zeitreihen mit einer Länge von weniger als 200 Werten benötigen einige Sekunden für die Aufteilung. Eine Zeitreihe mit 1100 Werten (z.B. tägliche Daten für 3 Jahre) braucht etwa 90 Sekunden für eine Einteilung in 10 Segmente.

Daumen hoch oder runter? Mindestens als Assistent hat sich der Rechner qualifiziert. Die gefundenen Segmentierungen sind nachvollziehbar und leuchten ein.

Wir finden Fishers Idee sehr gut. Der Rechner hat visuelle Kompetenz bewiesen. Die Rechenzeit und das mathematisch nachvollziehbare Kriterium sprechen für sich. Können wir noch einen Schritt weitergehen und uns die Anzahl der Segmente errechnen lassen? Ein anderes Mal mehr dazu.

(*) W. D. Fisher. On grouping for maximum homogeneity. Jrnl. Am. Stat. Soc., 53:789,798, 1958

Montag, 1. April 2013

Zeitreihe Segmentierung

Veranstaltungs-Tipp

On-Demand-Webinar 2. Mai 2024 Webinar: DeltaMaster ETL

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

Anmeldung

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

On-Demand-Webinar 7. Mai 2024 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

On-Demand-Webinar 13. Mai 2024 Webinar: Reporting mit DeltaMaster

DeltaMaster-Berichte geben Signale, die unmissverständlich zeigen, wo gehandelt werden muss. Im Webinar zeigen wir Ihnen die drei leistungsfähigsten Methoden für die interaktive Ad-hoc-Analyse von [...]

Anmeldung

Über den Autor

Dr. Achim Lewandowski

ist zu Hause in der Grundlagen- und Anwendungsforschung von Bissantz & Company.

Letzte Blogartikel

Forschung Benutzerdefinierte Filter für Zielbericht zuweisen

Benutzerdefinierte Filter helfen im neuen Release von DeltaMaster, Verknüpfungen von Grafischen Tabellen zu Zielberichten flexibler anzulegen [...]

mehr erfahren

Forschung Steuereinnahmen der Länder

Steuereinnahmen der Länder - es war schon immer viel Fantasie im Spiel, wenn es um das Erfinden und Eintreiben von Steuern ging. Wie haben [...]

mehr erfahren

Forschung Studienanfänger und Studierende in Deutschland

Studienanfänger stehen jedes Jahr vor einer wichtigen Entscheidung: Welches der fast 300 Studienfächer entspricht den eigenen Neigungen und [...]

mehr erfahren

Forschung Neue Aggregationstypen in der DeltaApp

Der Aggregationstyp Summation ist bei hierarchischen Modellen im Bereich Business Intelligence vorherrschend: Der Gesamtumsatz ergibt sich beispielsweise [...]

mehr erfahren

Forschung Aufstiegs-BAföG in der DeltaApp

In einer sich schnell verändernden Welt ist lebenslanges Lernen unerlässlich. Mit dem Aufstiegs-BAfög werden bestimmte Fortbildungen unterstützt [...]

mehr erfahren

Planung Vollständiges Wiederherstellungsmodell – Back-ups im Rhythmus der Planung

In diesem Beitrag soll eine spezifische Back-up-Strategie für eine DeltaMaster-Planungsumgebung beschrieben werden, die auf dem vollständigen [...]

mehr erfahren

Bissantz News Wissen auf Abruf: das Bissantz Help Center

Viele Nutzer legen direkt in DeltaMaster und DeltaApp los und verstehen intuitiv, wie Berichte genutzt werden können. Wer lieber mit einer [...]

mehr erfahren

Data Warehousing Float – ein problematischer Datentyp

Dieser Beitrag zeigt, wie es bei relationalen Eingabeanwendungen zu Rundungsfehlern im Zusammenhang mit float kommen kann und wie man dies vermeidet [...]

mehr erfahren

Data Warehousing Reverse Engineering im Bissantz Application Designer

Dieser Beitrag stellt die neue Funktion des „Reverse Engineering“ im Bissantz Application Designer vor. Damit lassen sich bestehende relationale [...]

mehr erfahren

Bissantz News Daten- und Softwaresicherheit bei Bissantz

TISAX-Verlängerung und Penetrationstest-Zertifizierung Informationssicherheit hat bei Bissantz & Company höchste Priorität – deshalb werden [...]

mehr erfahren

Vorheriger Artikel

Runden: Abgerundet wird zum Schluss

Nächster Artikel

Empfehlungssysteme: Wie man einen Korb bekommt

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Zur Speicherung der Einstellungen, die Sie in der Cookie-Leiste ausgewählt haben.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Microsoft Azure CDN
Anbieter	Microsoft Azure
Zweck	Das Cookie dient der Lastverteilung der Anfragen (Load-Balancing) durch Seitennutzer bei der Nutzung des Dienstes.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ARRAffinity,ARRAffinitySameSite
Cookie Laufzeit	Sitzung

Name	Polylang
Anbieter	Eigentümer dieser Website
Zweck	Speichert die aktuelle Sprache.
Cookie Name	pll_language
Cookie Laufzeit	1 Jahr

Name	cloud.bissantz.de
Anbieter	Bissantz
Zweck	Dieser Cookie dient der Erfassung der Position des Seitenbesuchers um eine möglichst effeziente und schnelle Zuteilung zu einem nahen Server zu ermöglichen.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ASLBSA,ASLBSACORS
Cookie Laufzeit	Sitzung

Name	UserLike (verwendet den Webfont Loader und das Google-API CDN)
Anbieter	https://www.userlike.com/de/
Zweck	Notwendig zur umfassenden Information, z. B. auch für Datenschutzfragen.
Datenschutzerklärung	https://www.userlike.com/de/terms#privacy-policy
Host(s)	userlike.com
Cookie Laufzeit	365 Tage

Akzeptieren	Google Tag Manager
Name	Google Tag Manager
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google zur Steuerung der erweiterten Script- und Ereignisbehandlung.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	Facebook Pixel
Name	Facebook Pixel
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Cookie von Facebook, das für Website-Analysen, Ad-Targeting und Anzeigenmessung verwendet wird.
Datenschutzerklärung	https://www.facebook.com/policies/cookies
Cookie Name	_fbp,act,c_user,datr,fr,m_pixel_ration,pl,presence,sb,spin,wd,xs
Cookie Laufzeit	Sitzung / 1 Jahr

Akzeptieren	Google Optimize
Name	Google Optimize
Anbieter	Google
Zweck	Das Google Website-Optimierungstool ist eine kostenlos verfügbare Software zur Durchführung von A/B- und Multivariatentests im Webdesign.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de

Akzeptieren	Facebook
Name	Facebook
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Mit der Zustimmung können z. B. unsere Beiträge direkt in Ihrem Facebook-Profil geteilt werden und Sie erlauben Facebook, Informationen über Sie zu verarbeiten, damit Ihnen personalisierter Content angezeigt werden kann.
Datenschutzerklärung	https://www.facebook.com/privacy/explanation
Host(s)	.facebook.com
Cookie Laufzeit	730 Tage

Zeitmustererkennung: Segmentierung von Niveauänderungen in Zeitreihen

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Forschung.