Verteilungen: Treppensteigen empfohlen

Um einen Eindruck der Verteilung von beobachteten Werten zu erhalten, wird oft ein Histogramm verwendet. Trotz der einfach anmutenden Vorgehensweise können je nach vorgenommener Intervalleinteilung recht unterschiedliche, ja sogar sich widersprechende Histogramme entstehen. Es existiert aber eine alternative Darstellungsform, die nicht von der Parametrierung abhängt!

Im Prinzip ist die Histogrammdarstellung ein bewährtes und gerne verwendetes Verfahren und das Ergebnis sieht etwa bei dem folgenden Beispiel auf den ersten Blick durchaus brauchbar aus (klicken Sie auf die Grafik für eine vergrößerte Darstellung!):

Ein formschönes Histogramm ohne Makel?

Aber aufgepasst: Bei einer leichten Änderung der Intervalleinteilung (dies ist die automatisch gewählte des eingesetzten Programmes bei diesen Daten!) kann das Histogramm einen deutlich anderen Eindruck vermitteln, obwohl doch im konkreten Beispiel die recht hohe Gesamtanzahl von 200 Werten zur Verfügung stand. Auf einmal ist der Bereich zwischen 9 und 10 verdächtig leer, obwohl doch hier gerade eben noch der Spitzenwert gemessen wurde:

Identische Daten – vollkommen anderer Eindruck durch veränderte Klassengrenzen

Hier sind die Probleme dadurch entstanden, dass die zugrunde liegenden Werte gerundet vorlagen, mit den Häufigkeiten wie in der folgenden Tabelle dargestellt:

Wert	8	9	10	11	12	13	14
Häufigkeit	14	40	80	49	16	0	1

it dem Wissen, dass Werte gerundet sind, sollten nur ganzzahlige Intervallbreiten wie 1 oder 2 verwendet werden. Im ersten Histogramm ist dies erfüllt, obwohl der Eindruck immer noch verfälscht ist, da in einem Intervall nur Werte am rechten Rand auftreten. Für eine optimale Darstellung sollte das gesamte Histogramm um 0.5 nach rechts verschoben werden. Das zweite Histogramm hingegen besitzt Intervalllängen von 0.7, sodass bspw. das Intervall von 9.2 bis 9.9 prinzipiell gar keine Beobachtungen enthalten kann.

Natürlich könnte im Vorfeld automatisiert geprüft werden, ob ganzzahlige Werte vorliegen.

Betrachten wir deshalb ein zweites Beispiel, bei welchem stetige Daten in sehr großer Zahl vorliegen und das Argument, dass Histogramme mit beliebig wählbarer Intervallbreite nicht für ganzzahlige Daten gedacht sind, nicht zieht. Die folgenden drei Histogramme gehören zum gleichen Datensatz der Stichprobengröße 10.000 und sind nur durch unterschiedliche Intervalleinteilungen entstanden. Während das Histogramm mit der feineren Einteilung die tatsächliche Situation, dass eine zweigipflige, symmetrische Verteilung vorliegt, angemessen wiedergibt, lässt die erste gröbere Darstellung ein Plateau mit nur leichter Delle und die zweite, leicht seitwärts verschobene Einteilung einen soliden Anstieg vermuten.

Richtiger Eindruck einer zweigipfligen, symmetrischen Verteilung

Leicht irreführender Eindruck eines Plateaus mit nur leichter Delle

Stark irreführender Eindruck eines Anstiegs

Wir hatten in Histogramme: Fein justieren bereits einen automatisierten Ansatz vorgestellt, der eine gegebene feine Intervalleinteilung in Abhängigkeit von der Stichprobengröße optimiert.

Ungeachtet eines offensichtlich vorhandenen Optimierungspotentials der Intervalleinteilung gibt es aber auch eine alternative Darstellung, bei der nicht über Anzahl und Lage der Intervalle entschieden werden muss, und die prinzipiell sogar mehr Information als das Histogramm enthält.

Mittels der empirischen Verteilungsfunktion, die für jeden x-Wert den Anteil der Beobachtungen angibt, die kleiner oder gleich dem x-Wert sind, werden Ergebnisse unbeeinflusst von irgendwelchen Parametereinstellungen unverfälscht wiedergegeben. Für unser zuerst genanntes Beispiel sieht diese dann folgendermaßen aus:

Empirische Verteilungsfunktion

Mathematisch nicht ganz korrekt, aber optisch einprägsamer lassen sich die Teilstücke auch verbinden:

Alternative Darstellung mit Verbindungslinien

Liegt ein weiterer Datensatz vor, lassen sich die empirischen Verteilungsfunktionen der beiden Datensätze leicht vergleichen; hier liegen die Daten von Datensatz B tendenziell weiter rechts.

Der Schwerpunkt der Daten B liegt weiter rechts.

Beispielsweise sind 67% aller Daten für Datensatz A kleiner oder gleich 10, aber nur 7% der Daten von Datensatz B. Genauso lassen sich schnell Ähnlichkeiten einer empirischen Verteilung zu einer festen Verteilung erkennen, wie hier zur theoretischen Verteilungsfunktion einer Normalverteilung N(10,1):

Die empirische Verteilungsfunktion ähnelt einer Normalverteilung.

Für unser zweites Beispiel ergibt sich folgende empirische Verteilungsfunktion, bei der die Stufen aufgrund der hohen Anzahl von Daten nicht mehr erkennbar sind.

Empirische Verteilungsfunktion des zweiten Beispiels

Die beiden Gipfel sind hier zwar vorhanden, drängen sich dem Betrachter aber nicht zwingend auf, da sie sich in dieser Darstellung als steilere Abschnitte präsentieren, die durch einen flacheren Bereich getrennt sind. Sie werden deutlicher sichtbar, wenn die Verteilungsfunktion einer Normalverteilung mit gleicher Erwartung und Varianz gegenübergestellt wird.

Empirische Verteilungsfunktion des zweiten Beispiels im Vergleich zu einer Normalverteilung mit gleichen Momenten

Dass die Normalverteilung nur einen lokalen Gipfel besitzt, der gleichzeitig auch der globale ist, lässt sich in dieser Darstellung daran erkennen, dass die Verteilungsfunktion zunächst immer steiler wird, um dann nach dem Passieren des Maximums der Dichte immer flacher zu werden.

Die einzelne empirische Verteilungsfunktion kann zwar nicht ganz so schnell wie ein Histogramm erfasst werden, leidet aber nicht unter der Abhängigkeit der Wahl der Intervalleinteilung. Ob sich zwei Verteilungen ähnlich sind, kann hingegen leicht erkannt werden. Für diesen Zweck ist die empirische Verteilungsfunktion im Vergleich zum Histogramm besser geeignet.

Wir gelangen zum Fazit, dass sich die empirische Verteilungsfunktion zumindest als Ergänzung zum Histogramm eine Chance verdient hat.

Mittwoch, 1. Januar 2014

Descriptive Analytics empirische Verteilungsfunktion Histogramm

Veranstaltungs-Tipp

On-Demand-Webinar 2. Mai 2024 Webinar: DeltaMaster ETL

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

Anmeldung

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

On-Demand-Webinar 7. Mai 2024 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

On-Demand-Webinar 13. Mai 2024 Webinar: Reporting mit DeltaMaster

DeltaMaster-Berichte geben Signale, die unmissverständlich zeigen, wo gehandelt werden muss. Im Webinar zeigen wir Ihnen die drei leistungsfähigsten Methoden für die interaktive Ad-hoc-Analyse von [...]

Anmeldung

Über den Autor

Dr. Achim Lewandowski

ist zu Hause in der Grundlagen- und Anwendungsforschung von Bissantz & Company.

Letzte Blogartikel

Forschung Benutzerdefinierte Filter für Zielbericht zuweisen

Benutzerdefinierte Filter helfen im neuen Release von DeltaMaster, Verknüpfungen von Grafischen Tabellen zu Zielberichten flexibler anzulegen [...]

mehr erfahren

Forschung Steuereinnahmen der Länder

Steuereinnahmen der Länder - es war schon immer viel Fantasie im Spiel, wenn es um das Erfinden und Eintreiben von Steuern ging. Wie haben [...]

mehr erfahren

Forschung Studienanfänger und Studierende in Deutschland

Studienanfänger stehen jedes Jahr vor einer wichtigen Entscheidung: Welches der fast 300 Studienfächer entspricht den eigenen Neigungen und [...]

mehr erfahren

Forschung Neue Aggregationstypen in der DeltaApp

Der Aggregationstyp Summation ist bei hierarchischen Modellen im Bereich Business Intelligence vorherrschend: Der Gesamtumsatz ergibt sich beispielsweise [...]

mehr erfahren

Forschung Aufstiegs-BAföG in der DeltaApp

In einer sich schnell verändernden Welt ist lebenslanges Lernen unerlässlich. Mit dem Aufstiegs-BAfög werden bestimmte Fortbildungen unterstützt [...]

mehr erfahren

Planung Vollständiges Wiederherstellungsmodell – Back-ups im Rhythmus der Planung

In diesem Beitrag soll eine spezifische Back-up-Strategie für eine DeltaMaster-Planungsumgebung beschrieben werden, die auf dem vollständigen [...]

mehr erfahren

Bissantz News Wissen auf Abruf: das Bissantz Help Center

Viele Nutzer legen direkt in DeltaMaster und DeltaApp los und verstehen intuitiv, wie Berichte genutzt werden können. Wer lieber mit einer [...]

mehr erfahren

Data Warehousing Float – ein problematischer Datentyp

Dieser Beitrag zeigt, wie es bei relationalen Eingabeanwendungen zu Rundungsfehlern im Zusammenhang mit float kommen kann und wie man dies vermeidet [...]

mehr erfahren

Data Warehousing Reverse Engineering im Bissantz Application Designer

Dieser Beitrag stellt die neue Funktion des „Reverse Engineering“ im Bissantz Application Designer vor. Damit lassen sich bestehende relationale [...]

mehr erfahren

Bissantz News Daten- und Softwaresicherheit bei Bissantz

TISAX-Verlängerung und Penetrationstest-Zertifizierung Informationssicherheit hat bei Bissantz & Company höchste Priorität – deshalb werden [...]

mehr erfahren

Vorheriger Artikel

Sortierung: Nur bedingt richtig

Nächster Artikel

Extremwerte: Rekordjagd

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Zur Speicherung der Einstellungen, die Sie in der Cookie-Leiste ausgewählt haben.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Microsoft Azure CDN
Anbieter	Microsoft Azure
Zweck	Das Cookie dient der Lastverteilung der Anfragen (Load-Balancing) durch Seitennutzer bei der Nutzung des Dienstes.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ARRAffinity,ARRAffinitySameSite
Cookie Laufzeit	Sitzung

Name	Polylang
Anbieter	Eigentümer dieser Website
Zweck	Speichert die aktuelle Sprache.
Cookie Name	pll_language
Cookie Laufzeit	1 Jahr

Name	cloud.bissantz.de
Anbieter	Bissantz
Zweck	Dieser Cookie dient der Erfassung der Position des Seitenbesuchers um eine möglichst effeziente und schnelle Zuteilung zu einem nahen Server zu ermöglichen.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ASLBSA,ASLBSACORS
Cookie Laufzeit	Sitzung

Name	UserLike (verwendet den Webfont Loader und das Google-API CDN)
Anbieter	https://www.userlike.com/de/
Zweck	Notwendig zur umfassenden Information, z. B. auch für Datenschutzfragen.
Datenschutzerklärung	https://www.userlike.com/de/terms#privacy-policy
Host(s)	userlike.com
Cookie Laufzeit	365 Tage

Akzeptieren	Google Tag Manager
Name	Google Tag Manager
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google zur Steuerung der erweiterten Script- und Ereignisbehandlung.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	Facebook Pixel
Name	Facebook Pixel
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Cookie von Facebook, das für Website-Analysen, Ad-Targeting und Anzeigenmessung verwendet wird.
Datenschutzerklärung	https://www.facebook.com/policies/cookies
Cookie Name	_fbp,act,c_user,datr,fr,m_pixel_ration,pl,presence,sb,spin,wd,xs
Cookie Laufzeit	Sitzung / 1 Jahr

Akzeptieren	Google Optimize
Name	Google Optimize
Anbieter	Google
Zweck	Das Google Website-Optimierungstool ist eine kostenlos verfügbare Software zur Durchführung von A/B- und Multivariatentests im Webdesign.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de

Akzeptieren	Facebook
Name	Facebook
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Mit der Zustimmung können z. B. unsere Beiträge direkt in Ihrem Facebook-Profil geteilt werden und Sie erlauben Facebook, Informationen über Sie zu verarbeiten, damit Ihnen personalisierter Content angezeigt werden kann.
Datenschutzerklärung	https://www.facebook.com/privacy/explanation
Host(s)	.facebook.com
Cookie Laufzeit	730 Tage

Verteilungen: Treppensteigen empfohlen

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Forschung.