Datenintegrität: Anfangsverdacht

Stetig werden Daten gesammelt und veröffentlicht. Bevor wir uns zu vertrauensselig auf ihre Korrektheit verlassen, sollten wir lieber die Datenintegrität prüfen. In bestimmten Fällen greift dann eine verblüffende Methode, mit der manche Manipulation zielsicher erkannt wird!

Kann man veröffentlichten Daten ansehen, ob sie manipuliert worden sind? Man kann – zumindest in ausgewählten Fällen!

Das Verfahren, das wir in diesem Blogbeitrag vorstellen wollen, basiert auf einer paradox erscheinenden Beobachtung. Zur Illustration schauen wir uns einmal einen unverfänglichen Datensatz an. Bei diesem geht es um die integrierten Schulden der Gemeinden und Gemeindeverbände Bayerns am Ende des Jahres 2012 (*):

Schulden der Gemeinden Bayerns (Stand 31.12.2012)

Die Gemeinden ohne Schulden sind in der Tabelle nicht mehr enthalten.

Schauen wir auf die aggregierten Werte am Ende dieser für die Abbildung stark gekürzten Tabelle, sehen wir die recht hohe Zahl von Gemeinden (n = 2051), deren Schuldenbeträge sehr stark von nur 660 € bis zu stattlichen 6 Milliarden € variieren.

Wie sollte man nun als verwaltungstechnisch unbeschriebenes Blatt etwaige Ungereimtheiten bei den Daten erkennen können, ohne überhaupt Detailwissen über irgendeine der Gemeinden zu besitzen? Dazu schauen wir auf die führende Ziffer der Schuldenbeträge (siehe letzte Spalte der Tabelle!) und zählen Häufigkeiten!

Halten wir kurz inne und schätzen doch einmal, wie häufig die Ziffern von 1 bis 9 (0 ist keine führende Ziffer) wohl vorkommen werden.

Eine naive Sicht wähnt alle Ziffern gleich häufig, und es sollten bei 2051 Beobachtungen ca. 2051/9 ~ 228 Fälle pro Ziffer vorkommen. Schauen wir nun auf die tatsächlichen Anzahlen, erleben wir eine Überraschung:

Überraschung bei Naivität, keine bei Kenntnis des Benfordschen Gesetzes

Die 1 kommt als führende Ziffer viel häufiger vor als andere Ziffern: In 611 Gemeinden, das sind ca. 30 % aller Fälle, beginnt der Schuldenbetrag mit einer Eins. Dieses Beispiel ist keine Ausnahme; es sind bereits sehr häufig Konstellationen gefunden worden, bei denen eine solche schiefe Verteilung auftreten kann.

Es kommt noch besser: Das Benfordsche Gesetz (Benford’s Law, das nach dem eigentlichen Entdecker eher Newcomb‘s Law heißen müsste!) sagt die Häufigkeiten sogar quantitativ sehr gut vorher. In der obigen Tabelle zeigt die 4. Spalte die Wahrscheinlichkeiten gemäß diesem Gesetz und die daraus abgeleiteten erwarteten Häufigkeiten für n = 2051 in der 3. Spalte.

Diese erwarteten Häufigkeiten liegen dermaßen dicht an den tatsächlichen Werten, dass ein Chi-Quadrat-Test einen hohen p-Wert von 0.826 erzielt, also überhaupt keine Auffälligkeiten entdeckt. Das heißt, bei diesen Daten deutet nichts daraufhin, dass an den Werten manipuliert wurde.

Es stellen sich somit zwei Fragen: Wann gilt das Benfordsche Gesetz und welche Arten von Manipulationen können entdeckt werden?

Dass das Benfordsche Gesetz kein allgemeingültiges Naturgesetz ist, sehe ich an folgendem einfachen Beispiel: Wenn ich meine täglichen Zimmertemperaturen festhalte, werde ich wohl zwar auch meistens eine 1 als erste Ziffer erhalten, etwas seltener eine 2 (im Office gilt bereits die umgekehrte Konstellation) und ganz selten eine 3, aber die anderen Ziffern dürften zumindest in näherer Zukunft nicht an führender Stelle vorkommen. Hier ist das Benfordsche Gesetz also schon einmal nicht anwendbar.

Ein anderes Beispiel ist durch den Regionalschlüssel aus der obigen Tabelle gegeben, der bei allen Gemeinden mit einer 9 als führende Ziffer vertreten ist.

Schauen wir uns eine mögliche Formulierung des Benfordschen Gesetzes einmal genauer an; der 10er-Logarithmus wird dabei eine wichtige Rolle spielen.

Zunächst stellt man fest, dass eine Multiplikation oder Division einer Zahl mit 10 nicht die führende Ziffer ändert. Wir können also getrost alle Werte durch eine passende 10er-Potenz dividieren, sodass Zahlen aus dem Intervall [ 1 ; 10) entstehen. Nehme ich von einer solchen Zahl den 10er-Logarithmus, so entsteht ein Wert aus dem Intervall [0 ; 1). Zur Erinnerung sei hier noch einmal die Definition des 10er-Logarithmus genannt:

Bei unserem Schuldenbeispiel ergeben sich die folgenden Berechnungsschritte

Berechnung der 10er-Logarithmen

Die vorletzte Spalte zeigt die normierten Schuldenwerte, die nun im Intervall [ 1 ; 10) liegen, ohne dass die führende Ziffer verändert wurde. Der 10er-Logarithmus einer solchen Zahl liegt dann im Intervall [ 0 ; 1). 10 hoch die letzte Spalte ergibt somit die vorletzte Spalte.

Das Benfordsche Gesetz gilt nun dann, wenn angenommen werden kann, dass die Zahlen der letzten Spalte auf dem Intervall [ 0 ; 1) gleichverteilt sind.

Möchte man wissen, welche Zahlen der letzten Spalte zu einer 1 als führende Ziffer in der vorletzten Spalte führen, muss man nur berücksichtigen, dass eine Zahl x mit 0 <= x < log10(2) mittels der Operation y = 10^x zu einem Wert y aus dem Intervall [ 1 ; 2) führt und sich somit die 1 als führende Ziffer ergibt.

Die Wahrscheinlichkeit dafür ist wegen der angenommenen Gleichverteilung durch log10(2) ~ 0.30103 gegeben.

Analog kann man zeigen, dass allgemein die führende Ziffer i mit Wahrscheinlichkeit p(i) = log10(i+1) – log10(i) auftritt und sich die Benford-Werte p aus der oben erwähnten Häufigkeitstabelle ergeben.

Dass die Annahme gleichverteilter Werte bei unserem Schuldenbeispiel nicht zu weit hergeholt ist, zeigt ein Histogramm der 2051 10er-Logarithmen aus der letzten Spalte.

Histogramm der 10er-Logarithmen aus der letzten Spalte

Sind die 10er-Logarithmen gleichverteilt auf [ 0 ; 1), so ergibt sich die folgende Dichtefunktion der normierten Werte aus der 3. Spalte:

Dichtefunktion der normierten Werte

Wie aus der Grafik noch einmal deutlich wird, kommen Zahlen mit einer kleinen Anfangsziffer häufiger vor. Die Wahrscheinlichkeit einer Ziffer ist durch die zugehörige Fläche unter der Kurve gegeben, welche im Falle der 1 exemplarisch schraffiert worden ist.

Mit Hilfe dieser Dichtefunktion können schon recht viele Verteilungen generiert werden, die alle dem Benfordschen Gesetz folgen. Dies kann etwa in einem zweistufigen Prozess passieren: Zuerst wird eine Zufallszahl gemäß dieser Dichtefunktion generiert und diese wird anschließend mit einer 10er-Potenz multipliziert, deren ganzzahliger Exponent auch einer zufälligen Verteilung unterliegen kann, die zusätzlich auch noch von der ersten Zufallszahl abhängen mag.

Wir benötigen aber normalerweise die umgekehrte Richtung: vom gegebenen Datensatz zu den normierten Daten.

Um die Anwendbarkeit des Benfordschen Gesetzes für einen gegebenen Datensatz rechtfertigen zu können, fehlt es häufig an einer exakten theoretischen Ableitung. Beispielsweise weisen viele bekannte Verteilungen wie Normalverteilungen oder Exponentialverteilungen nicht die notwendige Benfordeigenschaft auf, obwohl zumindest die Ziffernwahrscheinlichkeiten der Exponentialverteilungen schon recht dicht bei den Benfordwerten liegen.

Es würde an dieser Stelle zu weit führen, hinreichende Bedingungen anzuführen, die die Anwendung des Benfordschen Gesetzes zwingend rechtfertigen, aber rechtsschiefe Verteilungen (die Masse der Werte liegt hier eher links), die sich über möglichst viele Zehnerpotenzen erstrecken – wie etwa eine Lognormal-Verteilung mit großer Varianz – passen oft sehr gut.

Die typische Anwendung ist nun also eher im Ansatz zu sehen, den Vergleich mit den erwarteten Häufigkeiten beim Benfordschen Gesetz durchzuführen und bei Abweichungen genauer hinzuschauen.

Die Frage ist nun, welche Manipulationen existieren, die überhaupt erkannt werden können.

Manipulationen, die nicht erfasst werden können, sind zum Beispiel all diejenigen, die die führende Ziffer nicht verändern, wie etwa Multiplikationen mit 10er-Potenzen.

Böse Menschen lesen keine Forschungsblogs, also sei folgender Fehler bei der Verfälschung verraten: Es sind eher händische Manipulationen, die zum Fallstrick werden, wobei die manuell gewählten Werte beispielsweise im für uns günstigen Fall die naive Hypothese gleich häufiger führender Ziffern von oben erfüllen und außerdem so massiv auftreten, dass sie in der Analyse Auswirkungen zeigen.

Eine einzelne Manipulation bleibt also bei dieser Methode unerkannt.

Als mögliche Anwendungsgebiete bieten sich z. B. Wahlergebnisse von vielen Städten oder wie in unserem Falle die Auswertung der auftretenden Zahlen großer Tabellen an.

Erhöhen wir doch einmal sukzessive den Prozentsatz der Schuldenwerte, bei denen die Beträge zufällig durch neue Werte ersetzt wurden, die der naiven Annahme genügen, d. h., bei denen die führende Stelle mit gleicher Wahrscheinlichkeit 1/9 jede Ziffer von 1 bis 9 sein kann.

Manipulierte Daten

Manipulationen in Höhe von bis zu 10 % bleiben hier noch unentdeckt, aber spätestens wenn 15 % und mehr der originalen Daten durch eigene ersetzt wurden, wird dies durch den Chi-Quadrat-Test erkannt, dessen p-Werte in der letzten Spalte angegeben sind (je kleiner der Wert, desto weniger gehorchen die Daten dem Benfordschen Gesetz!).

Ziffernhäufigkeiten der manipulierten Daten

Schaut man sich die zugehörigen Häufigkeiten an, so besitzen die manipulierten Verteilungen zwar immer noch die tendenziell schiefe Form der erwarteten Werte, aber die leichte Nivellierung reicht aus, um die Manipulation speziell in den hinteren Spalten mit geringer Irrtumswahrscheinlichkeit aufzudecken.

Übrigens lässt sich auch mit der Verteilung der zweiten Ziffer hinter der führenden Ziffer oder mit der gemeinsamen Verteilung der ersten beiden Ziffern arbeiten. Dann wird es noch schwieriger, Werte zu manipulieren, ohne dass es in der Analyse auffällt.

* Tabellenband zu den Integrierten Schulden der Gemeinden und Gemeindeverbände
Letzter Zugriff am 25.4.2017

Montag, 1. Mai 2017

Benford's Law Benfordsches Gesetz Datenintegrität Fraud Logarithmus Ziffernanalyse

Veranstaltungs-Tipp

On-Demand-Webinar 2. Mai 2024 Webinar: DeltaMaster ETL

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

Anmeldung

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

On-Demand-Webinar 7. Mai 2024 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

On-Demand-Webinar 13. Mai 2024 Webinar: Reporting mit DeltaMaster

DeltaMaster-Berichte geben Signale, die unmissverständlich zeigen, wo gehandelt werden muss. Im Webinar zeigen wir Ihnen die drei leistungsfähigsten Methoden für die interaktive Ad-hoc-Analyse von [...]

Anmeldung

Über den Autor

Dr. Achim Lewandowski

ist zu Hause in der Grundlagen- und Anwendungsforschung von Bissantz & Company.

Letzte Blogartikel

Forschung Benutzerdefinierte Filter für Zielbericht zuweisen

Benutzerdefinierte Filter helfen im neuen Release von DeltaMaster, Verknüpfungen von Grafischen Tabellen zu Zielberichten flexibler anzulegen [...]

mehr erfahren

Forschung Steuereinnahmen der Länder

Steuereinnahmen der Länder - es war schon immer viel Fantasie im Spiel, wenn es um das Erfinden und Eintreiben von Steuern ging. Wie haben [...]

mehr erfahren

Forschung Studienanfänger und Studierende in Deutschland

Studienanfänger stehen jedes Jahr vor einer wichtigen Entscheidung: Welches der fast 300 Studienfächer entspricht den eigenen Neigungen und [...]

mehr erfahren

Forschung Neue Aggregationstypen in der DeltaApp

Der Aggregationstyp Summation ist bei hierarchischen Modellen im Bereich Business Intelligence vorherrschend: Der Gesamtumsatz ergibt sich beispielsweise [...]

mehr erfahren

Forschung Aufstiegs-BAföG in der DeltaApp

In einer sich schnell verändernden Welt ist lebenslanges Lernen unerlässlich. Mit dem Aufstiegs-BAfög werden bestimmte Fortbildungen unterstützt [...]

mehr erfahren

Planung Vollständiges Wiederherstellungsmodell – Back-ups im Rhythmus der Planung

In diesem Beitrag soll eine spezifische Back-up-Strategie für eine DeltaMaster-Planungsumgebung beschrieben werden, die auf dem vollständigen [...]

mehr erfahren

Bissantz News Wissen auf Abruf: das Bissantz Help Center

Viele Nutzer legen direkt in DeltaMaster und DeltaApp los und verstehen intuitiv, wie Berichte genutzt werden können. Wer lieber mit einer [...]

mehr erfahren

Data Warehousing Float – ein problematischer Datentyp

Dieser Beitrag zeigt, wie es bei relationalen Eingabeanwendungen zu Rundungsfehlern im Zusammenhang mit float kommen kann und wie man dies vermeidet [...]

mehr erfahren

Data Warehousing Reverse Engineering im Bissantz Application Designer

Dieser Beitrag stellt die neue Funktion des „Reverse Engineering“ im Bissantz Application Designer vor. Damit lassen sich bestehende relationale [...]

mehr erfahren

Bissantz News Daten- und Softwaresicherheit bei Bissantz

TISAX-Verlängerung und Penetrationstest-Zertifizierung Informationssicherheit hat bei Bissantz & Company höchste Priorität – deshalb werden [...]

mehr erfahren

Vorheriger Artikel

Netzwerke: Gute Freunde kann niemand trennen

Nächster Artikel

Lebensdauer: Große Erwartungen

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Zur Speicherung der Einstellungen, die Sie in der Cookie-Leiste ausgewählt haben.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Microsoft Azure CDN
Anbieter	Microsoft Azure
Zweck	Das Cookie dient der Lastverteilung der Anfragen (Load-Balancing) durch Seitennutzer bei der Nutzung des Dienstes.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ARRAffinity,ARRAffinitySameSite
Cookie Laufzeit	Sitzung

Name	Polylang
Anbieter	Eigentümer dieser Website
Zweck	Speichert die aktuelle Sprache.
Cookie Name	pll_language
Cookie Laufzeit	1 Jahr

Name	cloud.bissantz.de
Anbieter	Bissantz
Zweck	Dieser Cookie dient der Erfassung der Position des Seitenbesuchers um eine möglichst effeziente und schnelle Zuteilung zu einem nahen Server zu ermöglichen.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ASLBSA,ASLBSACORS
Cookie Laufzeit	Sitzung

Name	UserLike (verwendet den Webfont Loader und das Google-API CDN)
Anbieter	https://www.userlike.com/de/
Zweck	Notwendig zur umfassenden Information, z. B. auch für Datenschutzfragen.
Datenschutzerklärung	https://www.userlike.com/de/terms#privacy-policy
Host(s)	userlike.com
Cookie Laufzeit	365 Tage

Akzeptieren	Google Tag Manager
Name	Google Tag Manager
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google zur Steuerung der erweiterten Script- und Ereignisbehandlung.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	Facebook Pixel
Name	Facebook Pixel
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Cookie von Facebook, das für Website-Analysen, Ad-Targeting und Anzeigenmessung verwendet wird.
Datenschutzerklärung	https://www.facebook.com/policies/cookies
Cookie Name	_fbp,act,c_user,datr,fr,m_pixel_ration,pl,presence,sb,spin,wd,xs
Cookie Laufzeit	Sitzung / 1 Jahr

Akzeptieren	Google Optimize
Name	Google Optimize
Anbieter	Google
Zweck	Das Google Website-Optimierungstool ist eine kostenlos verfügbare Software zur Durchführung von A/B- und Multivariatentests im Webdesign.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de

Akzeptieren	Facebook
Name	Facebook
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Mit der Zustimmung können z. B. unsere Beiträge direkt in Ihrem Facebook-Profil geteilt werden und Sie erlauben Facebook, Informationen über Sie zu verarbeiten, damit Ihnen personalisierter Content angezeigt werden kann.
Datenschutzerklärung	https://www.facebook.com/privacy/explanation
Host(s)	.facebook.com
Cookie Laufzeit	730 Tage

Datenintegrität: Anfangsverdacht

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Forschung.