Sortierung: Matricks

Oft ist es möglich, eine Menge von Objekten durch paarweise definierte Ähnlichkeiten (oder auch Unähnlichkeiten) zu beschreiben, die in einer Matrix dargestellt werden können. Wir präsentieren Ansätze, die Objekte derart zu ordnen, dass die Strukturen klarer hervortreten.

Als mögliche Anwendung ergibt sich beispielsweise die Darstellung des Zusammenhangs von Dimensionen in Gestalt des Kontingenzkoeffizienten, der von DeltaMaster z.B. in der Interdependenzanalyse verwendet wird.

In der Standardansicht geschieht die Darstellung tabellarisch. In der Matrixansicht erscheinen die Dimensionen sowohl in den Zeilen, als auch in den Spalten in der Reihenfolge, wie sie in der Sicht aufgeführt werden. Unabhängigkeit wird durch eine 0, starke Abhängigkeit durch eine 1 ausgedrückt. Wir haben es hier also mit einem Ähnlichkeitsmaß zu tun.

Die tabellarische Anordnung passt zur Anforderung, schnell eine Rangliste der stärksten Zusammenhänge zu erstellen; die graphische Darstellung als Matrix hilft, bei bekannter Reihenfolge der Dimensionen den Wert eines Zusammenhangs schnell nachzuschlagen, bzw. auffällige Werte einfach zu identifizieren.

Die Abhängigkeiten zwischen den 20 Dimensionen

In einem Beispiel mit 20 Dimensionen könnte die Matrix wie in der obigen Abbildung aussehen (klicken Sie auf die Grafik für eine vergrößerte Darstellung!).

Wir möchten nun erreichen, dass wir einfacher erkennen, ob die Dimensionen Cluster bilden, d.h. ob die Dimensionen so gruppiert werden können, dass Dimensionen innerhalb einer Gruppe hohe Abhängigkeiten zeigen, die Zusammenhänge zwischen Dimensionen unterschiedlicher Gruppen jedoch geringer ausgeprägt sind. Diese Gruppen lassen sich in der obigen Darstellung noch nicht mühelos erkennen. Es gäbe nun zwar Möglichkeiten, diese Cluster in Bäumen darzustellen oder Projektionen über Multidimensionale Skalierung zu gewinnen, aber an dieser Stelle möchten wir innerhalb der Matrixdarstellung verbleiben.

Aber auch mit der Restriktion, sich auf Matrixdarstellungen zu beschränken, existieren noch einige Varianten. Allen ist gemein, die Dimensionen so anordnen zu wollen, sodass Dimensionen mit auffälligen Abhängigkeiten eng nebeneinander stehen. Die Anordnung wirkt sich natürlich immer simultan auf Zeilen und Spalten aus. Michael Hahsler und Kurt Hornik haben in ihrem Report (*) einige Algorithmen aufgeführt. Da sie von Unähnlichkeiten ausgehen, müssen die Werte unserer Matrix für die dort genannten Ansätze intern noch transformiert werden, am einfachsten durch f(x)=1-x. In unseren Grafiken werden aber immer die Originalwerte dargestellt.

Die aus einem Hierarchischen Clusterverfahren gewonnene Anordnung erzeugt das folgende Bild. Es ist nun z.B. leicht erkennbar, dass die Dimensionen 18, 7, 3, 1 und 2 einen Cluster bilden, in dem zwischen allen möglichen Paaren hohe Zusammenhänge vorherrschen. Gleichzeitig existiert ein zweiter Cluster mit ebenfalls 5 Dimensionen, der durch die Dimensionen 4 und 5 zusammengehalten wird.

Sortierung mit Hierarchischem Clusterverfahren

Erstaunlicherweise lässt sich die Aufgabe auch als Problem des Handlungsreisenden (TSP: traveling salesman problem) darstellen: Jede Dimension stellt einen “Ort” dar, und wir suchen eine möglichst kurze “Reise”, die jede Dimension einmal besucht, wobei “Entfernungen” zwischen Dimensionen umso größer werden, je unähnlicher sich die Dimensionen sind. Wir benutzen dazu ein indirekt abgeleitetes Maß, das nicht die direkt aus der Matrix ablesbaren Werte benutzt, sondern auf den jeweiligen Abhängigkeiten gegenüber den restlichen Dimensionen aufbaut.

Sortierung mit TSP-Ansatz mit indirektem Maß

Grundsätzlich ergibt sich eine ähnliche Struktur wie mit der ersten Methode, mit den identischen zwei Hauptclustern. Wie sieht es bei einer größeren Anzahl von Dimensionen aus? Bei folgendem Beispiel sind die 85 Dimensionen in der Ausgangssituation bunt gemischt:

Original mit zufälliger Anordnung

Auch hier wird die Struktur durch die optimierte Anordnung der Dimensionen deutlich sichtbar:

Optimierte Anordnung der Dimensionen mittels TSP-Ansatzes

Auffällig sind hier beispielsweise der Hauptcluster, der etwa die Hälfte der Dimensionen beinhaltet, und die vielen kleinen Cluster mit jeweils zwei bis drei Elementen. Weiterhin sind einige mittelgroße Cluster mit etwa vier bis neun Elementen erkennbar. Auch die einzelnen versprengten Pixel fallen nun auf, und die jetzt wahrnehmbaren “Linien” sind ebenfalls einen zweiten Blick wert.

(*): Michael Hahsler, Kurt Hornik, “Dissimilarity Plots: A Visual Exploration Tool for Partitional Clustering”, Department of Statistics and Mathematics, WU Wirtschaftsuniversität Wien, Research Report Series Report 89, September

Donnerstag, 1. August 2013

Clustern Segmentierung Sortierung Traveling Salesman Problem

Veranstaltungs-Tipp

On-Demand-Webinar 2. Mai 2024 Webinar: DeltaMaster ETL

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

Anmeldung

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

On-Demand-Webinar 7. Mai 2024 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

On-Demand-Webinar 13. Mai 2024 Webinar: Reporting mit DeltaMaster

DeltaMaster-Berichte geben Signale, die unmissverständlich zeigen, wo gehandelt werden muss. Im Webinar zeigen wir Ihnen die drei leistungsfähigsten Methoden für die interaktive Ad-hoc-Analyse von [...]

Anmeldung

Über den Autor

Dr. Achim Lewandowski

ist zu Hause in der Grundlagen- und Anwendungsforschung von Bissantz & Company.

Letzte Blogartikel

Forschung Benutzerdefinierte Filter für Zielbericht zuweisen

Benutzerdefinierte Filter helfen im neuen Release von DeltaMaster, Verknüpfungen von Grafischen Tabellen zu Zielberichten flexibler anzulegen [...]

mehr erfahren

Forschung Steuereinnahmen der Länder

Steuereinnahmen der Länder - es war schon immer viel Fantasie im Spiel, wenn es um das Erfinden und Eintreiben von Steuern ging. Wie haben [...]

mehr erfahren

Forschung Studienanfänger und Studierende in Deutschland

Studienanfänger stehen jedes Jahr vor einer wichtigen Entscheidung: Welches der fast 300 Studienfächer entspricht den eigenen Neigungen und [...]

mehr erfahren

Forschung Neue Aggregationstypen in der DeltaApp

Der Aggregationstyp Summation ist bei hierarchischen Modellen im Bereich Business Intelligence vorherrschend: Der Gesamtumsatz ergibt sich beispielsweise [...]

mehr erfahren

Forschung Aufstiegs-BAföG in der DeltaApp

In einer sich schnell verändernden Welt ist lebenslanges Lernen unerlässlich. Mit dem Aufstiegs-BAfög werden bestimmte Fortbildungen unterstützt [...]

mehr erfahren

Planung Vollständiges Wiederherstellungsmodell – Back-ups im Rhythmus der Planung

In diesem Beitrag soll eine spezifische Back-up-Strategie für eine DeltaMaster-Planungsumgebung beschrieben werden, die auf dem vollständigen [...]

mehr erfahren

Bissantz News Wissen auf Abruf: das Bissantz Help Center

Viele Nutzer legen direkt in DeltaMaster und DeltaApp los und verstehen intuitiv, wie Berichte genutzt werden können. Wer lieber mit einer [...]

mehr erfahren

Data Warehousing Float – ein problematischer Datentyp

Dieser Beitrag zeigt, wie es bei relationalen Eingabeanwendungen zu Rundungsfehlern im Zusammenhang mit float kommen kann und wie man dies vermeidet [...]

mehr erfahren

Data Warehousing Reverse Engineering im Bissantz Application Designer

Dieser Beitrag stellt die neue Funktion des „Reverse Engineering“ im Bissantz Application Designer vor. Damit lassen sich bestehende relationale [...]

mehr erfahren

Bissantz News Daten- und Softwaresicherheit bei Bissantz

TISAX-Verlängerung und Penetrationstest-Zertifizierung Informationssicherheit hat bei Bissantz & Company höchste Priorität – deshalb werden [...]

mehr erfahren

Vorheriger Artikel

Relevanz: Den Zufall zu Fall bringen

Nächster Artikel

Relevanz: Rangeleien

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Zur Speicherung der Einstellungen, die Sie in der Cookie-Leiste ausgewählt haben.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Microsoft Azure CDN
Anbieter	Microsoft Azure
Zweck	Das Cookie dient der Lastverteilung der Anfragen (Load-Balancing) durch Seitennutzer bei der Nutzung des Dienstes.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ARRAffinity,ARRAffinitySameSite
Cookie Laufzeit	Sitzung

Name	Polylang
Anbieter	Eigentümer dieser Website
Zweck	Speichert die aktuelle Sprache.
Cookie Name	pll_language
Cookie Laufzeit	1 Jahr

Name	cloud.bissantz.de
Anbieter	Bissantz
Zweck	Dieser Cookie dient der Erfassung der Position des Seitenbesuchers um eine möglichst effeziente und schnelle Zuteilung zu einem nahen Server zu ermöglichen.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ASLBSA,ASLBSACORS
Cookie Laufzeit	Sitzung

Name	UserLike (verwendet den Webfont Loader und das Google-API CDN)
Anbieter	https://www.userlike.com/de/
Zweck	Notwendig zur umfassenden Information, z. B. auch für Datenschutzfragen.
Datenschutzerklärung	https://www.userlike.com/de/terms#privacy-policy
Host(s)	userlike.com
Cookie Laufzeit	365 Tage

Akzeptieren	Google Tag Manager
Name	Google Tag Manager
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google zur Steuerung der erweiterten Script- und Ereignisbehandlung.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	Google Optimize
Name	Google Optimize
Anbieter	Google
Zweck	Das Google Website-Optimierungstool ist eine kostenlos verfügbare Software zur Durchführung von A/B- und Multivariatentests im Webdesign.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de

Akzeptieren	Facebook
Name	Facebook
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Mit der Zustimmung können z. B. unsere Beiträge direkt in Ihrem Facebook-Profil geteilt werden und Sie erlauben Facebook, Informationen über Sie zu verarbeiten, damit Ihnen personalisierter Content angezeigt werden kann.
Datenschutzerklärung	https://www.facebook.com/privacy/explanation
Host(s)	.facebook.com
Cookie Laufzeit	730 Tage

Akzeptieren	Soundcloud
Name	Soundcloud
Anbieter	Soundcloud
Zweck	Dieses Cookie weist einem Seitennutzer beim Besuch von Unterseiten mit eingebetteten Musikfiles von Soundcloud eine ID zu, um die Musik abspielen zu können.
Datenschutzerklärung	https://soundcloud.com/pages/privacy
Cookie Name	sc_anonymous_id

Sortierung: Matricks

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Forschung.