Visualisierung: Profil zeigen!

Auf die Analyse von Kreuztabellen ist DeltaMaster bestens vorbereitet. Kann die Korrespondenzanalyse das Verständnis für die vorliegende Datenkonstellation noch erhöhen?

Eine Kreuztabelle stellt üblicherweise Häufigkeiten dar, die für Kombinationen der Elemente zweier Dimensionen ermittelt wurden. Nehmen wir als konkretes Beispiel die Anzahl der Erstabschlüsse an der Universität Wien im Studienjahr 2012/13 (*):

Kreuztabelle der ErstabschlüsseKreuztabelle der Erstabschlüsse

Die erste Dimension ist durch den Studiengang gegeben. Die Elemente der zweiten Dimension stellen Kombinationen aus zwei weiteren Dimensionen dar (Geschlecht [F,M] und Herkunft [A=Österreich, EU, Drittländer]), die aber hier aufgrund der überschaubaren Anzahl der Elemente (2×3=6) in einer einzigen Dimension modelliert wurden.

Möchte man mit DeltaMaster die Frage beantworten, ob sich erstabgeschlossene Studiengänge bezüglich der Anteile der sechs Gruppen ähneln, lässt sich dies beispielsweise mit der Clusteranalyse „Zeilen nach Anteilen gruppieren“ bewerkstelligen. Hier spricht man dann von Zeilenprofilen. Die Summe der Werte einer Zeile ist immer 100%. Zusätzlich wurde die Option „Spaltenaggregation Anteil“ aktiviert (bitte klicken Sie auf die Grafik für eine vergrößerte Darstellung!).

Ähnliche Studiengänge bezüglich der Verteilung auf die sechs GruppenÄhnliche Studiengänge bezüglich der Verteilung auf die sechs Gruppen

Hier werden zwei Cluster entdeckt. Der erste setzt sich aus vier Studiengängen zusammen, die sich erstens in der Verteilung über die sechs Gruppen sehr ähneln und deren Zeilenprofile weiterhin auch fast dem Gesamtzeilenprofil entsprechen. Die letztere Tatsache lässt sich teilweise dadurch erklären, dass diese vier Studiengänge hohe Abschlusszahlen besitzen und bereits ca. 70% aller Absolventen stellen. Gesundheit und Journalismus sind trotz ähnlicher Anteile bei den österreichischen Studentinnen nicht Bestandteile dieses Clusters, da ersteres Fach einen deutlich höheren Anteil bei den Frauen aus Drittländern besitzt und letzteres einen klar höheren Anteil bei den EU-Frauen.

Der zweite Cluster besteht aus Mathematik, Dienstleistungen und den Exakten Naturwissenschaften. Hier sind hingegen gleichermaßen erhöhte Anteile der männlichen Studenten aus Österreich zu erkennnen.

Genauso lassen sich mit der Darstellungsoption „Anteil an Spalten“ die Vorlieben der sechs Gruppen bezüglich der Studiengänge untersuchen (zumindest derjenigen Studenten, die den Studiengang auch abgeschlossen haben) und mit den allgemeinen Anteilen vergleichen, die noch über „Zeilenaggregationen Anteil“ hinzugefügt wurden. Diese Spaltenprofile lassen sich in der folgenden Tabelle ablesen:

Die prozentualen Verteilungen der Abschlüsse auf die StudiengängeDie prozentualen Verteilungen der Abschlüsse auf die Studiengänge

Beispielsweise kann man hier sehen, dass 33.2% der Absolventen einen Abschluss der Geisteswissenschaften erhalten, aber bei Männern aus den Drittländern beträgt der Anteil 43.9%. Sollen auffällige Anteile leichter entdeckt werden, bietet sich die Darstellung des Erwartungswert-Index an:

tabelle_abschluss_erwartungswertindexDie Tabelle in der Darstellung Erwartungswert-Index

Der Quotient der Zahlen aus dem eben genannten Beispiel findet sich hier als 43.9/33.2 ~ 1.3 wieder, und Werte > 1 geben somit erhöhte Anteile im Vergleich zur Allgemeinheit an. Übrigens ergibt sich dieser Wert 1.3 auch, wenn die Prozentzahl aus dem Zeilenprofil ins Verhältnis zu den allgemeinen Anteilen der Spalten gesetzt wird.

Die Korrespondenzanalyse versucht nun, die Struktur einer Kreuztabelle durch möglichst getreue Berücksichtigung der Ähnlichkeiten von Zeilen- bzw. Spaltenprofilen in einer einzigen Grafik wiederzugegeben. Im Gegensatz zu einer Grafischen Tabelle werden jedoch keine einzelnen Zellen visualisiert. Jedes Zeilenprofil wird durch einen Punkt dargestellt und ähnliche Zeilenprofile befinden sich in der Grafik in räumlicher Nähe zueinander. Räumliche Nähe in der Grafik wiederum deutet auf ähnliche Zeilenprofile hin; der logische Zusammenhang ist in dieser Richtung aber nicht zwingend. Analoge Überlegungen gelten auch für die Spaltenprofile.

Das Besondere dieser Darstellung ist nun, dass die projizierten Punkte, egal ob Zeilen- oder Spaltenprofile, in einer einzigen Grafik landen. Räumliche Nähe eines Spaltenprofils zu einem Zeilenprofil kann bedeuten, dass der Wert des Zeilenprofils für diese Spalte und der Wert des Spaltenprofils für diese Zeile besonders hoch sind.

Man möchte erreichen, dass die Beziehungen der Profile zueinander bei der Projektion auf eine zweidimensionale Ebene optimal dargestellt werden; die Güte der Darstellung lässt sich durch eine Maßzahl beziffern, die im optimalen Fall 100 und hier im konkreten Beispiel 88 beträgt. Zeilen oder Spalten mit größeren Häufigkeiten haben auch einen größeren Einfluss auf die gewählte Projektion. Zeilen- bzw. Spaltenprofile, die den Gesamtanteilen entsprechen, landen im Koordinatenursprung.

Werfen wir einen Blick auf die Grafik, die der Algorithmus der Korrespondenzanalyse erzeugt (bitte klicken Sie auf die Grafik für eine vergrößerte Darstellung!). Die Markergrößen spiegeln die jeweiligen Anzahlen wider.

Das Ergebnis der KorrespondenzanalyseDas Ergebnis der Korrespondenzanalyse

Beispielsweise liegt aufgrund der geringen Abstände die Vermutung nahe, dass die drei Fächer Mathematik, Dienstleistungen und Exakte Naturwissenschaften ähnliche Anteile über die sechs Gruppen besitzen. Diesen Sachverhalt hatten wir bereits oben mit der Clusteranalyse der Zeilenanteile bestätigt.

Weiterhin liegen diese drei Studiengänge im relativen Vergleich deutlich näher bei den österreichischen Studenten. Die Tabelle in der Darstellung Erwartungswert-Index zeigt, dass die drei betroffenen Studiengänge bei den österreichischen Studenten Werte im Bereich 2.5-2.6 aufweisen, also im Vergleich zur Allgemeinheit mehr als doppelt so hohe Anteile besitzen.

Ähnliche Aussagen lassen sich für Journalismus und EU-Frauen oder für Erziehung mit Bezug auf die Nähe zu den österreichischen Studentinnen treffen. Letzterer Sachverhalt korrespondiert mit dem hohen 78.0%-Anteil an österreichischen Studentinnen im Studiengang Erziehung (siehe Tabelle der geclusterten Zeilenprofile), bzw. mit dem erhöhten Wert 1.3 in der Zeile „Erziehung“ in der Tabelle des Erwartungswert-Index, im Gegensatz zu den Werten der anderen fünf Gruppen, die nicht über 0.6 steigen.

Schließlich fällt die Nähe von Künste und Sozialwissenschaften auf, und nach einem Blick auf unsere Tabelle mit den geclusterten Zeilenprofilen kann dieser Sachverhalt nachvollzogen werden: Diese beiden Studienrichtungen sind zwar auch sehr ähnlich zu Biologie und Geisteswissenschaften, weisen aber im Vergleich zu diesen einen leicht erhöhten Anteil an EU-Frauen bzw. einen leicht verminderten Anteil an Österreich-Männern auf.

Das Fazit lautet somit, dass die Korrespondenzanalyse nun nicht zwingend etwas komplett Neues entdeckt, das nicht bereits durch die Darstellungs- und Analysevarianten der Kreuztabelle ans Tageslicht befördert werden kann, aber eben doch gut geeignet ist, die Aussagen der Darstellungsarten „Anteil an Zeilen“, „Anteil an Spalten“ und „Erwartungswert-Index“ in einer einzigen Grafik hilfreich wiederzugeben.

Auf dem Gebiet der Korrespondenzanalyse ist Michael Greenacre besonders aktiv. Er hat etliche Artikel und einige Bücher (z.B. Correspondence Analysis in the Social Sciences oder Correspondence Analysis in Practice) zu diesem Thema veröffentlicht.

(*) Quelle: http://public.univie.ac.at/fileadmin/user_upload/public/pdf/Leistungsbericht_2013_Tabellenanhang.pdf (Abschnitt 3.A.1 Anzahl der Studienabschlüsse), letzter Zugriff am 12.8.2014

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.