Neuronale Netze: Mehr als eine Masche

Neuronale Netze haben den Hype-Zyklus bereits mehr als einmal durchlaufen. Für Regressionen und Funktionsapproximationen eignen sie sich durchaus – wenn einige Regeln beachtet werden!

In den letzten Jahren machen (Künstliche) Neuronale Netze wieder von sich reden, etwa in der Form von Deep-Learning-Netzwerken, die in der Bilderkennung und der Sprachverarbeitung durchaus beeindruckende Ergebnisse abliefern, falls sie mit Big Data gefüttert werden. Vor dieser Renaissance waren sie etwas aus dem Fokus des öffentlichen Interesses geraten, da der Reiz des Neuen verschwunden war. Man sollte sich aber nicht irritieren lassen: Unter dem Oberbegriff “Neuronale Netze” werden diverse, auch sehr unterschiedliche Ansätze geführt, und in diesem umfangreichen Angebot findet der Anwender bestimmt interessante und relevante Methoden.

Hier möchten wir nun zur Einführung die leichter verständlichen Multi-Layer-Perceptrons (MLP), eine spezielle Klasse von Neuronalen Netzen zur Modellierung von funktionalen Abhängigkeiten, vorstellen und ihre Funktionsweise erläutern.

Stellen wir uns einmal vor, dass eine Menge von (x,y)-Paaren gemessen wurde und wir nun versuchen, einen funktionalen Zusammenhang zwischen Input x und Output y herzustellen. Zur Vereinfachung nehmen wir an, dass die Messung perfekt verlief und kein Messrauschen zu beobachten war. Plotten wir y gegen x, so entsteht die folgende Punktwolke:

Beispieldaten

In der klassischen Regressionsanalyse arbeitet man mit parametrischen Modellen, bei denen jeder Parameter eine interpretierbare Bedeutung besitzt. Wird etwa eine Geradengleichung y=ax+b verwendet, stellt a die Steigung und b den Achsenabschnitt dar. Bei der vorliegenden Punktwolke bedürfte es jedoch einiger Überlegungen, eine passende parametrische Modellfamilie zu postulieren.

MLPs arbeiten auch mit Parametern, die hier Gewichte genannt werden, doch ist bei ihnen der Einfluss und der Zusammenhang mit dem vorherzusagenden Output weniger einfach zu beschreiben. MLPs bestehen aus einer Eingabeschicht, mindestens einer versteckten Schicht und der Ausgabeschicht. Ein durch Optimierung der Gewichte angepasstes MLP mit drei Neuronen in der versteckten Schicht könnte folgendermaßen aussehen (die Zahlenwerte für die Gewichte zu den Neuronen 2 und 3 der versteckten Schicht sind in der Grafik aus Platzgründen weggelassen worden!):

Ein MLP mit einer versteckten Schicht mit 3 Neuronen

Damit ein nichtlinearer Zusammenhang zwischen Input x und Output y modelliert werden kann, wird der Einsatz einer nichtlinearen Aktivierungsfunktion benötigt; häufig wird die Sigmoidfunktion verwendet.

Formel der Sigmoidfunktion

Diese strebt für große positive x-Werte gegen 1 und für negative x-Werte mit großem Betrag gegen 0. Bei x=0 ist der Funktionswert y=1/2.

Die Sigmoidfunktion ermöglicht die Modellierung von nichtlinearen Funktionen.

Wie wird nun aus einem Eingabewert x im MLP eine Ausgabe y erzeugt? Unter der Annahme, dass die Gewichte des Netzes bereits vorliegen, wird für jedes Neuron der versteckten Schicht zunächst eine gewichtete Linearkombination aus dem Inputwert x und einem Biasneuron berechnet, wobei das Biasneuron ein Hilfsneuron darstellt, das immer den konstanten Wert 1 liefert. Für das erste Neuron der versteckten Schicht lautet dieser Ausdruck 0.16641*x-10.65141*1 (siehe das MLP in der Grafik oben). Anschließend wird der Ausdruck in die Sigmoidfunktion eingesetzt. Für die drei Neuronen der versteckten Schicht entstehen somit die folgenden Funktionswerte (bzw. Funktionen, wenn wir x allgemein halten):

Ausgabefunktionen der drei versteckten Neuronen

Die nur intern sichtbaren Ausgaben der versteckten Neuronen in Abhängigkeit von x sehen also so aus:

Plots der Ausgabefunktionen der drei versteckten Neuronen

Jede der Funktionen entsteht aus der Sigmoidfunktion durch Streckung/Stauchung und einer anschließenden Verschiebung, jeweils in x-Richtung. Wie das Beispiel der dritten Funktion zeigt, wird die Sigmoidfunktion bei einem negativen Gewicht für x gespiegelt.

Um nun die endgültige Ausgabe zu erzeugen, werden die drei Funktionswerte für ein gegebenes x in diesem Ansatz wieder gewichtet (bspw. wird der erste Funktionswert mit 14.90708 multipliziert, siehe wieder das MLP in der Grafik oben) und einfach addiert, ohne weiteres Einsetzen in eine Sigmoidfunktion. Das Bias-Neuron steuert eine Verschiebung um 5.14032 nach unten bei. Zeichnet man die Funktion für eine Reihe von x-Werten, ergibt sich in folgendem Diagramm die durchgezogene Kurve.

Die angepasste Funktion mit drei versteckten Neuronen

Offensichtlich konnten wir mit unserem Netz nur einen Teilerfolg erzielen, da der linke Bereich bei der Anpassung vernachlässigt wurde.

Wie kommt man nun überhaupt zu den Gewichten? Dazu wird eine Fehlerfunktion definiert, die Abweichungen zwischen tatsächlichen und vorhergesagten Werten auf unseren vorhandenen (x,y)-Paaren bestraft. Es existieren dann unterschiedlichste Verfahren, die mehr oder weniger direkt mit dem Gradienten der Fehlerfunktion arbeiten und iterativ die Gewichte verändern, bis die Vorhersagefehler nicht mehr sinken oder eine vorgegebene Anzahl von Iterationen erreicht wurde.

Hier ist nun die Anzahl von drei versteckten Neuronen möglicherweise zu niedrig, um unsere Funktion angemessen wiedergeben zu können. Entweder versuchen wir es erst einmal mit mehreren Durchläufen mit zufällig erzeugten Startgewichten, die auch zu unterschiedlichen Anpassungen führen können, oder wir können die Flexibilität der Anpassung erhöhen, indem wir mehr versteckte Neuronen verwenden. Wir probieren gleich den zweiten Ansatz und nehmen für die versteckte Schicht zehn Neuronen:

Die angepasste Funktion mit zehn versteckten Neuronen

Es scheint so, als seien wir am Ziel unserer Träume angelangt: Ohne dass wir ein parametrisches Modell postulieren mussten, sind wir zu einem überzeugenden Anpassungsresultat gelangt. Es sind keine nennenswerten Abweichungen zwischen unserer angepassten Kurve und den vorhandenen Punkten zu beobachten und die Kurve verläuft gleichmäßig und geschmeidig auf dem betrachteten Intervall. Obwohl theoretisch denkbar, sollten zumindest in diesem Intervall [0; 100] keine großen Überraschungen lauern, zumindest unter der Annahme, dass die Funktion glatt verläuft und keine unerwarteten Spitzen in bisher unbeobachteten Teilintervallen aufweist, z.B. in dem Bereich um 90 herum. Anders sieht es aus, wenn wir uns aus dem Intervall [0; 100] herauszoomen und eine globalere Sicht wählen:

Die angepasste Funktion in einer globalen Ansicht

Die Fortsetzung der angepassten Funktion außerhalb des beobachteten Bereiches sieht etwas seltsam aus.

Für sehr große Werte von x streben die Ausgaben der versteckten Neuronen aufgrund der eingesetzten Sigmoidfunktionen entweder gegen 1 oder gegen 0 (falls das zugehörige Gewicht für x negativ war) oder im Extremfall hat x gar keinen Einfluss, falls das Gewicht 0 ist und die Ausgabe dieses Neurons ist dann durchgehend konstant. Ein solches Neuron könnte aber getrost gelöscht werden, wenn der bisher konstante Einfluss durch Anpassung des Gewichts vom Biasneuron zum Output korrigiert wird.

Als Ausgabewert wird also bspw. für sehr große x normalerweise immer eine konstante Summe von bestimmten Gewichten, die zum Ausgabeneuron gehören, entstehen. Ist sicher, dass wir die Funktion nur auf dem Intervall verwenden werden, auf welchem auch die Werte beobachtet wurden, sollte uns diese unnatürliche Fortsetzung außerhalb des Intervalls nicht stören.

Anders sieht es aus, wenn diese Annahme nicht erfüllt ist. Nehmen wir bspw. an, dass zur Optimierung des Neuronalen Netzes nur Wertepaare (x,y) mit x aus dem Intervall [20; 90] vorlagen, so erzielen wir wieder eine perfekte Anpassung auf diesem Teilintervall, wie die folgende Grafik zeigt:

Mangelnde Extrapolationsfähigkeiten bei eingeschränkter Lernmenge 20<x<90

Wie die Grafik ebenfalls vermittelt, ist die angepasste Funktion aber vor allem links von 20 nicht vertrauenswürdig. Es ist somit ratsam, immer zu prüfen, ob die angepasste Funktion nicht außerhalb der Menge der zum Lernen verwendeten x-Werte eingesetzt wird. Es gibt einige Eingriffe, die das Extrapolationsverhalten der angepassten Funktion beeinflussen können, beispielsweise das vorherige Standardisieren der Daten oder das Einfügen einer direkten Verbindung vom Inputneuron x zum Outputneuron y.

In realen Anwendungen kann auch noch Rauschen vorliegen; das heißt, die gemessenen y-Werte sind mit Fehlern behaftet. Beim sogenannten Overfitting tritt der Effekt auf, dass die angepasste Funktion auch noch Schlenker mitnimmt, die eigentlich nur Fehler darstellen. Es existieren einige Ansätze, diese Effekte so gut wie es geht zu unterdrücken. Dem interessierten Leser seien hier zum Selbststudium die Standardwerke über Neural Networks empfohlen; uns gefällt in dieser Hinsicht der vielzitierte Klassiker “Neural Networks for Pattern Recognition” von Christopher M. Bishop.

Samstag, 1. November 2014

Big Data Multilayer-Perceptron Neuronale Netze Predictive Analytics Regression

Veranstaltungs-Tipp

On-Demand-Webinar 22. April 2024 Webinar: Selfservice mit DeltaMaster und Microsoft Excel

Mit Selfservice-BI lassen sich Managementinformationen ergänzen, z. B. aus Excel- oder Access-Dateien. Wie auf Basis einer Excel-Tabelle eine DeltaMaster-Anwendung entsteht, sehen Sie im Webinar [...]

Anmeldung

Mit Selfservice-BI lassen sich Managementinformationen ergänzen, z. B. aus Excel- oder Access-Dateien. Wie auf Basis einer Excel-Tabelle eine DeltaMaster-Anwendung entsteht, sehen Sie im Webinar.

On-Demand-Webinar 2. Mai 2024 Webinar: DeltaMaster ETL

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

Anmeldung

Mit DeltaMaster ETL genügt ein Knopfdruck, um ein relationales Modell und die darauf aufbauende OLAP-Datenbank in Microsoft SQL Server Analysis Services zu erzeugen. Sehen Sie selbst!

On-Demand-Webinar 7. Mai 2024 Webinar: Berichtserstellung mit DeltaMaster

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Anmeldung

Mit Bissantz-Lösungen können Berichtsredakteure in kürzester Zeit neue Berichte und Ad-hoc-Analysen erstellen. Wie das funktioniert, sehen Sie im Webinar!

Über den Autor

Dr. Achim Lewandowski

ist zu Hause in der Grundlagen- und Anwendungsforschung von Bissantz & Company.

Letzte Blogartikel

Forschung Benutzerdefinierte Filter für Zielbericht zuweisen

Benutzerdefinierte Filter helfen im neuen Release von DeltaMaster, Verknüpfungen von Grafischen Tabellen zu Zielberichten flexibler anzulegen [...]

mehr erfahren

Forschung Steuereinnahmen der Länder

Steuereinnahmen der Länder - es war schon immer viel Fantasie im Spiel, wenn es um das Erfinden und Eintreiben von Steuern ging. Wie haben [...]

mehr erfahren

Forschung Studienanfänger und Studierende in Deutschland

Studienanfänger stehen jedes Jahr vor einer wichtigen Entscheidung: Welches der fast 300 Studienfächer entspricht den eigenen Neigungen und [...]

mehr erfahren

Forschung Neue Aggregationstypen in der DeltaApp

Der Aggregationstyp Summation ist bei hierarchischen Modellen im Bereich Business Intelligence vorherrschend: Der Gesamtumsatz ergibt sich beispielsweise [...]

mehr erfahren

Forschung Aufstiegs-BAföG in der DeltaApp

In einer sich schnell verändernden Welt ist lebenslanges Lernen unerlässlich. Mit dem Aufstiegs-BAfög werden bestimmte Fortbildungen unterstützt [...]

mehr erfahren

Bissantz News Wissen auf Abruf: das Bissantz Help Center

Viele Nutzer legen direkt in DeltaMaster und DeltaApp los und verstehen intuitiv, wie Berichte genutzt werden können. Wer lieber mit einer [...]

mehr erfahren

Data Warehousing Float – ein problematischer Datentyp

Dieser Beitrag zeigt, wie es bei relationalen Eingabeanwendungen zu Rundungsfehlern im Zusammenhang mit float kommen kann und wie man dies vermeidet [...]

mehr erfahren

Data Warehousing Reverse Engineering im Bissantz Application Designer

Dieser Beitrag stellt die neue Funktion des „Reverse Engineering“ im Bissantz Application Designer vor. Damit lassen sich bestehende relationale [...]

mehr erfahren

Bissantz News Daten- und Softwaresicherheit bei Bissantz

TISAX-Verlängerung und Penetrationstest-Zertifizierung Informationssicherheit hat bei Bissantz & Company höchste Priorität – deshalb werden [...]

mehr erfahren

Forschung Flächennutzung in Deutschland

Veränderungen verstehen: Wer Abweichungen und Verschiebungen seiner Kennzahlen auf den Grund gehen will, kann in DeltaMaster eine Vielzahl [...]

mehr erfahren

Vorheriger Artikel

Clustern: Der Mix macht's

Nächster Artikel

Hidden-Markov-Modelle: So bekommt man Zustände!

Name	Borlabs Cookie
Anbieter	Eigentümer dieser Website, Impressum
Zweck	Zur Speicherung der Einstellungen, die Sie in der Cookie-Leiste ausgewählt haben.
Cookie Name	borlabs-cookie
Cookie Laufzeit	1 Jahr

Name	Microsoft Azure CDN
Anbieter	Microsoft Azure
Zweck	Das Cookie dient der Lastverteilung der Anfragen (Load-Balancing) durch Seitennutzer bei der Nutzung des Dienstes.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ARRAffinity,ARRAffinitySameSite
Cookie Laufzeit	Sitzung

Name	Polylang
Anbieter	Eigentümer dieser Website
Zweck	Speichert die aktuelle Sprache.
Cookie Name	pll_language
Cookie Laufzeit	1 Jahr

Name	cloud.bissantz.de
Anbieter	Bissantz
Zweck	Dieser Cookie dient der Erfassung der Position des Seitenbesuchers um eine möglichst effeziente und schnelle Zuteilung zu einem nahen Server zu ermöglichen.
Datenschutzerklärung	https://www.bissantz.de/datenschutz
Cookie Name	ASLBSA,ASLBSACORS
Cookie Laufzeit	Sitzung

Name	UserLike (verwendet den Webfont Loader und das Google-API CDN)
Anbieter	https://www.userlike.com/de/
Zweck	Notwendig zur umfassenden Information, z. B. auch für Datenschutzfragen.
Datenschutzerklärung	https://www.userlike.com/de/terms#privacy-policy
Host(s)	userlike.com
Cookie Laufzeit	365 Tage

Akzeptieren	Google Tag Manager
Name	Google Tag Manager
Anbieter	Google Ireland Limited, Gordon House, Barrow Street, Dublin 4, Ireland
Zweck	Cookie von Google zur Steuerung der erweiterten Script- und Ereignisbehandlung.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de
Cookie Name	_ga,_gat,_gid
Cookie Laufzeit	2 Jahre

Akzeptieren	Facebook Pixel
Name	Facebook Pixel
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Cookie von Facebook, das für Website-Analysen, Ad-Targeting und Anzeigenmessung verwendet wird.
Datenschutzerklärung	https://www.facebook.com/policies/cookies
Cookie Name	_fbp,act,c_user,datr,fr,m_pixel_ration,pl,presence,sb,spin,wd,xs
Cookie Laufzeit	Sitzung / 1 Jahr

Akzeptieren	Google Optimize
Name	Google Optimize
Anbieter	Google
Zweck	Das Google Website-Optimierungstool ist eine kostenlos verfügbare Software zur Durchführung von A/B- und Multivariatentests im Webdesign.
Datenschutzerklärung	https://policies.google.com/privacy?hl=de

Akzeptieren	Facebook
Name	Facebook
Anbieter	Meta Platforms Ireland Limited, 4 Grand Canal Square, Dublin 2, Ireland
Zweck	Mit der Zustimmung können z. B. unsere Beiträge direkt in Ihrem Facebook-Profil geteilt werden und Sie erlauben Facebook, Informationen über Sie zu verarbeiten, damit Ihnen personalisierter Content angezeigt werden kann.
Datenschutzerklärung	https://www.facebook.com/privacy/explanation
Host(s)	.facebook.com
Cookie Laufzeit	730 Tage

Neuronale Netze: Mehr als eine Masche

Veranstaltungs-Tipp

Über den Autor

Schlagwörter

Letzte Blogartikel

Mehr aus Forschung.