Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
Abstands- und Monotoniemaße für Regressionsmodelle mit heterogenen Lerndaten Wolfgang Doneit1, Ralf Mikut1, Tim Pychynski2, Markus Reischl1 1 Karlsruher Institut für Technologie, Institut für Angewandte Informatik E-Mail: {wolfgang.doneit}{ralf.mikut}{markus.reischl}@kit.edu 2 Karlsruher Institut für Technologie, Institut für Thermische Strömungsmaschinen E-Mail: {tim.pychynski}@kit.edu 1 Einführung Bei der Struktur- und Parameteroptimierung technischer Systeme durch Evolutionäre Algorithmen oder andere numerische Verfahren sind meist viele Iterationen zur Güteberechnung notwendig. Wenn diese Güteberechnung einen hohen Aufwand bedeutet, z.B. bei notwendigen Experimenten oder Simulationen mit Finite-Elemente-Modellen bzw. numerischen Strömungssimulationen mit CFD (Computational Fluid Dynamics), werden zunehmend recheneffizientere Regressionsmodelle (z.B. Künstliche Neuronale Netze) zur Fitnessapproximation eingesetzt [1]. Die Bildung dieser Modelle erfordert eine zuverlässige und ausreichend große Datenbasis, um den zulässigen Parameterraum vollständig und gleichförmig abzudecken. Diese Anforderungen werden in der Realität wegen der aufwändigen Datenerhebung, der Fusion heterogener oder widersprüchlicher Datenquellen sowie der Überrepräsentation etablierter Bereiche häufig verletzt. Das führt unter anderem dazu, dass Ersatzmodelle in schlecht abgedeckten Parameterbereichen große Fehler aufweisen oder lokal überangepasst sind (engl. Overfitting). Folglich schlagen sie oft irreführende Werte für die nächste Optimierungsiteration vor. Beispielsweise wird in [2] ein Datensatz aus dem Bereich des Turbomaschinenbaus vorgestellt, mit Hilfe dessen die Beziehung zwischen verschiedenen Parametern und dem Durchflussverhalten von Labyrinthdichtungen modelliert wird. Der Datensatz fasst Messungen aus mehreren Quellen zusammen, die Eingangsgrößen aus unterschiedlichen Bereichen erfassen. Um die Zuverlässigkeit von Regressionsmodellen zu bewerten, werden beispielsweise Kenngrößen genutzt, die robust gegen Ausreißer sind [3]. Eine sorgfältige Auswahl der Merkmale ist für Regressionen [4] und Klassifikationen [5] wichtig, um die Modellkomplexität gering zu halten. In [6] wird Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014 1 die Vertrauenswürdigkeit der Prognosen von Neuronalen Netzen anhand der Datendichte betrachteter Merkmalsräume bewertet. Zur Bewertung der Qualität von Regressionsmodellen werden Informationstheoretische Maße („shortest data description“ [7], „minimum message length“ [8]), Verfahren zur Abschätzung von Approximationen [9, 10] und Kreuzvalidierungsverfahren eingesetzt [4, 11, 12]. Allerdings neigt beispielsweise die Kreuzvalidierung bei inhomogenen Datensätzen dazu, die Modellfehler zu unterschätzen. Dieser Beitrag betrachtet Auswirkungen von Overfitting, die von Kreuzvalidierungsverfahren nicht erfasst werden können und durch große Schwankungen der geschätzten Ausgangsgröße die Anwendung eines Regressionsmodells negativ beeinflussen. Abschnitt 2 erklärt, was Overfitting ist und wie Kreuzvalidierungen es erkennen. Abschnitt 3 stellt eine Methode vor, die Overfitting anhand des Verlaufs der geschätzten Ausgangsgröße eines Regressionsmodells erkennen und Kreuzvalidierungen ergänzen kann. Die Methode wird in Abschnitt 4 angewandt und die Ergebnisse diskutiert. Dabei wird sowohl ein in [13] empfohlener Datensatz aus dem UCI Machine Learning Repository, als auch ein eigener Datensatz aus dem Turbomaschinenbau verwendet. 2 Regressionsanalyse 2.1 Übersicht Eine Regressionsanalyse stellt einen funktionellen Zusammenhang zwischen reellwertigen Eingangsvariablen x und einer Ausgangsvariable y auf. Eine Regressionsanalyse nutzt Polynome, Künstliche Neuronale Netze (KNN) o.ä., die entsprechend eines Datensatzes (Lerndaten) angepasst werden und ein Regressionsmodell darstellen. Ein Datensatz D für Regressionsanalysen besteht aus N Datentupeln. Jedes Datentupel beinhaltet s+1 Einzelmerkmale, die aus s Eingangsvariablen und einer Ausgangsvariable bestehen. Jeder Eingangsvariablenvektor xi ∈ Rs , i = 1...N stellt einen Punkt im Merkmalsraum dar. Der Datensatz ordnet jedem Punkt eine Ausgangsvariable yi zu. Ein Regressionsmodell liefert für einen beliebigen Eingangsvariablenvektor x einen Schätzwert ŷ. Bei der Anpassung werden die Struktur und Parameter des Modells gemäß eines Gütekriteriums gewählt, beispielsweise zur Minimierung der Wurzel des mittleren, quadrierten Fehlers 2 Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014 v u N u1 X t RMSE = (ŷi − yi )2 . · N (1) i=1 Die Fehlermaße beziehen sich auf die Abweichungen der wahren Ausgangsgrößen von den Schätzungen des Regressionsmodells an allen N Punkten, die in den Lerndaten enthalten sind (engl. „in-sample error“). 2.2 Overfitting Mit einer genügend komplexen Struktur können viele Regressionsmodelle beliebige Zusammenhänge abbilden, z.B. KNN mit einer hinreichend großen Zahl an Neuronen in einer verdeckten Schicht. Der in-sample error (IE) kann dadurch sehr gering werden. Regressionsmodelle werden häufig dazu verwendet, eine Vorhersage (Prädiktion) für die Ausgangsgröße an einem Punkt zu liefern, der nicht im Datensatz erfasst ist. Der IE sagt nichts über die Güte von solchen Prädiktionen aus. Um ein Regressionsmodell hinsichtlich seiner Prädiktionsfähigkeit zu bewerten, müssen die oben genannten Fehlermaße auf Daten angewandt werden, die nicht zur Modellbildung verwendet worden sind (Testdaten). Die Abweichungen der wahren Ausgangsgrößen von den Schätzungen des Regressionsmodells an den Punkten der Testdaten werden „out-of-sample error“ (OE) genannt. Dafür kann der zugrundeliegende Datensatz in zwei Teile geteilt werden. Ein Teildatensatz wird zur Modellbildung verwendet, der andere zur Modellvalidierung. Vor allem in technischen und naturwissenschaftlichen Anwendungen ist die Datenerhebung oft zeit- und kostenintensiv und die Datensätze enthalten entsprechend nur wenige oder im Merkmalsraum heterogen verteilte Daten. Für eine zuverlässige Modellbildung müssen daher alle Daten miteinbezogen werden. Bei Datensätzen mit wenigen Datentupeln kann eine Kreuzvalidierung verwendet werden. Bei einer k-fachen Kreuzvalidierung wird der Datensatz in k gleichgroße Teile aufgeteilt. Anschließend werden k-1 Teile zur Modellbildung und 1 Teil zur Modellvalidierung verwendet. Nach k Iterationen diente jeder Teildatensatz genau einmal zur Modellvalidierung. Der Mittelwert der OEs liefert eine Aussage über die Prädiktionsfähigkeit der verwendeten Modellstruktur. Ein gutes Modell hat einen möglichst geringen IE und einen Fehlerquotienten QCV,quot = OE , IE Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014 (2) 3 der möglichst nahe bei 1 liegt [4]. Ein hoher Fehlerquotient beurteilt ein Modell als zu komplex und erkennt Overfitting. Dieser Beitrag untersucht, wann eine Kreuzvalidierung ein Modell zu gut bewertet und ein vorhandenes Overfitting nicht erkennt. Es wird eine Methode vorgestellt, die Overfitting beliebiger Modelle erkennen kann, indem sie den Verlauf der vom Modell geschätzten Ausgangsgröße zwischen zwei benachbarten Punkten des Lerndatensatzes untersucht. 3 Methoden 3.1 Interpolationsvalidierung Die Interpolationsvalidierung beruht auf der Annahme, dass die geschätzte Ausgangsgröße guter Modelle in Bereichen zwischen zwei Punkten der Lerndaten xa und xb kein unerwartetes Verhalten zeigt, sondern näherungsweise linear, bzw. monoton interpoliert. Dazu werden ν vom Modell geschätzte Ausgangsgrößen ŷa,j , j = 1, ..., ν an Stellen betrachtet, die gleichmäßig verteilt auf der Gerade zwischen xa und xb im Merkmalsraum liegen. ŷxa = ŷa,1 ist die vom Modell geschätzte Ausgangsgröße am Punkt xa . ŷxb = ŷa,ν ist die vom Modell geschätzte Ausgangsgröße am Punkt xb . Außerdem gilt ν ŷmax = max(ŷa,j ), j=1 ν ŷmin = min(ŷa,j ). j=1 (3) (4) Die maximale und minimale Ausgangsgröße der gesamten Lerndaten sind ymax und ymin . Für ein Regressionsproblem gilt: ymax #= ymin . (5) In Anlehnung an [14] werden sogenannte Interpolationsindikatoren QIV,1 , QIV,2 und QIV,3 berechnet, die den Verlauf der geschätzten Ausgangsgröße auf Besonderheiten untersuchen. Gesucht ist ein Gütekriterium QIV,total , was eine Aussage über ein lokales Overfitting liefert. Der Wertebereich von QIV,total sowie der Interpolationsindikatoren liegt zwischen 0 und 1. Je kleiner der Wert von   1 (6) QIV,total = max · (QIV,1 + QIV,2 + QIV,3 ), QIV,min , 3 4 Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014 desto eher zeigt das untersuchte Regressionsmodell an der betrachteten Stelle im Merkmalsraum Overfitting. QIV,min verhindert, dass Interpolationen mit geringen Schwankungen zu schlecht bewertet werden. Das heißt bei einem größeren Quotienten yquotient = ŷmax − ŷmin ymax − ymin (7) werden schlechtere Bewertungen durch die Interpolationsindikatoren zugelassen: (8) QIV,min = exp(−qIV,min · yquotient ). Um ein geeignetes qIV,min zu finden, wird die Kurvenschar aus Bild 1 betrachtet. q = 10 0.8 q = 20 0.6 qIV,min = 50 QIV,min IV,min IV,min q = 10 q = 20 IV,min 0.6 QIV,min 1 0.4 IV,min qIV,min = 50 0.4 0.2 0.2 0 0 0.5 1 0 0.05 0.1 y y (a) (b) quotient 0.15 quotient Bild 1: (a) zeigt den Verlauf von QIV,min bei unterschiedlichen Werten für qIV,min . (b) zeigt einen vergrößerten Teil von (a). Aufgrund des Kurvenverlaufs wird qIV,min = 20 gewählt. Damit ergibt sich ein angemessener Kompromiss zwischen einer hohen Fehlertoleranz bei geringen Schwankungen der geschätzten Ausgangsgröße und einer geringen Fehlertoleranz bei großen Schwankungen der geschätzten Ausgangsgröße. Die einzelnen Interpolationsindikatoren berechnen sich folgendermaßen: ( 1, falls ŷmax = ŷmin (9) QIV,1 = |ŷxb −ŷxa | sonst. |ŷmax −ŷmin | QIV,1 untersucht ob im Verlauf der geschätzten Ausgangsgröße zwischen xa und xb lokale Minima oder Maxima existieren. Dabei gilt |ŷmax − ŷmin |≥ |ŷxb − ŷxa |. Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014 (10) 5 Ein weiteres Kriterium bewertet die Steigung der Regression zwischen xa und xb :  ν−1  1, falls max(|ŷa,j+1 − ŷa,j |) = 0    j=1 !q 1 QIV,2 = (11) IV,2 |ŷxb −ŷxa |   , sonst.  ν−1  ν·max(|ŷa,j+1 −ŷa,j |) j=1 Mit qIV,2 > 1 wird reguliert, wie empfindlich QIV,2 große Steigungen bestraft. Je größer qIV,2 gewählt wird, desto toleranter ist QIV,2 . Die Abweichungen der vom Regressionsmodell geschätzten Ausgangsgrößen und einer linearen Interpolation von ŷ zwischen xa und xb werden von folgendem Kriterium bewertet:   ν max(|ŷlin,j − ŷj |) j=1   (12) QIV,3 = max 0, 1 − . |ŷxb − ŷxa | Die lineare Interpolation entspricht ŷx − ŷxa ŷlin,j = ŷxa + b · (j − 1), j = 1...ν. ν−1 (13) Die Interpolationsvalidierung ist kein Verfahren, um beispielsweise Überanpassung an Messrauschen o.ä. zu erkennen. Solches Overfitting wird bereits von Kreuzvalidierungsverfahren vermieden. Das Ziel der Interpolationsvalidierung ist die Vermeidung modellabhängiger Fehlschlüsse in der Parameteroptimierung technischer Systeme. Von Interesse sind also nur Schwankungen der geschätzten Ausgangsgröße, die solche Optimierungsprozesse stören. In der Praxis werden oft an Stellen, an denen das Regressionsmodell Prädiktionen liefern soll, Aussagen über die Zuverlässigkeit benötigt. Gemeinsam mit einem weiteren Interpolationsindikator, der die Abweichungen (ŷxa − yxa ) und (ŷxb − yxb ) berücksichtigt, können die vorliegenden Bewertungsmaße eine solche Einschätzung der Zuverlässigkeit geben. 3.2 Finden nächster Nachbarn Die Punkte xa und xb , zwischen denen das Interpolationsverhalten validiert wird, müssen zunächst im Datensatz identifiziert werden. Es ist davon auszugehen, dass ein Punkt xm im Merkmalsraum bekannt ist, für dessen Umgebung eine Aussage bezüglich Overfitting benötigt wird. xa und xb müssen so gewählt werden, dass in der Nähe einer Gerade zwischen xa und xb 6 Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014 lediglich xm liegt, Punkte aus dem Lerndatensatz dürfen sich dort nicht befinden. Dazu werden Winkel im Euklidischen Raum benötigt. Der Winkel zwischen zwei Vektoren v1 und v2 berechnet sich durch:   v1 · v2 ∡(v1 , v2 ) = arccos . (14) |v1 |·|v2 | Mit der folgenden Auswahl der Datentupel wird sichergestellt, dass keine anderen Punkte die Regression im Bereich zwischen xa und xb verzerrt haben und ein nicht-lineares Verhalten rechtfertigen: Der Merkmalsraum wird normiert, und die N Datentupel werden ihrer Distanz zu xm (gemessen z.B. durch den Euklidischen Abstand) nach sortiert als xa angenommen und unter den übrigen Datentupeln im Lerndatensatz ein Punkt xsearch gesucht, für den gilt: ∡((xm − xa ), (xsearch − xa )) < ψ, (15) d(xa , xsearch ) > d(xa , xm ). (16) Werden mehrere Punkte gefunden, die den Bedingungen genügen, wird der Punkt mit der geringsten Euklidischen Distanz zu xa gewählt. Anschließend wird geprüft ob für alle Punkte xverify mit ∡((xa − xsearch ), (xverify − xb )) < ψverify (17) folgende Bedingung gilt: d(xverify , xsearch ) ≥ d(xa , xsearch ). (18) Ist das der Fall, wird xsearch als xb für den aktuellen Punkt xa ausgewählt. Außerdem werden alle Punkte xi als potentielle xa ausgeschlossen, für die gilt: (19) ∡((xi − xa ), (xm − xa )) > ψignore . Bei der Anwendung in Abschnitt 4 wird mit ψ = 30◦ , ψverify = 20◦ und ψignore = 120◦ gerechnet. Die Suche nach geeigneten Paaren (xa , xb ) ist beendet, wenn entweder jeder Punkt xi als xa betrachtet wurde oder s Paare gefunden wurden. Falls keine Paare gefunden werden, besteht die Möglichkeit, dass xm in einem Extrapolationsbereich oder einem sehr gut abgedeckten Bereich des Merkmalsraums liegt. Alle beschriebenen Methoden wurden in die MATLAB-Toolbox GaitCAD [15] integriert. Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014 7 4 Anwendung 4.1 Durchflussverhalten von Labyrinthdichtungen In [16] werden Data-Mining-Methoden genutzt, um das Systemverhalten von Labyrinthdichtungen in Turbomaschinen zu verstehen. Das von geometrischen, strömungsmechanischen und thermodynamischen Systemparametern abhängige Durchflussverhalten der Dichtungen wird mathematisch abgebildet, damit Vorhersagen für zukünftige Systemkonfigurationen gemacht werden können. In [17] bilden Regressionsmodelle durch KNN die Basis für eine Optimierung von Labyrinthdichtungen, um rechenintensive numerische Strömungssimulationen zu vermeiden und die Optimierung mit vertretbarem Zeitaufwand durchzuführen. Die erforderlichen Daten werden aus Forschungsprojekten, Dissertationen, Diplomarbeiten und anderen wissenschaftlichen Veröffentlichungen zusammengetragen. Messobjekte und Zielsetzung der Messungen sowie der zugehörigen Arbeiten unterscheiden sich teilweise erheblich. Außerdem divergiert die Aktualität der Messungen. Manche Arbeiten, aus denen Messdaten entnommen wurden, liegen bereits über 40 Jahre zurück, andere lediglich wenige Jahre. Durch das Zusammentragen der Quellen entsteht ein großer Datensatz, mit Hilfe dessen das Durchflussverhalten von Labyrinthdichtungen modelliert wird. Aufgrund der verschiedenen Quellen weist der Datensatz eine ungleichmäßige Verteilung der Punkte im Merkmalsraum auf. Um die Auswirkungen der ungleichmäßigen Verteilung auf die Modellqualität zu untersuchen, werden Messungen simuliert, die auf der empirischen Korrelation nach Dörr [18] zur Vorhersage von Leckageströmen in Durchblicklabyrinthdichtungen basieren. Die Daten ordnen den Eingangsgrößen st und P i, auf deren Bedeutung in diesem Beitrag nicht weiter eingegangen wird, die Ausgangsgröße cd zu, welche den sogenannten Durchflussbeiwert und damit die Zielgröße der Problemstellung darstellt. In der Ausgangsgröße wird ein mögliches Messrauschen berücksichtigt. Aus den simulierten Daten werden zwei Datensätze generiert, welche eine ungleichmäßige Verteilung der Daten im Merkmalsraum aufweisen und zur datengetriebenen Modellierung und Validierung verwendet werden. Datensatz D1 beinhaltet nur die Eingangsgröße P i und die Ausgangsgröße cd, Datensatz D2 beinhaltet beide Eingangsgrößen st und P i und die Ausgangsgröße cd. Die Bilder 2(a) und 2(b) zeigen die Datensätze. 8 Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014 0.65 0.7 cd cd 0.6 0.6 0.5 0.55 0.05 1.5 2 Pi (a) 2.5 3 0.1 0.15 st 1.5 2 2.5 Pi (b) Bild 2: Visualisierung der Datensätze D1 und D2 . (a) zeigt die Ausgangsgröße cd über der Eingangsvariablen P i im Datensatz D1 . (b) zeigt die Ausgangsgröße cd über den Eingangsvariablen st und P i im Datensatz D2 . 4.1.1 Datensatz D1 Künstliche Neuronale Netze mit unterschiedlicher Komplexität (Anzahl an Neuronen in der verdeckten Schicht) werden auf D1 angelernt. Bild 3 zeigt die Modelle mit den geschätzten Ausgangsgrößen und die Lerndaten. Um das bestangepasste Modell ohne Overfitting zu finden, wird für jede Modellkomplexität eine 10-fache Kreuzvalidierung durchgeführt. Außerdem wurde für die drei Punkte im Merkmalsraum xT1 = P iT1 = 1.5, xT2 = P iT2 = 2.1 und xT3 = P iT3 = 2.5 eine Interpolationsvalidierung ihrer nächsten Nachbarn für die in Bild 3 gezeigten Modelle durchgeführt. Neuronen 1 3 5 7 IE 0.007 0.005 0.004 0.006 OE OE QIV,total,T1 QIV,total,T2 QIV,total,T3 IE 0.007 1.059 1 0.94 0.99 0.006 1.33 1 0.96 0.98 0.005 1.136 0.98 0.85 1 0.008 1.323 0.93 0.03 0.74 Tabelle 1: Die mittleren Fehler der zehnfachen Kreuzvalidierungen. Das Regressionsmodell mit 5 Neuronen in der verdeckten Schicht kann als bestes Modell identifiziert werden. Tabelle 1 zeigt den mittleren IE, OE und den gemittelten Quotienten OE IE der Kreuzvalidierung (gemittelter RM SE) sowie QIV,total für xT1 , xT2 und xT3 eines über alle Lerndaten angelernten Modells (vgl. Bild 3). KNN mit 5 Neuronen in der verdeckten Schicht werden als gute Regressionsmodelle identifiziert, da sowohl der IE als auch der OE minimal werden bei einem Quotienten OE IE ≈ 1. Ein Overfitting wird bei der Modellkomplexität von der Kreuzvalidierung nicht erkannt. Das unerwartete Verhalten vom MoProc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014 9 1 Neuron 3 Neuronen 0.6 0.6 cd 0.65 cd 0.65 0.55 0.55 1.5 2 Pi 2.5 3 1.5 (a) 2 Pi 2.5 3 2.5 3 (b) 5 Neuronen 7 Neuronen 0.6 0.6 cd 0.65 cd 0.65 0.55 0.55 1.5 2 Pi (c) 2.5 3 1.5 2 Pi (d) Bild 3: Regressionsmodelle über Datensatz D1 mit Hilfe von KNN verschiedener Komplexität dell mit 7 Neuronen im nicht abgedeckten Bereich zeigt sich durch ein niedriges QIV,total,T2 . Beim Anlernen von KNN werden die initialen Gewichte der Neuronen zufällig gewählt, um das Finden eines globalen Optimums zu ermöglichen. Dadurch kann sich der Verlauf der geschätzten Ausgangsgröße von zwei Modellen gleicher Komplexität unterscheiden, obwohl die gleichen Lerndaten verwendet wurden. Als Beispiel hierfür zeigt Bild 4 wie Bild 3(c) ein Modell, das durch ein KNN mit 5 Neuronen in der verdeckten Schicht auf D1 angelernt wurde. Im Intervall P i = [1.8; 2.4] zeigt das Modell aus Bild 4 ein unerwartetes Verhalten. Die Interpolationsvalidierung des Modells liefert QIV,total,T1 = 0.99, QIV,total,T2 = 0.38 und QIV,total,T3 = 1. Auch hier resultiert das unerwartete Verhalten im nicht abgedeckten Bereich in einem niedrigen QIV,total,T2 . Damit ergänzt die Interpolationsvalidierung die Kreuzvalidierung, die eine generelle (nicht modellspezifische) globale Aussage für im Datensatz erfasste Merkmalsbereiche liefert. 10 Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014 5 Neuronen 0.65 c d 0.6 0.55 1.5 2 Pi 2.5 3 Bild 4: Regressionsmodell über Datensatz D1 . Das Modell hat einen auffälligen Verlauf im Bereich der Eingangsgröße, der nicht durch Daten abgedeckt wird. 4.1.2 Datensatz D2 Künstliche Neuronale Netze mit unterschiedlicher Komplexität (Anzahl sneuron an Neuronen in der verdeckten Schicht) werden auf D2 angelernt. Bild 5 zeigt die Modelle mit den geschätzten Ausgangsgrößen und die Lerndaten. Um das bestangepasste Modell ohne Overfitting zu finden, wird für jede Modellkomplexität eine 10-fache Kreuzvalidierung durchgeführt. Außerdem wird für die vier Punkte im Merkmalsraum aus Tabelle 2 eine Interpolationsvalidierung ihrer nächsten Nachbarn für die in Bild 5 gezeigten Modelle durchgeführt. xT1 xT2 xT3 xT4 st 0.09 0.05 0.13 0.17 1.7 1.7 2.4 Pi 2 Tabelle 2: Punkte im Merkmalsraum, deren Umgebung von der Interpolationsvalidierung untersucht werden Bild 6 zeigt die Lage der Punkte im Merkmalsraum sowie die Verbindungslinien der identifizierten nächsten Nachbarn im Lerndatensatz. Tabelle 3 zeigt die Ergebnisse der Kreuzvalidierung und der Interpolationsvalidierung. Die Kreuzvalidierungen lassen aufgrund minimaler OE und OE IE auf Modelle durch KNN mit 12 bzw. 10 Neuronen als optimale Lösung schließen. Die Interpolationsvalidierung deutet allerdings auf ein Overfitting bei derartigen Modellen in der Umgebung von xT1 und xT4 hin. Das wird durch Bild 5 bestätigt. Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014 11 7 Neuronen 1 1 0.8 0.8 cd cd 3 Neuronen 0.6 0.6 0.4 0.4 4 0.2 í0.1 4 2 0 0.1 0.2 st 0.2 í0.1 0.3 0 pi 2 0 0.1 (a) 1 0.6 0.8 0.4 cd d pi 12 Neuronen 0.8 c 0.3 0 (b) 10 Neuronen 0.2 0 í0.1 0.2 st 0.6 0.4 0 0.1 0.2 st 4 2 0.3 0 pi 0.2 í0.1 4 2 0 0.1 (c) 0.2 st 0.3 0 pi (d) Bild 5: Regressionsmodelle über Datensatz D2 mit Hilfe Künstlicher Neuronaler Netze verschiedener Komplexität Pi 2.5 2 1.5 0.05 0.1 0.15 0.2 st Bild 6: Merkmalsraum von D2 . Punkte für die Interpolationsvalidierung sind durch Dreiecke gekennzeichnet. Verbindungen zwischen ausgewählten Punkten xa und xb des Lerndatensatzes gemäß Abschnitt 3.2 sind durch Linien gekennzeichnet. 4.2 Setzverhalten von Beton (Datensatz D3 ) In [19] wird versucht, das Setzverhalten von Beton mit Hilfe von KNN zu modellieren. Damit soll unter anderem der Einfluss verschiedener Bestand12 Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014 sneuron 3 7 10 12 14 IE OE OE QIV,total,T1 QIV,total,T2 QIV,total,T3 QIV,total,T4 IE 7.8 10.3 1.5 0.82 0.94 0.93 0.92 6.1 6.7 1.4 0.3 0.94 0.95 0.3 5.5 5.7 1.2 0.27 0.98 0.95 0.26 4.9 5.5 1.2 0.27 0.95 0.86 0.58 4.0 6.6 1.9 0.54 0.94 0.94 0.27 Tabelle 3: Ergebnisse der Kreuzvalidierungen und der Interpolationsvalidierungen. IE und OE in [103 ]. teile des Betons auf das Setzverhalten untersucht werden. Für die Anwendung der Interpolationsvalidierung sind Details über den Anwendungsfall nicht nötig. Der Datensatz D3 ist dem UCI Maschine Learning Repository entnommen und diente als Grundlage für [19]. Er besteht aus 103 Datentupeln mit 7 Eingangsgrößen und einer Ausgangsgröße. Tabelle 4 zeigt eine Übersicht über die Eingangsgrößen des Datensatzes. Merkmal min max mean median x1 137 374 229.894 248 0 193 77.974 100 x2 x3 0 260 149.015 164 160 240 197.168 196 x4 4.4 19 8.54 8 x5 708 1049.9 883.979 879 x6 640.6 902 739.605 742.7 x7 Tabelle 4: Übersicht über die Eingangsgrößen Künstliche Neuronale Netze mit unterschiedlicher Komplexität (Anzahl sneuron an Neuronen in der verdeckten Schicht) werden auf D3 angelernt. Um das bestangepasste Modell ohne Overfitting zu finden wird für jede Modellkomplexität eine 10-fache Kreuzvalidierung durchgeführt. x x 1 x 2 x 3 x 4 x 5 x 6 x7 xT1 150 120 130 190 8 870 730 xT2 200 60 52 200 8 800 750 Tabelle 5: Punkte für die Untersuchung auf Overfitting Tabelle 5 zeigt zwei Punkte im Merkmalsraum, in deren Umgebung die beiden Modelle hinsichtlich Overfitting untersucht werden. xT1 liegt in einem gut abgedeckten Bereich des Merkmalsraums, xT2 in einem schlecht abgedeckten. Das heißt die Datentupel von D3 sind im normierten Euklidischen Raum weiter von xT2 entfernt als von xT1 . Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014 13 sneuron 4 5 6 10 IE 6.126 5.069 4.984 4.979 OE 7.458 6.407 6.512 6.897 OE IE 1.253 1.263 1.326 1.447 QIV,total,T1 QIV,total,T2 0.84 0.76 0.85 0.78 0.56 0.39 0.55 0.38 Tabelle 6: Ergebnisse der Kreuzvalidierungen und Interpolationsvalidierung Die Tabelle 6 zeigt die Ergebnisse der Kreuzvalidierungen sowie der Interpolationsvalidierungen. Auf Basis der Kreuzvalidierungen können KNN mit 5 Neuronen in der verdeckten Schicht als bestangepasste Modelle erkannt werden. Das wird auch von der Interpolationsvalidierung bestätigt, die hier hohe Werte auch für den schlecht abgedeckten Bereich aufweist. Interessant ist der Unterschied zwischen Modellen mit 5 Neuronen und 6 Neuronen in der verdeckten Schicht. Während bei der Kreuzvalidierung der Unterschied gering ausfällt, zeigt die Interpolationsvalidierung einen deutlichen Unterschied. Die Interpolationsvalidierung bietet damit eine nützliche Ergänzung zu Kreuzvalidierungsverfahren. 5 Zusammenfassung In diesem Beitrag wird die Möglichkeit untersucht, Overfitting bei Regressionsmodellen zu erkennen, deren Komplexität und Anpassung von einer Kreuzvalidierung als angemessen bewertet werden. Anhand von verschiedenen Datensätzen und Regressionsmodellen wird gezeigt, dass es möglich ist, Overfitting am Verlauf der geschätzten Ausgangsgröße eines Modells zu identifizieren. Von besonderem Interesse ist diese Methode bei Datensätzen mit mehr als zwei Eingangsgrößen, wie es bei der Optimierung von technischen Systemen oft der Fall ist. Ein kritischer Punkt der Methode ist das Finden von Datenpunkten, zwischen denen der Verlauf der geschätzten Ausgangsgröße eines Modells untersucht wird. Auf der einen Seite muss geprüft werden, wie allgemeingültig die verwendeten Parameter sind, bzw. wie sie datensatzspezifisch (abhängig von N , s, etc.) angepasst werden können. Auf der anderen Seite muss man unterscheiden zwischen den Anwendungsfällen: • lokale Bewertung eines Regressionsmodells an einem beliebigen bekannten Punkt xm hinsichtlich Overfitting oder Zuverlässigkeit und • globale Bewertung eines Regressionsmodells hinsichtlich Overfitting oder Zuverlässigkeit. 14 Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014 Für eine globale Bewertung müssen zunächst Punkte im Merkmalsraum identifiziert werden, deren Umgebung untersucht wird. Besonders nicht abgedeckte Bereiche sind hierbei von Interesse. Es werden demnach Methoden benötigt, um solche Bereiche in hochdimensionalen Merkmalsräumen zu finden. Des Weiteren muss geprüft werden, ob die Parameter der Interpolationsvalidierung allgemein gültig sind, bzw. wie sie datensatzspezifisch (abhängig von N , s, etc.) angepasst werden können. Literatur [1] Jin, Y.: A Comprehensive Survey of Fitness Approximation in Evolutionary Computation. Soft Computing 9 (2005) 1, S. 3–12. [2] Pychynski, T.; Blesinger, G.; Mikut, R.; Dullenkopf, K.; Bauer., H.-J.: Modelling the Leakage Behaviour of Labyrinth Seals Using Data Mining Methods. In: Proc., ASME TURBO EXPO; Glasgow. 2010. [3] Daszykowski, M.; Kaczmarek, K.; Vander Heyden, Y.; Walczak, B.: Robust Statistics in Data Analysis - A Review: Basic Concepts. Chemometrics and Intelligent Laboratory Systems 85 (2007) 2, S. 203–219. [4] Hawkins, D. M.: The Problem of Overfitting. Journal of Chemical Information and Computer Sciences 44 (2004) 1, S. 1–12. [5] Reischl, M.; Alshut, R.; Mikut, R.: On Robust Feature Extraction and Classification of Inhomogeneous Data Sets. In: Proc., 20. Workshop Computational Intelligence, S. 124–143. KIT Scientific Publishing. 2010. [6] Protzel, P.; Kindermann, L.; Tagscherer, M.; Lewandowski, A.: Abschätzung der Vertrauenswürdigkeit von Neuronalen Netzprognosen bei der Prozessoptimierung. In: Proc., VDI-Berichte, Bd. 1626, S. 335–339. 2000. [7] Rissanen, J.: Modeling by Shortest Data Description. Automatica 14 (1978), S. 465–471. [8] Wallace, C. S.; Boulton, D. M.: An Information Measure for Classification. Computer Journal 11 (1968), S. 185–194. [9] Papadopoulos, G.; Edwards, P.; Murray, A.: Confidence Estimation Methods for Neural Networks: A Practical Comparison. IEEE Transactions on Neural Networks 12 (2001) 6, S. 1278–1287. [10] Rivals, I.; Personnaz, L.: Construction of Confidence Intervals for Neural Networks Based on Least Squares Estimation. Neural Networks 13 (2000) 4-5, S. 463–484. Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014 15 [11] Moore, A. W.: Cross-Validation for Detecting and Preventing Overfitting. School of Computer Science Carnegie Mellon University (2001). [12] Tetko, I. V.; Livingstone, D. J.; Luik, A. I.: Neural Network Studies. 1. Comparison of Overfitting and Overtraining. Journal of Chemical Information and Computer Sciences 35 (1995) 5, S. 826–833. [13] Hoffmann, F.; Mikut, R.; Kroll, A.; Reischl, M.; Nelles, O.; Schulte, H.; Bertram, T.: Computational Intelligence: State-of-the-Art Methoden und Benchmarkprobleme. In: Proc., 22. Workshop Computational Intelligence, S. 15– 29. KIT Scientific Publishing. 2012. [14] Reuter, W.: Entwicklung einer neuen Methode zur Bewertung von Überanpassung von datenbasierten Modellen mit Lerndaten. Studienarbeit, Karlsruher Institut für Technologie (KIT). 2013. [15] Mikut, R.; Burmeister, O.; Braun, S.; Reischl, M.: The Open Source Matlab Toolbox Gait-CAD and its Application to Bioelectric Signal Processing. In: Proc., DGBMT-Workshop Biosignalverarbeitung, Potsdam, S. 109–111. 2008. [16] Pychynski, T.: Anwendung von Data Mining Methoden zur Analyse von Turbomaschinenkomponenten am Beispiel des Durchflussverhaltens von Labyrinthdichtungen. Diplomarbeit, Karlsruher Institut für Technologie (KIT). 2009. [17] Braun, E.; Pychynski, T.; Bauer, H.-J.: An Opensource Framework for MultiObjective Flow Optimization as Applied to Labyrinth Seals. In: Proc., 15th International Symposium on Transport Phenomena and Dynamics of Rotating Machinery, ISROMAC-15. 2014. [18] Dörr, L.: Modellmessungen und Berechnungen zum Durchflussverhalten von Durchblicklabyrinthen unter Berücksichtigung der Übertragbarkeit. Dissertation, Universität Karlsruhe (TH). 1985. [19] Yeh, I.: Exploring Concrete Slump Model Using Artificial Neural Networks. Journal of Computing in Civil Engineering 20 (2006) 3, S. 217–221. 16 Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014