Abstands- und Monotoniemaße für
Regressionsmodelle mit heterogenen Lerndaten
Wolfgang Doneit1, Ralf Mikut1, Tim Pychynski2,
Markus Reischl1
1
Karlsruher Institut für Technologie, Institut für Angewandte Informatik
E-Mail: {wolfgang.doneit}{ralf.mikut}{markus.reischl}@kit.edu
2
Karlsruher Institut für Technologie, Institut für Thermische
Strömungsmaschinen
E-Mail: {tim.pychynski}@kit.edu
1 Einführung
Bei der Struktur- und Parameteroptimierung technischer Systeme durch
Evolutionäre Algorithmen oder andere numerische Verfahren sind meist
viele Iterationen zur Güteberechnung notwendig. Wenn diese Güteberechnung einen hohen Aufwand bedeutet, z.B. bei notwendigen Experimenten
oder Simulationen mit Finite-Elemente-Modellen bzw. numerischen Strömungssimulationen mit CFD (Computational Fluid Dynamics), werden
zunehmend recheneffizientere Regressionsmodelle (z.B. Künstliche Neuronale Netze) zur Fitnessapproximation eingesetzt [1]. Die Bildung dieser
Modelle erfordert eine zuverlässige und ausreichend große Datenbasis, um
den zulässigen Parameterraum vollständig und gleichförmig abzudecken.
Diese Anforderungen werden in der Realität wegen der aufwändigen Datenerhebung, der Fusion heterogener oder widersprüchlicher Datenquellen
sowie der Überrepräsentation etablierter Bereiche häufig verletzt. Das führt
unter anderem dazu, dass Ersatzmodelle in schlecht abgedeckten Parameterbereichen große Fehler aufweisen oder lokal überangepasst sind (engl.
Overfitting). Folglich schlagen sie oft irreführende Werte für die nächste Optimierungsiteration vor. Beispielsweise wird in [2] ein Datensatz aus
dem Bereich des Turbomaschinenbaus vorgestellt, mit Hilfe dessen die Beziehung zwischen verschiedenen Parametern und dem Durchflussverhalten
von Labyrinthdichtungen modelliert wird. Der Datensatz fasst Messungen
aus mehreren Quellen zusammen, die Eingangsgrößen aus unterschiedlichen Bereichen erfassen.
Um die Zuverlässigkeit von Regressionsmodellen zu bewerten, werden beispielsweise Kenngrößen genutzt, die robust gegen Ausreißer sind [3]. Eine
sorgfältige Auswahl der Merkmale ist für Regressionen [4] und Klassifikationen [5] wichtig, um die Modellkomplexität gering zu halten. In [6] wird
Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014
1
die Vertrauenswürdigkeit der Prognosen von Neuronalen Netzen anhand
der Datendichte betrachteter Merkmalsräume bewertet.
Zur Bewertung der Qualität von Regressionsmodellen werden Informationstheoretische Maße („shortest data description“ [7], „minimum message length“ [8]), Verfahren zur Abschätzung von Approximationen [9, 10]
und Kreuzvalidierungsverfahren eingesetzt [4, 11, 12]. Allerdings neigt
beispielsweise die Kreuzvalidierung bei inhomogenen Datensätzen dazu,
die Modellfehler zu unterschätzen.
Dieser Beitrag betrachtet Auswirkungen von Overfitting, die von Kreuzvalidierungsverfahren nicht erfasst werden können und durch große Schwankungen der geschätzten Ausgangsgröße die Anwendung eines Regressionsmodells negativ beeinflussen.
Abschnitt 2 erklärt, was Overfitting ist und wie Kreuzvalidierungen es erkennen. Abschnitt 3 stellt eine Methode vor, die Overfitting anhand des
Verlaufs der geschätzten Ausgangsgröße eines Regressionsmodells erkennen und Kreuzvalidierungen ergänzen kann. Die Methode wird in Abschnitt 4 angewandt und die Ergebnisse diskutiert. Dabei wird sowohl ein
in [13] empfohlener Datensatz aus dem UCI Machine Learning Repository,
als auch ein eigener Datensatz aus dem Turbomaschinenbau verwendet.
2 Regressionsanalyse
2.1 Übersicht
Eine Regressionsanalyse stellt einen funktionellen Zusammenhang zwischen reellwertigen Eingangsvariablen x und einer Ausgangsvariable y
auf. Eine Regressionsanalyse nutzt Polynome, Künstliche Neuronale Netze (KNN) o.ä., die entsprechend eines Datensatzes (Lerndaten) angepasst
werden und ein Regressionsmodell darstellen. Ein Datensatz D für Regressionsanalysen besteht aus N Datentupeln. Jedes Datentupel beinhaltet s+1
Einzelmerkmale, die aus s Eingangsvariablen und einer Ausgangsvariable
bestehen. Jeder Eingangsvariablenvektor xi ∈ Rs , i = 1...N stellt einen
Punkt im Merkmalsraum dar. Der Datensatz ordnet jedem Punkt eine Ausgangsvariable yi zu.
Ein Regressionsmodell liefert für einen beliebigen Eingangsvariablenvektor x einen Schätzwert ŷ. Bei der Anpassung werden die Struktur und Parameter des Modells gemäß eines Gütekriteriums gewählt, beispielsweise
zur Minimierung der Wurzel des mittleren, quadrierten Fehlers
2
Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014
v
u
N
u1 X
t
RMSE =
(ŷi − yi )2 .
·
N
(1)
i=1
Die Fehlermaße beziehen sich auf die Abweichungen der wahren Ausgangsgrößen von den Schätzungen des Regressionsmodells an allen N
Punkten, die in den Lerndaten enthalten sind (engl. „in-sample error“).
2.2 Overfitting
Mit einer genügend komplexen Struktur können viele Regressionsmodelle beliebige Zusammenhänge abbilden, z.B. KNN mit einer hinreichend
großen Zahl an Neuronen in einer verdeckten Schicht. Der in-sample error (IE) kann dadurch sehr gering werden. Regressionsmodelle werden
häufig dazu verwendet, eine Vorhersage (Prädiktion) für die Ausgangsgröße an einem Punkt zu liefern, der nicht im Datensatz erfasst ist. Der IE
sagt nichts über die Güte von solchen Prädiktionen aus. Um ein Regressionsmodell hinsichtlich seiner Prädiktionsfähigkeit zu bewerten, müssen
die oben genannten Fehlermaße auf Daten angewandt werden, die nicht
zur Modellbildung verwendet worden sind (Testdaten). Die Abweichungen der wahren Ausgangsgrößen von den Schätzungen des Regressionsmodells an den Punkten der Testdaten werden „out-of-sample error“ (OE)
genannt. Dafür kann der zugrundeliegende Datensatz in zwei Teile geteilt
werden. Ein Teildatensatz wird zur Modellbildung verwendet, der andere
zur Modellvalidierung. Vor allem in technischen und naturwissenschaftlichen Anwendungen ist die Datenerhebung oft zeit- und kostenintensiv und
die Datensätze enthalten entsprechend nur wenige oder im Merkmalsraum
heterogen verteilte Daten. Für eine zuverlässige Modellbildung müssen daher alle Daten miteinbezogen werden.
Bei Datensätzen mit wenigen Datentupeln kann eine Kreuzvalidierung verwendet werden. Bei einer k-fachen Kreuzvalidierung wird der Datensatz in
k gleichgroße Teile aufgeteilt. Anschließend werden k-1 Teile zur Modellbildung und 1 Teil zur Modellvalidierung verwendet. Nach k Iterationen
diente jeder Teildatensatz genau einmal zur Modellvalidierung. Der Mittelwert der OEs liefert eine Aussage über die Prädiktionsfähigkeit der verwendeten Modellstruktur. Ein gutes Modell hat einen möglichst geringen
IE und einen Fehlerquotienten
QCV,quot =
OE
,
IE
Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014
(2)
3
der möglichst nahe bei 1 liegt [4]. Ein hoher Fehlerquotient beurteilt ein
Modell als zu komplex und erkennt Overfitting.
Dieser Beitrag untersucht, wann eine Kreuzvalidierung ein Modell zu gut
bewertet und ein vorhandenes Overfitting nicht erkennt. Es wird eine Methode vorgestellt, die Overfitting beliebiger Modelle erkennen kann, indem
sie den Verlauf der vom Modell geschätzten Ausgangsgröße zwischen zwei
benachbarten Punkten des Lerndatensatzes untersucht.
3 Methoden
3.1 Interpolationsvalidierung
Die Interpolationsvalidierung beruht auf der Annahme, dass die geschätzte Ausgangsgröße guter Modelle in Bereichen zwischen zwei Punkten der
Lerndaten xa und xb kein unerwartetes Verhalten zeigt, sondern näherungsweise linear, bzw. monoton interpoliert.
Dazu werden ν vom Modell geschätzte Ausgangsgrößen ŷa,j , j = 1, ..., ν
an Stellen betrachtet, die gleichmäßig verteilt auf der Gerade zwischen xa
und xb im Merkmalsraum liegen. ŷxa = ŷa,1 ist die vom Modell geschätzte
Ausgangsgröße am Punkt xa . ŷxb = ŷa,ν ist die vom Modell geschätzte
Ausgangsgröße am Punkt xb . Außerdem gilt
ν
ŷmax = max(ŷa,j ),
j=1
ν
ŷmin = min(ŷa,j ).
j=1
(3)
(4)
Die maximale und minimale Ausgangsgröße der gesamten Lerndaten sind
ymax und ymin . Für ein Regressionsproblem gilt:
ymax #= ymin .
(5)
In Anlehnung an [14] werden sogenannte Interpolationsindikatoren QIV,1 ,
QIV,2 und QIV,3 berechnet, die den Verlauf der geschätzten Ausgangsgröße auf Besonderheiten untersuchen. Gesucht ist ein Gütekriterium QIV,total ,
was eine Aussage über ein lokales Overfitting liefert. Der Wertebereich
von QIV,total sowie der Interpolationsindikatoren liegt zwischen 0 und 1. Je
kleiner der Wert von
1
(6)
QIV,total = max
· (QIV,1 + QIV,2 + QIV,3 ), QIV,min ,
3
4
Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014
desto eher zeigt das untersuchte Regressionsmodell an der betrachteten
Stelle im Merkmalsraum Overfitting. QIV,min verhindert, dass Interpolationen mit geringen Schwankungen zu schlecht bewertet werden. Das heißt
bei einem größeren Quotienten
yquotient =
ŷmax − ŷmin
ymax − ymin
(7)
werden schlechtere Bewertungen durch die Interpolationsindikatoren zugelassen:
(8)
QIV,min = exp(−qIV,min · yquotient ).
Um ein geeignetes qIV,min zu finden, wird die Kurvenschar aus Bild 1 betrachtet.
q
= 10
0.8
q
= 20
0.6
qIV,min = 50
QIV,min
IV,min
IV,min
q
= 10
q
= 20
IV,min
0.6
QIV,min
1
0.4
IV,min
qIV,min = 50
0.4
0.2
0.2
0
0
0.5
1
0
0.05
0.1
y
y
(a)
(b)
quotient
0.15
quotient
Bild 1: (a) zeigt den Verlauf von QIV,min bei unterschiedlichen Werten für qIV,min . (b) zeigt
einen vergrößerten Teil von (a).
Aufgrund des Kurvenverlaufs wird qIV,min = 20 gewählt. Damit ergibt sich
ein angemessener Kompromiss zwischen einer hohen Fehlertoleranz bei
geringen Schwankungen der geschätzten Ausgangsgröße und einer geringen Fehlertoleranz bei großen Schwankungen der geschätzten Ausgangsgröße.
Die einzelnen Interpolationsindikatoren berechnen sich folgendermaßen:
(
1,
falls ŷmax = ŷmin
(9)
QIV,1 =
|ŷxb −ŷxa |
sonst.
|ŷmax −ŷmin |
QIV,1 untersucht ob im Verlauf der geschätzten Ausgangsgröße zwischen
xa und xb lokale Minima oder Maxima existieren. Dabei gilt
|ŷmax − ŷmin |≥ |ŷxb − ŷxa |.
Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014
(10)
5
Ein weiteres Kriterium bewertet die Steigung der Regression zwischen xa
und xb :
ν−1
1,
falls max(|ŷa,j+1 − ŷa,j |) = 0
j=1
!q 1
QIV,2 =
(11)
IV,2
|ŷxb −ŷxa |
, sonst.
ν−1
ν·max(|ŷa,j+1 −ŷa,j |)
j=1
Mit qIV,2 > 1 wird reguliert, wie empfindlich QIV,2 große Steigungen bestraft. Je größer qIV,2 gewählt wird, desto toleranter ist QIV,2 .
Die Abweichungen der vom Regressionsmodell geschätzten Ausgangsgrößen und einer linearen Interpolation von ŷ zwischen xa und xb werden von
folgendem Kriterium bewertet:
ν
max(|ŷlin,j − ŷj |)
j=1
(12)
QIV,3 = max 0, 1 −
.
|ŷxb − ŷxa |
Die lineare Interpolation entspricht
ŷx − ŷxa
ŷlin,j = ŷxa + b
· (j − 1), j = 1...ν.
ν−1
(13)
Die Interpolationsvalidierung ist kein Verfahren, um beispielsweise Überanpassung an Messrauschen o.ä. zu erkennen. Solches Overfitting wird bereits von Kreuzvalidierungsverfahren vermieden. Das Ziel der Interpolationsvalidierung ist die Vermeidung modellabhängiger Fehlschlüsse in der
Parameteroptimierung technischer Systeme. Von Interesse sind also nur
Schwankungen der geschätzten Ausgangsgröße, die solche Optimierungsprozesse stören.
In der Praxis werden oft an Stellen, an denen das Regressionsmodell Prädiktionen liefern soll, Aussagen über die Zuverlässigkeit benötigt. Gemeinsam mit einem weiteren Interpolationsindikator, der die Abweichungen
(ŷxa − yxa ) und (ŷxb − yxb ) berücksichtigt, können die vorliegenden Bewertungsmaße eine solche Einschätzung der Zuverlässigkeit geben.
3.2 Finden nächster Nachbarn
Die Punkte xa und xb , zwischen denen das Interpolationsverhalten validiert
wird, müssen zunächst im Datensatz identifiziert werden. Es ist davon auszugehen, dass ein Punkt xm im Merkmalsraum bekannt ist, für dessen Umgebung eine Aussage bezüglich Overfitting benötigt wird. xa und xb müssen so gewählt werden, dass in der Nähe einer Gerade zwischen xa und xb
6
Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014
lediglich xm liegt, Punkte aus dem Lerndatensatz dürfen sich dort nicht befinden. Dazu werden Winkel im Euklidischen Raum benötigt. Der Winkel
zwischen zwei Vektoren v1 und v2 berechnet sich durch:
v1 · v2
∡(v1 , v2 ) = arccos
.
(14)
|v1 |·|v2 |
Mit der folgenden Auswahl der Datentupel wird sichergestellt, dass keine anderen Punkte die Regression im Bereich zwischen xa und xb verzerrt
haben und ein nicht-lineares Verhalten rechtfertigen: Der Merkmalsraum
wird normiert, und die N Datentupel werden ihrer Distanz zu xm (gemessen z.B. durch den Euklidischen Abstand) nach sortiert als xa angenommen
und unter den übrigen Datentupeln im Lerndatensatz ein Punkt xsearch gesucht, für den gilt:
∡((xm − xa ), (xsearch − xa )) < ψ,
(15)
d(xa , xsearch ) > d(xa , xm ).
(16)
Werden mehrere Punkte gefunden, die den Bedingungen genügen, wird der
Punkt mit der geringsten Euklidischen Distanz zu xa gewählt.
Anschließend wird geprüft ob für alle Punkte xverify mit
∡((xa − xsearch ), (xverify − xb )) < ψverify
(17)
folgende Bedingung gilt:
d(xverify , xsearch ) ≥ d(xa , xsearch ).
(18)
Ist das der Fall, wird xsearch als xb für den aktuellen Punkt xa ausgewählt.
Außerdem werden alle Punkte xi als potentielle xa ausgeschlossen, für die
gilt:
(19)
∡((xi − xa ), (xm − xa )) > ψignore .
Bei der Anwendung in Abschnitt 4 wird mit ψ = 30◦ , ψverify = 20◦ und
ψignore = 120◦ gerechnet.
Die Suche nach geeigneten Paaren (xa , xb ) ist beendet, wenn entweder jeder Punkt xi als xa betrachtet wurde oder s Paare gefunden wurden.
Falls keine Paare gefunden werden, besteht die Möglichkeit, dass xm in
einem Extrapolationsbereich oder einem sehr gut abgedeckten Bereich des
Merkmalsraums liegt.
Alle beschriebenen Methoden wurden in die MATLAB-Toolbox GaitCAD [15] integriert.
Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014
7
4 Anwendung
4.1 Durchflussverhalten von Labyrinthdichtungen
In [16] werden Data-Mining-Methoden genutzt, um das Systemverhalten
von Labyrinthdichtungen in Turbomaschinen zu verstehen. Das von geometrischen, strömungsmechanischen und thermodynamischen Systemparametern abhängige Durchflussverhalten der Dichtungen wird mathematisch abgebildet, damit Vorhersagen für zukünftige Systemkonfigurationen
gemacht werden können. In [17] bilden Regressionsmodelle durch KNN
die Basis für eine Optimierung von Labyrinthdichtungen, um rechenintensive numerische Strömungssimulationen zu vermeiden und die Optimierung mit vertretbarem Zeitaufwand durchzuführen.
Die erforderlichen Daten werden aus Forschungsprojekten, Dissertationen, Diplomarbeiten und anderen wissenschaftlichen Veröffentlichungen
zusammengetragen. Messobjekte und Zielsetzung der Messungen sowie
der zugehörigen Arbeiten unterscheiden sich teilweise erheblich. Außerdem divergiert die Aktualität der Messungen. Manche Arbeiten, aus denen
Messdaten entnommen wurden, liegen bereits über 40 Jahre zurück, andere
lediglich wenige Jahre. Durch das Zusammentragen der Quellen entsteht
ein großer Datensatz, mit Hilfe dessen das Durchflussverhalten von Labyrinthdichtungen modelliert wird.
Aufgrund der verschiedenen Quellen weist der Datensatz eine ungleichmäßige Verteilung der Punkte im Merkmalsraum auf. Um die Auswirkungen der ungleichmäßigen Verteilung auf die Modellqualität zu untersuchen,
werden Messungen simuliert, die auf der empirischen Korrelation nach
Dörr [18] zur Vorhersage von Leckageströmen in Durchblicklabyrinthdichtungen basieren. Die Daten ordnen den Eingangsgrößen st und P i, auf deren Bedeutung in diesem Beitrag nicht weiter eingegangen wird, die Ausgangsgröße cd zu, welche den sogenannten Durchflussbeiwert und damit
die Zielgröße der Problemstellung darstellt. In der Ausgangsgröße wird
ein mögliches Messrauschen berücksichtigt. Aus den simulierten Daten
werden zwei Datensätze generiert, welche eine ungleichmäßige Verteilung
der Daten im Merkmalsraum aufweisen und zur datengetriebenen Modellierung und Validierung verwendet werden. Datensatz D1 beinhaltet nur
die Eingangsgröße P i und die Ausgangsgröße cd, Datensatz D2 beinhaltet
beide Eingangsgrößen st und P i und die Ausgangsgröße cd. Die Bilder
2(a) und 2(b) zeigen die Datensätze.
8
Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014
0.65
0.7
cd
cd
0.6
0.6
0.5
0.55
0.05
1.5
2
Pi
(a)
2.5
3
0.1
0.15
st
1.5
2
2.5
Pi
(b)
Bild 2: Visualisierung der Datensätze D1 und D2 . (a) zeigt die Ausgangsgröße cd über
der Eingangsvariablen P i im Datensatz D1 . (b) zeigt die Ausgangsgröße cd über den
Eingangsvariablen st und P i im Datensatz D2 .
4.1.1 Datensatz D1
Künstliche Neuronale Netze mit unterschiedlicher Komplexität (Anzahl an
Neuronen in der verdeckten Schicht) werden auf D1 angelernt. Bild 3 zeigt
die Modelle mit den geschätzten Ausgangsgrößen und die Lerndaten.
Um das bestangepasste Modell ohne Overfitting zu finden, wird für jede
Modellkomplexität eine 10-fache Kreuzvalidierung durchgeführt. Außerdem wurde für die drei Punkte im Merkmalsraum xT1 = P iT1 = 1.5,
xT2 = P iT2 = 2.1 und xT3 = P iT3 = 2.5 eine Interpolationsvalidierung
ihrer nächsten Nachbarn für die in Bild 3 gezeigten Modelle durchgeführt.
Neuronen
1
3
5
7
IE
0.007
0.005
0.004
0.006
OE
OE
QIV,total,T1 QIV,total,T2 QIV,total,T3
IE
0.007 1.059
1
0.94
0.99
0.006 1.33
1
0.96
0.98
0.005 1.136
0.98
0.85
1
0.008 1.323
0.93
0.03
0.74
Tabelle 1: Die mittleren Fehler der zehnfachen Kreuzvalidierungen. Das Regressionsmodell mit 5 Neuronen in der verdeckten Schicht kann als bestes Modell identifiziert werden.
Tabelle 1 zeigt den mittleren IE, OE und den gemittelten Quotienten OE
IE
der Kreuzvalidierung (gemittelter RM SE) sowie QIV,total für xT1 , xT2 und
xT3 eines über alle Lerndaten angelernten Modells (vgl. Bild 3). KNN mit
5 Neuronen in der verdeckten Schicht werden als gute Regressionsmodelle
identifiziert, da sowohl der IE als auch der OE minimal werden bei einem
Quotienten OE
IE ≈ 1. Ein Overfitting wird bei der Modellkomplexität von
der Kreuzvalidierung nicht erkannt. Das unerwartete Verhalten vom MoProc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014
9
1 Neuron
3 Neuronen
0.6
0.6
cd
0.65
cd
0.65
0.55
0.55
1.5
2
Pi
2.5
3
1.5
(a)
2
Pi
2.5
3
2.5
3
(b)
5 Neuronen
7 Neuronen
0.6
0.6
cd
0.65
cd
0.65
0.55
0.55
1.5
2
Pi
(c)
2.5
3
1.5
2
Pi
(d)
Bild 3: Regressionsmodelle über Datensatz D1 mit Hilfe von KNN verschiedener Komplexität
dell mit 7 Neuronen im nicht abgedeckten Bereich zeigt sich durch ein
niedriges QIV,total,T2 .
Beim Anlernen von KNN werden die initialen Gewichte der Neuronen zufällig gewählt, um das Finden eines globalen Optimums zu ermöglichen.
Dadurch kann sich der Verlauf der geschätzten Ausgangsgröße von zwei
Modellen gleicher Komplexität unterscheiden, obwohl die gleichen Lerndaten verwendet wurden. Als Beispiel hierfür zeigt Bild 4 wie Bild 3(c)
ein Modell, das durch ein KNN mit 5 Neuronen in der verdeckten Schicht
auf D1 angelernt wurde. Im Intervall P i = [1.8; 2.4] zeigt das Modell aus
Bild 4 ein unerwartetes Verhalten.
Die Interpolationsvalidierung des Modells liefert QIV,total,T1 = 0.99,
QIV,total,T2 = 0.38 und QIV,total,T3 = 1. Auch hier resultiert das unerwartete Verhalten im nicht abgedeckten Bereich in einem niedrigen QIV,total,T2 .
Damit ergänzt die Interpolationsvalidierung die Kreuzvalidierung, die eine generelle (nicht modellspezifische) globale Aussage für im Datensatz
erfasste Merkmalsbereiche liefert.
10
Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014
5 Neuronen
0.65
c
d
0.6
0.55
1.5
2
Pi
2.5
3
Bild 4: Regressionsmodell über Datensatz D1 . Das Modell hat einen auffälligen Verlauf
im Bereich der Eingangsgröße, der nicht durch Daten abgedeckt wird.
4.1.2 Datensatz D2
Künstliche Neuronale Netze mit unterschiedlicher Komplexität (Anzahl
sneuron an Neuronen in der verdeckten Schicht) werden auf D2 angelernt.
Bild 5 zeigt die Modelle mit den geschätzten Ausgangsgrößen und die
Lerndaten.
Um das bestangepasste Modell ohne Overfitting zu finden, wird für jede
Modellkomplexität eine 10-fache Kreuzvalidierung durchgeführt. Außerdem wird für die vier Punkte im Merkmalsraum aus Tabelle 2 eine Interpolationsvalidierung ihrer nächsten Nachbarn für die in Bild 5 gezeigten
Modelle durchgeführt.
xT1 xT2 xT3 xT4
st 0.09 0.05 0.13 0.17
1.7 1.7 2.4
Pi 2
Tabelle 2: Punkte im Merkmalsraum, deren Umgebung von der Interpolationsvalidierung
untersucht werden
Bild 6 zeigt die Lage der Punkte im Merkmalsraum sowie die Verbindungslinien der identifizierten nächsten Nachbarn im Lerndatensatz.
Tabelle 3 zeigt die Ergebnisse der Kreuzvalidierung und der Interpolationsvalidierung. Die Kreuzvalidierungen lassen aufgrund minimaler OE
und OE
IE auf Modelle durch KNN mit 12 bzw. 10 Neuronen als optimale
Lösung schließen. Die Interpolationsvalidierung deutet allerdings auf ein
Overfitting bei derartigen Modellen in der Umgebung von xT1 und xT4 hin.
Das wird durch Bild 5 bestätigt.
Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014
11
7 Neuronen
1
1
0.8
0.8
cd
cd
3 Neuronen
0.6
0.6
0.4
0.4
4
0.2
í0.1
4
2
0
0.1
0.2
st
0.2
í0.1
0.3 0 pi
2
0
0.1
(a)
1
0.6
0.8
0.4
cd
d
pi
12 Neuronen
0.8
c
0.3 0
(b)
10 Neuronen
0.2
0
í0.1
0.2
st
0.6
0.4
0
0.1
0.2
st
4
2
0.3 0 pi
0.2
í0.1
4
2
0
0.1
(c)
0.2
st
0.3 0
pi
(d)
Bild 5: Regressionsmodelle über Datensatz D2 mit Hilfe Künstlicher Neuronaler Netze
verschiedener Komplexität
Pi
2.5
2
1.5
0.05
0.1
0.15
0.2
st
Bild 6: Merkmalsraum von D2 . Punkte für die Interpolationsvalidierung sind durch Dreiecke gekennzeichnet. Verbindungen zwischen ausgewählten Punkten xa und xb des Lerndatensatzes gemäß Abschnitt 3.2 sind durch Linien gekennzeichnet.
4.2 Setzverhalten von Beton (Datensatz D3 )
In [19] wird versucht, das Setzverhalten von Beton mit Hilfe von KNN zu
modellieren. Damit soll unter anderem der Einfluss verschiedener Bestand12
Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014
sneuron
3
7
10
12
14
IE OE OE
QIV,total,T1 QIV,total,T2 QIV,total,T3 QIV,total,T4
IE
7.8 10.3 1.5
0.82
0.94
0.93
0.92
6.1 6.7 1.4
0.3
0.94
0.95
0.3
5.5 5.7 1.2
0.27
0.98
0.95
0.26
4.9 5.5 1.2
0.27
0.95
0.86
0.58
4.0 6.6 1.9
0.54
0.94
0.94
0.27
Tabelle 3: Ergebnisse der Kreuzvalidierungen und der Interpolationsvalidierungen. IE
und OE in [103 ].
teile des Betons auf das Setzverhalten untersucht werden. Für die Anwendung der Interpolationsvalidierung sind Details über den Anwendungsfall
nicht nötig. Der Datensatz D3 ist dem UCI Maschine Learning Repository
entnommen und diente als Grundlage für [19]. Er besteht aus 103 Datentupeln mit 7 Eingangsgrößen und einer Ausgangsgröße. Tabelle 4 zeigt eine
Übersicht über die Eingangsgrößen des Datensatzes.
Merkmal min
max
mean median
x1
137
374 229.894
248
0
193
77.974
100
x2
x3
0
260 149.015
164
160
240 197.168
196
x4
4.4
19
8.54
8
x5
708 1049.9 883.979
879
x6
640.6 902 739.605 742.7
x7
Tabelle 4: Übersicht über die Eingangsgrößen
Künstliche Neuronale Netze mit unterschiedlicher Komplexität (Anzahl
sneuron an Neuronen in der verdeckten Schicht) werden auf D3 angelernt.
Um das bestangepasste Modell ohne Overfitting zu finden wird für jede
Modellkomplexität eine 10-fache Kreuzvalidierung durchgeführt.
x
x 1 x 2 x 3 x 4 x 5 x 6 x7
xT1 150 120 130 190 8 870 730
xT2 200 60 52 200 8 800 750
Tabelle 5: Punkte für die Untersuchung auf Overfitting
Tabelle 5 zeigt zwei Punkte im Merkmalsraum, in deren Umgebung die beiden Modelle hinsichtlich Overfitting untersucht werden. xT1 liegt in einem
gut abgedeckten Bereich des Merkmalsraums, xT2 in einem schlecht abgedeckten. Das heißt die Datentupel von D3 sind im normierten Euklidischen
Raum weiter von xT2 entfernt als von xT1 .
Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014
13
sneuron
4
5
6
10
IE
6.126
5.069
4.984
4.979
OE
7.458
6.407
6.512
6.897
OE
IE
1.253
1.263
1.326
1.447
QIV,total,T1 QIV,total,T2
0.84
0.76
0.85
0.78
0.56
0.39
0.55
0.38
Tabelle 6: Ergebnisse der Kreuzvalidierungen und Interpolationsvalidierung
Die Tabelle 6 zeigt die Ergebnisse der Kreuzvalidierungen sowie der Interpolationsvalidierungen. Auf Basis der Kreuzvalidierungen können KNN
mit 5 Neuronen in der verdeckten Schicht als bestangepasste Modelle erkannt werden. Das wird auch von der Interpolationsvalidierung bestätigt,
die hier hohe Werte auch für den schlecht abgedeckten Bereich aufweist.
Interessant ist der Unterschied zwischen Modellen mit 5 Neuronen und 6
Neuronen in der verdeckten Schicht. Während bei der Kreuzvalidierung
der Unterschied gering ausfällt, zeigt die Interpolationsvalidierung einen
deutlichen Unterschied. Die Interpolationsvalidierung bietet damit eine
nützliche Ergänzung zu Kreuzvalidierungsverfahren.
5 Zusammenfassung
In diesem Beitrag wird die Möglichkeit untersucht, Overfitting bei Regressionsmodellen zu erkennen, deren Komplexität und Anpassung von einer
Kreuzvalidierung als angemessen bewertet werden. Anhand von verschiedenen Datensätzen und Regressionsmodellen wird gezeigt, dass es möglich ist, Overfitting am Verlauf der geschätzten Ausgangsgröße eines Modells zu identifizieren. Von besonderem Interesse ist diese Methode bei Datensätzen mit mehr als zwei Eingangsgrößen, wie es bei der Optimierung
von technischen Systemen oft der Fall ist.
Ein kritischer Punkt der Methode ist das Finden von Datenpunkten, zwischen denen der Verlauf der geschätzten Ausgangsgröße eines Modells
untersucht wird. Auf der einen Seite muss geprüft werden, wie allgemeingültig die verwendeten Parameter sind, bzw. wie sie datensatzspezifisch
(abhängig von N , s, etc.) angepasst werden können. Auf der anderen Seite
muss man unterscheiden zwischen den Anwendungsfällen:
• lokale Bewertung eines Regressionsmodells an einem beliebigen bekannten Punkt xm hinsichtlich Overfitting oder Zuverlässigkeit und
• globale Bewertung eines Regressionsmodells hinsichtlich Overfitting oder Zuverlässigkeit.
14
Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014
Für eine globale Bewertung müssen zunächst Punkte im Merkmalsraum
identifiziert werden, deren Umgebung untersucht wird. Besonders nicht abgedeckte Bereiche sind hierbei von Interesse. Es werden demnach Methoden benötigt, um solche Bereiche in hochdimensionalen Merkmalsräumen
zu finden.
Des Weiteren muss geprüft werden, ob die Parameter der Interpolationsvalidierung allgemein gültig sind, bzw. wie sie datensatzspezifisch (abhängig
von N , s, etc.) angepasst werden können.
Literatur
[1] Jin, Y.: A Comprehensive Survey of Fitness Approximation in Evolutionary
Computation. Soft Computing 9 (2005) 1, S. 3–12.
[2] Pychynski, T.; Blesinger, G.; Mikut, R.; Dullenkopf, K.; Bauer., H.-J.: Modelling the Leakage Behaviour of Labyrinth Seals Using Data Mining Methods.
In: Proc., ASME TURBO EXPO; Glasgow. 2010.
[3] Daszykowski, M.; Kaczmarek, K.; Vander Heyden, Y.; Walczak, B.: Robust
Statistics in Data Analysis - A Review: Basic Concepts. Chemometrics and
Intelligent Laboratory Systems 85 (2007) 2, S. 203–219.
[4] Hawkins, D. M.: The Problem of Overfitting. Journal of Chemical Information and Computer Sciences 44 (2004) 1, S. 1–12.
[5] Reischl, M.; Alshut, R.; Mikut, R.: On Robust Feature Extraction and Classification of Inhomogeneous Data Sets. In: Proc., 20. Workshop Computational
Intelligence, S. 124–143. KIT Scientific Publishing. 2010.
[6] Protzel, P.; Kindermann, L.; Tagscherer, M.; Lewandowski, A.: Abschätzung
der Vertrauenswürdigkeit von Neuronalen Netzprognosen bei der Prozessoptimierung. In: Proc., VDI-Berichte, Bd. 1626, S. 335–339. 2000.
[7] Rissanen, J.: Modeling by Shortest Data Description. Automatica 14 (1978),
S. 465–471.
[8] Wallace, C. S.; Boulton, D. M.: An Information Measure for Classification.
Computer Journal 11 (1968), S. 185–194.
[9] Papadopoulos, G.; Edwards, P.; Murray, A.: Confidence Estimation Methods
for Neural Networks: A Practical Comparison. IEEE Transactions on Neural
Networks 12 (2001) 6, S. 1278–1287.
[10] Rivals, I.; Personnaz, L.: Construction of Confidence Intervals for Neural
Networks Based on Least Squares Estimation. Neural Networks 13 (2000)
4-5, S. 463–484.
Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014
15
[11] Moore, A. W.: Cross-Validation for Detecting and Preventing Overfitting.
School of Computer Science Carnegie Mellon University (2001).
[12] Tetko, I. V.; Livingstone, D. J.; Luik, A. I.: Neural Network Studies. 1. Comparison of Overfitting and Overtraining. Journal of Chemical Information
and Computer Sciences 35 (1995) 5, S. 826–833.
[13] Hoffmann, F.; Mikut, R.; Kroll, A.; Reischl, M.; Nelles, O.; Schulte, H.; Bertram, T.: Computational Intelligence: State-of-the-Art Methoden und Benchmarkprobleme. In: Proc., 22. Workshop Computational Intelligence, S. 15–
29. KIT Scientific Publishing. 2012.
[14] Reuter, W.: Entwicklung einer neuen Methode zur Bewertung von Überanpassung von datenbasierten Modellen mit Lerndaten. Studienarbeit, Karlsruher
Institut für Technologie (KIT). 2013.
[15] Mikut, R.; Burmeister, O.; Braun, S.; Reischl, M.: The Open Source Matlab Toolbox Gait-CAD and its Application to Bioelectric Signal Processing.
In: Proc., DGBMT-Workshop Biosignalverarbeitung, Potsdam, S. 109–111.
2008.
[16] Pychynski, T.: Anwendung von Data Mining Methoden zur Analyse von Turbomaschinenkomponenten am Beispiel des Durchflussverhaltens von Labyrinthdichtungen. Diplomarbeit, Karlsruher Institut für Technologie (KIT).
2009.
[17] Braun, E.; Pychynski, T.; Bauer, H.-J.: An Opensource Framework for MultiObjective Flow Optimization as Applied to Labyrinth Seals. In: Proc., 15th
International Symposium on Transport Phenomena and Dynamics of Rotating Machinery, ISROMAC-15. 2014.
[18] Dörr, L.: Modellmessungen und Berechnungen zum Durchflussverhalten von
Durchblicklabyrinthen unter Berücksichtigung der Übertragbarkeit. Dissertation, Universität Karlsruhe (TH). 1985.
[19] Yeh, I.: Exploring Concrete Slump Model Using Artificial Neural Networks.
Journal of Computing in Civil Engineering 20 (2006) 3, S. 217–221.
16
Proc. 24. Workshop Computational Intelligence, Dortmund, 27.-28.11.2014