Skip to main content

2024 | Buch

Mathematische Grundlagen des überwachten maschinellen Lernens

Optimierungstheoretische Methoden

insite
SUCHEN

Über dieses Buch

Dieses Buch behandelt die gängigsten Methoden zur Klassifikation von digitalisierten Objekten. Jedem Objekt ist ein Punkt im Euklidischen Raum passender Dimension zugeordnet. Das Lernen basiert auf einer Menge von Punkten, für die die zugehörige Klasse bekannt ist. Eine Reduktion der Dimension sowie elementare und anspruchsvollere Methoden zur Ermittlung schnell berechenbarer Funktionen, mit denen man aus einem Punkt die zugehörige Klasse mit einer möglichst geringen Fehlerrate ableiten kann, werden hergeleitet und in einer einheitlichen Herangehensweise begründet. Die recht elementaren Beweise werden im Wesentlichen mit Mitteln der Linearen Algebra geführt, nur für die neuronalen Netze wird etwas Analysis benötigt.

Die Produktfamilie WissensExpress bietet Ihnen Lehr- und Lernbücher in kompakter Form. Die Bücher liefern schnell und verständlich fundiertes Wissen.

Inhaltsverzeichnis

Frontmatter
Kapitel 1. Einführung
Zusammenfassung
Es wird der wesentliche Gegenstand dieses Buches erläutert, und zwar die Klassifikation von digitalisierten Objekten. Beim überwachten Lernen werden für geeignete Verfahren auf Basis von Lerndaten Verfahrensparameter so berechnet, dass man damit konkrete Zuordnungskriterien erhält. Entscheidend ist, dass die Zuordnung auch für nicht beim Lernen verwendete Daten gut funktioniert, deswegen wird auch auf den Begriff der Testdaten eingegangen. Da die Lineare Algebra eine tragende Rolle in diesem Buch spielt und auch etwas Analysis verwendet wird, werden die über mehrere Kapitel benötigten Bezeichnungen und Sätze in diesem Kapitel zusammengestellt.
Konrad Engel
Kapitel 2. Hauptkomponentenanalyse
Zusammenfassung
Die Merkmalsvektoren der zu klassifizierenden Objekte haben häufig eine riesige Dimension. Für eine effiziente Verarbeitung dieser Vektoren ist aber eine moderate Dimension wünschenswert. In diesem Kapitel behandeln wir ein wichtiges Verfahren zur Dimensionsreduktion – die Hauptkomponentenanalyse. Diese wird begründet mit einer bestmöglichen linearen Approximation durch einen niedrig-dimensionalen affinen Teilraum bzw. äquivalent dazu durch Varianzmaximierung der orthogonalen Projektionen auf einen affinen Teilraum. Es wird bewiesen, dass der optimale affine Teilraum den Mittelwert der Merkmalsvektoren enthält und der zugehörige Teilvektorraum durch Eigenvektoren zu den gewünscht vielen größten Eigenwerten einer aus den Daten gebildeten Matrix aufgespannt wird. Schließlich werden noch durch eine einfache Idee gewisse Nichtlinearitäten zugelassen.
Konrad Engel
Kapitel 3. Der Perzeptron-Lernalgorithmus
Zusammenfassung
Lassen sich die Merkmalsvektoren der Objekte zweier Klassen durch eine Hyperebene trennen, so kann man diese Hyperebene auf elementare Weise in endlich vielen Schritten berechnen und damit dann zur Klassifizierung verwenden. Das entsprechende Verfahren – der Perzeptron-Lernalgorithmus – wird beschrieben und interpretiert. Die Endlichkeit dieses Verfahrens wird bewiesen. Es werden Methoden vorgestellt, wie der Fall mehrerer Klassen auf den Fall zweier Klassen zurückgeführt werden kann. Schließlich werden, wie im vorigen Kapitel, wieder gewisse Nichtlinearitäten zugelassen.
Konrad Engel
Kapitel 4. Die Fisher-Diskriminante
Zusammenfassung
Lassen sich die Merkmalsvektoren der Objekte zweier Klassen nicht durch eine Hyperebene trennen, so kann man eine Hyperebene suchen, die zumindest eine „angenäherte“ Trennung ermöglicht. In diesem Kapitel ist die Zielfunktion der Quotient aus den folgenden beiden Termen: Der Dividend ist die mit den Mächtigkeiten gewichtete Summe der Varianzen der orthogonalen Projektionen auf die Gerade, die durch den Mittelpunkt der Merkmalsvektoren verläuft und als Richtungsvektor einen Stellungsvektor der Hyperebene hat. Der Divisor mit der Rolle einer Normierung ist das Quadrat des Abstandes der orthogonalen Projektion der Mittelpunkte der einzelnen Klassen. Die entsprechenden Grundlagen aus der quadratischen Optimierung werden bereitgestellt, was dann zum Algorithmus zur Berechnung der Fisher-Diskriminante führt. Der Fall mehrerer Klassen sowie gewisse Nichtlinearitäten können, wie im vorigen Kapitel, einbezogen werden.
Konrad Engel
Kapitel 5. Support-Vektor-Maschinen
Zusammenfassung
In diesem Kapitel sind wieder die Merkmalsvektoren zweier Klassen gegeben, die möglichst gut voneinander getrennt werden sollen. Im Fall der linearen Trennbarkeit wird nicht irgendeine trennende Hyperebene gesucht, sondern eine solche, für die der Abstand der orthogonalen Projektionen von zwei Punkten verschiedener Klassen auf eine durch den Stellungsvektor gegebene Gerade durch eine möglichst große Schranke nach unten abgeschätzt werden kann. Falls eine lineare Trennung nicht möglich ist, wird eine angepasste Zielfunktion verwendet, die sich von der Zielfunktion des vorigen Kapitels unterscheidet. Dies führt auf ein einfaches quadratisches Optimierungsproblem mit linearen Nebenbedingungen. Es erweist sich als vorteilhaft, das dazu duale Problem zu lösen, woraus man dann die Lösung des ursprünglichen Problems erhält. Die notwendigen Grundlagen aus der restringierten quadratischen Optimierung werden bereitgestellt. Die aus den vorigen Kapiteln bekannte Idee zur Einbeziehung von Nichtlinearitäten wird ebenfalls verwendet, hier werden die neuen Merkmale aber nicht explizit, sondern nur implizit über gewisse Kerne erzeugt. Dazu müssen dann Kerne charakterisiert werden. Ein elementarer Algorithmus zur Lösung des dualen Problems schließt dieses Kapitel ab.
Konrad Engel
Kapitel 6. Vorwärtsgerichtete neuronale Netze
Zusammenfassung
Gegenstand dieses Kapitels sind spezielle gerichtete Graphen, deren Kanten gewichtet sind. Es wird ein graphenbasierter Algorithmus behandelt, der aus vorgegebenen Werten an den Eingangsknoten, d. h. Knoten ohne hineinführende Kante, einen festgelegten Wert am Zielknoten, d. h. einem Knoten ohne herausführende Kante, erzeugt. Hierbei sind die Eingangswerte die Koordinatenwerte des Merkmalsvektors des aktuellen Objektes und der Wert des Zielknotens gibt die Nähe zu einem Targetvektor an, der die Klasse des Objektes beschreibt. Damit die Klassifizierung dann mit einer möglichst geringen Fehlerrate durchgeführt werden kann, minimiert man die über alle Objekte des Lerndatensatzes erstreckte Summe der Werte des Zielknotens, wobei die Gewichte der Kanten die Variablen sind. Dazu werden Varianten von Abstiegsverfahren vorgestellt. Ein entscheidender Aspekt ist die Berechnung des Gradienten der Zielfunktion, was in dieser speziellen Situation ebenfalls über einen graphenbasierten Algorithmus erledigt werden kann. Wenn man auf eine Vorverarbeitung der Merkmalsvektoren verzichtet, ist es häufig sehr hilfreich, die Daten passend zu filtern. Diese Filter können in die Graphenstruktur integriert werden, was zu Gleichheitsbedingungen der Gewichte führt und für die Optimierung ausgearbeitet wird.
Konrad Engel
Backmatter
Metadaten
Titel
Mathematische Grundlagen des überwachten maschinellen Lernens
verfasst von
Konrad Engel
Copyright-Jahr
2024
Verlag
Springer Berlin Heidelberg
Electronic ISBN
978-3-662-68134-3
Print ISBN
978-3-662-68133-6
DOI
https://doi.org/10.1007/978-3-662-68134-3

Premium Partner