2022 & 2023
Dissertation, RWTH Aachen University, 2022
Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2023
Genehmigende Fakultät
Fak01
Hauptberichter/Gutachter
; ;
Tag der mündlichen Prüfung/Habilitation
2022-11-24
Online
DOI: 10.18154/RWTH-2022-11578
URL: https://publications.rwth-aachen.de/record/861023/files/861023.pdf
Einrichtungen
Inhaltliche Beschreibung (Schlagwörter)
automatische Spracherkennung (frei) ; Sprachübersetzung (frei) ; automatic speech recognition (frei) ; machine learning (frei) ; machine translation (frei) ; maschinelle Übersetzung (frei) ; maschinelles Lernen (frei) ; neural networks (frei) ; neuronale Netze (frei) ; speech translation (frei)
Thematische Einordnung (Klassifikation)
DDC: 004
Kurzfassung
In den letzten Jahren wurden verschiedene Bereiche menschlicher Sprachtechnologie durch den Erfolg neuronaler Sequenz-zu-Sequenz-Modellierung vorangebracht. Die Anwendung von Attention-Modellen in der automatischen Spracherkennung sowie in der maschinellen Übersetzung von geschriebener und gesprochener Sprache hat sich inzwischen etabliert. Obwohl die Effektivität solcher Modelle in wissenschaftlichen Arbeiten dokumentiert wurde, sind noch nicht alle Aspekte von Sequenz-zu-Sequenz-Modellen erforscht worden, die auf Attention-Modellen basieren, und einige wesentliche Konzepte fehlen noch. Daher konzentriert sich diese Arbeit auf die Umgestaltung von Attention-Modellen, indem neue Alternativen für die Sprachtechnologie vorgeschlagen werden. Attention-Modelle haben keine bedingten Abhängigkeiten zu früheren Attention-Informationen. Inspiriert von statistischen Wortalignierungen erweitert diese Arbeit zunächst das rekurrente Attention-Modell durch die implizite Einbeziehung weiterer Alignierungsinformationen aus früheren Ausgabepositionen. Des Weiteren geht diese Arbeit hinsichtlich der Modellierung über die derzeitigen Sequenz-zu-Sequenz-Modelle hinaus, indem Eingabe- und Ausgabesequenzen direkt in eine 2D-Struktur einbezogen werden, für die ein Attention-Mechanismus nicht mehr erforderlich ist. Dieses Modell unterscheidet sich von Attention-Modellen, bei denen die Eingabe und Ausgabe als eindimensionale Sequenzen über die Zeit behandelt und dann mit einem Attention-Mechanismus kombiniert werden. Im Gegensatz zu Attention-Modellen, welche die Encoder-Zustände während der Dekodierung nicht neu interpretieren, erhöht das vorgeschlagene Modell die Expressivität der Kontextvektoren, indem es die Eingangsrepräsentationen so verändert, dass sie von der partiellen Übersetzung abhängen. Den aktuellen Attention-Modellen fehlt auch eine explizite Alignierung, eine Kernkomponente traditioneller Systeme. Stattdessen verfügen sie über einen effektiven Attention-Mechanismus, der als eine implizierte Form der Alignierung betrachtet werden kann. Eine solche starke Vereinfachung eines komplexen Prozesses erschwert die Extraktion von Alignierungen zwischen Eingabe- und Ausgabepositionen. Um die Erklärbarkeit von Attention-Modellen zu verbessern und eine besser kontrollierbare Ausgabe zu ermöglichen, wird im nächsten Teil dieser Arbeit das Attention-Modell in die Formulierung des Hidden Markov Modelles integriert, indem Alignierungen als eine Folge von verborgenen Variablen eingeführt werden. Da die Marginalisierung in der Ordnung der Alignierungsabhängigkeit exponentiell ist, wird eine einfachere und effizientere Approximation, in der keine Abhängigkeit angenommen wird, erforscht. Eine interessante Forschungsrichtung ist schließlich die Kombination von automatischer Spracherkennung und Textübersetzung hin zu Sprache-zu-Text-Übersetzung. Neben der Aneinanderreihung von unabhängig voneinander trainierten Spracherkennungs- und maschinellen Übersetzungssystemen beleuchtet diese Arbeit verschiedene End-to-End-Modelle zur direkten Übersetzung von gesprochener Sprache in einen Text. In diesem Zusammenhang werden vielversprechende Methoden aus der Spracherkennung aufgegriffen und erfolgreiche Verfahren für die direkte Modellierung etabliert. Der letzte Teil dieser Studie untersucht und entwickelt neue Ansätze zur Nutzung verfügbarer Trainingsdaten, wobei bereits in der Literatur vorgeschlagene Methoden aufgegriffen werden. Letztlich wird gezeigt, dass End-to-End-Modelle eine praxistaugliche Alternative zur Kombination von Spracherkennung und maschineller Übersetzung sein können.In recent years, various fields in human language technology have been advanced by the success of neural sequence-to-sequence modeling. The application of attention models to automatic speech recognition, text and speech machine translation has become dominant and well-established. Although the effectiveness of such models has been documented in scientific papers, not all aspects of attention sequence-to-sequence models have been explored, and some essential concepts are still missing. Therefore, the main contribution of this thesis centers around redesigning attention models by proposing novel alternative models in terms of architecture and mathematical formulation for language technology. As attention models do not make any conditional dependence assumption on previous attention information,inspired by statistical word alignments, this work first extends recurrent attention models by implicitly including more alignment information from previous output positions. Furthermore, from a modeling perspective, this research goes beyond current sequence-to-sequence backbone models to directly incorporate input and output sequences in a 2D structure where an attention mechanism is no longer required. This model distinguishes itself from attention models in which inputs and outputs are treated as one-dimensional sequences over time and then combined with an attention mechanism. In contrast to attention models which do not reinterpret encoder states while decoding, the proposed model enhances the degree of variance in context vectors by refining input representations to be sensitive to the partial translation.Current state-of-the-art attention models also lack an explicit alignment, a core component of traditional systems. Instead, their attention mechanism may be considered to produce an implicit alignment. Such a gross simplification of a complex process complicates the extraction of alignments between input and output positions. To enable attention models to be explainable and their output to be better controlled, the next part of this study integrates the attention model into the hidden Markov model formulation by introducing alignments as a sequence of hidden variables. Since marginalization has an exponential number of terms in the alignment dependency order of the model, a zero-order assumption that is simpler and more efficient is explored.Finally, an exciting research direction is to combine speech recognition with text machine translation for speech-to-text translation. Besides advancing a cascade of independently trained speech recognition and machinetranslation systems, this thesis sheds light on multiple end-to-end models to directly translate speech inputs to target texts. In this context, promising methods are borrowed from speech recognition, and best practices are established for direct modeling. Addressing and revisiting already proposed methods in the literature, the last part of this study investigates and develops new approaches to leverage all types of available training data, i.e., speech-to-source, source-to-target, and speech-to-target text data. Ultimately, it is shown that end-to-end models can practically translate speech utterances as a substitute solution to cascaded speech translation.
OpenAccess:
PDF
(additional files)
Dokumenttyp
Dissertation / PhD Thesis
Format
online
Sprache
English
Externe Identnummern
HBZ: HT021679450
Interne Identnummern
RWTH-2022-11578
Datensatz-ID: 861023
Beteiligte Länder
Germany