Versuch 6: Lösungen

Aufgabe 6.2:

 

Frage 1: Welchen Vorteil hat man davon, wenn man Labels schreibt?

Antwort: Das Training erfolgt schneller, da nicht jedesmal, wenn auf die Daten zugegriffen werden soll, eine neue (Viterbi- oder Forward-Backward) Suche durchgeführt werden muß. Außerdem kann so ein bereits bestehender Erkenner zur Initialisierung eines neuen Erkenners (beispielsweise auf neuen Daten, mit anderer Vorverarbeitung oder sogar in einer neuen Sprache) benutzt werden.

 

Frage 2: Warum kann es von Vorteil sein, nach einer LDA die Dimension des Merkmalsraumes zu reduzieren?

Antwort: Die LDA (Linear Discriminant Analysis) "sortiert" die Dimensionen nach ihrer "Wichtigkeit", ausgedrückt durch die Varianz der Daten entlang dieser Dimension. Dimensionen, in denen die Daten nur eine geringe Varianz aufweisen, tragen erfahrungsgemäß zur Klassifikation nicht viel bei, da sich die Daten nicht sehr unterscheiden. Eine Vernachläsigung solcher Merkmale führt also i.A. nicht zu einer Verschlechterung der Klassifikationsleistung, aber zu einem kompakteren und schnelleren System mit höherer Generalisierungsfähigkeit.

 

Frage 3: Warum erwarten Sie, daß die Vektoren eines Codebuchs eine gewisse Ähnlichkeit besitzen? Sollte die LDA die Ähnlichkeit verstärken oder vermindern?

Antwort: Ein Codebuch ist i.A. einem bestimmten Phonem zugeordnet. Alle Realisationen dieses Phonems in den Trainingsdaten weisen charakteristische akustische Ähnlichkeiten auf (sonst wäre ja auch der Versuch der Klassifikation sinnlos), die sich natürlich in der Ähnlichkeit der Codebuchvektoren, die eine Schätzung der Daten eines Phonems realisieren, niederschlagen. Die LDA minimiert die Intra-Klassen Varianz, verstärkt also "Ähnlichkeit" der Vektoren innerhalb eines Codebuchs.

 

Frage 4: Was ist der Vorteil des k-means Verfahrens gegenüber der Verwendung von Gewichten aus einem anderen Erkenner?

Antwort: k-means Gewichte sind direkt an die Trainingsdaten und angepasst. Gewichte eines anderen Erkenners koennen nur dann mit einiger Aussicht auf Erfolg benutzt werden, wenn insbesonders die Vorverarbeitung identisch ist. Außerdem können so auch problemlos neue Phoneme eingeführt werden.

 

Frage 5: Wenn Sie entlang von Labels trainieren, verändern sich die Gewichte nach der zweiten Iteration, obwohl die Labels unverändert bleiben. Warum?

Antwort: Der EM-Algorithmus ist ein iteratives Verfahren, in dem abwechselnd die Datenpunkte auf die Gauss-Modelle verteilt werden (Expectation-Step) und die Modelle an die ihnen zugeordneten Daten angepasst werden (Maximization-Step). Dadurch verändern sich die Gewichte nach jeder Iteration, bis in einem lokalen Optimum Stationarität eintritt.

 

Frage 6: Wie sollte der durchschnittliche Score auf der gesamten Trainingsmenge nach der n+1-ten Trainingsiteration im Vergleich zu den Scores nach der n-ten Trainingsiteration aussehen?

Antwort: Er sollte sich verringert haben: geringere Scores bringen eine höhere Bewertung, da diese ja negativen logarithmierten Wahrscheinlichkeiten entsprechen.

 

Frage 7: Kann es vorkommen, daß durch das Training entlang Labels die Likelihood eines Trainingssatzes verschlechtert wird? Kann das vorkommen, wenn statt dem Lesen von Labelfiles die Pfade mit dem Forward-Backward Algorithmus berechnet werden?

Antwort: Ja. Es wird ja die mittlere Likelihood über alle Trainingssätze optimiert.

 

Frage 8: Unter welchen Umständen kann die Erkennungsrate durch Training verschlechtert werden?

Antwort: Likelihood-Optimierung muß nicht zwangsweise mit besserer Klassifikationsleistung korrelieren. Insbesonders kann ein Übertraining stattfinden, wenn das Codebuch keine Generalisierungsfähigkeit mehr besitzt.