DTW-Toolbox

Matlab-Toolbox für Dynamic Time Warping (DTW)

Bachelorarbeit von Piotr Szegvari · BTU Cottbus · Lehrstuhl Kommunikationstechnik (2003)


Ziel der Arbeit

Entwicklung einer Matlab®-Toolbox zur Analyse und Visualisierung des Dynamic-Time-Warping-Verfahrens (DTW) – einem Algorithmus zur zeitlichen Angleichung von Sprachsignalen.

Die Toolbox vergleicht synthetische und natürliche Sprachproben, bestimmt deren zeitliche Übereinstimmung und bietet eine grafische, interaktive Darstellung der Ergebnisse.

Vergleich zweier Sprachsignale mit DTW-Pfad
Zeitliche Angleichung zweier Sprachsignale mittels Dynamic Time Warping

Grundprinzip

Das Dynamic Time Warping wurde Ende der 1960er Jahre für die Spracherkennung entwickelt.
Es erkennt nichtlineare Zeitverzerrungen zwischen zwei Signalverläufen.
Zwei Aufnahmen des Wortes „DTW“ – eine normal, eine schnell gesprochen – werden so angepasst,
dass sie zeitlich synchron verlaufen.

Funktionen der Toolbox

1. Fensterung (Windowing)

Sprachsignale werden in kurze, quasi-stationäre Abschnitte (5–30 ms) zerlegt.
Unterstützt werden zahlreiche Fensterarten wie Hamming, Hanning, Kaiser oder Blackman.

Vergleich verschiedener Fensterfunktionen
Vergleich typischer Fensterfunktionen (Hamming, Hanning, Kaiser, Blackman)

2. Merkmalsextraktion

Aus jedem Signalabschnitt werden Merkmalsvektoren gebildet.
Diese beschreiben Energie, Nulldurchgangsrate, Autokorrelation, Cepstrum oder Spektrogramme
(mit Hz-, Mel- oder Erb-Skala).

Spektrogramm eines Sprachsignals
Spektrogramm eines gesprochenen Wortes auf der Mel-Skala

3. Abstandsmaße

Die Toolbox unterstützt verschiedene mathematische Distanzen, darunter
euklidisch, Mahalanobis, Kosinus, City-Block und Minkowski.
So lässt sich der Grad der Ähnlichkeit zwischen Sprachproben flexibel anpassen.

4. DTW-Algorithmus

Kern der Toolbox ist der rekursive DTW-Algorithmus.
Er berechnet den optimalen Pfad zwischen zwei Signalen mittels
dynamischer Programmierung unter Anwendung lokaler und globaler Beschränkungen
(z. B. Sakoe/Chiba-Band, Itakura-Band, Strahlsuche).

DTW-Matrix mit optimalem Pfad
Visualisierung der DTW-Matrix mit optimalem Pfad

Ergebnisse

Die Toolbox ermöglicht die grafische und numerische Analyse von Sprachsignalen.
Der zeitliche Verlauf synthetischer und natürlicher Sprachproben kann
präzise verglichen und visualisiert werden.
Zudem lassen sich sämtliche Berechnungen speichern und reproduzieren.

„Das entwickelte Werkzeug erlaubt ein tiefes Verständnis der zeitlichen Dynamik von Sprachsignalen und ist
zugleich eine anschauliche Lehrhilfe für Signalverarbeitung und Akustik.“

Technische Übersicht

Programmiersprache Matlab® 6.x
Algorithmus Dynamic Time Warping (DTW)
Anwendungsbereich Sprach- und Sprechererkennung
Lehrstuhl Kommunikationstechnik, BTU Cottbus
Jahr 2003

Fazit

Die Arbeit verbindet Signalverarbeitung, Akustik und algorithmische Optimierung
in einer praxisnahen Software.
Die Matlab-Toolbox bietet ein vollständiges Framework für DTW-Analysen,
vielfältige Visualisierungsfunktionen und eine modulare Basis für Erweiterungen
– etwa Echtzeit-DTW oder neuronale Modelle.