Genetische Programmierung für die Sprachsignalverarbeitung
Bachelorarbeit,Masterarbeit,Studienarbeit,Diplomarbeit

Description

Genetische Programmierung ist eine Optimierungsmethode welche es gestattet Funktionen und Programme durch evolutionäre Mechanismen zu entwickeln [1]. Dies gestattet z.B. das transparente Finden von Lösungsfunktionen bei einer Vielzahl an Problemen.

In diesem Kontext biete ich zwei studentische Arbeiten an, welche genetische Programmierung in der Sprachsignalverarbeitung untersuchen bzw. anwenden sollen.

Sprache lässt sich grob in zwei Klassen einteilen: Stimmhafte und stimmlose Laute. Bei den stimmhaften Lauten, zu denen z.B. alle Vokale gehören, schwingen die Stimmbänder mit. Dies ist bei den stimmlosen Lauten nicht der Fall. Stimmhafte Laute zeigen eine starke Periodizität im Zeitverlauf bzw. in der Wellenform. Dagegen sind stimmlose Laute, wie z.B. ein "s" eher rauschartig. Für diese Art von Lauten existieren verschiedene stochastische Modelle, welche diese Laute durch stochastische Prozesse modelliert [2,3,4]. Diese Modelle werden z.B. für die Datenkompression verwendet [5]. Allerdings sind diese insbesondere für stimmhafte Laute unzureichend und können die beobachteten Statistiken nicht hinreichend gut beschreiben.

Im Rahmen einer Abschlussarbeit soll mittels genetischer Programmierung versucht werden neue stochastische Modelle für stimmhafte Sprache zu entwickeln. Dazu sollen auf einer vorhandenen Datenbasis stimmhafter Laute verschiedene Modelle erprobt werden und hinsichtlich z.B. ihrer Likelihood verglichen werden.

Im Rahmen einer weiteren Abschlussarbeit soll mittels genetischer Programmierung optimale Kurzzeitprädiktoren von stimmhafter Sprache untersucht werden. In einer vorherigen Untersuchung hat sich gezeigt, dass nichtlineare Prädiktion von Sprache der linearen Prädiktion deutlich überlegen ist. Jedoch bestehen aktuelle nichtlineare Prädiktoren typischerweise aus neuronalen Netzen, bei denen der funktionelle Zusammenhang zwischen Eingang und Ausgang nicht ersichtlich ist, anders als bei der genetischen Programmierung. Aus einer vorherigen Untersuchung sind Ergebnisse für den Nadaraya-Watson Kernel-Regressor (NWKR) vorhanden, welcher den bedingten Erwartungswert approximiert [6]. Dies ist die Approximation des Optimalprädiktors, welcher immer durch den bedingten Erwartungswert gegeben ist. Jedoch ist beim NWKR nicht klar welche Funktion dieser darstellt. Dies soll mittels genetischer Programmierung im Rahmen der Arbeit bestimmt werden.

Bei Fragen oder Interesse meldet euch gerne bei mir!

[1] http://fuzzy.cs.ovgu.de/wiki/uploads/Lehre.EvolAlg2008/ea08t4.pdf
[2] https://en.wikipedia.org/wiki/Source%E2%80%93filter_model
[3] https://www.researchgate.net/figure/Speech-synthesis-model-based-on-the-source-filter-theory_fig2_27516881
[4] https://www2.spsc.tugraz.at/www-archive/AdvancedSignalProcessing/SpeechSynthesis.new/flohberger_report.pdf
[5] https://en.wikipedia.org/wiki/Code-excited_linear_prediction
[6] https://en.wikipedia.org/wiki/Kernel_regression#Nadaraya%E2%80%93Watson_kernel_regression

Requirements

- Eigenständiges Arbeiten
- Motivation
- Grundkenntnisse Signalverarbeitung
- Grundkenntnisse Python (Matlab ginge auch)
- Grundkenntnisse Statistik und Wahrscheinlichkeitsrechnung

Contact person: Reemt Hinrichs