Rozpoznawanie mówcy na podstawie krótkich rejestracji mowy
Speaker recognition from short-time speech recordings
Streszczenie
Niniejsza praca dotyczy opracowania metody rozpoznawania mówców z zamkniętego
zbioru na podstawie krótkich rejestracji mowy. Rozpoznawania mówców przeprowadzono
dla grupy 7 osób. Rejestracje wykonano dla grupy osób o różnym wieku i płci.
Do rejestracji użyto 2 urządzeń - dyktafonu oraz mikrofonu komputerowego. Inspiracją
podjętego problemu pracy jest pomoc osobom niewidomym przy rozpoznawaniu
mówcy.
W pracy zastosowano metodę współczynników kepstralnych MFCC w celu wydzielenia
cech mowy, na podstawie których utworzono model wzorcowy mówcy. Rozpoznawanie
mówcy odbywa się z udziałem klasyfikatora minimalnoodległościowego na zbiorze
testowym, który stanowi 1/3 wszystkich rejestracji mowy. Testy wykonane na aplikacji
napisanej w środowisku MATLAB pozwoliły uzyskać skuteczność rozpoznawania na
poziomie 80%. Zastosowanie detekcji mowy dźwięcznej, oraz zmniejszenie wymiarowości
wektora cech z użyciem odwzorowania Sammona pozwoliło zwiększyć skuteczność
rozpoznawania mówców do 90%.
Abstract
The aim of this thesis was to develop and test methods for speaker recognition
that can effectively work on short-time speech recordings. The study was conducted
on a group of 7 participants of different ages and genders. Two devices were used for the
recordings, a voice recorder and a microphone connected to a computer. The inspiration
for this project was derived from a need for the development of a practical application,
i.e. speaker identification for the blind.
The MFCC (Mel Frequency Cepstral Coefficients) method for extracting speech
features, which is used to build speaker models, including prototypes, was applied.
As a classifier for the extracted speech features the minimum distance classifier was
used. The classifier was trained on 66% of the available data and tested on the remaining
set that was not used for training. The method that was implemented in Matlab
featured correct speaker recognitions for 80% of the data from the test set. After using
the voiced speech segments only for recognition and performing dimensionality reduction
of the voice feature vectors (by means of the Sammon mapping) the recognition
performance has increased to 90%.