Opracowanie i walidacja sieci neuronowej do rozpoznawania gestów języka migowego w sekwencjach wideo
Development and validation of a neural network for the sign language gesture recognition in video sequences
Streszczenie
Sign Gesture Recognition is a field researching how technology can increase accessibility for the deaf people. The research focuses on the image analysis tools, developed with the neural networks. Providing a hybrid model of Convolutional Neural Network and LSTM, a video analysis can be conducted. Utilizing a dataset consisting of recorded videos of words in American Sign Language, such analysis is performed for the scope of 5 words. Due to limited amount of data, the extension of the dataset was done by the author, recording different actors performing the gestures. Additionally, a transformed learning is integrated, by importing a pre-trained EfficientNet model. Using Python language with PyTorch library, a machine learning architecture is built. The network is run on with various parameters, showing the impact in the training and validation accuracy. The outcome shows that for the scope of the project 20 frames used for analysis provides the best results, as it helps to avoid the underfitting and unsatisfactory data generalization ability. The initial layers of the pre-trained model are initially stopped from updating weights, so the model catches up with the context of the motion in LSTM layers. The final result showcases, that while the accuracy of the network for given scope reaches higher than random guess, the use of such architecture might be too complex and provide too many information for the architecture to gather the ability to generalize the context.
Abstract
Rozpoznawanie gestów języka migowego to dziedzina badań zajmująca się tym, jak technologia może zwiększyć dostępność dla osób głucho-niemych. Badania skupiają się na narzędziach do analizy obrazu, opracowanych przy użyciu sieci neuronowych. Dzięki łączeniu modelu konwolucyjnej sieci neuronowej i LSTM, możliwa jest klasyfikacja na podstawie klipów wideo. Wykorzystując zbioru danych składającego się z nagrań wideo gestykulujących pojedyncze słowa w American Sign Language, przeprowadzono badanie sieci dla zakresu pięciu wybranych słów. Z powodu ograniczonej ilości danych autor rozszerzył zbiór, nagrywając różnych aktorów wykonujących gesty. Dodatkowo zintegrowano uczenie transferowe, importując wstępnie wytrenowany model EfficientNet. Architektura uczenia maszynowego została zbudowana przy użyciu języka Python i biblioteki PyTorch. Przeprowadzona jest analiza wyników na podstawie różnych parametrów sieci. Ostatecznie wykazano, że w przypadku tego projektu najlepszy rezultat pojawił się przy użyciu 20 klatek do analizy, ponieważ pomaga to uniknąć niedouczenia i słabej zdolności do generalizacji danych. Początkowe warstwy wstępnie wytrenowanego modelu są na początku zablokowane przed aktualizacją wag, aby model mógł nadążyć za kontekstem ruchu w warstwach LSTM. Ostateczny wynik pokazuje, że chociaż dokładność sieci dla danego zakresu jest wyższa niż losowe zgadywanie, użycie takiej architektury może być zbyt złożone i dostarczać zbyt wielu informacji, aby mogła ona wykształcić zdolność do generalizacji kontekstu.