W artykule przedstawiono wyniki badań dotyczących automatycznej detekcji wybranych wad wymowy u dzieci za pomocą automatycznego rozpoznawania mowy. Detekcja wady wymowy może być przeprowadzana pod kątem diagnozy lub terapii logopedycznej....
moreW artykule przedstawiono wyniki badań dotyczących automatycznej detekcji wybranych wad wymowy u dzieci za pomocą automatycznego rozpoznawania mowy. Detekcja wady wymowy może być przeprowadzana pod kątem diagnozy lub terapii logopedycznej. Jednym z często spotykanych typów wad wymowy jest substytucja polegająca na podstawianiu prawidłowego fonemu w słowie innym fonemem tego samego języka. W pracy rozważano automatyczną detekcję substytucji pod kątem zastosowań do terapii logopedycznej. W przypadku terapii zadanie automatycznego rozpoznawania mowy upraszcza się do rozpoznawania dwóch głosek: prawidłowej lub nieprawidłowej, ustalonych na podstawie wcześniejszej diagnozy. Jako materiał badawczy przyjęto następujące pary fonemów będące częściami wypowiedzi języka polskiego: {s, sz}, {si, sz}, {c, cz}, {ci, cz}, {dz, drz}, {dzi, drz}. Nagrania pochodziły od dzieci z wadami wymowy oraz od osób, które naśladowały określone wady wymowy. Proces rozpoznawania wady wymowy składał się z dwóch zasadniczych etapów: ekstrakcji cech z sygnału mowy oraz klasyfikacji. W przypadku ekstrakcji cech zbadano dwie metody: standardową metodę MFCC (ang. Mel-frequency cepstral coefficients) oraz stosunkowo niedawno wprowadzoną metodę HFCC (ang. Human-factor cepstral coefficients). Na etapie klasyfikacji przebadano skuteczność rozpoznawania wad wymowy za pomocą czterech metod. Pierwszą badaną metodą była metoda nieliniowej transformacji czasowej (ang. dynamic time warping – DTW). Standardowa metoda DTW jest oparta na modelach całych słów. W przypadku rozważanego problemu terapii substytucji słowa są rozróżnianie jedynie za pomocą jednego fonemu. W takiej sytuacji standardowa metoda DTW często zawodzi zwłaszcza, że fonemy rozróżniające dwa słowa są najczęściej podobne do siebie akustycznie. Ponadto segmenty poza obszarem rozróżniających słowa fonemów często podlegają różnym zniekształceniom lub zakłóceniom, co może dać w rezultacie większą niż zwykle odległość DTW pomiędzy słowami tej samej klasy. Zaproponowano modyfikację standardowej metody DTW polegającą na obliczaniu odległości DTW jedynie między fonemami będącymi składowymi danego słowa. W proponowanym rozwiązaniu zakłada się, że klasa rozpoznawanego słowa jest znana oraz, że słowo może być wypowiedziane prawidłowo lub nieprawidłowo zgodnie z postawioną wcześniej diagnozą. Oprócz metod opartych na nieliniowej transformacji czasowej zbadano również metodę klasyfikacji bazującą na niejawnych modelach Markowa (ang. hidden Markov models – HMM). Metodę HMM badano dla modeli całych słów oraz dla modeli fonemów. W przeprowadzonych badaniach zaobserwowano następujące tendencje: • metoda DTW rozpoznająca fonemy dała wyższe skuteczności niż metoda DTW rozpoznająca słowa • metoda HMM dla modeli fonemów dała lepsze rezultaty w porównaniu z metodą HMM dla całych słów • Skuteczności rozpoznawania w oparciu o cechy HFCC były wyższe w porównaniu ze standardowymi cechami MFCC • W porównaniu z klasyfikatorem DTW, metoda HMM dała nieznacznie gorsze wyniki, jednak problem ten wymaga dalszych badań. Opracowane metody rozpoznawania mogą znaleźć zastosowanie w diagnostyce i terapii wad wymowy u dzieci. W szczególności można z ich wykorzystaniem dokonywać wykrywania substytucji następujących par fonemów: sz-s, cz-c oraz drz-dz do celów terapii logopedycznej. Dla par fonemów sz-si, cz-ci, drz-dzi muszą zostać opracowane inne, bardziej skuteczne metody. Potencjalne przyszłe kierunki badawcze obejmują zastosowanie metody analizy składowych głównych oraz analizy dyskryminacyjnej zarówno w metodzie DTW jak i HMM. Planuje się również dalszą optymalizację parametrów metody HMM. Opisywane w pracy badania były sponsorowane z grantu MNiI nr 1 H01F 046 28.