Algoritmy a struktury neuropočítačů

2016/2017

ZADÁNÍ SAMOSTATNÝCH ÚLOH

 

Zadání jsou volena s přihlédnutím k časovým možnostem tohoto předmětu. Úlohy jsou formulovány pro zpracování pomocí NN-Toolboxu systému MATLAB. Úlohy z oblasti zpracování řečového signálu předpokládají použití digitalizovaného akustického signálu, většinou zaznamenaného při frekvenci 16 kHz, s datovým slovem 16 bitů ve dvojkovém doplňku. Parametrický popis by měl používat 9 kepstrálních parametrů jednotlivých segmentů o délce 256 vzorků s překrytím 50%. Pro extrakci dat z akusticko-fonetického korpusu TIMIT resp. z české databáze a pro výpočet parametrů, jsou k dispozici potřebné M-soubory pro MATLAB. České promluvy, a to izolovaná slova (české číslovky) nebo souvislé texty získané z rozhlasových nahrávek, jsou dostupné na INTERNETU, např. na adrese http://noel/vyu/dzr  a   http://amber.feld.cvut.cz/ssc/Data.

Následující zadání samostatných prací jsou průběžně inovována a doplňována.

Zadání:

  1. Natrénujte dopřednou vícevrstvou síť, která bude modelovat základní kmitočet řečového signálu F0 pro řízení melodie syntetické řeči. Porovnejte vliv některých fonetických vlastností češtiny na modelování F0 . Nakreslete graf závislosti hodnot F0 pro jednotlivé hlásky trénovací a testovací věty (v jednom grafu pro požadované i natrénované hodnoty). Lze řešit pomocí NN Toolboxu nebo pomocí Speech Laboratory.

  2. Natrénujte rekurentní neuronovou síť (Elmanova typu), která bude modelovat základní kmitočet řečového signálu F0 pro řízení melodie syntetické řeči. Nakreslete graf závislosti hodnot F0 pro jednotlivé hlásky trénovací a testovací věty (v jednom grafu pro požadované i natrénované hodnoty).

  3. Natrénujte dopřednou vícevrstvou neuronovou síť pro modelování základního kmitočtu řečového signálu F0 . Jako vstup do neuronové sítě použijte kepstrální koeficienty (počítané z Fourierovy transformace řečového signálu). Nakreslete graf závislosti požadovaných hodnot a hodnot F0 získaných po natrénování (do jednoho grafu).

  4. Nalezněte kanonický model architektury vícevrstvé neuronové sítě používané pro řízení prozodie syntetické řeči. Vyjděte z vícevrstvé dopředné neuronové sítě s 1 skrytou vrstvou. Použijte metodu klestění synaptických vah.

  5. Pomocí neuronové sítě rozdělte řečový signál do 2 tříd (na samohlásky a souhlásky). Použijte 2 metody a vzájemně je porovnejte. (Klasifikace do 2 tříd.)

  6. V akusticko-fonetickém korpusu TIMIT(nebo v jiné databázi) zvolte několik slov a natrénujte neuronovou síť s 1 skrytou vrstvou tak, aby dokázala odlišit určené slovo od ostatních slov (klasifikace do 2 tříd). Použijte algoritmus učení se zpětným šířením chyby (základní BPG algoritmus nebo jeho modifikace).

  7. V akusticko-fonetickém korpusu TIMIT(nebo v jiné databázi) zvolte skupinu hlásek a natrénujte vícevrstvou neuronovou síť tak, aby dokázala klasifikovat. Použijte dopřednou síť s jednou skrytou vrstvou a algoritmus učení se zpětným šířením chyby (základní BPG algoritmus resp. jeho modifikace).

  8. Signály z databáze Deti_zdrave z položky DATA na www-stránkách ASN) natrénujte Kohonenovu mapu. Zjistěte, zda existují skupiny hlásek nebo jednotlivé hlásky, které se mapují do určité lokality sítě. Volte dvojrozměrnou mapu čtvercového typu o velikosti 12 x 12 (resp. 8 x 8 ) neuronů .

  9. Navrhněte neuronovou síť pro identifikaci mluvčího. Půjde o klasifikaci do 2 tříd. Do jedné třídy bude zařazen signál odpovídající promluvě zvoleného mluvčího, do druhé třídy signál odpovídající promluvám od všech ostatních mluvčích.

  10. Navrhněte neuronovou síť, která pro určitý typ hluku superponovaného k řečovému signálu, bude aproximovat hodnoty kepstrálních koeficientů odpovídající signálu bez šumu. Trénovací i testovací signál vytvořte umělým smícháním “čistého” signálu řeči se signálem získaným záznamem samotného hluku. Cílové vektory při trénování budou určeny parametry “čistého” signálu řeči.

  11. Navrhněte vícevrstvou neuronovou síť, která bude aproximovat nelineární charakteristiky bipolárního tranzistoru v soustavě parametrů Y(SE). Vstupem do neuronové sítě budou napětí na přechodech báze-emitor a kolektor-emitor. Výstupem budou odpovídající proudy. Omezte se na aktivní oblast činnosti tranzistoru. Použijte hodnot odečtených z libovolného konstrukčního katalogu. Posuďte schopnost sítě extrapolovat a interpolovat ve vstupních datech.

  12. Navrhněte neuronovou síť, která bude identifikovat stav, kdy k napěťovému průběhu 220V/50Hz je superponován signál 10V/230Hz. Uvažte, jaká data by měla působit na vstupu sítě.

  13. Natrénujte neuronovou síť, která bude v řečovém signálu oddělovat znělé a neznělé souhlásky. Jedná se o klasifikaci do 2 tříd. Použijte třívrstvou síť s algoritmem učení BPG.

  14. Navrhněte neuronovou síť, s  jejíž pomocí budete identifikovat pausy mezi slovy ve spojitém řečovém signálu.

  15. Navrhněte vícevrstvou neuronovou síť pro rozpoznání jednotlivých samohlásek. Použijte kepstrální nebo Melovské kepstrální koeficienty popisující izolovaná slova (např. české číslovky nebo slova z databáze Deti_zdravé z položky DATA na www-stránkách ASN).

  16. Rozdělte deset českých číslovek do skupin s podobnými akustickými vlastnostmi. Ke klasifikaci použijte Kohonenovy samoorganizující se mapy. Jako vstupní parametry zvolte spektrum řečového signálu.

  17. Rozdělte deset českých číslovek do skupin s podobnými akustickými vlastnostmi. Ke klasifikaci použijte Kohonenovy samoorganizující se mapy. Jako vstupní parametry zvolte kepstrální koeficienty.

  18. Rozdělte deset českých číslovek do skupin s podobnými akustickými vlastnostmi. Ke klasifikaci použijte Kohonenovy samoorganizující se mapy. Jako vstupní parametry zvolte parametrizaci založenou na fonetických rozdělení hlásek.

  19. Navrhněte neuronovou síť s  jejíž pomocí identifikujete začátky a  konce vět. K  natrénování použijte souvislý text.

  20. Identifikujte vybrané slovo v   souvislém textu. Použijte dva typy neuronové sítě a výsledky navzájem porovnejte.

  21. Natrénujte Kohonenovu mapu na první tři formantové kmitočty F1, F2 a F3 jednotlivých samohlásek. Trénujte mapu na střední hodnoty a výslednou mapu otestujte hodnotami formantů z intervalů {-5%, +5%}, {-1%, +1%}, {-10%,+10%}. Porovnejte s tabulkou 6-6 na str.175 knihy Palková,Z.: Fonetika a fonologie češtiny. Univerzita karlova, praha 1994, ISBN 80-7066-843-1.

  22. Určete rozložení samohlásek v rovině x=F1, y=F2 (F1, F2 jsou formantové kmitočty). Použijte Kohonenovu samoorganizující se mapu, případně SOM s učitelem. Cílem je potvrzení resp. vyvrácení tzv. vokalického trojúhelníku. [Palková,Z.: Fonetika a fonologie češtiny. Univerzita karlova, praha 1994, ISBN 80-7066-843-1, str.172-180]

  23. Nalezněte rozložení tříd českých souhlásek v Kohonenově mapě.Zobrazte pomocí U-matice. Volte dělení souhlásek na explozívy, afrikáty, sonorní frikativy a šumové frikativy. Informace o souhláskách získejte ze spektra řečového signálu.

  24. Analyzujte řečový signál dětí. Použijte Kohonenovu samoorganizující se mapu. Vstupní parametry (kmitočet základního tónu F0, formanty F1, F2, F3 a trvání hlásky) extrahujte ze signálu.

  25. Analyzujte řečový signál dětí. Použijte Kohonenovu samoorganizující se mapu. Jako vstupní parametry do neuronové sítě volte parametry LPC.

  26. Natrénujte dopřednou vícevrstvou neuronovou síť pro modelování základního kmitočtu řečového signálu F0 . Jako vstup do neuronové sítě použijte Melovské kepstrální koeficienty (počítané z Fourierovy transformace řečového signálu). Nakreslete graf závislosti požadovaných hodnot a hodnot F0 získaných po natrénování (do jednoho grafu).

  27. Porovnání kvantizačních jevů v Kohonenových mapách.

  28. Rozdělte dětské pacienty do skupin podle trvání víceslabičných slov. Použijte KSOM resp. SSOM.

 Poznámka: