Co je TextToSpeech
převzato ze stránek http://www.linguatec.net/products/tts/information/technology
Technologie převádění textu na mluvené slovo (Text-To-Speech)
Co je to jazyková syntéza?
Jak se dostane hlas do programu?
K čemu je jazyková syntéza použitelná?
Jaká přístupy k jazykové syntéze existují?
Syntéza Concept-To-Speech obsahuje generující prvky, které vytvářejí výrazy na základě znalosti sémantických, pragmatických a hovorových znalostí. Z těchto výrazů může být přímo vytvářen jazykový výstup. Systém Concept-To-Speech může být použit např. v interakčních systémech. Ale kromě toho musí být tam, kde je vstupem text, použita syntéza Text-To-Speech (TTS). U syntézy Text-to-Speech je mluvený text zadán, není vytvářen systémem. Samozřejmě musí být analyzován a interpretován, aby byla stanovena správná výslovnost a přízvuk (například: vytvoření věty tázací místo věty oznamovací).
Jak je uspořádán systém Text-To-Speech?
Textová analýza se skádá z několika kroků: Nejdříve je text rozdělen na tokeny. Konverze token-slovo vytvoří ortografický tvar tokenu. Zde se pro token „č.“ expanzí vytvoří ortografický tvar „číslo“, token „12“ dostane ortografický tvar „dvanáct“ a „1997“ bude transformováno na „devatenáctsetdevadesátsedm“. Že tato expanze za určitých okolností není snadná, uvidíte na příkladu číslice „1“. Podle toho, co označuje, musí být expandována různým způsobem, v případě domovního čísla na „jedna", ve výrazu „1 kilogram“ na „jeden“, ve výrazu „1 kočka honí 1 psa“, musí být „1“ expandováno nejdříve jako „jedna“ a pak jako „jednoho“. Během analýzy textu je analyzováno také okolí tokenu: U zkratky „den.“ nelze bez kontextové analýzy zjistit, jestli má být zkratka expandována jako „denně“, „denní“, „denního“, „denním“, „denních“ atd. Kontextová analýza je nutná také v němčině, aby byly z přízvuků odstraněny dvojznačnosti. např. „modern“ a „modern“, které nemohou být rozlišeny na základě způsobu psaní.
Jakmile je ukončena textová analýza, mohou být použita pravidla výslovnosti. Písmena nemohou být převedena do fonémy 1:1, protože shoda není vždy souběžná. Jednotlivé písmeno za určitých okolností nemusí odpovídat žádné (např. „h“ v „geht“) nebo více fonémám („x“ ve „Fixkosten“). Kromě toho může jedné fonémě odpovídat více písmen („ch“ v „ich“). Písmena mohou být za různých okolností vyslovována různě („s“ v „Stadt“ vs. v „Sachen“). A stejná fonéma může být tvořena různými písmeny („Rat“ vs. „Rad“). Ke stanovení výslovnosti slov se používají dvě strategie: V řešeních s morfologickými složkami založených na slovníku je uloženo co největší množství morfém v jednom slovníku. Úplné tvary jsou vytvářeny flexními, derivačními a kompozičními pravidly. Alternativně je slovník s úplnými tvary vytvářen tak, že jsou v něm uloženy všechny existující slovní tvary. Výslovnost těch slov, která nejsou uložena ve slovníku, je tvořena pravidly výslovnosti. V řešeních založených na pravidlech jsou pravidla výslovnosti vytvářena z fonologických znalostí slovníků. Pouze slova, jejichž výslovnost tvoří absolutní výjimku, jsou uvedena ve slovníku výjimek.
Oba přístupy se liší velikostí svých slovníků, přičemž řešení založené na slovníku je několikanásobně větší než slovník výjimek řešení založeného na pravidlech. Řešení založená na slovníku případně mohou být přesnější než řešení založená na pravidlech, pokud mají k dispozici dostatečně velký fonetický slovník. Jakmile je stanovena výslovnost, následuje generování prosodie. Stupeň přirozenosti systému TTS závisí na prosodických faktorech jako je modulace intonace (frázování a kladení přízvuku), modulace amplitudy a délka modulace (k tomu patří znělá doba a neznělá doba, čímž se určuje délka slabiky a rychlost řeči). Prosodické vlastnosti mají různé funkce: S jejich pomocí může být např. rozeznáno zaměření věty, t.zn. že se zdůrazní důležitá nebo nová konstituce. Kromě toho jsou prosodické vlastnosti odpovědné za rozdělení věty. Mohou vytvářet vztahy nezi částmi vět nebo větami a určují typ věty (věta oznamovací - věta tázací). Syntaktické informace mají zvláštní význam při vytváření prosodie. Díky znalosti syntaktické struktury věty může být pro většinu vět propočítána prosodie. U některých vět jsou však důležité sémantické a pragmatické informace: Věty, které jsou ve své struktuře dvojznačné, často podle zdůrazněného prvku dostanou jiný význam. Pozice ohniska je důležitá především v záporných větách: složky, které se vztahují k záporu, by měly být zdůrazněny přízvukem (např. Marie nejela do Hamburku autem.). Sémantické a pragmatické znalosti jsou však k dispozici pouze několika systémům TTS. Údaje z modulu zpracování řeči jsou předávány do modulu zpracování výstupu. - Zde se provádí vlastní syntéza, při které je vytvářen zvukový výstup. U flektivní syntézy se zde provádí volba a řetězení jednotek. Pro jednotlivé hlásky jsou z databáze vybráni nejvhodnější kandidáti (pokud je k dispozici více vhodných kandidátů) a seřazeni za sebe.
Ještě si přečtěte, co to je SpeechAPI (SAPI)
- Zde se provádí vlastní syntéza, při které je vytvářen zvukový výstup. U flektivní syntézy se zde provádí volba a řetězení jednotek. Pro jednotlivé hlásky jsou z databáze vybráni nejvhodnější kandidáti (pokud je k dispozici více vhodných kandidátů) a seřazeni za sebe.