Jdi na obsah Jdi na menu
 


Co je TextToSpeech

10. 1. 2010

převzato ze stránek http://www.linguatec.net/products/tts/information/technology

 

Technologie převádění textu na mluvené slovo (Text-To-Speech) 

Co je to jazyková syntéza?

 Jazyková syntéza je umělá reprodukce přirozené řeči. Řečnické výrazy jsou vytvářeny počítačem. Nejsou přehrávány z předem zaznamenaného souboru výrazů, nýbrž jsou vytvářeny aktuálně.

Jak se dostane hlas do programu?

První otázkou je, co je vlastně ”syntetické“ na jazykové syntéze. Aplikace Voice Reader společnosti Linguatec je založena na podrobných zápisech řeči vyškolených mluvčích. Hlasy tedy nejsou umělé!

Tento zvukový materiál se potom rozděluje na malé části, tzv. jednotky. Mohou to být jednotlivé hlásky (tzv. fonémy), např. A a E, avšak rovněž dvojhlásky, jako OU nebo IA a dokonce celé slabiky. To je velmi důležité, protože vždy podle okolí může znít stejné písmeno jinak. Ve slově „melodie“ se například vyskytuje dvakrát písmeno E, pokaždé se však vyslovuje zcela jinak.

Jednotky se potom neobyčejně náročnými algoritmy sestavují konkatenativně na nový plynulý zvukový text. To je vlastní syntéza, v užším smyslu znamená "sestavování". K tomu je zapotřebí určité porozumění textu, aby zněl výsledek co možno maximálně přirozeně. Je zde ještě jednoduché pravidlo, že se hlas u otazníku má zvyšovat, u znaménka konce věty má klesat. Aby však i uvnitř věty mohla panovat přirozená intonace hlasu (prosodie), musí program znát, kde je ve větě podmět, neboť na tomto slově je silnější přízvuk. Tyto analytické postupy jsou přirozeně značně komplexnější. Tady musí program postupovat jako studenti latiny!

K čemu je jazyková syntéza použitelná?

Možnosti jejího použití jsou mnohostranné. Používá se tam, kde není k dispozici žádná vhodná obrazovka nebo displej, abyste si nechali zobrazit řeč, např. krátká textová zpráva (SMS) v pevné síti nebo v interakčním systému. Také v situacích, při kterých jsou oči již zaměstnány jinými úkoly, např. při řízení motorového vozidla, je jazyková syntéza užitečná. Ve vozidlech se používá např. v navigačních systémech. Jazyková syntéza má velký význam pro slepce, kteří si mohou nechat přečíst texty z Internetu nebo ze svého počítače. Lidé s vadou řeči ji mohou využívat ke komunikaci se svým okolím.

Jaká přístupy k jazykové syntéze existují?

Existují různé přístupy k jazykové syntéze, např.: Syntéza Text-To-Speech a Concept-To-Speech.

 • Syntéza Concept-To-Speech obsahuje generující prvky, které vytvářejí výrazy na základě znalosti sémantických, pragmatických a hovorových znalostí. Z těchto výrazů může být přímo vytvářen jazykový výstup.
  Systém Concept-To-Speech může být použit např. v interakčních systémech. Ale kromě toho musí být tam, kde je vstupem text, použita syntéza Text-To-Speech (TTS).

 • U syntézy Text-to-Speech je mluvený text zadán, není vytvářen systémem. Samozřejmě musí být analyzován a interpretován, aby byla stanovena správná výslovnost a přízvuk (například: vytvoření věty tázací místo věty oznamovací).

Jak je uspořádán systém Text-To-Speech?

Syntéza Text-To-Speech je prováděna v několika stupních. Systém TTS obdrží jako vstup text, který je, předtím než může být vytvořen mluvený výstup, nejdříve analyzován (textová analýza) a poté musí být transformován do fonetického přepisu. Pak je v dalším kroku vytvořena prosodie. Z těchto existujících informací může vzniknout mluvený výstup.


 1. Textová analýza se skádá z několika kroků:
  • Nejdříve je text rozdělen na tokeny. Konverze token-slovo vytvoří ortografický tvar tokenu. Zde se pro token „č.“ expanzí vytvoří ortografický tvar „číslo“, token „12“ dostane ortografický tvar „dvanáct“ a „1997“ bude transformováno na „devatenáctsetdevadesátsedm“. Že tato expanze za určitých okolností není snadná, uvidíte na příkladu číslice „1“. Podle toho, co označuje, musí být expandována různým způsobem, v případě domovního čísla na „jedna", ve výrazu „1 kilogram“ na „jeden“, ve výrazu „1 kočka honí 1 psa“, musí být „1“ expandováno nejdříve jako „jedna“ a pak jako „jednoho“.

  • Během analýzy textu je analyzováno také okolí tokenu: U zkratky „den.“ nelze bez kontextové analýzy zjistit, jestli má být zkratka expandována jako „denně“, „denní“, „denního“, „denním“, „denních“ atd. Kontextová analýza je nutná také v němčině, aby byly z přízvuků odstraněny dvojznačnosti. např. „modern“ a „modern“, které nemohou být rozlišeny na základě způsobu psaní.
 2. Jakmile je ukončena textová analýza, mohou být použita pravidla výslovnosti.
  Písmena nemohou být převedena do fonémy 1:1, protože shoda není vždy souběžná. Jednotlivé písmeno za určitých okolností nemusí odpovídat žádné (např. „h“ v „geht“) nebo více fonémám („x“ ve „Fixkosten“). Kromě toho může jedné fonémě odpovídat více písmen („ch“ v „ich“). Písmena mohou být za různých okolností vyslovována různě („s“ v „Stadt“ vs. v
  Sachen“). A stejná fonéma může být tvořena různými písmeny („Rat“ vs. „Rad“).

  Ke stanovení výslovnosti slov se používají dvě strategie:
  • V řešeních s morfologickými složkami založených na slovníku je uloženo co největší množství morfém v jednom slovníku. Úplné tvary jsou vytvářeny flexními, derivačními a kompozičními pravidly. Alternativně je slovník s úplnými tvary vytvářen tak, že jsou v něm uloženy všechny existující slovní tvary.
   Výslovnost těch slov, která nejsou uložena ve slovníku, je tvořena pravidly výslovnosti.
  • V řešeních založených na pravidlech jsou pravidla výslovnosti vytvářena z fonologických znalostí slovníků. Pouze slova, jejichž výslovnost tvoří absolutní výjimku, jsou uvedena ve slovníku výjimek.
  Oba přístupy se liší velikostí svých slovníků, přičemž řešení založené na slovníku je několikanásobně větší než slovník výjimek řešení založeného na pravidlech. Řešení založená na slovníku případně mohou být přesnější než řešení založená na pravidlech, pokud mají k dispozici dostatečně velký fonetický slovník.

 3. Jakmile je stanovena výslovnost, následuje generování prosodie.
  Stupeň přirozenosti systému TTS závisí na prosodických faktorech jako je modulace intonace (frázování a kladení přízvuku), modulace amplitudy a délka modulace (k tomu patří znělá doba a neznělá doba, čímž se určuje délka slabiky a rychlost řeči).

  Prosodické vlastnosti mají různé funkce: S jejich pomocí může být např. rozeznáno zaměření věty, t.zn. že se zdůrazní důležitá nebo nová konstituce. Kromě toho jsou prosodické vlastnosti odpovědné za rozdělení věty. Mohou vytvářet vztahy nezi částmi vět nebo větami a určují typ věty (věta oznamovací - věta tázací). Syntaktické informace mají zvláštní význam při vytváření prosodie. Díky znalosti syntaktické struktury věty může být pro většinu vět propočítána prosodie.

  U některých vět jsou však důležité sémantické a pragmatické informace: Věty, které jsou ve své struktuře dvojznačné, často podle zdůrazněného prvku dostanou jiný význam. Pozice ohniska je důležitá především v záporných větách: složky, které se vztahují k záporu, by měly být zdůrazněny přízvukem (např. Marie nejela do Hamburku autem.). Sémantické a pragmatické znalosti jsou však k dispozici pouze několika systémům TTS.

 4. Údaje z modulu zpracování řeči jsou předávány do modulu zpracování výstupu.
  1. Zde se provádí vlastní syntéza, při které je vytvářen zvukový výstup. U flektivní syntézy se zde provádí volba a řetězení jednotek. Pro jednotlivé hlásky jsou z databáze vybráni nejvhodnější kandidáti (pokud je k dispozici více vhodných kandidátů) a seřazeni za sebe.

   Ještě si přečtěte, co to je SpeechAPI (SAPI)