Jak screen readery "vidí" a čtou obrazovku počítače: Od děrných štítků k neuronovým hlasům
Mnozí z nás si pamatují dobu, kdy počítače a software vypadaly a fungovaly výrazně jinak než dnes. Pro nevidomé a slabozraké uživatele to znamenalo, že přístup k informacím byl často omezen na "textové" programy – tedy ty, ze kterých bylo možné snadno extrahovat text. S příchodem grafických rozhraní, ať už v podobě raných Windows, nebo později macOS, se však objevila nová výzva: jak z těchto vizuálně bohatých prostředí získat smysluplné informace pro hlasový výstup?
Naštěstí, technologie screen readerů (odečítačů obrazovky) ušla od 90. let obrovský kus cesty. Dnes už tyto programy "nekoukají" na obrazovku jako na shluk pixelů, ale komunikují přímo s operačním systémem a aplikacemi na hlubší, programové úrovni.
Klíč k porozumění: Přístupnostní API
Základem moderního fungování screen readerů jsou takzvaná přístupnostní API (Application Programming Interfaces). Představte si je jako standardizované "jazyky", kterými operační systém a programy "popisují" svůj obsah screen readerům. Díky tomu screen reader neanalyzuje, co vidíte, ale co systém ví o tom, co je na obrazovce.
- Microsoft Active Accessibility (MSAA): Toto je starší, ale stále používané API, které poskytuje základní informace o prvcích uživatelského rozhraní – jejich roli (např. tlačítko, textové pole), stavu (zaškrtnuté, povolené) a samozřejmě textovém obsahu.
- UI Automation (UIA): Novější a mnohem robustnější API, které je dnes preferované a poskytuje bohatší a detailnější informace. UIA umožňuje screen readerům přístup i k obsahu, který není přímo viditelný, a pomáhá jim lépe porozumět složitým ovládacím prvkům nebo nestandardním aplikacím.
Když tedy programátoři vyvíjejí aplikace pro Windows a používají standardní ovládací prvky (jako jsou tlačítka, textová pole, rolovací seznamy), tyto prvky již automaticky "mluví" jazykem těchto API a sdílejí s screen readerem veškeré potřebné informace.
Virtuální buffer a OCR: Další nástroje
Kromě přímé komunikace přes API využívají screen readery i další techniky:
- Virtuální buffer/objektový model: Zejména pro webové prohlížeče a složité dokumenty (např. PDF) si screen reader vytváří vlastní "virtuální" reprezentaci obsahu. Namísto interpretace vizuálních prvků na obrazovce se soustředí na logickou strukturu (nadpisy, odstavce, odkazy) a umožňuje uživateli navigovat po této struktuře, často nezávisle na vizuálním rozložení.
- OCR (Optical Character Recognition): V případech, kdy aplikace neposkytuje žádné přístupnostní API nebo je potřeba číst text z obrázků, může screen reader použít OCR. Tato metoda se snaží rozpoznat text z pixelů na obrazovce. Je to ale méně spolehlivá a pomalejší možnost, která navíc neposkytuje informace o struktuře nebo interaktivitě prvků.
Historický pohled: Od sálových počítačů po moderní screen readery
Historie přístupnosti pro zrakově postižené je fascinující cestou od primitivních metod až k dnešním sofistikovaným řešením.
Počátky v Československu: Od sálových počítačů k prvním PC nástrojům (80. léta)
Ještě před masivním rozšířením osobních počítačů se v Československu odehrávaly průkopnické snahy o zpřístupnění výpočetní techniky:
- Kurzy programování a sálové počítače (cca 1980-1981): Firma Meta pořádala kurzy programování pro nevidomé. Účastníci, mezi nimiž byli i budoucí významné osobnosti jako Milan Pešák (pozdější prezident SONS a senátor), Miloslava Čelková, Jiří Mojžíšek a Břetislav Verner (pozdější ředitel firmy Spektra), se učili programovat ve Fortranu nebo Cobolu. Data se zadávala pomocí děrných štítků. Hlasový výstup z těchto sálových počítačů byl primitivní, připomínající "rozkřáplé malé rádio", ale i přes nízkou srozumitelnost byl pro nevidomé uživatele klíčový po zvyknutí si na něj.
- První český hlasový výstup pro DOS (ÚVod): Skutečný průlom pro PC (DOS) přišel díky hlasové kartě vyvinuté ing. Jaroslavem Purkrtem z Akademie věd na Novodvorské. Firma Spektra na jejím základě vyvinula vlastní hlasovou kartu a software nazvaný ÚVod. Na jeho vývoji se podílel i nevidomý pan Jaroslav Kučera. ÚVod byl multifunkčním nástrojem, který spolupracoval se skenery HP a využíval OCR Recognita pro převod tištěných dokumentů do digitální podoby (TXT). Dále ozvučoval tehdy populární programy jako textový editor WordPerfect 5.0, čímž výrazně zpřístupnil produktivní práci.
- Pokročilý DOS screen reader KUK: Dalším klíčovým českým DOS programem byl KUK, na jehož vývoji se podílel Jiří Mojžíšek. KUK byl velmi progresivní, protože dokázal ozvučit i složitější textové programy jako souborové manažery M602 nebo Volkov Commander, což rozšiřovalo možnosti nevidomých uživatelů nad rámec jednoduchých textových editorů.
- První česká softwarová lupa pro DOS (Lupa od Martina Šmída): V roce 1989 vytvořil student Matematicko-fyzikální fakulty UK, Martin Šmíd, první českou softwarovou lupu pro prostředí DOS. Tato Lupa zvětšovala například prostředí WordPerfectu 5 nebo správce souborů Volkov. Měla však svá omezení, například nefungovala ideálně s editorem T602 v plném grafickém režimu (vyjma hacků pro CGA monitory) a kvůli omezené RAM nebylo možné současně používat Lupu a KUK.
Tyto rané nástroje, často vyvíjené s omezenými prostředky, byly pro nevidomé a slabozraké uživatele v Československu naprosto nepostradatelné a položily základy pro budoucí vývoj.
Přechod na grafická rozhraní (Windows 3.1x a novější)
S nástupem Windows se prostředí radikálně změnilo a vyžadovalo zcela nové přístupy k přístupnosti.
- České screen readery pro Windows:
- Rosasoft (Ing. Rostislav Sáček) - Wintalker pro Windows: Klíčový český screen reader pro rané Windows. Využíval různé techniky pro získávání textu z grafických oken. Měl zásadní funkci virtuálního okna, která umožňovala procházení a čtení obsahu obrazovky, seznamu ovládacích prvků, ukládání textových souborů a skenování s OCR. Byl nepostradatelný v době, kdy mezinárodní screen readery neměly plnou českou lokalizaci.
- Elvos - Asistent (pro Windows): Nebyl jen screen readerem, ale spíše sadou aplikací a nástrojů pro usnadnění práce nevidomých v Windows. Zahrnoval skenování s OCR (Recognita), jednoduchou čtečku textů, kalendář/diář a aplikace pro e-mail.
- Průkopníci ve světě: WinEyes a Outspoken:
- Outspoken: Původně pro Macintosh (1989), později i pro Windows (1994), zavedl revoluční "off-screen model", kdy si screen reader vytvářel vnitřní, logickou reprezentaci obsahu obrazovky. Byl však znám svou složitostí.
- WinEyes: Další významný screen reader pro Windows té doby. Podobně jako Outspoken, se potýkal s výzvami raného GUI a byl vnímán jako poměrně složitý. V České republice se tyto programy příliš neuplatnily kvůli jazykové bariéře a absenci české lokalizace, což otevřelo prostor pro domácí řešení.
Softwarové lupy: Od LP Win k ZoomTextu
Softwarové lupy (screen magnifiers) jsou asistivní technologie určené pro slabozraké uživatele, kteří potřebují zvětšit obsah obrazovky.
- Historická lupa: LP Win (Papenmeier): Tato lupa, vyvinutá německou firmou Papenmeier, se v České republice používala pro vizuální zvětšení prostředí Windows. Je zásadní zdůraznit, že LP Win v ČR ve své době neměl funkční hlasový výstup v češtině. Jeho lokalizace se soustředila pouze na uživatelské rozhraní. To podtrhuje význam českých hlasových řešení jako Wintalker a Asistent, které hlas poskytovaly.
- Globální standard: ZoomText: Vyvinutý společností AiSquared (dnes Freedom Scientific/Vispero), je jedním z nejúspěšnějších a nejrozšířenějších zvětšovacích programů. Od roku 1991 se neustále vyvíjí. Nabízí špičkovou kvalitu zvětšení s pokročilým vyhlazováním textu (xFont), rozsáhlé vizuální vylepšení a především integrovanou, robustní hlasovou podporu ("Reader"). Ta zahrnuje čtení textu pod myší (Mouse Echo), ozvěnu psaní (Typing Echo) a plynulé čtení celých dokumentů (AppReader) s vizuálním zvýrazněním. Dnes existuje i verze ZoomText Fusion kombinující lupu s plnohodnotným screen readerem JAWS.
Moderní giganti: JAWS a NVDA
Dnes jsou dominantními screen readery:
- JAWS (Job Access With Speech): Komerční, komplexní řešení s rozsáhlou podporou aplikací a pokročilými skripty. JAWS využívá všechna zmíněná API a je schopen pracovat i s velmi specifickými programy.
- NVDA (NonVisual Desktop Access): Bezplatný a open-source screen reader, který si získal obrovskou popularitu. NVDA se zaměřuje na co nejlepší podporu standardních přístupnostních API a webových standardů, a díky otevřené komunitě se rychle adaptuje na nové technologie.
Přístupnost v mobilních zařízeních: Od Pocket PC po chytré telefony
Vývoj přístupnosti se neomezil jen na stolní počítače. S nástupem mobilních zařízení se objevily nové výzvy a příležitosti:
- Počátky v ČR (Windows Mobile, Pocket PC): I zde byl lídrem ing. Rostislav Sáček (Rosasoft), který vyvíjel speciální asistivní aplikace pro zařízení s Windows Mobile a Pocket PC (předchůdci dnešních tabletů, ovládané stylusem). Později se k vývoji v této oblasti přidali i pan Libor Doušek z firmy ACE Design (pro firmu Elvos), který bohužel zemřel v době covidové pandemie, a jeho současný pokračovatel Marek Susčík.
- Revoluce chytrých telefonů: Skutečný zlom pro mobilní přístupnost přinesly integrované screen readery v moderních operačních systémech:
- Android TalkBack: Integrovaný screen reader pro Android zařízení, který umožňuje plnou hlasovou interakci s telefonem.
- Apple VoiceOver: Integrovaný screen reader pro iPhony a iPady, který je známý svou plynulostí, intuitivností a hlubokou integrací do ekosystému Apple. Tyto nástroje výrazně usnadnily nevidomým a slabozrakým používání chytrých telefonů.
Vývoj hlasových syntéz (TTS) ve světě a v blízkých zemích
Hlasová syntéza je proces převodu psaného textu do mluvené podoby. Její vývoj je dlouhá a složitá cesta, plná vědeckých pokroků a technologických inovací.
1. Počátky: Hardwarové syntetizátory a "robotické" hlasy (70. – 80. léta)
V úplných počátcích byly hlasové syntetizátory primárně hardwarové zařízení (např. Votrax Speech Pac, DECtalk). Využívaly metody jako formantová syntéze, která generovala zvuk modelováním rezonančních frekvencí. Výsledkem byly velmi robotické, plechové a často špatně srozumitelné hlasy, na které si uživatelé museli zvyknout.
2. Konec 80. let a 90. léta: Vstup softwarových syntetizátorů a fonémové banky
S rostoucím výkonem počítačů se objevily softwarové syntetizátory, které nevyžadovaly speciální hardware (kromě zvukové karty). Přechod na konkatenativní syntézu (spojování nahraných krátkých zvukových úseků lidského hlasu – fonémů, difonů) vedl k přirozenějším hlasům, i když s občasnými slyšitelnými "švy". V této době se objevily komerční firmy jako Nuance Communications (např. RealSpeak) nebo Acapela Group.
- Lokalizace pro slovanské jazyky: Pro slovanské jazyky (včetně češtiny, polštiny, ruštiny) byl vývoj obtížnější kvůli složitější fonetice a gramatice. To vyžadovalo specifické fonémové databáze a algoritmy, což vedlo k lokálním vývojům a specializaci. V Německu byly aktivní firmy jako Infovox nebo Loquendo.
3. 2000. léta: Standardizace a globální rozšíření
V tomto období se hlasové syntézy staly součástí mainstreamových operačních systémů. Microsoft představil SAPI (Speech Application Programming Interface), standardní rozhraní pro Windows, které umožnilo snadnou komunikaci aplikací s jakýmkoli SAPI kompatibilním syntetizátorem. Hlasy se dále zlepšovaly a objevila se podpora pro různé hlasy (mužské, ženské). Vzestup mobilních platforem vedl k dalším optimalizacím pro mobilní zařízení (např. Apple VoiceOver, Google TalkBack).
4. Současnost: Neuronové hlasy a umělá inteligence (2010. léta – dnes)
Největší revoluci přinesl nástup neuronových sítí a umělé inteligence. Místo spojování úseků se neuronové sítě učí z obrovského množství nahrávek a generují řeč zcela od začátku, přičemž se učí intonaci, rytmus a nuance.
- Kvalita: Výsledkem jsou hlasy, které jsou téměř nerozeznatelné od lidské řeči. Jsou plynulé, přirozené a dokáží reprodukovat jemné emoce. Mezi lídry patří Google Wavenet, Microsoft Azure Neural TTS a Amazon Polly Neural TTS.
- Univerzálnost a budoucnost: Neuronové aplikace jako Eleven Labs již dnes dokážou generovat vysoce kvalitní český text s dobrou českou výslovností i z hlasů primárně určených pro jiné jazyky (např. angličtina). To naznačuje budoucí trend, kdy uživatelé nebudou muset instalovat specifické hlasy pro každý jazyk, ale jeden inteligentní neuronový hlas bude schopen číst text v mnoha jazycích s vysokou přesností a přirozeností.
- České neuronové hlasy: V České republice je významnou firmou SpeechTech, která vyvíjí kvalitní hlasové syntézy (včetně neuronových) primárně pro firemní a robotické systémy, ale některé své produkty nabízí i pro nevidomé. Patří sem například hlasy řady KOBA (jako Zuzana, Karel), které, stejně jako většina kvalitních syntetizátorů, umožňují uživatelské slovníky pro ovlivnění výslovnosti specifických slov či zkratek.
Hlasové syntézy na specifických platformách
Podíváme se detailněji na charakteristiku hlasů na různých platformách:
RH Voices
- Charakteristika: RH Voices (často zmiňované v kontextu NVDA a dalších open-source řešení) jsou komunitně vyvíjené nebo licencované hlasové syntézy, které jsou navrženy tak, aby byly cenově dostupné, nebo dokonce zdarma. Jejich cílem je často poskytnout hlasový výstup pro jazyky, kde jsou komerční syntetizátory drahé, nebo kde chybí kvalitní open-source alternativy.
- Kvalita: Kvalita RH Voices se může lišit v závislosti na konkrétním jazyce a vývojovém stadiu. Historicky mohly být méně plynulé než drahé komerční hlasy, ale neustále se zlepšují. Jejich hlavní předností je dostupnost a otevřenost, což je činí důležitou součástí ekosystému přístupnosti, zejména v rozvojových zemích nebo pro uživatele s omezeným rozpočtem. Často jsou založeny na starších, ale spolehlivých technikách syntézy nebo se integrují s moderními open-source TTS enginy.
- Cíl: Klíčovým posláním RH Voices je demokratizace přístupnosti, aby jazykový bariéra a finanční náklady nebyly překážkou pro používání počítačů nevidomými a slabozrakými.
Hlasy VoiceOver pro Apple zařízení (iPhone, iPad, macOS)
- Integrace a optimalizace: Hlasy pro VoiceOver jsou hluboce integrovány do ekosystému Apple. Nejsou to jen "nainstalované" hlasy, ale jsou součástí operačního systému a jsou optimalizovány pro bezproblémovou spolupráci s VoiceOverem a dalšími funkcemi přístupnosti.
- Kvalita a plynulost: Apple klade velký důraz na vysokou kvalitu a přirozenost hlasů. Většina hlasů pro VoiceOver používá pokročilé konkatenativní syntézy, a v poslední době Apple neustále přidává i neuronové hlasy, které znějí výjimečně přirozeně a plynule. Tyto hlasy jsou navrženy tak, aby minimalizovaly únavu posluchače a zajistily co nejpříjemnější zážitek.
- Široká nabídka jazyků: Apple nabízí širokou škálu hlasů pro desítky jazyků, a to často ve více variantách (mužské, ženské, různé akcenty). Uživatelé si mohou stáhnout různé hlasy přímo ze systémových nastavení.
- Konzistence: Díky tomu, že jsou hlasy součástí systému, je zajištěna konzistence ve výslovnosti a intonaci napříč všemi aplikacemi, které VoiceOver používá.
- Bezplatnost: Všechny tyto hlasy jsou zdarma a jsou součástí ceny zařízení, což snižuje bariéry pro nevidomé uživatele.
Hlasy v Linuxových distribucích
- Charakteristika: Přístupnost v Linuxu je výrazně odlišná od komerčních systémů. Zde dominují open-source řešení.
- Oratátory (screen readery): Hlavním screen readerem pro Linux je Orca.
- Hlasové syntézy: Pro Linux existuje několik open-source hlasových syntetizátorů, z nichž nejznámější jsou:
- eSpeak/eSpeak NG: Historicky nejrozšířenější open-source syntetizátor. Jeho hlasy jsou sice velmi syntetické, robotické a často obtížně srozumitelné, ale jsou velmi malé, rychlé a podporují obrovské množství jazyků (včetně češtiny a dalších slovanských jazyků) díky své fonémové syntéze. Je to takový "pracovní kůň" pro základní přístupnost tam, kde není potřeba vysoká kvalita hlasu.
- Festival: Starší, ale stále používaný syntetizátor vyvinutý na University of Edinburgh. Nabízí mírně lepší kvalitu hlasu než eSpeak, ale je objemnější a podporuje méně jazyků.
- RHVoice: Mezi novější a kvalitnější open-source syntetizátory patří RHVoice (stejné hlasy, které jsme zmínili výše), který se snaží nabídnout přirozenější hlasy než eSpeak a je vyvíjen pro řadu jazyků, včetně těch slovanských.
- GCP/Azure/Amazon Cloud TTS Integration: Moderní Linuxové distribuce a screen readery (např. NVDA spuštěná ve Wine nebo Orca s rozšířeními) mohou také využívat cloudové neuronové hlasy od Google, Microsoftu nebo Amazonu, což výrazně zlepšuje kvalitu hlasového výstupu za cenu nutnosti připojení k internetu a potenciálních nákladů.
- Open-source filozofie: Vývoj hlasů pro Linux je silně ovlivněn open-source filozofií, což znamená, že kvalita se odvíjí od zapojení komunity a dostupných zdrojů. I přes nižší kvalitu některých starších hlasů je zajištěna maximální flexibilita a svoboda použití.
Závěr:
Vývoj hlasových syntéz je nepřetržitý proces, který se posunul od drnčivých robotických zvuků k téměř dokonalým, emočně zabarveným neuronovým hlasům. Zatímco komerční giganti jako Apple a velké cloudové služby (Google, Microsoft, Amazon) udávají tón v kvalitě, projekty jako RH Voices a open-source syntetizátory pro Linux zajišťují, že přístupnost není omezena finančními možnostmi nebo podporou v majoritních jazycích. Budoucnost pravděpodobně směřuje k multijazyčným, adaptabilním neuronovým hlasům, které se budou umět přizpůsobit jakémukoli textu a jazyku s minimálními nároky na uživatele.