Izzivi in priložnosti sintetičnih glasov

OpenAI v svojem zapisu na blogu razkriva več o Voice Engine, modelu za ustvarjanje glasov po meri. Gre za tehnologijo, ki na podlagi besedila in 15-sekundnega avdio posnetka omogoča generiranje naravno zvenečega govora, ki tesno posnema izvirnega govorca. OpenAI kljub potencialu tovrstne tehnologije postopa previdno, ker se zavedajo možnosti zlorabe.

Razvoj in uporaba: Voice Engine, ki so ga pri OpenAI razvili konec leta 2022, je trenutno v uporabi za pretvorbo besedila v govor (text-to-speech API) ter v ChatGPT Voice in Read Aloud, kjer tipkanje nadomestite z zvočnimi ukazi. Drugo testiranje modela, ki je zaenkrat omejeno na zaprt krog zaupanja vrednih partnerjev, je razkrilo raznoliko in koristno uporabo tehnologije, vključno z izboljšanjem dostopa do izobraževalnih vsebin, prevajanjem in podporo osebam, ki ne morejo govoriti.

Varnost in etika: OpenAI se zaveda tveganj, povezanih z generiranjem govora, ki posnema človeške glasove – še posebej, ker ZDA čakajo predsedniške volitve – zato tudi skrbno spremlja odziv partnerjev. Partnerji, ki testirajo Voice Engine, morajo slediti smernicam uporabe, ki vključujejo prepoved posnemanja brez soglasja in jasno razkritje uporabe AI-generiranih glasov poslušalcem.

Prihodnost sintetičnih glasov: Kot pravijo pri OpenAI, želijo odkrito deliti, kaj postaja mogoče z umetno inteligenco. V skladu z njihovim pristopom k varnosti umetne inteligence, tehnologija zaenkrat še ne bo na voljo širši javnosti. V podjetju menijo, da moramo najprej kot družba razviti odpornost do izzivov, ki jih prinašajo vedno bolj prepričljivi generativni modeli.

Pri OpenAI tako spodbujajo:

Postopno opuščanje glasovne avtentikacije kot varnostnega ukrepa za dostop do bančnih računov in drugih občutljivih informacij.
Razvoj politik za zaščito uporabe glasov posameznikov v AI.
Izobraževanje javnosti o razumevanju zmogljivosti in omejitev tehnologij umetne inteligence, vključno z možnostjo zavajajoče vsebine umetne inteligence.
Pospeševanje razvoja in sprejemanja tehnik za sledenje izvoru avdiovizualnih vsebin, tako da je vedno jasno, kdaj komunicirate z resnično osebo ali z AI.

Poudarjajo še, da je pomembno, da ljudje po vsem svetu razumejo, kam gre ta tehnologija, ne glede na to, ali jo bodo pri OpenAI na koncu sami razširili ali ne.

Celoten članek je na voljo tukaj.