OpenAI lanserar nya röstmodeller som kan översätta och skriva av i realtid

Överblick för denna sidan

OpenAI har presenterat tre nya röstmodeller i sitt API: en modell för samtal i realtid, en för liveöversättning och en för löpande tal-till-text. Tillsammans ska de göra det enklare att bygga tjänster som lyssnar, svarar och översätter medan en person pratar.

Vad betyder OpenAI lanserar nya röstmodeller?

Den största nyheten är GPT-Realtime-2, som enligt OpenAI kan hantera mer avancerade frågor och hålla igång ett samtal mer naturligt. Det betyder att AI-baserade röstdialoger kan bli mindre hackiga och bättre på att följa med när en användare ändrar ämne eller lägger till nya detaljer.

OpenAI har också släppt GPT-Realtime-Translate, som är byggd för att översätta tal direkt i samtal. Företaget säger att modellen klarar över 70 språk in och 13 språk ut. För användaren kan det i praktiken betyda smidigare kundtjänst, möten eller appar där människor som inte talar samma språk ändå kan förstå varandra i realtid.

Den tredje modellen, GPT-Realtime-Whisper, är en strömmande tal-till-text-modell. Den skriver ner det som sägs allt eftersom, i stället för att vänta tills någon har pratat klart. Det kan vara användbart i mötesverktyg, diktering och andra tjänster där snabb transkribering spelar roll.

För vanliga användare märks sådana här nyheter oftast indirekt, när utvecklare bygger in funktionen i appar och tjänster. Men riktningen är tydlig: röst-AI blir mer som ett löpande samtal och mindre som en knapp som väntar på färdiga kommandon.