A OpenAI anunciou três novos modelos de voz em tempo real, trazendo melhorias significativas nas capacidades de conversação, tradução, e transcrição de áudio. Por agora ficam disponíveis para integração via API, e não (ainda) através do modo de voz do ChatGPT - algo que deverá acabar por acontecer nas próximas semanas.
O principal destaque é o GPT-Realtime-2, descrito como o primeiro modelo de voz com raciocínio ao nível do GPT-5. O novo sistema aumenta o contexto suportado de 32K para 128K tokens e introduz vários níveis de esforço de raciocínio. O modelo também suporta uso ferramentas em paralelo, respostas mais transparentes, melhor recuperação de erros, e maior controlo sobre o tom da conversa. Os preços começam nos 32 dólares por milhão de tokens de áudio recebidos e 64 dólares por milhão de tokens gerados.
A OpenAI apresentou ainda o GPT-Realtime-Translate, um novo modelo focado na tradução de voz em tempo real. A ferramenta consegue traduzir discurso de mais de 70 idiomas para 13 línguas, mantendo o ritmo natural da conversa. O custo anunciado é de 0.034 dólares por minuto de utilização. Já o GPT-Realtime-Whisper foi desenvolvido para transcrição contínua de áudio em directo, permitindo converter voz em texto à medida que a pessoa fala, com preço de 0.017 dólares por minuto.Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice agents.
— OpenAI (@OpenAI) May 7, 2026
Voice agents are now real-time collaborators that can listen, reason, and solve complex problems as conversations unfold.
Now available in the API… pic.twitter.com/2DY1LU2vO8
Segundo os primeiros testes partilhados por utilizadores e programadores, o GPT-Realtime-2 oferece uma experiência bastante mais natural do que o actual modo de voz do ChatGPT, aproximando-se significativamente do objectivo de parecer estar-se a falar com uma pessoa real, capaz de lidar com todos os elementos inesperados da vida real, como parar frases a meio e mudar de tópico. Está disponível uma demonstração no site da OpenAI que permite aos interessados experimentarem o novo modelo (com as sessões limitadas a 1m30s).
Parece que o futuro antecipado pelo filme Her de 2013 está prestes a poder concretizar-se. :)



















No comments:
Post a Comment (problemas a comentar?)