2023/11/06

Open AI lança API Dall-E 3 e novos modelos de voz

A par do GPT-4 Turbo e demais novidades, a OpenAI também lançou a API para o Dall-E 3 e novos modelos AI para voz.

Embora o Dall-E 3 já estivesse disponível, e até com integração com o ChatGPT e Bing Chat, só agora passará a ser mais útil para os developers com a chegada do acesso via API.

O Dall-E 3 pode gerar imagens com resoluções até 1792x1024 e preço a começar nos $0.04 por imagem, mas além de ter filtros para impedir a geração de imagens consideradas impróprias, também sofre de algumas limitações face ao que era possível no Dall-E 2. Por exemplo, a API do Dall-E 3 não permite substituir apenas algumas secções de uma imagem; e os pedidos serão "reescritos" automaticamente para efeitos de segurança e obter imagens mais detalhadas, embora reconheça que por vezes isso possa resultar em imagens um pouco diferentes daquelas que se desejaria obter. Embora seja curioso ter um modelo AI a censurar os pedidos feitos, não deixa de gerar alguma curiosidade quanto às formas originais que provavelmente se irão descobrir para contornar esses filtros.

Além da parte das imagens, a OpenAI também passa a disponibilizar seis modelos AI de conversão de texto para voz - Alloy, Echo, Fable, Onyx, Nova e Shimer - que diz serem muito mais naturais e humanas do que todos os demais sistemas existentes. E, em sentido oposto, o seu modelo de reconhecimento de voz Whisper large-v3, que também promete melhorias a todo o nível, incluindo o reconhecimento em múltiplas línguas, está disponível no GitHub para todos os que o quiserem utilizar.

Sem comentários:

Enviar um comentário (problemas a comentar?)