2023/09/25

ChatGPT ganha voz e imagens

A OpenAI adicionou à app do ChatGPT a capacidade para ouvir, falar e ver imagens.

Depois da interacção via texto, temos o ChatGPT a avançar para novas dimensões de interacção e demonstrar as capacidades dos futuros assistentes com modelos AI avançados.

Na parte de voz, passa a ser possível fazer uma pergunta ou pedido, com o ChatGPT a converter a voz para texto, determinar a resposta, e falá-la em voz alta. A parte da resposta falada é feita usando o modelo Whisper da OpenAI, que é capaz de gerar voz sintetizada com base em poucos segundos de uma voz de amostra. Tecnicamente, seria possível por o ChatGPT a falar com a voz do utilizador, mas por agora ficamos limitados à escolha de cinco opções de voz. Na imagem, podemos tirar uma foto, e até seleccionar as partes da imagem que são relevantes para o nosso pedido. E, tratando-se de um processo interactivo, podemos ir refinando a questão com elementos adicionais, falados ou desenhados.


Nesta primeira fase estas funcionalidades de voz e imagens ficam disponíveis para os subscritores do ChatGPT Plus ao longo das próximas duas semanas. Mas quem não paga não fica esquecido, com a OpenAI a dizer que todos os demais utilizadores também terão acesso a isto "pouco depois" de ser disponibilizado aos clientes pagantes.


Actualização: já está disponível para todos os utilizadores.

Sem comentários:

Enviar um comentário (problemas a comentar?)