Depois da interacção via texto, temos o ChatGPT a avançar para novas dimensões de interacção e demonstrar as capacidades dos futuros assistentes com modelos AI avançados.
Na parte de voz, passa a ser possível fazer uma pergunta ou pedido, com o ChatGPT a converter a voz para texto, determinar a resposta, e falá-la em voz alta. A parte da resposta falada é feita usando o modelo Whisper da OpenAI, que é capaz de gerar voz sintetizada com base em poucos segundos de uma voz de amostra. Tecnicamente, seria possível por o ChatGPT a falar com a voz do utilizador, mas por agora ficamos limitados à escolha de cinco opções de voz. Na imagem, podemos tirar uma foto, e até seleccionar as partes da imagem que são relevantes para o nosso pedido. E, tratando-se de um processo interactivo, podemos ir refinando a questão com elementos adicionais, falados ou desenhados.
Use your voice to engage in a back-and-forth conversation with ChatGPT. Speak with it on the go, request a bedtime story, or settle a dinner table debate.
— OpenAI (@OpenAI) September 25, 2023
Sound on 🔊 pic.twitter.com/3tuWzX0wtS
Nesta primeira fase estas funcionalidades de voz e imagens ficam disponíveis para os subscritores do ChatGPT Plus ao longo das próximas duas semanas. Mas quem não paga não fica esquecido, com a OpenAI a dizer que todos os demais utilizadores também terão acesso a isto "pouco depois" de ser disponibilizado aos clientes pagantes.
Actualização: já está disponível para todos os utilizadores.
Sem comentários:
Enviar um comentário (problemas a comentar?)