O ChatGPT tem atraídos todas as atenções, mas a OpenAI tem outros projectos igualmente fascinantes, como o Whisper de reconhecimento de voz.
Embora se possa considerar que temos ferramentas decentes de reconhecimento de voz e transcrição há bastante tempo, há sempre espaço para melhorar. Toda e cada correcção ou edição que tenha que ser feita manualmente representa tempo perdido, e há um novo sistema que promete reduzir isso para níveis que nunca foram atingidos anteriormente.
O Whisper da OpenAI é um modelo de reconhecimento de voz treinado com mais de 680 mil horas de línguas diversas, e o seu desempenho a nível de reconhecer as palavras - e também aplicar a pontuação correcta - tem sido impressionante. E, ao contrário de outros projectos da OpenAI, é inteiramente open-source e pode ser usado por qualquer pessoa hoje mesmo.
O site do projecto tem vários exemplos, desde excertos com conversa a ritmo acelerada, em diferentes línguas, e até com sotaques carregados.
Curiosamente, Português aparece logo no topo da lista como sendo uma das línguas com menor taxa de erros, logo a seguir ao inglês, embora não seja referido se isso se refere a português europeu ou português do Brasil.
A única chatice é que ainda não existe num pacote "pronto a usar", obrigando a instalar Python, e outras ferramentas como o ffmpeg, o que limitará o número de pessoas que poderá dar-lhe uso, por agora. Mas, será inevitável que em breve comece a aparecer em programas e apps que façam desaparecer essas dificuldades, e nos leve para uma nova etapa dos sistemas de conversão de voz para texto.
2023/02/06
Whisper da OpenAI eleva o reconhecimento de voz
Publicado por Carlos Martins às 15:30
AI Inteligência Artificial OpenAI Reconhecimento de Voz Whisper
Subscrever:
Enviar feedback (Atom)
Sem comentários:
Enviar um comentário (problemas a comentar?)