2023/02/06

Whisper da OpenAI eleva o reconhecimento de voz

O ChatGPT tem atraídos todas as atenções, mas a OpenAI tem outros projectos igualmente fascinantes, como o Whisper de reconhecimento de voz.

Embora se possa considerar que temos ferramentas decentes de reconhecimento de voz e transcrição há bastante tempo, há sempre espaço para melhorar. Toda e cada correcção ou edição que tenha que ser feita manualmente representa tempo perdido, e há um novo sistema que promete reduzir isso para níveis que nunca foram atingidos anteriormente.

O Whisper da OpenAI é um modelo de reconhecimento de voz treinado com mais de 680 mil horas de línguas diversas, e o seu desempenho a nível de reconhecer as palavras - e também aplicar a pontuação correcta - tem sido impressionante. E, ao contrário de outros projectos da OpenAI, é inteiramente open-source e pode ser usado por qualquer pessoa hoje mesmo.

O site do projecto tem vários exemplos, desde excertos com conversa a ritmo acelerada, em diferentes línguas, e até com sotaques carregados.

Curiosamente, Português aparece logo no topo da lista como sendo uma das línguas com menor taxa de erros, logo a seguir ao inglês, embora não seja referido se isso se refere a português europeu ou português do Brasil.

A única chatice é que ainda não existe num pacote "pronto a usar", obrigando a instalar Python, e outras ferramentas como o ffmpeg, o que limitará o número de pessoas que poderá dar-lhe uso, por agora. Mas, será inevitável que em breve comece a aparecer em programas e apps que façam desaparecer essas dificuldades, e nos leve para uma nova etapa dos sistemas de conversão de voz para texto.



Sem comentários:

Enviar um comentário (problemas a comentar?)