2023/12/04

Modelos AI batem compressão PNG e FLAC

Os modelos AI parecem ter outra capacidade inesperada, a de comprimirem dados sem perda de informação de forma mais eficiente que os formatos PNG e FLAC.

Recentemente vimos a enorme complexidade por trás dos modelos LLM. Mas há um estudo que revela que os modelos LLM (Large Language Models) podem também oferecer resultados surpreendentes a nível da compressão de dados lossless.

Investigadores dizem que o modelo Chinchilla 70B da DeepMind conseguiu reduzir o tamanho de imagens da base de dados ImageNet para 43.4% do seu tamanho original, superando o formato PNG que só consegue atingir 58.5%. Para o áudio, foram usadas amostras da colecção LibriSpeech, tendo conseguido reduzi-las para apenas 16.4% do tamanho original, superando o formato FLAC que se ficou pelos 30.3%. Uma vez mais, importa referir que não estamos a falar de compressão JPEG ou MP3 com perda de dados, mas sim de compressão lossless que permite reconstruir os ficheiros originais na íntegra, sem qualquer alteração.
Embora o estudo ainda não tenha sido replicado e validado por outros investigadores, é algo que certamente irá ser feito nos próximos tempos.

De certa forma, há quem explique esta capacidade de forma idêntica à que a própria inteligência humana tem de conseguir absorver incríveis quantidades "ilimitadas" de informação e de a armazenar num espaço finito e sendo capaz de a recuperar de forma bastante fiável. Se se vier a demonstrar que isto também se aplica aos modelos LLM, talvez no futuro se torne comum que substituam os alguns dos formatos de compressão usados actualmente.

3 comentários:

  1. É realmente curioso o facto de ser lossless, dada a natureza estocástica dos modelos de linguagem.

    ResponderEliminar
    Respostas
    1. Também não deixaria de ser curioso ver até onde poderiam chegar em formato "lossy". (Tendo em conta que conseguem gerar uma imagem de centenas de KB com base numa descrição de poucos bytes. :)

      Eliminar
    2. Quanto é que será que ocupa uma musica ou uma imagem no nosso cérebro? uma pessoa que conheça suficientemente bem a musica pode conseguir reproduzi-la mais ou menos com instrumentos adequados e talento por isso bastaria ter a sequência num formato tipo MIDI que ocupa muito pouco e uma sample do som de cada instrumento... para uma pintura é preciso memoria visual não faço ideia se ocupa mais ou menos no nosso cérebro, também depende do nível de detalhe pretendido :)

      Eliminar