2026/06/16

Gemma 4 12B lida com imagens e áudio sem encoders

O modelo AI Gemma 4 12B da Google tem a particularidade de poder lidar com texto, áudio, e imagens, mas dispensando o uso de encoders para as capacidades multimodais.

A Google DeepMind lançou o Gemma 4 12B, um novo modelo de inteligência artificial que preenche o espaço entre os modelos de 4B e 26B, mas a grande novidade está na sua arquitectura "encoder-free". Ao contrário da maioria dos modelos multimodais actuais, o Gemma 4 12B elimina os encoders dedicados para imagem e áudio, permitindo que o próprio LLM trate directamente esses dados.

Tradicionalmente, modelos multimodais utilizam encoders separados para converter imagens e áudio em tokens compreensíveis pelo LLM. Embora eficazes, estes componentes adicionam centenas de milhões de parâmetros e aumentam a latência. No Gemma 4 12B, a Google substituiu esses encoders por módulos muito mais simples: imagens e áudio são convertidos directamente para o formato esperado pelo modelo, deixando a interpretação contextual a cargo do próprio LLM.
No caso das imagens, um encoder visual que podia chegar aos 550 milhões de parâmetros foi substituído por um módulo de apenas 35 milhões. Já o áudio é tratado de forma ainda mais simples: o sinal sonoro é dividido em segmentos de 40 milissegundos e projectado directamente para o espaço de embeddings do modelo. Esta abordagem reduz significativamente a complexidade e permite que o processamento comece mais cedo, acelerando o tempo para as respostas.

O resultado é um modelo multimodal mais eficiente, capaz de lidar com texto, imagens e áudio sem recorrer aos tradicionais encoders baseados em Transformers. Com 12 mil milhões de parâmetros e requisitos de memória entre 12 e 16 GB de VRAM, o Gemma 4 12B torna-se numa opção atractiva para programadores e investigadores que procuram capacidades multimodais avançadas e que possam correr localmente em placas gráficas de consumo.

Sem comentários:

Enviar um comentário (problemas a comentar?)