2024/12/27

DeepSeek V3 abala sector com modelo AI open-source mais poderoso e económico

Há um novo modelo AI vindo da China, o DeepSeek V3, que se torna no mais poderoso modelo AI open-source, capaz de superar o GPT-4o da OpenAI.

A empresa chinesa DeepSeek apresentou o DeepSeek V3, apontado como um dos modelos AI open-source mais avançados do mundo. O DeepSeek V3 destaca-se em tarefas como programação, tradução e geração de conteúdo detalhado, e chega com uma licença bastante abrangente que permite a sua utilização em projectos comecriais e modificação.

Os testes efectuados mostram que o DeepSeek V3 supera a maioria dos modelos AI existentes, incluindo não só versões open-source como o Llama 3.1 405B da Meta como também modelos proprietários como o GPT-4o da OpenAI.
Com 671B (mil milhões) de parâmetros, o modelo é 1.6 vezes maior do que o Llama 3.1 da Meta. Apesar do seu tamanho, o DeepSeek foi treinado usando hardware bastante limitado (em comparação com o de empresas ocidentais) usando apenas GPUs Nvidia H800 durante dois meses, com um custo "económico" de apenas 5.5 milhões de dólares. Algo que está a ser usado para relembrar se as empresas ocidentais não estarão a ficar excessivamente depreocupadas com as questões de optimização e eficiência, por terem vasto poder computacional à disposição.

O DeepSeek V3 não está isento de críticas. O modelo evita temas politicamente sensíveis, reflectindo as restrições regulamentares na China. Apesar destas limitações, as suas vastas potencialidades, a par de um custo de operação que se torna numa fracção da utilização de modelos AI comerciais equivalentes, assegura que não faltem interessados na sua utilização.

1 comentário:

  1. Com um custo "económico" como é que vamos espatifar 8M USD no Amália

    ResponderEliminar