O novo chatbot da Deepseek causou um impacto significativo no mercado de IA, apresentando -se com a declaração intrigante:
Olá, fui criado para que você possa perguntar qualquer coisa e obter uma resposta que pode até surpreendê -lo.
Esse modelo de IA não apenas se tornou um concorrente formidável, mas também contribuiu para uma das maiores quedas de preços das ações da NVIDIA. A abordagem inovadora de Deepseek para o desenvolvimento de IA a diferencia, utilizando tecnologias avançadas como:
Previsão com vários toques (MTP) : Este método permite que o modelo preveja várias palavras de uma só vez, analisando diferentes peças de frases, aumentando a precisão e a eficiência.
Mistura de especialistas (MOE) : Empregando 256 redes neurais, com oito ativados para cada tarefa de processamento de token, essa arquitetura acelera o treinamento de IA e aumenta o desempenho.
Atenção latente de várias cabeças (MLA) : Ao focar nas partes mais significativas de uma frase e extrair detalhes-chave repetidamente, o MLA reduz a chance de perder informações cruciais, permitindo que a IA capture nuances importantes.
Imagem: Ensigame.com
A Deepseek, uma startup chinesa proeminente, afirma ter desenvolvido um modelo competitivo de IA a um custo mínimo, afirmando que gastaram apenas US $ 6 milhões no treinamento do Deepseek V3 usando apenas 2048 processadores gráficos. No entanto, analistas da semiânica revelaram que a DeepSeek opera uma vasta infraestrutura computacional, utilizando aproximadamente 50.000 GPUs NVIDIA Hopper, incluindo 10.000 H800, 10.000 H100s e GPUs H20 adicionais. Esses recursos estão espalhados por vários data centers e usados para treinamento, pesquisa e modelagem financeira de IA.
O investimento total da empresa em servidores é de cerca de US $ 1,6 bilhão, com despesas operacionais estimadas em US $ 944 milhões. A Deepseek é uma subsidiária do fundo de hedge chinês High-Flyer, que o estabeleceu como uma divisão separada de IA em 2023. Ao contrário da maioria das startups que dependem da computação em nuvem, a DeepSeek possui seus data centers, permitindo o controle total sobre a otimização do modelo de IA e a implementação mais rápida da inovação. A empresa permanece autofinanciada, aumentando sua flexibilidade e velocidade de tomada de decisão.
Imagem: Ensigame.com
A Deepseek também atrai os melhores talentos, com alguns pesquisadores ganhando mais de US $ 1,3 milhão anualmente, principalmente das principais universidades chinesas. Apesar disso, a reivindicação de treinamento do DeepSeek V3 por apenas US $ 6 milhões parece irrealista, pois esse número apenas explica o uso da GPU durante os custos de pré-treinamento e exclui pesquisas, refinamento de modelos, processamento de dados e infraestrutura.
Desde o seu início, a Deepseek investiu mais de US $ 500 milhões em desenvolvimento de IA. Sua estrutura compacta permite a implementação ativa e eficaz das inovações de IA, diferentemente das empresas maiores e mais burocráticas.
Imagem: Ensigame.com
O exemplo de Deepseek mostra que uma empresa de IA independente e bem financiada pode competir com os líderes do setor. No entanto, os especialistas observam que o sucesso da empresa se deve a investimentos significativos, avanços técnicos e uma equipe forte, em vez de um "orçamento revolucionário" para o desenvolvimento do modelo de IA.
Imagem: Ensigame.com
Apesar disso, os custos da Deepseek permanecem inferiores aos de seus concorrentes. Por exemplo, enquanto a Deepseek gastou US $ 5 milhões em R1, o custo de treinamento do ChatGPT4O era de US $ 100 milhões. No entanto, ainda é mais barato que seus concorrentes.