Il nuovo chatbot di DeepSeek ha avuto un impatto significativo nel mercato dell'IA, presentandosi con la dichiarazione intrigante:
Ciao, sono stato creato in modo da poter chiedere qualsiasi cosa e ottenere una risposta che potrebbe persino sorprenderti.
Questo modello AI non è solo diventato un formidabile concorrente, ma ha anche contribuito a uno dei maggiori calo dei prezzi delle azioni di Nvidia. L'approccio innovativo di Deepseek allo sviluppo dell'IA lo distingue, utilizzando tecnologie avanzate come:
Multi-Token Prediction (MTP) : questo metodo consente al modello di prevedere più parole contemporaneamente analizzando diversi parti di frasi, migliorando sia l'accuratezza che l'efficienza.
Miscela di esperti (MOE) : impiegando 256 reti neurali, con otto attivate per ogni attività di elaborazione dei token, questa architettura accelera la formazione dell'intelligenza artificiale e aumenta le prestazioni.
Attenzione latente a più testa (MLA) : concentrandosi sulle parti più significative di una frase ed estraendo ripetutamente i dettagli chiave, MLA riduce la possibilità di perdere informazioni cruciali, consentendo all'IA di catturare importanti sfumature.
Immagine: Ensigame.com
DeepSeek, un'importante startup cinese, afferma di aver sviluppato un modello di intelligenza artificiale competitivo a un costo minimo, affermando che hanno speso solo $ 6 milioni per allenare Deepseek V3 utilizzando solo 2048 processori grafici. Tuttavia, gli analisti della seminalisi hanno rivelato che DeepSeek gestisce una vasta infrastruttura computazionale, utilizzando circa 50.000 GPU di Hopper Nvidia, tra cui 10.000 unità H800, 10.000 H100 e GPU H20 aggiuntive. Queste risorse sono distribuite su più data center e utilizzati per la formazione, la ricerca e la modellazione finanziaria dell'IA.
L'investimento totale della società nei server è di circa $ 1,6 miliardi, con spese operative stimate in $ 944 milioni. DeepSeek è una filiale dell'Hedge Fund cinese High-Flyer, che lo ha stabilito come una divisione separata focalizzata sull'intelligenza artificiale nel 2023. A differenza della maggior parte delle startup che si basano sul cloud computing, Deepseek possiede i suoi data center, consentendo il pieno controllo sull'ottimizzazione del modello AI e nell'implementazione più rapida dell'innovazione. L'azienda rimane autofinanziata, migliorando la sua flessibilità e la velocità decisionale.
Immagine: Ensigame.com
DeepSeek attira anche i migliori talenti, con alcuni ricercatori che guadagnano oltre $ 1,3 milioni all'anno, principalmente dalle principali università cinesi. Nonostante ciò, l'affermazione della formazione di DeepSeek V3 per soli $ 6 milioni sembra irrealistica, poiché questa cifra rappresenta solo l'utilizzo della GPU durante il pre-allenamento ed esclude la ricerca, il raffinamento del modello, l'elaborazione dei dati e i costi di infrastruttura.
Fin dall'inizio, Deepseek ha investito oltre $ 500 milioni in sviluppo dell'IA. La sua struttura compatta consente un'implementazione attiva ed efficace delle innovazioni di intelligenza artificiale, a differenza di aziende più grandi e burocratiche.
Immagine: Ensigame.com
L'esempio di Deepseek mostra che un'azienda di intelligenza artificiale indipendente ben finanziata può competere con i leader del settore. Tuttavia, gli esperti notano che il successo dell'azienda è dovuto a investimenti significativi, scoperte tecniche e un team forte, piuttosto che un "budget rivoluzionario" per lo sviluppo del modello di intelligenza artificiale.
Immagine: Ensigame.com
Nonostante ciò, i costi di Deepseek rimangono inferiori a quelli dei suoi concorrenti. Ad esempio, mentre DeepSeek ha speso $ 5 milioni in R1, il costo di formazione per Chatgpt4o è stato di $ 100 milioni. Tuttavia, è ancora più economico dei suoi concorrenti.