De nieuwe chatbot van Deepseek heeft een aanzienlijke impact gehad op de AI -markt en introduceert zichzelf met de intrigerende verklaring:
Hallo, ik ben gemaakt, zodat je alles kunt vragen en een antwoord kunt krijgen dat je misschien zou kunnen verrassen.
Dit AI -model is niet alleen een formidabele concurrent geworden, maar heeft ook bijgedragen aan een van de grootste aandelenkoersdaling van Nvidia. De innovatieve benadering van Deepseek van AI -ontwikkeling onderscheidt het, met behulp van geavanceerde technologieën zoals:
Multi-token voorspelling (MTP) : deze methode stelt het model in staat om meerdere woorden tegelijk te voorspellen door verschillende zinsdelen te analyseren, zowel nauwkeurigheid als efficiëntie te verbeteren.
Mix van experts (MOE) : met 256 neurale netwerken, met acht geactiveerd voor elke tokenverwerkingstaak, versnelt deze architectuur AI -training en stimuleert de prestaties.
Multi-head latente aandacht (MLA) : door zich te concentreren op de belangrijkste delen van een zin en herhaaldelijk belangrijke details te extraheren, vermindert MLA de kans op het missen van cruciale informatie, waardoor de AI belangrijke nuances kan vastleggen.
Afbeelding: ensigame.com
Deepseek, een prominente Chinese startup, beweert een competitief AI -model te hebben ontwikkeld tegen een minimale kosten, waarin staat dat ze slechts $ 6 miljoen hebben uitgegeven aan de training Deepseek V3 met slechts 2048 grafische processors. Uit analisten uit de semianyse heeft echter aangetoond dat Deepseek een enorme computationele infrastructuur heeft, met behulp van ongeveer 50.000 NVIDIA -hopper GPU's, waaronder 10.000 H800 -eenheden, 10.000 H100s en extra H20 GPU's. Deze bronnen zijn verspreid over meerdere datacenters en worden gebruikt voor AI -training, onderzoek en financiële modellering.
De totale investering van het bedrijf in servers is ongeveer $ 1,6 miljard, met operationele kosten geschat op $ 944 miljoen. Deepseek is een dochteronderneming van het Chinese hedgefonds High-Flyer, dat het in 2023 als een afzonderlijke AI-gerichte divisie heeft vastgesteld. In tegenstelling tot de meeste startups die afhankelijk zijn van cloud computing, bezit Deepseek zijn datacenters, waardoor volledige controle over AI-modeloptimalisatie en snellere innovatie-implementatie mogelijk is. Het bedrijf blijft zelf gefinancierd en verbetert zijn flexibiliteit en besluitvormingssnelheid.
Afbeelding: ensigame.com
Deepseek trekt ook toptalent aan, waarbij sommige onderzoekers per jaar meer dan $ 1,3 miljoen verdienen, voornamelijk van toonaangevende Chinese universiteiten. Desondanks lijkt de claim van het trainen van Deepseek V3 voor slechts $ 6 miljoen onrealistisch, omdat dit cijfer alleen GPU-gebruik tijdens pre-training verklaart en onderzoek, modelverfijning, gegevensverwerking en infrastructuurkosten uitsluit.
Sinds de start heeft Deepseek meer dan $ 500 miljoen geïnvesteerd in AI -ontwikkeling. De compacte structuur maakt een actieve en effectieve implementatie van AI -innovaties mogelijk, in tegenstelling tot grotere, meer bureaucratische bedrijven.
Afbeelding: ensigame.com
Het voorbeeld van Deepseek laat zien dat een goed gefinancierd, onafhankelijk AI-bedrijf kan concurreren met marktleiders. Experts merken echter op dat het succes van het bedrijf te wijten is aan aanzienlijke investeringen, technische doorbraken en een sterk team, in plaats van een "revolutionair budget" voor AI -modelontwikkeling.
Afbeelding: ensigame.com
Desondanks blijven de kosten van Deepseek lager dan die van zijn concurrenten. Hoewel Deepseek bijvoorbeeld $ 5 miljoen besteedde aan R1, waren de trainingskosten voor Chatgpt4o $ 100 miljoen. Het is echter nog steeds goedkoper dan zijn concurrenten.