Ang bagong chatbot mula sa Deepseek ay gumawa ng isang makabuluhang epekto sa merkado ng AI, na ipinakilala ang sarili sa nakakaintriga na pahayag:
Kumusta, nilikha ako upang maaari kang magtanong ng anuman at makakuha ng isang sagot na maaaring sorpresa ka.
Ang modelong AI na ito ay hindi lamang naging isang kakila -kilabot na katunggali ngunit nag -ambag din sa isa sa pinakamalaking pagbagsak ng presyo ng stock ng NVIDIA. Ang makabagong diskarte ng Deepseek sa pag -unlad ng AI ay nagtatakda nito, na gumagamit ng mga advanced na teknolohiya tulad ng:
Multi-Token Prediction (MTP) : Ang pamamaraang ito ay nagbibigay-daan sa modelo upang mahulaan ang maraming mga salita nang sabay-sabay sa pamamagitan ng pagsusuri ng iba't ibang mga bahagi ng pangungusap, pagpapahusay ng parehong kawastuhan at kahusayan.
Paghahalo ng mga Eksperto (MOE) : Paggamit ng 256 Neural Networks, na may walong naisaaktibo para sa bawat gawain sa pagproseso ng token, ang arkitektura na ito ay nagpapabilis sa pagsasanay sa AI at pinalalaki ang pagganap.
Multi-head latent attention (MLA) : Sa pamamagitan ng pagtuon sa pinakamahalagang bahagi ng isang pangungusap at pagkuha ng mga key na detalye nang paulit-ulit, binabawasan ng MLA ang pagkakataon na nawawala ang mahalagang impormasyon, na nagpapagana sa AI upang makuha ang mga mahahalagang nuances.
Larawan: ensigame.com
Ang DeepSeek, isang kilalang pagsisimula ng Tsino, ay nagsasabing nakabuo ng isang mapagkumpitensyang modelo ng AI sa kaunting gastos, na nagsasabi na ginugol lamang nila ang $ 6 milyon sa pagsasanay sa Deepseek V3 gamit lamang ang 2048 na mga processors ng graphics. Gayunpaman, ang mga analyst mula sa semianalysis ay nagsiwalat na ang Deepseek ay nagpapatakbo ng isang malawak na imprastraktura ng computational, na gumagamit ng humigit -kumulang na 50,000 nvidia hopper GPU, kabilang ang 10,000 H800 unit, 10,000 H100s, at karagdagang mga H20 GPU. Ang mga mapagkukunang ito ay kumakalat sa maraming mga sentro ng data at ginamit para sa pagsasanay, pananaliksik, at pagmomolde ng pananalapi.
Ang kabuuang pamumuhunan ng kumpanya sa mga server ay nasa paligid ng $ 1.6 bilyon, na may mga gastos sa pagpapatakbo na tinatayang $ 944 milyon. Ang Deepseek ay isang subsidiary ng Chinese Hedge Fund High-flyer, na itinatag ito bilang isang hiwalay na dibisyon na nakatuon sa AI noong 2023. Hindi tulad ng karamihan sa mga startup na umaasa sa cloud computing, ang Deepseek ay nagmamay-ari ng mga sentro ng data nito, na nagpapahintulot sa buong kontrol sa pag-optimize ng modelo ng AI at mas mabilis na pagpapatupad ng pagbabago. Ang kumpanya ay nananatiling pondo sa sarili, pagpapahusay ng kakayahang umangkop at bilis ng paggawa ng desisyon.
Larawan: ensigame.com
Ang Deepseek ay nakakaakit din ng nangungunang talento, na may ilang mga mananaliksik na kumikita ng higit sa $ 1.3 milyon taun -taon, lalo na mula sa nangungunang unibersidad ng Tsino. Sa kabila nito, ang pag-angkin ng pagsasanay sa Deepseek V3 sa halagang $ 6 milyon ay tila hindi makatotohanang, dahil ang figure na ito ay nagkakaroon lamang ng paggamit ng GPU sa panahon ng pre-pagsasanay at hindi kasama ang pananaliksik, pagpipino ng modelo, pagproseso ng data, at mga gastos sa imprastraktura.
Mula nang magsimula ito, ang Deepseek ay namuhunan ng higit sa $ 500 milyon sa pag -unlad ng AI. Ang compact na istraktura nito ay nagbibigay -daan para sa aktibo at epektibong pagpapatupad ng mga makabagong AI, hindi katulad ng mas malaki, mas maraming mga kumpanya ng burukrata.
Larawan: ensigame.com
Ang halimbawa ng Deepseek ay nagpapakita na ang isang mahusay na pondo, independiyenteng kumpanya ng AI ay maaaring makipagkumpetensya sa mga pinuno ng industriya. Gayunpaman, tandaan ng mga eksperto na ang tagumpay ng kumpanya ay dahil sa mga makabuluhang pamumuhunan, mga teknikal na tagumpay, at isang malakas na koponan, sa halip na isang "rebolusyonaryong badyet" para sa pag -unlad ng modelo ng AI.
Larawan: ensigame.com
Sa kabila nito, ang mga gastos sa Deepseek ay mananatiling mas mababa kaysa sa mga katunggali nito. Halimbawa, habang ang Deepseek ay gumugol ng $ 5 milyon sa R1, ang gastos sa pagsasanay para sa ChatGPT4O ay $ 100 milyon. Gayunpaman, mas mura pa ito kaysa sa mga katunggali nito.