Nowy chatbot z Deepseek wywarł znaczący wpływ na rynku AI, wprowadzając się z intrygującym stwierdzeniem:
Cześć, zostałem stworzony, abyś mógł zapytać o wszystko i uzyskać odpowiedź, która może cię nawet zaskoczyć.
Ten model AI stał się nie tylko potężnym konkurentem, ale także przyczynił się do jednego z największych spadków cen akcji NVIDIA. Innowacyjne podejście Deepseek do rozwoju sztucznej inteligencji wyróżnia go, wykorzystując zaawansowane technologie, takie jak:
Prognozowanie wielofunkcyjne (MTP) : Ta metoda pozwala modelowi przewidzieć wiele słów jednocześnie poprzez analizę różnych części zdań, zwiększając zarówno dokładność, jak i wydajność.
Mieszanka ekspertów (MOE) : Zastosowanie 256 sieci neuronowych, z ośmioma aktywowanymi dla każdego zadania przetwarzania tokenu, architektura ta przyspiesza szkolenie AI i zwiększa wydajność.
Utrzymująca uwaga wielowłócona (MLA) : Koncentrując się na najważniejszych częściach zdania i wielokrotnie wyodrębniając kluczowe szczegóły, MLA zmniejsza szansę na brak kluczowych informacji, umożliwiając AI uchwycenie ważnych niuansów.
Zdjęcie: engame.com
Deepseek, wybitny chiński startup, twierdzi, że opracował konkurencyjny model sztucznej inteligencji przy minimalnych kosztach, stwierdzając, że wydali tylko 6 milionów dolarów na szkolenie Deepseek V3 przy użyciu zaledwie 2048 procesorów graficznych. Jednak analitycy z semianalizy ujawnili, że Deepseek prowadzi rozległą infrastrukturę obliczeniową, wykorzystując około 50 000 GPU Nvidia Hopper, w tym 10 000 jednostek H800, 10 000 H100 i dodatkowych GPU H20. Zasoby te są rozpowszechniane na wiele centrów danych i wykorzystywane do szkolenia AI, badań i modelowania finansowego.
Całkowita inwestycja spółki w serwerach wynosi około 1,6 miliarda dolarów, a wydatki operacyjne szacowane są na 944 mln USD. Deepseek jest spółką zależną chińskiego funduszu hedgingowego High-Flyer, która ustanowiła go jako oddzielny dział zorientowany na sztuczną inteligencję w 2023 r.. W przeciwieństwie do większości startupów, które opierają się na przetwarzaniu w chmurze, Deepseek jest właścicielem centrów danych, umożliwiając pełną kontrolę nad optymalizacją modelu AI i szybszą implementację innowacji. Firma pozostaje finansowana, zwiększając swoją elastyczność i szybkość podejmowania decyzji.
Zdjęcie: engame.com
Deepseek przyciąga również najlepsze talenty, a niektórzy badacze zarabiają ponad 1,3 miliona dolarów rocznie, głównie z wiodących chińskich uniwersytetów. Mimo to twierdzenie o szkoleniu Deepseek V3 o zaledwie 6 milionów dolarów wydaje się nierealne, ponieważ liczba ta uwzględnia tylko użycie GPU podczas wstępnego treningu i wyklucza badania, udoskonalanie modeli, przetwarzanie danych i koszty infrastruktury.
Od samego początku Deepseek zainwestował ponad 500 milionów dolarów w rozwój AI. Jego kompaktowa struktura pozwala na aktywne i skuteczne wdrożenie innowacji AI, w przeciwieństwie do większych, bardziej biurokratycznych firm.
Zdjęcie: engame.com
Przykład Deepseek pokazuje, że dobrze finansowana, niezależna firma AI może konkurować z liderami branży. Jednak eksperci zauważają, że sukces firmy wynika z znacznych inwestycji, przełomów technicznych i silnego zespołu, a nie „rewolucyjnego budżetu” dla opracowywania modelu AI.
Zdjęcie: engame.com
Mimo to koszty Deepseek pozostają niższe niż koszty jego konkurentów. Na przykład, podczas gdy Deepseek wydał 5 milionów dolarów na R1, koszt szkolenia Chatgpt4o wyniósł 100 milionów dolarów. Jest jednak nadal tańszy niż jego konkurenci.