Новый чат -бот из DeepSeek оказал значительное влияние на рынок искусственного интеллекта, представляя себя интригующим утверждением:
Привет, я был создан, чтобы вы могли спросить что угодно и получить ответ, который может даже удивить вас.
Эта модель ИИ стала не только грозным конкурентом, но и способствовала одному из крупнейших падений цен на акции Nvidia. Инновационный подход DeepSeek к разработке ИИ отличает его, используя передовые технологии, такие как:
Multi-Token Production (MTP) : этот метод позволяет модели прогнозировать несколько слов одновременно, анализируя различные части предложений, повышая как точность, так и эффективность.
Смесь экспертов (MOE) : использование 256 нейронных сетей, с восемью активированными для каждой задачи обработки токенов, эта архитектура ускоряет обучение ИИ и повышает производительность.
Многополосное скрытое внимание (MLA) : сосредоточив внимание на наиболее значимых частях предложения и неоднократно извлекая ключевые детали, MLA снижает вероятность отсутствия важной информации, позволяя ИИ захватить важные нюансы.
Изображение: Ensigame.com
DeepSeek, известный китайский стартап, утверждает, что разработал конкурентную модель ИИ с минимальными затратами, заявив, что они потратили всего 6 миллионов долларов на обучение DeepSeek V3, используя только 2048 графических процессоров. Тем не менее, аналитики из полуанализа показали, что DeepSeek управляет обширной вычислительной инфраструктурой, используя приблизительно 50 000 графических процессоров Nvidia Hopper, в том числе 10 000 единиц H800, 10 000 H100 и дополнительные графические процессоры H20. Эти ресурсы распространяются по нескольким центрам обработки данных и используются для обучения, исследований и финансового моделирования искусственного интеллекта.
Общая инвестиция компании в серверы составляет около 1,6 млрд. Долл. США, а эксплуатационные расходы оцениваются в 944 миллиона долларов. DeepSeek является дочерней компанией китайского хедж-фонда, который установил его как отдельное подразделение, ориентированное на AI в 2023 году. В отличие от большинства стартапов, которые полагаются на облачные вычисления, DeepSeek владеет своими центрами обработки данных, что позволяет полный контроль над оптимизацией модели ИИ и более быстрой инновационной реализацией. Компания остается самофинансированной, повышая свою гибкость и скорость принятия решений.
Изображение: Ensigame.com
DeepSeek также привлекает лучших талантов, некоторые исследователи зарабатывают более 1,3 миллиона долларов в год, в основном из ведущих китайских университетов. Несмотря на это, утверждение обучения DeepSeek V3 всего за 6 миллионов долларов кажется нереалистичным, так как на этом цифре учитывается только использование графических процессоров во время предварительного обучения и исключает исследования, уточнение модели, обработку данных и затраты на инфраструктуру.
С момента своего начала DeepSeek инвестировал более 500 миллионов долларов в разработку ИИ. Его компактная структура обеспечивает активную и эффективную реализацию инноваций ИИ, в отличие от более крупных, более бюрократических компаний.
Изображение: Ensigame.com
Пример Deepseek показывает, что хорошо финансируемая независимая компания по искусственному ИИ может конкурировать с лидерами отрасли. Тем не менее, эксперты отмечают, что успех компании связан с значительными инвестициями, техническими прорывами и сильной командой, а не с «революционным бюджетом» для разработки модели искусственного интеллекта.
Изображение: Ensigame.com
Несмотря на это, затраты DeepSeek остаются ниже, чем у его конкурентов. Например, в то время как DeepSeek потратил 5 миллионов долларов на R1, стоимость обучения для Chatgpt4o составила 100 миллионов долларов. Тем не менее, это все еще дешевле, чем его конкуренты.