Chatbot mới từ Deepseek đã tạo ra một tác động đáng kể trong thị trường AI, tự giới thiệu với tuyên bố hấp dẫn:
Xin chào, tôi đã được tạo ra để bạn có thể hỏi bất cứ điều gì và nhận được câu trả lời thậm chí có thể làm bạn ngạc nhiên.
Mô hình AI này không chỉ trở thành đối thủ cạnh tranh đáng gờm mà còn đóng góp cho một trong những khoản giảm giá cổ phiếu lớn nhất của Nvidia. Cách tiếp cận sáng tạo của Deepseek để phát triển AI tạo nên sự khác biệt, sử dụng các công nghệ tiên tiến như:
Dự đoán đa điểm (MTP) : Phương pháp này cho phép mô hình dự đoán nhiều từ cùng một lúc bằng cách phân tích các phần câu khác nhau, tăng cường cả độ chính xác và hiệu quả.
Hỗn hợp các chuyên gia (MOE) : Sử dụng 256 mạng thần kinh, với tám mạng được kích hoạt cho mỗi nhiệm vụ xử lý mã thông báo, kiến trúc này tăng tốc độ đào tạo AI và tăng hiệu suất.
Sự chú ý tiềm ẩn đa đầu (MLA) : Bằng cách tập trung vào các phần quan trọng nhất của câu và trích xuất các chi tiết chính nhiều lần, MLA làm giảm cơ hội bỏ lỡ thông tin quan trọng, cho phép AI nắm bắt các sắc thái quan trọng.
Hình ảnh: Ensigame.com
Deepseek, một công ty khởi nghiệp nổi tiếng của Trung Quốc, tuyên bố đã phát triển một mô hình AI cạnh tranh với chi phí tối thiểu, nói rằng họ chỉ chi 6 triệu đô la cho việc đào tạo DeepSeek V3 chỉ bằng cách sử dụng 2048 bộ xử lý đồ họa. Tuy nhiên, các nhà phân tích từ Semianalysis đã tiết lộ rằng Deepseek vận hành một cơ sở hạ tầng tính toán rộng lớn, sử dụng khoảng 50.000 GPU phễu NVIDIA, bao gồm 10.000 đơn vị H800, 10.000 H100 và GPU H20 bổ sung. Các tài nguyên này được trải rộng trên nhiều trung tâm dữ liệu và được sử dụng để đào tạo, nghiên cứu và mô hình tài chính AI.
Tổng số tiền đầu tư của công ty vào các máy chủ là khoảng 1,6 tỷ đô la, với chi phí hoạt động ước tính khoảng 944 triệu đô la. Deepseek là một công ty con của Quỹ phòng hộ Trung Quốc, người ta đã thành lập nó như một bộ phận tập trung AI riêng vào năm 2023. Không giống như hầu hết các công ty khởi nghiệp dựa vào điện toán đám mây, Deepseek sở hữu các trung tâm dữ liệu của mình, cho phép kiểm soát hoàn toàn tối ưu hóa mô hình AI và thực hiện đổi mới nhanh hơn. Công ty vẫn tự tài trợ, tăng cường tính linh hoạt và tốc độ ra quyết định.
Hình ảnh: Ensigame.com
Deepseek cũng thu hút tài năng hàng đầu, với một số nhà nghiên cứu kiếm được hơn 1,3 triệu đô la hàng năm, chủ yếu từ các trường đại học hàng đầu Trung Quốc. Mặc dù vậy, yêu cầu đào tạo Deepseek V3 chỉ với 6 triệu đô la có vẻ không thực tế, vì con số này chỉ chiếm mức sử dụng GPU trong quá trình đào tạo trước và loại trừ nghiên cứu, tinh chỉnh mô hình, xử lý dữ liệu và chi phí cơ sở hạ tầng.
Kể từ khi bắt đầu, Deepseek đã đầu tư hơn 500 triệu đô la vào sự phát triển của AI. Cấu trúc nhỏ gọn của nó cho phép thực hiện tích cực và hiệu quả các đổi mới AI, không giống như các công ty lớn hơn, quan liêu hơn.
Hình ảnh: Ensigame.com
Ví dụ của Deepseek cho thấy một công ty AI độc lập, được tài trợ tốt có thể cạnh tranh với các nhà lãnh đạo trong ngành. Tuy nhiên, các chuyên gia lưu ý rằng thành công của công ty là do các khoản đầu tư đáng kể, đột phá kỹ thuật và một nhóm mạnh mẽ, thay vì "ngân sách cách mạng" để phát triển mô hình AI.
Hình ảnh: Ensigame.com
Mặc dù vậy, chi phí của Deepseek vẫn thấp hơn so với các đối thủ cạnh tranh. Chẳng hạn, trong khi Deepseek đã chi 5 triệu đô la cho R1, chi phí đào tạo cho TATGPT4O là 100 triệu đô la. Tuy nhiên, nó vẫn rẻ hơn so với các đối thủ cạnh tranh.