DeepSeek V3.1 đã cải thiện vượt trội so với phiên bản trước, nhưng vẫn chưa thể vượt mặt sức mạnh của GPT-5 và Claude Opus.
Gã khổng lồ AI Trung Quốc DeepSeek vừa gây chú ý khi cho ra mắt DeepSeek V3.1, một mô hình suy luận lai được thiết kế chuyên biệt cho các tác vụ agentic và gọi công cụ. Điểm nổi bật của mô hình này là cơ chế “DeepThink” độc đáo, cho phép nó tự động chuyển đổi giữa hai chế độ: Think và Non-think.
![deepseek v3.1 ra mắt]()
Chế độ Non-think sử dụng mô hình deepseek-chat, trong khi chế độ Think vận hành bằng deepseek-reasoner. Cơ chế này cho phép mô hình dành thêm thời gian "suy nghĩ" nếu gặp phải những câu hỏi phức tạp, đòi hỏi nhiều bước xử lý. Cả hai chế độ đều có độ dài ngữ cảnh 128K tokens và kích hoạt 37 tỷ trong tổng số 671 tỷ tham số của mô hình. DeepSeek V3.1 Base được huấn luyện trên 840 tỷ tokens, thể hiện một sự nâng cấp đáng kể so với phiên bản V3.
Một trong những điểm sáng nhất của V3.1 chính là khả năng suy luận đa bước. Trong thử nghiệm SWE-bench Verified, một bộ đánh giá khả năng lập trình thực tế, DeepSeek V3.1 đạt tỷ lệ ấn tượng 66,0%, vượt xa con số 44,6% của người tiền nhiệm DeepSeek R1-0528.
![deepseek v3.1 ra mắt]()
Tuy nhiên, khi đặt lên bàn cân với các đối thủ hàng đầu, vị thế của DeepSeek V3.1 trở nên rõ ràng hơn. Mặc dù có bước tiến lớn, nó vẫn chưa thể sánh bằng GPT-5 Thinking của OpenAI, vốn đạt 74,9%, hay Claude Opus 4.1 của Anthropic với 74,5% trên cùng bài kiểm tra. Tương tự, trong Humanity’s Last Exam (HLE), V3.1 chỉ đạt 29,8% khi sử dụng tool calling, và 81% trong GPQA Diamond.
Dù còn khoảng cách để đuổi kịp những "ông lớn" như GPT và Claude, không thể phủ nhận DeepSeek V3.1 là một bước tiến quan trọng. Với mức giá API cạnh tranh: chỉ $0,56 cho input và $1,68 cho output trên mỗi 1 triệu tokens, mô hình này có thể trở thành một lựa chọn hấp dẫn cho các nhà phát triển đang tìm kiếm một giải pháp mạnh mẽ với chi phí hợp lý.
Tham khảo ngay dòng Galaxy S25 để trải nghiệm Gemini AI với nhiều tính năng cực kỳ thông minh