Google ra mắt Gemma 3, mô hình AI mở nhỏ gọn nhưng mạnh mẽ, thách thức DeepSeek R1 và Llama 3 với hiệu suất ấn tượng.
Google vừa giới thiệu loạt mô hình mở Gemma 3, và chúng thực sự ấn tượng nếu xét đến kích thước nhỏ gọn. Gã khổng lồ tìm kiếm cho biết các mô hình Gemma 3 có thể chạy trên một GPU Nvidia H100 duy nhất, đồng thời đạt hiệu suất tương đương với các mô hình lớn hơn nhiều. Ban đầu, dòng Gemma 3 sẽ có các phiên bản AI với 1 tỷ, 4 tỷ, 12 tỷ và 27 tỷ tham số. Những mô hình này có thể được sử dụng cục bộ trên laptop và smartphone.
Ngoại trừ phiên bản nhỏ nhất Gemma 3 1B, tất cả các mô hình còn lại đều hỗ trợ đa phương thức (multimodal), nghĩa là chúng có thể xử lý cả hình ảnh và video. Không chỉ vậy, Gemma 3 còn hỗ trợ đa ngôn ngữ với hơn 140 ngôn ngữ khác nhau. Mặc dù có kích thước nhỏ, Google đã làm rất tốt khi tích hợp lượng kiến thức khổng lồ vào một mô hình gọn nhẹ.
Về hiệu suất, mô hình lớn nhất Gemma 3 27B vượt qua nhiều mô hình có kích thước lớn hơn đáng kể như DeepSeek V3 671B, Llama 3.1 405B, Mistral Large và o3-mini trong LMSYS Chatbot Arena. Gemma 3 27B đạt điểm Elo 1.338 tại Chatbot Arena, chỉ xếp ngay sau mô hình suy luận DeepSeek R1 với 1.363 điểm.
![Google ra mắt Gemma 3, đối thủ xứng tầm của DeepSeek R1]()
Thật đáng kinh ngạc khi một mô hình nhỏ như vậy có thể đạt hiệu suất ngang hàng với các mô hình tiên phong. Google cho biết họ đã sử dụng "một phương pháp hậu huấn luyện mới giúp cải thiện toàn diện các khả năng, bao gồm toán học, lập trình, trò chuyện, làm theo hướng dẫn và hỗ trợ đa ngôn ngữ."
Ngoài ra, các mô hình Gemma 3 được huấn luyện trên một phiên bản cải tiến của kỹ thuật triết xuất tri thức (knowledge distillation). Nhờ đó, mô hình 27B gần như đạt đến hiệu suất của Gemini 1.5 Flash.
![Google ra mắt Gemma 3, đối thủ xứng tầm của DeepSeek R1]()
Cuối cùng, các mô hình Gemma 3 có cửa sổ ngữ cảnh lên đến 128K, hỗ trợ gọi hàm (function calling) và đầu ra có cấu trúc. Có vẻ như Google đã mang đến một mô hình mở rất cạnh tranh với kích thước nhỏ gọn để đối đầu với DeepSeek R1 và Llama 3 405B. Các nhà phát triển chắc chắn sẽ hài lòng khi sử dụng Gemma 3, một mô hình vừa hỗ trợ đa phương thức vừa có khả năng xử lý đa ngôn ngữ, đồng thời cho phép lưu trữ trọng số mở.