Google ra mắt DiffusionGemma giúp AI chạy cục bộ nhanh gấp 4 lần

Ngày 11/6, Google chính thức ra mắt DiffusionGemma, áp dụng cơ chế khuếch tán văn bản vào cấu trúc mô hình ngôn ngữ mở. Khác biệt hoàn toàn với các mô hình tự hồi quy truyền thống đang chiếm lĩnh thị trường, DiffusionGemma mang giải pháp xử lý dữ liệu song song cực kỳ hiệu quả. Sự xuất hiện của mô hình này hứa hẹn sẽ định hình lại bối cảnh công nghệ AI, đặc biệt là tối ưu hóa bài toán hiệu suất và tốc độ xử lý trực tiếp trên các thiết bị cục bộ.

Tóm tắt chung các điểm nổi bật của DiffusionGemma:

Kiến trúc đột phá: Thay thế cơ chế tạo mã token tuần tự bằng phương pháp khử nhiễu song song giúp tăng tốc độ xử lý.
Tốc độ vượt trội: Đạt hiệu suất xử lý dữ liệu và nội dung nhanh gấp 4 lần so với các kiến trúc mô hình cũ.
Khả năng tự sửa lỗi: Hỗ trợ cơ chế tối ưu kết quả liên tục thông qua các vòng lặp tạo lập.
Thành tích benchmark ấn tượng: Đạt kết quả xuất sắc trong các bài kiểm tra đánh giá năng lực tư duy toán học và lập trình.
Tối ưu phần cứng: Khai thác triệt để sức mạnh phần cứng từ hệ thống lõi Tensor Core của các dòng chip đồ họa NVIDIA.
Phát hành mở: Cung cấp mã nguồn mở theo giấy phép Apache 2.0 và cho phép tải về miễn phí trên Hugging Face.

DiffusionGemma khác gì so với các mô hình AI hiện nay?

Để hiểu được tầm quan trọng của sự kiện này, chúng ta cần so sánh DiffusionGemma với các mô hình AI lớn hiện nay như GPT hay Gemini. Các mô hình truyền thống này đa phần sử dụng kiến trúc tự hồi quy, vận hành theo nguyên lý tạo các mã token tuần tự từ trái sang phải.

Cơ chế này dù hoạt động rất hiệu quả trong các kịch bản xử lý hàng loạt trên đám mây, nhưng khi đưa vào môi trường suy luận cục bộ lại bị giới hạn nghiêm trọng bởi băng thông bộ nhớ, dẫn đến việc lãng phí tài nguyên tính toán.

Ngược lại, mô hình khuếch tán của DiffusionGemma áp dụng phương pháp loại bỏ nhiễu từng bước để tạo ra kết quả đầu ra cuối cùng. Thay vì phải tạo ra từng token một cách tuần tự, cấu trúc khuếch tán tiến hành xử lý song song tất cả các token cùng một lúc.

DiffusionGemma khác gì so với các mô hình AI hiện nay?

Về mặt năng lực tổng thể, mô hình mở này tương đương với các mô hình thuộc thế hệ Gemma 4 nhưng sở hữu hiệu suất suy luận vượt trội hơn đáng kể. Hiện tại, người dùng toàn cầu đã có thể tải trọng số mô hình từ nền tảng Hugging Face dưới bản quyền mã nguồn mở Apache 2.0.

Hiệu suất và chất lượng đầu ra của DiffusionGemma

Khi đi sâu vào phân tích năng lực vận hành thực tế, DiffusionGemma thể hiện sự bứt phá lớn về cả khía cạnh tốc độ tạo nội dung lẫn độ ổn định của dữ liệu. Về mặt chất lượng, mô hình này hỗ trợ tính năng tối ưu hóa kết quả qua các vòng lặp, cho phép hệ thống chủ động phát hiện và tự sửa lỗi trong quá trình khởi tạo văn bản.

Nhờ vậy, kết quả đầu ra đạt được độ ổn định và tính nhất quán rất cao. Tốc độ tạo nội dung của mô hình đạt con số vô cùng ấn tượng là 1479 tokens/giây, trong khi tổng chi phí thời gian khởi tạo chỉ mất vỏn vẹn 0.84 giây. Sự cải tiến này giúp hiệu suất tạo lập tổng thể được nâng lên một tầm cao mới.

Hiệu suất và chất lượng đầu ra của DiffusionGemma

Tuy nhiên, bên cạnh những ưu điểm vượt trội thì mô hình AI này vẫn tồn tại một số hạn chế nhất định trên các khía cạnh tư duy chuyên sâu. Cụ thể, trong bài kiểm tra lý luận khoa học GPQA Diamond, tỷ lệ chính xác của máy chỉ đạt 40.4%, thấp hơn đáng kể so với mức 56.5% của mô hình đối chứng.

Tương tự, trong bài thử nghiệm năng lực tư duy logic phức tạp BIG-Bench Extra Hard, DiffusionGemma cũng chỉ ghi được 15%, tụt lại phía sau so với con số 21% của đối thủ.

Kết quả benchmark trên lập trình và toán học

Dù gặp một vài hạn chế ở mảng tư duy logic tổng hợp, nhưng trong các lĩnh vực cụ thể như kỹ thuật lập trình và giải toán, kiến trúc khuếch tán của Google lại chứng minh được một tiềm năng cực kỳ mạnh mẽ. Các điểm số benchmark thực tế cho thấy mô hình này hoàn toàn có thể cạnh tranh sòng phẳng với các hệ thống AI hàng đầu hiện nay.

Ở mảng công nghệ mã nguồn và viết code, DiffusionGemma ghi nhận những thông số rất ấn tượng. Cụ thể, điểm số LiveCodeBench của mô hình đạt tỷ lệ 30.9%, điểm BigCodeBench đạt mức 45.4% và chỉ số HumanEval đạt tới 89.6%. Những kết quả này giúp tân binh của Google tạo nên một thế trận cạnh tranh “bất phân thắng bại” khi đặt lên bàn cân so sánh trực tiếp với mô hình Gemini 2.0 Flash-Lite.

Kết quả benchmark trên lập trình và toán học

Đặc biệt, năng lực toán học của mô hình này là một điểm sáng lớn. Trong kỳ thi thử nghiệm toán học danh tiếng AIME 2025, DiffusionGemma đã xuất sắc đạt được tỷ lệ chính xác 23.3%, vượt qua mốc 20% của các mô hình đối chứng truyền thống. Thành tích này chứng minh thế mạnh và tiềm năng to lớn của kiến trúc khuếch tán đối với các tác vụ tư duy logic toán học.

Hiệu năng thực tế trên GPU NVIDIA

Bên cạnh những tối ưu về mặt thuật toán phần mềm, hiệu năng thực tế của DiffusionGemma còn được nâng tầm mạnh mẽ nhờ sự phối hợp chặt chẽ với hạ tầng phần cứng xử lý đồ họa. Gã khổng lồ đồ họa NVIDIA cũng đã nhanh chóng đưa ra những phân tích chuyên sâu khẳng định sức mạnh của mô hình này trên hệ sinh thái của họ.

Trong bài viết đăng tải trên trang blog chính thức, NVIDIA chỉ ra rằng cấu trúc khuếch tán đặc thù của DiffusionGemma cho phép hệ thống khai thác triệt để năng lực tính toán song song từ các lõi Tensor Core tích hợp bên trong GPU. Các thử nghiệm đo lường hiệu năng thực tế trên hệ thống phần cứng NVIDIA đã cho ra những con số vô cùng kinh ngạc:

Trên một bộ xử lý đồ họa đơn lẻ H100 GPU, mô hình đạt tốc độ xử lý và phản hồi lên tới 1000 tokens/giây.
Khi vận hành trên hệ thống siêu máy tính DGX Spark, tốc độ xử lý ghi nhận được duy trì ở mức 150 tokens/giây.
Đặc biệt, trên hệ thống máy trạm chuyên dụng DGX Station, hiệu suất khởi tạo bùng nổ lên đến 2000 tokens/giây.

Mức hiệu năng đo lường này được xác định là nhanh gấp khoảng 4 lần so với việc vận hành các mô hình sử dụng cấu trúc tự hồi quy truyền thống trong cùng một điều kiện thiết lập phần cứng tương đương.

Hiệu năng thực tế trên GPU NVIDIA

Dù vẫn còn một vài điểm cần hoàn thiện ở mảng lý luận khoa học chuyên sâu, nhưng tiềm năng của DiffusionGemma trong các tác vụ thực tế là điều không thể phủ nhận. Việc phát hành dưới dạng mã nguồn mở sẽ là chất xúc tác mạnh mẽ thúc đẩy cộng đồng công nghệ toàn cầu cùng tham gia khai phá và nâng cấp mô hình này lên tầm cao mới trong tương lai.

Xem thêm