ChatGPT o3-mini vượt trội trong lập trình, toán học, khoa học cấp tiến sĩ và khả năng tìm kiếm web, thách thức mọi giới hạn AI.
OpenAI vừa cho ra mắt mô hình tiên phong o3-mini vào cuối tuần, đánh dấu bước đáp trả trước sự xuất hiện của mô hình lập luận DeepSeek R1 từ Trung Quốc. Sau khi công bố dòng mô hình o3 vào tháng 12 năm ngoái, OpenAI đã nhanh chóng phát hành o3-mini và o3-mini-high nhằm củng cố vị thế dẫn đầu trong cuộc đua AI. Để đánh giá khả năng của ChatGPT o3-mini so với các mô hình AI khác, nhiều cuộc kiểm nghiệm đã được thực hiện, tập trung vào khả năng lập trình cùng các tiêu chuẩn đánh giá chuyên sâu. Dưới đây là những phân tích chi tiết về hiệu năng của mô hình mới này.
1. Hiệu suất lập trình xuất sắc
OpenAI vừa giới thiệu o3-mini, một mô hình AI có khả năng xử lý các tác vụ lập trình với hiệu suất vượt trội, trong khi vẫn duy trì chi phí thấp và tốc độ xử lý nhanh. Trước sự xuất hiện của o3-mini, Claude 3.5 Sonnet của Anthropic từng là lựa chọn hàng đầu cho các truy vấn lập trình. Tuy nhiên, cục diện này đang thay đổi khi o3-mini ra mắt, đặc biệt là với phiên bản o3-mini-high dành cho người dùng ChatGPT Plus và Pro.
Qua các bài kiểm nghiệm, o3-mini-high thể hiện khả năng ấn tượng khi tạo ra một trò chơi rắn săn mồi (Snake) phức tạp bằng Python, với tính năng nhiều con rắn tự động cạnh tranh. Mô hình chỉ mất 1 phút 10 giây để phân tích và tạo ra đoạn mã hoàn chỉnh trong một lần duy nhất. Kết quả cho thấy trò chơi hoạt động trơn tru, với các con rắn tự động di chuyển một cách tự nhiên và chính xác như thể được điều khiển bởi người chơi thực thụ.
Đáng chú ý, o3-mini-high đã đạt điểm Elo 2.130 trên nền tảng lập trình cạnh tranh Codeforces, đưa mô hình này vào top 2.500 lập trình viên hàng đầu thế giới. Trong bài kiểm tra SWE-bench Verified - một bộ đánh giá khả năng giải quyết các vấn đề phần mềm thực tế, o3-mini-high đạt độ chính xác 49,3%, vượt qua cả mô hình lớn hơn o1 (48,9%).
2. Giải quyết các bài toán khó
Ngoài lập trình, toán học là lĩnh vực khác mà o3-mini vượt trội so với các mô hình AI khác. Trong kỳ thi Toán Mời Tham Dự Mỹ 2024 (AIME), bao gồm các câu hỏi về lý thuyết số, xác suất, đại số, hình học, v.v., o3-mini-high đạt kết quả ấn tượng 87,3%, cao hơn cả mô hình đầy đủ o1.
Trong bài kiểm tra FrontierMath khắt khe với các bài toán cấp độ chuyên gia từ các nhà toán học hàng đầu thế giới, những người đoạt Huy chương Fields và các giáo sư danh tiếng, o3-mini-high đạt 20% sau tám lần thử. Ngay cả trong một lần thử duy nhất, nó đạt 9,2%, một con số vẫn rất đáng kể.
Để so sánh, nhà toán học lừng danh Terence Tao từng mô tả các bài toán trong bài kiểm tra FrontierMath là “cực kỳ khó khăn.” Ngay cả các nhà toán học chuyên nghiệp cũng có thể mất hàng giờ hoặc nhiều ngày để giải quyết. Các mô hình ChatGPT thay thế khác chỉ đạt được khoảng 2% trong bài kiểm tra này.
3. Năng lực giải quyết vấn đề khoa học cấp tiến sĩ
Mô hình o3-mini-high thể hiện khả năng vượt trội trong việc trả lời các câu hỏi khoa học ở cấp độ tiến sĩ, với thành tích vượt xa nhiều mô hình AI khác. GPQA Diamond - một bài kiểm tra chuyên sâu nhằm đánh giá năng lực của các mô hình AI trong các lĩnh vực như sinh học, vật lý và hóa học - đã chứng minh điều này một cách rõ ràng.
Với điểm số ấn tượng 79,7% trong bài kiểm tra GPQA Diamond, o3-mini-high không chỉ vượt qua mô hình o1 lớn hơn (78,0%) mà còn để lại khoảng cách đáng kể so với mô hình lập luận Gemini 2.0 Flash Thinking (Exp-01-21) mới nhất của Google (73,3%) và Claude 3.5 Sonnet (65%).
Kết quả này cho thấy khả năng xử lý các vấn đề khoa học phức tạp không hoàn toàn phụ thuộc vào quy mô của mô hình. Một mô hình tương đối nhỏ như o3-mini của OpenAI, khi được tối ưu hóa về thời gian và tài nguyên tính toán, vẫn có thể đạt hiệu suất vượt trội trong việc giải quyết các câu hỏi khoa học cấp độ chuyên gia.
4. Kiến thức tổng quát
Mặc dù o3-mini được tối ưu hóa cho lập trình, toán học và khoa học, nhiều chuyên gia từng cho rằng kích thước nhỏ gọn của mô hình này sẽ khó cạnh tranh với các đối thủ lớn hơn trong lĩnh vực kiến thức tổng quát. Tuy nhiên, thực tế cho thấy o3-mini vẫn đạt được hiệu suất ấn tượng, gần ngang bằng với các mô hình có quy mô lớn hơn nhiều.
Kết quả từ bài kiểm tra MMLU - thước đo đánh giá hiệu suất của các mô hình AI trên nhiều lĩnh vực - cho thấy o3-mini-high đạt 86,9%, chỉ thấp hơn một chút so với GPT-4o của OpenAI với 88,7%.
Với thành tích ấn tượng của mô hình o1 đạt 92,3% trong bài kiểm tra MMLU, phiên bản o3 đầy đủ sắp ra mắt được kỳ vọng sẽ thiết lập một chuẩn mực mới về hiệu suất trong lĩnh vực kiến thức tổng quát, vượt trội so với các mô hình AI hiện có trên thị trường.
5. o3-mini với tính năng tìm kiếm web
Mốc kiến thức của o3-mini là vào tháng 10/2023, điều này hiện đã khá cũ. Tuy nhiên, OpenAI đã bổ sung tính năng tìm kiếm trên web cho mô hình o3-mini, cho phép nó trích xuất thông tin mới nhất từ internet và thực hiện các lập luận nâng cao. DeepSeek R1 cũng có khả năng này, nhưng không có mô hình lập luận nào khác cho phép bạn truy cập web để mở rộng khả năng lập luận.
Trên đây là một số khả năng tiên tiến của mô hình o3-mini. Trong khi người dùng ChatGPT miễn phí cũng có thể truy cập o3-mini, mức độ lập luận được đặt ở chế độ “trung bình,” sử dụng ít tài nguyên tính toán hơn.
OpenAI ChatGPT