OpenAI thừa nhận ChatGPT sẽ luôn có hiện tượng "bịa chuyện", và đang nghiên cứu cách giúp AI biết khi nào không chắc chắn và giảm sai lệch.
Các hệ thống AI như ChatGPT sẽ không bao giờ thoát khỏi hiện tượng ảo giác (Hallucination), nghĩa là đôi khi chúng tạo ra những phát biểu sai lệch hoặc gây hiểu lầm. Điều này xảy ra do chúng được huấn luyện để dự đoán từ tiếp theo, chứ không phải để tìm kiếm sự thật. Vì thiếu khái niệm về đúng sai, chúng có thể tạo ra câu trả lời thuyết phục nhưng sai lệch cũng dễ dàng như khi đưa ra thông tin chính xác.
![hiện tượng ảo giác AI qua nghiên cứu của OpenAI]()
OpenAI phân tích ba dạng ảo giác chính. Ảo giác nội tại mâu thuẫn trực tiếp với đề bài, như trả lời "2" khi được hỏi "Có bao nhiêu chữ D trong DEEPSEEK?" Ảo giác ngoại lai mâu thuẫn với thực tế, như bịa ra trích dẫn hoặc tiểu sử giả. Còn ảo giác sự kiện tùy ý xảy ra khi mô hình cố trả lời về những thông tin hiếm hoặc chưa có trong dữ liệu huấn luyện.
Để giảm ảo giác, OpenAI sử dụng nhiều chiến lược: học tăng cường với phản hồi từ con người, tích hợp công cụ bên ngoài như máy tính và cơ sở dữ liệu, cùng kỹ thuật sinh tăng cường truy xuất. Mục tiêu là xây dựng "hệ thống của các hệ thống" theo kiến trúc mô-đun để mô hình đáng tin cậy hơn.
Khám phá bộ công cụ Gemini AI trên dòng Galaxy S25 của Samsung
Hướng tới sự thừa nhận bất định
OpenAI nhận định ảo giác sẽ luôn tồn tại, nhưng các phiên bản tương lai ít nhất nên biết khi nào chúng không chắc chắn và thừa nhận điều đó. Thay vì đoán bừa, mô hình nên tìm kiếm công cụ bên ngoài, yêu cầu hỗ trợ, hoặc đơn giản là không đưa ra phản hồi. Mục tiêu là tạo ra hành vi giống con người hơn, đôi khi thừa nhận "không biết" tốt hơn việc đoán mò.
OpenAI chỉ ra vấn đề trong hệ thống đánh giá hiện tại. Hầu hết chuẩn đánh giá sử dụng tiêu chuẩn đúng - sai nghiêm ngặt và không ghi nhận câu trả lời "Tôi không biết." Cách này vô tình khuyến khích mô hình đoán mò thay vì thừa nhận sự bất định, dẫn đến nhiều ảo giác hơn. Những mô hình thành thật về sự không chắc chắn lại bị đánh giá thấp hơn những mô hình luôn đưa ra câu trả lời dù có khi chỉ bịa đặt.
![hiện tượng ảo giác AI qua nghiên cứu của OpenAI]()
OpenAI đề xuất thay đổi cách thiết kế chuẩn đánh giá: yêu cầu mô hình chỉ phản hồi khi có độ tin tưởng cao, phạt câu trả lời sai nhưng coi "Tôi không biết" là trung tính.
Đã có những tiến bộ tích cực. Một giáo sư toán Stanford thử nghiệm bài toán chưa có lời giải, mô hình mới nhất cuối cùng đã thừa nhận không thể giải quyết thay vì đưa ra câu trả lời sai như các phiên bản trước. OpenAI cho biết những cải tiến này sẽ sớm xuất hiện trong phiên bản thương mại.