Gemini 2.5 Computer Use của Google có thể tự duyệt web, nhấp chuột, điền form và cuộn trang như con người, mở ra kỷ nguyên AI thực thi tác vụ số.
Bạn có tưởng tượng được một trợ lý AI không chỉ trả lời câu hỏi mà còn tự mình lướt web, nhấp chuột, điền form và cuộn trang giống hệt cách bạn làm? Google vừa biến điều đó thành hiện thực với Gemini 2.5 Computer Use - một bước tiến đáng kinh ngạc hướng tới kỷ nguyên AI thực thi tác vụ số.
Tham khảo thêm một số sản phẩm MacBook Air M4 tại Minh Tuấn Mobile nhé!
Gemini 2.5 Computer Use là gì?
Gemini 2.5 Computer Use được xây dựng trên nền tảng Gemini 2.5 Pro, nhưng điểm khác biệt nằm ở chỗ: nó không còn là chatbot truyền thống nữa. Mô hình này có thể trực tiếp tương tác với giao diện web - từ những thao tác đơn giản như nhấp chuột, nhập văn bản, cuộn trang, cho đến điền biểu mẫu hay thậm chí thêm sản phẩm vào giỏ hàng.
![Gemini 2.5: AI của Google có thể thao tác như con người]()
Điều đặc biệt là Gemini 2.5 không chỉ dừng lại ở việc "nói" mà còn "hành động", giúp bạn tự động hóa các công việc trực tuyến mà không cần thao tác thủ công hay đụng đến những dòng code API phức tạp.
AI "suy nghĩ" và hành động như thế nào?
Bí mật nằm ở cơ chế vòng phản hồi lặp (iterative feedback loop). Khi nhận được yêu cầu từ bạn, AI sẽ phân tích ba thứ: câu lệnh của bạn, ảnh chụp màn hình hiện tại và lịch sử các hành động trước đó.
![Gemini 2.5: AI của Google có thể thao tác như con người]()
Dựa trên đó, nó đưa ra quyết định cụ thể - nhấp vào đâu, gõ gì, hay cuộn đến đâu. Sau mỗi hành động, màn hình được cập nhật và gửi lại cho AI. Vòng lặp này cứ tiếp diễn cho đến khi nhiệm vụ hoàn tất.
Nhờ cách hoạt động này, Gemini 2.5 có thể xử lý các tác vụ liên tục một cách thông minh - giống như có một người thật đang ngồi trước màn hình.
Ứng dụng và tiềm năng thực tế
Hiện tại, Gemini 2.5 được tối ưu cho trình duyệt web, nhưng Google đã tiết lộ kế hoạch mở rộng sang ứng dụng di động trong tương lai. Thậm chí ngay trong nội bộ Google, công nghệ này đã được áp dụng vào kiểm thử giao diện (UI testing), giúp rút ngắn đáng kể thời gian phát triển phần mềm.
![Gemini 2.5: AI của Google có thể thao tác như con người]()
Các demo thử nghiệm cho thấy AI có thể chơi game 2048, duyệt các trang web phức tạp, và điều bất ngờ nhất - vượt qua CAPTCHA của chính Google Search. Đây là minh chứng rõ nét cho khả năng xử lý linh hoạt và chính xác của mô hình.
Google kiểm soát an toàn như thế nào?
Dù sở hữu sức mạnh ấn tượng, Google vẫn đặt yếu tố an toàn lên hàng đầu. Công ty đã tích hợp các biện pháp bảo vệ ngay trong lõi hệ thống để ngăn AI thực hiện những hành động nguy hiểm như:
- Truy cập trái phép vào hệ thống
- Xâm phạm bảo mật thông tin
- Vượt CAPTCHA khi chưa có sự đồng ý
Bên cạnh đó, các nhà phát triển còn được trang bị bộ công cụ để kiểm soát các hành vi rủi ro, đảm bảo AI luôn hoạt động trong giới hạn an toàn và minh bạch.
Cách sử dụng Gemini 2.5 Computer Use
Hiện tại, Gemini 2.5 Computer Use mới chỉ mở cửa cho nhà phát triển thông qua Gemini API, Google AI Studio và Vertex AI. Người dùng phổ thông như bạn và tôi vẫn cần kiên nhẫn thêm chút nữa. Tuy nhiên, đây rõ ràng là bước đệm quan trọng cho thế hệ AI tự động hóa toàn diện trong tương lai gần.
Lời kết
Với Gemini 2.5 Computer Use, Google đang từng bước biến giấc mơ về AI hành động như con người thành hiện thực. Một AI có thể tự duyệt web, xử lý công việc và hỗ trợ chúng ta một cách chủ động - không còn chỉ là ý tưởng viễn tưởng.
Dù còn ở giai đoạn thử nghiệm, công nghệ này đã mở ra tiềm năng khổng lồ cho thế giới số, nơi AI sẽ trở thành "trợ lý kỹ thuật số" thực thụ, thay đổi hoàn toàn cách chúng ta tương tác và làm việc trên Internet.
Gemini 2.5 Computer Use Google Gemini Artificial Intelligence