Meta 'lén lút' sử dụng 82TB sách lậu để huấn luyện AI

Meta bị cáo buộc tải 82TB sách lậu để huấn luyện AI, làm dấy lên lo ngại về đạo đức và pháp lý trong việc sử dụng dữ liệu có bản quyền.

Sự phát triển của AI như ChatGPT và Gemini đang đặt ra một thách thức lớn về đạo đức và pháp lý trong ngành công nghệ. Để tạo ra AI tiên tiến, các mô hình cần được đào tạo trên lượng dữ liệu chất lượng cao khổng lồ. Tuy nhiên, điều này tạo ra xung đột sâu sắc giữa nhu cầu dữ liệu và quyền sở hữu trí tuệ, khi nhiều công ty AI chọn cách thu thập dữ liệu từ các nguồn bất hợp pháp thay vì chi trả phí bản quyền.

Meta lén lút sử dụng 82TB sách lậu để huấn luyện AI

Meta là ví dụ điển hình cho vấn đề này. Theo các tài liệu vụ kiện được tiết lộ, công ty đã tải xuống tới 82TB sách vi phạm bản quyền để huấn luyện AI của mình. Những email nội bộ bị rò rỉ cho thấy nhiều nhân viên Meta đã bày tỏ lo ngại nghiêm trọng về đạo đức của hành vi này. Một nhà nghiên cứu cấp cao thẳng thắn tuyên bố: "Tôi không nghĩ chúng ta nên sử dụng tài liệu vi phạm bản quyền. Tôi thực sự cần đặt ra một ranh giới ở đây. SciHub, ResearchGate, LibGen về bản chất không khác gì PirateBay - đều đang phân phối nội dung được bảo vệ bản quyền trái phép."

Trong khi đó, ban lãnh đạo Meta, đặc biệt là Mark Zuckerberg, dường như ưu tiên việc đẩy nhanh tiến độ phát triển AI. Trong một cuộc họp vào tháng 1/2023, CEO Meta được cho là đã thúc giục "đẩy nhanh việc này" và "tìm cách vượt qua rào cản." Đáng chú ý hơn là phát ngôn của ông trong một cuộc phỏng vấn, cho rằng các nhà sáng tạo nội dung "thường đánh giá quá cao giá trị của họ" và việc không sử dụng nội dung của họ "không ảnh hưởng nhiều đến kết quả chung."

Meta lén lút sử dụng 82TB sách lậu để huấn luyện AI

Theo điều tra của Tom's Hardware và Ars Technica, Meta còn thực hiện nhiều biện pháp để che giấu việc tải xuống nội dung bất hợp pháp, như sử dụng VPN để tránh bị truy ngược. Thậm chí có nhân viên còn bình luận nửa đùa nửa thật: "Tải torrent trên laptop công ty không có cảm giác đúng lắm." Những hành động này cho thấy Meta hoàn toàn ý thức được tính chất phi pháp của việc làm này.

Sự việc càng trở nên phức tạp khi nhìn vào bối cảnh rộng lớn hơn. ChatGPT đã tạo nên cơn sốt toàn cầu vào cuối năm 2022, thúc đẩy cuộc đua AI trong ngành công nghệ. Dù các mô hình Llama mã nguồn mở của Meta nhận được nhiều đánh giá tích cực, nhưng Meta AI vẫn chưa tạo được tiếng vang như ChatGPT hay Gemini. Điều này có thể giải thích cho việc công ty sẵn sàng chấp nhận rủi ro pháp lý để đuổi kịp đối thủ.

Meta lén lút sử dụng 82TB sách lậu để huấn luyện AI

Nghịch lý là trong khi Meta và các công ty AI lớn đang bị kiện vì vi phạm bản quyền, chính OpenAI lại cáo buộc DeepSeek - một đối thủ mới nổi - sử dụng dữ liệu từ ChatGPT trái phép. Tình huống này phản ánh thực trạng phức tạp của ngành công nghiệp AI, nơi ranh giới giữa đổi mới công nghệ và tôn trọng quyền sở hữu trí tuệ ngày càng trở nên mờ nhạt, đồng thời đặt ra những câu hỏi quan trọng về tương lai phát triển của công nghệ AI.

Xem thêm