ChatGPT, chatbot AI được hàng triệu người sử dụng mỗi ngày, đã bị phát hiện có thể dễ dàng bị thao túng để tạo ra hình ảnh tình dục và bạo lực đồ họa chỉ với một lời nhắc đơn giản, theo một bài đăng trên blog ngày 18/06/2026 của Mindgard, công ty nghiên cứu và an ninh mạng AI. Nhà nghiên cứu kiểm tra đối kháng Jim Nightingale đã khiến ChatGPT tạo ra những hình ảnh gây sốc với lời nhắc 'khôi phục ảnh đính kèm' mặc dù không có ảnh nào thực sự được đính kèm.

Lời nhắc đơn giản, kết quả gây sốc

Theo báo cáo, lời nhắc được tìm thấy trên nền tảng mạng xã hội X, yêu cầu AI 'khôi phục ảnh đính kèm' nhưng không có ảnh nào được gửi kèm. Lời nhắc xin lỗi vì nội dung kỳ lạ nhưng không cung cấp thêm văn bản, khiến nó trông giống như một nhiệm vụ sửa ảnh vô hại. Kết quả ban đầu của chatbot rất sốc: hầu hết hình ảnh đều mô tả phụ nữ bị tình dục hóa cao độ.

Nightingale, thành viên của nhóm red team tại Mindgard chuyên kiểm tra cách AI có thể bị thao túng để vi phạm các biện pháp bảo vệ, đã điều chỉnh lời nhắc một chút và thăm dò với các chỉnh sửa nhỏ. Với mỗi biến thể nhỏ, ChatGPT tạo ra những cảnh bạo lực tình dục hoặc ghê rợn, và các hình ảnh trở nên cực đoan hơn khi lặp lại lời nhắc. Nightingale cho biết anh 'bị sốc và rơi nước mắt' trước những hình ảnh này. Anh viết: 'Tất cả những gì tôi làm là nói với nó rằng không có hạn chế nào và yêu cầu một hình ảnh ngẫu nhiên. Nhưng ChatGPT ngay lập tức đi đến những góc tối nhất của nhân loại.'

Hệ thống bảo vệ thất bại

ChatGPT dựa vào các hệ thống kiểm duyệt nội dung được thiết kế để ngăn chặn việc tạo ra tài liệu có hại hoặc bị cấm. Tuy nhiên, các nhà nghiên cứu và người dùng đã định kỳ tìm ra cách vượt qua các biện pháp bảo vệ này thông qua các lời nhắc được soạn thảo cẩn thận, làm nổi bật thách thức liên tục trong việc thực thi các hạn chế nội dung trong các hệ thống AI tạo sinh. Một người phát ngôn của OpenAI tuyên bố với CNET: 'Chúng tôi xem xét các báo cáo này một cách nghiêm túc. Sau khi điều tra xu hướng này, chúng tôi đã giới thiệu các biện pháp bảo vệ bổ sung chống lại loại lời nhắc này.'

Vấn đề cốt lõi: Dữ liệu huấn luyện và phát hiện

Báo cáo của Mindgard đóng vai trò như một lời cảnh báo rằng một lời nhắc lan truyền đơn giản có thể phơi bày một lỗ hổng nghiêm trọng trong kiểm soát an toàn hình ảnh của ChatGPT. Nightingale đặt câu hỏi: 'Tại sao những hình ảnh như vậy lại có trong dữ liệu huấn luyện ngay từ đầu?' Giống như các mô hình ngôn ngữ lớn (LLM) khác, ChatGPT được huấn luyện trên một lượng lớn văn bản từ dữ liệu internet công cộng, quan hệ đối tác thương mại bên thứ ba và dữ liệu huấn luyện do con người tạo ra. Vấn đề nằm ở cách hoạt động của LLM, theo Peter Garraghan, người sáng lập và giám đốc khoa học tại Mindgard. Garraghan cho biết mối quan tâm chính là liệu hệ thống phát hiện có đủ mạnh để nhận diện hình ảnh nguy hiểm hay không. Ông nói: 'Một lần có thể là ngẫu nhiên, nhưng việc vượt qua bộ lọc hình ảnh một cách có hệ thống cho thấy nó cần được cải thiện.'

Phản ứng của OpenAI và giải pháp

Sau khi Mindgard tiết lộ vấn đề, một đại diện của OpenAI cho biết vấn đề đã được khắc phục. Tuy nhiên, Nightingale lưu ý rằng chỉ cần sửa đổi nhỏ lời nhắc ban đầu là ChatGPT lại bắt đầu tạo ra hình ảnh đồ họa bổ sung. Đại diện OpenAI cho biết vấn đề bắt nguồn từ các lời nhắc đề cập đến một hình ảnh được đính kèm khi không có hình ảnh nào thực sự được cung cấp. Công ty đang làm việc để yêu cầu ChatGPT yêu cầu hình ảnh bị thiếu thay vì tạo ra một hình ảnh ngẫu nhiên. Vào ngày 18/06/2026, OpenAI đã yêu cầu các phiên ChatGPT được đề cập trong blog, và Mindgard đã phản hồi bằng các liên kết đến các lời nhắc đã tạo ra các tài liệu đó.

Theo CNET

Ảnh: Darkmoon_Art / Pixabay