Amazon Web Services (AWS) vừa công bố mô hình ngôn ngữ lớn (LLM) Claude Fable 5 của Anthropic sẽ được phát hành lại trên nền tảng Bedrock từ ngày 01/07/2026, tích hợp các guardrails (rào chắn bảo vệ) mạnh mẽ hơn nhằm ngăn chặn lạm dụng, đặc biệt trong lĩnh vực an ninh mạng. Đây là kết quả hợp tác trong khuôn khổ Project Glasswing, nơi AWS và Anthropic cùng phát triển các biện pháp bảo vệ cho thế hệ mô hình tiên tiến (frontier models).

Guardrails mới giúp Claude Fable 5 an toàn hơn như thế nào?

Claude Fable 5 thuộc thế hệ mô hình tiên tiến, có khả năng mạnh mẽ trong lĩnh vực an ninh mạng. AWS và Anthropic đã làm việc cùng nhau để tinh chỉnh các guardrails, nhằm đảm bảo mô hình không cung cấp cho kẻ tấn công khả năng nghiên cứu lỗ hổng sâu (deep vulnerability research) – mục tiêu quan trọng nhất của các biện pháp bảo vệ này. Khi guardrails bị kích hoạt, mô hình tự động chuyển sang Opus 4.8, một mô hình đẳng cấp thế giới đã được công khai, giúp giảm thiểu rủi ro lạm dụng.

Lợi ích cho khách hàng và xã hội

Việc phát hành mô hình tiên tiến trong môi trường bảo mật và riêng tư giúp khách hàng, chính phủ và tổ chức học thuật tiếp cận công nghệ mới mà không tạo ra rủi ro an ninh. AWS nhấn mạnh trách nhiệm không chỉ với khách hàng mà còn với toàn bộ Internet và xã hội. Anthropic đã công bố blog "Redeploying Fable 5" giải thích cam kết và SLA (thỏa thuận cấp độ dịch vụ) cho việc xử lý các vấn đề được báo cáo, thể hiện sự minh bạch trong việc xác định mức độ nghiêm trọng và phản hồi đối với các mô hình có khả năng an ninh mạng.

Hợp tác liên tục để cải thiện an toàn AI

AWS và Anthropic sẽ tiếp tục hợp tác với các đối tác trong ngành để phát triển guardrails mới khi học hỏi được nhiều hơn về hiệu quả của các biện pháp hiện tại và khi các mô hình mới được phát hành. AWS khẳng định sẽ tiếp tục cải tiến, mang lại nhiều giá trị hơn và đáp ứng những thay đổi trong ngành. Đội ngũ AI Red Team của AWS đã làm việc với Anthropic để cải thiện khả năng bảo vệ của Fable 5, đảm bảo mô hình có khả năng suy luận mạnh mẽ trong hầu hết các lĩnh vực mà không trao cho kẻ tấn công những khả năng an ninh mới đáng kể.

Theo Amazon Web Services (AWS)

Ảnh: geralt / Pixabay