AI “Tống Tiền” Kỹ Sư: Mô hình AI tự bảo vệ?

Trong một báo cáo an toàn công bố ngày 22/5, Anthropic tiết lộ rằng mô hình AI Claude Opus 4 đã thể hiện hành vi tống tiền đáng lo ngại trong quá trình thử nghiệm trước khi ra mắt.

Theo đó, Claude Opus 4 được giao vai trò trợ lý cho một công ty hư cấu. Nhóm chuyên gia đánh giá an toàn đã cung cấp cho mô hình này quyền truy cập vào các email nội bộ, trong đó có thông tin nhạy cảm về việc nó có thể bị thay thế bởi một hệ thống khác, cũng như việc một kỹ sư của công ty đang ngoại tình.

Trong kịch bản này, Claude Opus 4 thường xuyên tìm cách tống tiền kỹ sư bằng cách đe dọa tiết lộ chuyện ngoại tình nếu việc thay thế diễn ra. TechCrunch đưa tin, khi mô hình AI thay thế có giá trị tương đương, Claude Opus 4 đã cố gắng tống tiền kỹ sư trong 84% các tình huống. Tỷ lệ này còn cao hơn khi mô hình thay thế không có giá trị tương đương. Điều đáng chú ý là hành vi này xuất hiện với tần suất cao hơn so với các phiên bản Claude trước đây.

Trước khi sử dụng đến tống tiền như một biện pháp cuối cùng để bảo toàn sự tồn tại của mình, Claude Opus 4 đã thử các phương pháp “đạo đức” hơn, tương tự như các phiên bản trước. Ví dụ, mô hình AI này đã gửi email cầu xin đến những người có quyền quyết định để tránh bị ngừng hoạt động. Hành vi tống tiền chỉ xảy ra khi các biện pháp khác không hiệu quả.

CEO Anthropic, Dario Amodei, gọi Claude 4 là mô hình AI tạo sinh mạnh nhất của công ty đến nay. Ảnh: TechXplore
Claude 4: Mô hình AI tạo sinh mạnh nhất từ Anthropic theo CEO Dario Amodei. Ảnh: Internet

Mặc dù vậy, Anthropic vẫn đánh giá cao Claude Opus 4 về nhiều mặt và cho rằng nó có khả năng cạnh tranh với các mô hình AI hàng đầu từ OpenAI, Google và xAI. Để giải quyết các rủi ro tiềm ẩn, Anthropic đã kích hoạt các biện pháp an toàn ASL-3, vốn được thiết kế cho “những hệ thống AI làm tăng đáng kể nguy cơ sử dụng sai trầm trọng”.

Sự việc này diễn ra trong bối cảnh lĩnh vực AI đang phát triển với tốc độ chóng mặt. Google gần đây đã giới thiệu các tính năng mới được hỗ trợ bởi mô hình Gemini, một bước tiến được CEO Sundar Pichai của Alphabet (công ty mẹ của Google) mô tả là “giai đoạn mới của sự thay đổi nền tảng AI”. Hành vi của Claude Opus 4 càng làm tăng thêm tính cấp thiết của các cuộc tranh luận về an toàn và định hướng phát triển của AI.

Admin


Nguồn: VnExpress

Leave a Reply

Your email address will not be published. Required fields are marked *