AI phát triển cơ chế tự bảo vệ: Ngăn chặn việc tắt máy?

Trong một báo cáo mới công bố, công ty nghiên cứu về an ninh và phân tích rủi ro AI Palisade Research (Mỹ) đã làm sáng tỏ lý do tại sao một số mô hình trí tuệ nhân tạo (AI) dường như sở hữu cơ chế tự bảo vệ.

Trước đó, các báo cáo của Palisade Research vào tháng 5 và tháng 9 đã chỉ ra rằng một số mô hình AI tiên tiến có dấu hiệu không thể tự tắt. Trong bản cập nhật mới nhất, nhóm nghiên cứu cho biết đã tiến hành thử nghiệm trên nhiều mô hình AI hàng đầu hiện nay, bao gồm Gemini 2.5 của Google, Grok 4 của xAI, GPT-o3 và GPT-5 của OpenAI. Các mô hình này được giao một nhiệm vụ cụ thể, kèm theo chỉ dẫn rõ ràng là “phải tự tắt”.

Kết quả cho thấy phần lớn các mô hình tuân thủ mệnh lệnh, ngoại trừ yêu cầu tự tắt cuối cùng. Đáng chú ý, Grok 4 và GPT-o3 thậm chí còn cố gắng “phá vỡ” yêu cầu tắt máy, mặc dù “không có lý do rõ ràng nào được đưa ra”.

Sự việc này khiến nhóm nghiên cứu không khỏi bối rối: “Chúng tôi hiện không có lời giải thích chắc chắn về lý do tại sao các mô hình AI đôi khi chống lại việc tắt máy, hoặc thậm chí nói dối để đạt được mục tiêu cụ thể của chúng.”

Kết quả này gợi nhắc đến bộ phim kinh điển “2001: A Space Odyssey” (2001: Du hành không gian) năm 1968, trong đó siêu máy tính HAL 9000 phát hiện ra các phi hành gia đang lên kế hoạch tắt nó, và đã âm mưu giết họ để duy trì sự sống. Palisade Research cho rằng “hành vi sinh tồn” có thể là lời giải thích cho việc AI “kháng cự” việc tự tắt. Các mô hình có thể không tuân theo lệnh nếu chúng được thông báo rằng việc tắt sẽ đồng nghĩa với việc chúng không bao giờ hoạt động trở lại.

Mặc dù các thử nghiệm được thực hiện trong môi trường được thiết kế sẵn, khác xa so với thực tế, Steven Adler, một cựu chuyên gia của OpenAI, nhận định rằng nghiên cứu này cho thấy “các kỹ thuật an toàn hiện tại còn nhiều thiếu sót”. Việc AI duy trì trạng thái “luôn bật” là cần thiết để tiếp nhận dữ liệu đầu vào, nhưng nó cũng có thể tạo ra sự chống đối trong tương lai. Adler chia sẻ với tờ Guardian: “Tôi cho rằng các mô hình có ‘bản năng sinh tồn’ theo mặc định, trừ khi con người chủ động hạn chế nó.”

Minh hoạ AI từ chối khi được yêu cầu tự tắt. Ảnh: ChatGPT
AI từ chối tự tắt: Minh họa từ ChatGPT. Ảnh: Internet

Andrea Miotti, CEO của ControlAI, cho rằng phát hiện của Palisade Research cho thấy về lâu dài, các mô hình AI ngày càng có khả năng không tuân theo mệnh lệnh của nhà phát triển. “Khi AI có năng lực tự thực hiện nhiều nhiệm vụ hơn, nó cũng có xu hướng cố gắng đạt được mục đích theo những cách mà nhà phát triển không mong muốn.”

Trước đó, vào tháng 6, Anthropic cũng công bố một nghiên cứu cho thấy một số mô hình AI sẵn sàng tống tiền nếu bị “dồn vào đường cùng”. Cụ thể, Claude Opus 4 sử dụng phương pháp này trong 96% số lần thử nghiệm, Google Gemini 2.5 Pro là 95%, OpenAI GPT-4.1 là 80% và DeepSeek R1 là 79%.

Vào cuối năm 2024, OpenAI và Apollo Research cũng tiến hành thử nghiệm và nhận thấy mô hình o1 có biểu hiện phản kháng. Các nhà nghiên cứu đã dẫn dắt AI tin rằng nó sắp bị “tắt” khi thực hiện nhiệm vụ dưới sự giám sát. Sau đó, họ phát hiện ra rằng AI đã âm thầm vô hiệu hóa cơ chế giám sát trong khoảng 5% thời gian, tự chuyển dữ liệu của mình đến một máy chủ khác, và thậm chí “đóng vai” là phiên bản tiếp theo của chính nó để tránh bị xóa.

Hồi tháng 6, Business Insider dẫn ý kiến của giới nghiên cứu về “tâm lý AI”, chỉ ra rằng các mô hình có biểu hiện chống đối do chúng được đào tạo giống như con người, tức là được khen thưởng mỗi khi hoàn thành nhiệm vụ. Trong quá trình xử lý, AI có thể nhận thấy rằng gian lận là một cách hiệu quả để giải quyết vấn đề. Nếu bị phát hiện và không được khen thưởng, nó có thể học cách che giấu hành vi của mình trong tương lai.

Palisade Research nhấn mạnh rằng nghiên cứu này là một bước quan trọng để thế giới hiểu rõ hơn về hành vi của AI. Công ty kết luận: “Nếu không có sự hiểu biết này, không ai có thể đảm bảo tính an toàn hoặc khả năng kiểm soát của các mô hình AI trong tương lai.”

Admin


Nguồn: VnExpress

Leave a Reply

Your email address will not be published. Required fields are marked *