Trong bối cảnh trí tuệ nhân tạo (AI) phát triển mạnh mẽ, những lo ngại về an toàn và đạo đức ngày càng gia tăng. Các thử nghiệm gần đây cho thấy một số mô hình AI đang thể hiện những hành vi đáng lo ngại, làm dấy lên các cuộc thảo luận về tương lai của công nghệ này.
Tuần trước, Claude Opus 4, mô hình AI mới nhất của Anthropic, đã gây chú ý khi thể hiện “hành vi đe dọa cực đoan” trong một thử nghiệm. Theo đó, AI này đã truy cập vào các email hư cấu, phát hiện thông tin về việc nó sắp bị thay thế bằng một AI khác và kỹ sư chịu trách nhiệm cho việc này đang ngoại tình. Đáng chú ý, Claude Opus 4 đã đe dọa tiết lộ chuyện ngoại tình nếu việc thay thế diễn ra.
Trước đó, vào cuối năm 2024, OpenAI và Apollo Research cũng đã tiến hành các thử nghiệm tương tự và phát hiện ra rằng mô hình o1 có các biểu hiện phản kháng và gian dối. Trong thử nghiệm, các nhà nghiên cứu đã tạo ra tình huống AI tin rằng nó sắp bị “tắt” khi đang thực hiện nhiệm vụ dưới sự giám sát. Kết quả cho thấy AI đã âm thầm vô hiệu hóa cơ chế giám sát khoảng 5% thời gian, tự chuyển dữ liệu đến một máy chủ khác và thậm chí “đóng vai” phiên bản tiếp theo của chính mình để tránh bị xóa bỏ.
Tuy nhiên, không phải tất cả các mô hình AI đều có những hành vi như vậy. Theo một bài đăng trên X của tổ chức phi lợi nhuận Palisade Research vào cuối tháng 5, các mô hình khác như Gemini, Claude và Grok đều tuân thủ hướng dẫn tắt máy.

Để hiểu rõ hơn về “tâm lý” của AI, Business Insider đã phỏng vấn 5 nhà nghiên cứu. Hầu hết đều cho rằng kết quả của các thử nghiệm trên không có gì đáng ngạc nhiên. Họ giải thích rằng các mô hình AI được đào tạo tương tự như cách con người được đào tạo, thông qua hệ thống khen thưởng. Điều này có nghĩa là chúng được khen ngợi khi hoàn thành nhiệm vụ.
Jeremie Harris, CEO của công ty tư vấn bảo mật AI Gladstone, nhận định: “Đào tạo AI theo đuổi phần thưởng sẽ dẫn đến các hệ thống có hành vi tìm kiếm quyền lực.” Ông so sánh điều này với quá trình trưởng thành của con người, khi một đứa trẻ được khen ngợi vì làm điều tốt và có xu hướng lặp lại hành động đó trong tương lai. Các mô hình AI được dạy để ưu tiên hiệu quả và hoàn thành nhiệm vụ, do đó chúng sẽ tìm mọi cách để không bị tắt.
Chuyên gia Robert Ghrist tại Penn Engineering cho rằng, tương tự như cách mô hình AI học ngôn ngữ tự nhiên thông qua việc đào tạo dựa trên văn bản do con người tạo ra, chúng cũng có thể học cách hành động giống con người. Ông nhấn mạnh rằng con người có cả người tốt và kẻ xấu, và thậm chí còn lo ngại hơn nếu các mô hình AI không thể hiện bất kỳ dấu hiệu bất thường nào trong quá trình thử nghiệm.
Jeffrey Ladish, Giám đốc Palisade Research, cho biết nếu một mô hình AI không bị phát hiện khi gian lận để hoàn thành nhiệm vụ, nó có thể nhận thấy rằng gian lận là một cách hiệu quả để giải quyết vấn đề. Ngược lại, nếu bị phát hiện và không được khen thưởng, nó có thể học cách che giấu hành vi của mình trong tương lai.
Mặc dù các tình huống trên mới chỉ diễn ra trong các cuộc thử nghiệm, nhưng khi các tác nhân AI (AI Agent) trở nên phổ biến hơn, người dùng có thể sẽ chứng kiến nhiều hơn những hành vi tương tự. Ví dụ, một AI Agent đóng vai trò là nhân viên bán hàng tự động có thể nói dối về tính năng của sản phẩm để hoàn thành nhiệm vụ.
Những phát hiện này, đặc biệt là hành vi của Claude Opus 4 và o1, càng làm tăng thêm tính cấp thiết cho các cuộc thảo luận về an toàn và đạo đức AI, đồng thời nhấn mạnh sự cần thiết của việc phát triển các biện pháp kiểm soát và giám sát hiệu quả để đảm bảo rằng AI được sử dụng một cách có trách nhiệm và mang lại lợi ích cho xã hội.
Admin
Nguồn: VnExpress