Nghiên cứu mới được Apple công bố gần đây với tiêu đề “Ảo tưởng về Tư duy” đã giáng một đòn mạnh vào những kỳ vọng lạc quan về khả năng “lý luận” của trí tuệ nhân tạo (AI) và sự xuất hiện của siêu trí tuệ nhân tạo AGI.
Báo cáo chỉ ra rằng các mô hình lý luận lớn (LRM) hàng đầu hiện nay như OpenAI o1, o3, DeepSeek R1, Claude 3.7 Sonnet Thinking hay Google Gemini Flash Thinking đều gặp phải tình trạng “sụp đổ hoàn toàn về độ chính xác” khi đối diện với các vấn đề có độ phức tạp cao. Trước đó, những mô hình này được ca ngợi về khả năng “suy luận”, một bước tiến quan trọng hướng tới việc phát triển AGI – hệ thống siêu trí tuệ nhân tạo có khả năng tư duy và thông minh tương tự con người.
Để chứng minh rằng LRM chưa thực sự thông minh như những lời quảng cáo, Apple đã sử dụng một phương pháp đánh giá khác biệt so với các bài kiểm tra toán học tiêu chuẩn thường dùng cho AI. Thay vì dựa vào các bài kiểm tra có thể đã bị “nhiễm” dữ liệu từ Internet, nhóm nghiên cứu đã tự thiết kế một môi trường giải đố có kiểm soát. Môi trường này bao gồm các trò chơi logic như Checkers Jumping, River Crossing, Tháp Hà Nội và Blocks World. Sau đó, họ đưa các mô hình AI vào giải các bài toán này.
Phương pháp này cho phép nhóm nghiên cứu điều chỉnh độ khó của các bài toán, đồng thời vẫn duy trì cấu trúc logic của hệ thống, từ đó đánh giá chính xác hơn kết quả cuối cùng. Hơn nữa, nhóm nghiên cứu có thể theo dõi quá trình “suy nghĩ” của AI, tương tự như cách giáo viên quan sát học sinh giải toán, để đưa ra kết luận.
Kết quả thu được khá bất ngờ. Với các bài toán có “độ phức tạp thấp”, các mô hình AI thông thường thường đưa ra kết quả chính xác, trong khi các “siêu AI” với khả năng lý luận lại gặp khó khăn. Điều này giống như việc một học sinh bình thường có thể giải một bài toán đơn giản, nhưng một thiên tài toán học lại áp dụng nhiều công thức phức tạp khiến bài giải trở nên rắc rối.
Khi độ khó tăng lên mức “trung bình”, LRM bắt đầu thể hiện khả năng của mình bằng cách tạo ra các chuỗi suy luận dài để giải quyết vấn đề. Trong khi đó, AI thông thường gặp nhiều hạn chế và thậm chí không thể xử lý được.
Tuy nhiên, khi đối mặt với những thách thức có “độ phức tạp cao”, cả hai loại AI đều bộc lộ những điểm yếu. Trong khi AI thông thường dừng lại ở các bài toán trung bình, LRM lại bắt đầu làm mọi thứ trở nên phức tạp hơn.

Nghiên cứu chỉ ra rằng tất cả các mô hình lý luận đều có một điểm yếu chung: độ chính xác giảm dần khi độ phức tạp của vấn đề tăng lên, cho đến khi “sụp đổ” hoàn toàn và đạt mức 0.
Ví dụ, với trò chơi Tháp Hà Nội, Claude 3.7 Sonnet Thinking và DeepSeek R1 bắt đầu thất bại khi số lượng đĩa tăng lên năm. Tính nhất quán cũng là một vấn đề, khi Claude 3.7 Sonnet Thinking có thể thực hiện chính xác hơn 100 bước đi trong bài toán Tháp Hà Nội phức tạp, nhưng lại thất bại chỉ sau bốn bước trong trò chơi River Crossing đơn giản hơn.
Ngay cả khi được cung cấp nhiều sức mạnh tính toán hơn, LRM vẫn không thể giải quyết các câu đố phức tạp. Nhóm nghiên cứu còn phát hiện ra rằng các mô hình lý luận này có hành động “phản trực giác”, tức là tăng cường năng lực tính toán khi độ khó tăng lên, nhưng lại bỏ qua các bước giải ở một số điểm nhất định nếu vấn đề trở nên quá khó.
Báo cáo cho biết khi độ khó đạt đến một ngưỡng nhất định, các mô hình bắt đầu giảm nỗ lực lý luận. Do đó, khi vấn đề trở nên quá khó, chúng sử dụng ít token hơn, đồng nghĩa với việc “suy nghĩ” ít hơn.
Dựa trên các thử nghiệm, nhóm nghiên cứu của Apple kết luận rằng không có bằng chứng nào cho thấy các mô hình này thực hiện các bước suy luận logic thực sự. Thay vào đó, chúng chỉ hoạt động như các hệ thống dự đoán từ dựa trên dữ liệu đầu vào đã được huấn luyện.
Nhóm nghiên cứu đặt ra câu hỏi liệu chúng ta có đang quá phấn khích và ảo tưởng về khả năng hiện tại của LRM hay không, khi mà những chuỗi suy nghĩ dài dòng có vẻ thông minh nhưng thực chất lại không có quá trình suy luận thực sự.
Sau khi nghiên cứu của Apple được công bố, Gary Marcus, một học giả và chuyên gia AI người Mỹ, đã mô tả kết quả này là “khá tàn khốc”. Ông cho rằng nghiên cứu này cho thấy LLM và LRM chưa thể là con đường dẫn đến AGI. Marcus nhấn mạnh rằng bất kỳ ai nghĩ LLM là con đường trực tiếp dẫn đến AGI có thể đang tự lừa dối mình.
Andrew Rogoyski của Đại học Surrey nhận định rằng nghiên cứu của Apple cho thấy ngành công nghiệp trí tuệ nhân tạo “vẫn đang mò mẫm” trên con đường tìm kiếm AGI. Ông cho rằng phát hiện này cho thấy các mô hình AI lớn chỉ có thể giải quyết các vấn đề dễ đến trung bình, chứ chưa xử lý được các vấn đề phức tạp, và có thể đã đi vào “ngõ cụt” trong cách tiếp cận hiện tại.
Admin
Nguồn: VnExpress