OpenAI tung mô hình ngôn ngữ mở giá rẻ mới

OpenAI vừa chính thức giới thiệu hai mô hình ngôn ngữ mới, gpt-oss-120b và gpt-oss-20b, với trọng số mở và khả năng xử lý văn bản thuần túy. Được thiết kế như các giải pháp tiết kiệm chi phí, chúng hướng đến việc giúp các nhà phát triển, nhà nghiên cứu và doanh nghiệp dễ dàng triển khai và tùy chỉnh.

CEO OpenAI, Sam Altman, chia sẻ: “Chúng tôi rất vui mừng mang những mô hình mới này, kết quả của hàng tỷ đô la đầu tư nghiên cứu, đến với cộng đồng, giúp AI tiếp cận được nhiều người hơn.”

Sam Altman, CEO OpenAI. Ảnh: TechCrunch
Sam Altman (OpenAI): Tiểu sử CEO và ảnh nổi bật. Ảnh: Internet

Mô hình trọng số mở, khác với mô hình mã nguồn mở, cho phép người dùng tải xuống và sửa đổi các tham số được sử dụng trong quá trình huấn luyện, mang lại tính minh bạch và khả năng kiểm soát cao hơn. Trong thời gian gần đây, một số công ty công nghệ như Meta, Mistral AI và DeepSeek của Trung Quốc cũng đã phát hành các mô hình trọng số mở.

Mặc dù OpenAI kỳ vọng các sản phẩm của mình sẽ dẫn đầu trong số các mô hình AI trọng số mở, thử nghiệm cho thấy gpt-oss-120b và gpt-oss-20b vẫn gặp phải hiện tượng “ảo giác” nhiều hơn so với hai mô hình lý luận mới nhất của công ty là o3 và o4-mini.

Trong bài kiểm tra lập trình cạnh tranh Codeforces, gpt-oss-120b đạt 2.622 điểm và gpt-oss-20b đạt 2.516 điểm, vượt qua R1 của DeepSeek nhưng vẫn thấp hơn o3 và o4-mini. Tương tự, trong bài kiểm tra đa lĩnh vực Humanity’s Last Exam (HLE), gpt-oss-120b và gpt-oss-20b lần lượt đạt 19% và 17,3%, kém o3 nhưng lại tốt hơn các mô hình mở hàng đầu từ DeepSeek và Qwen.

Việc OpenAI phát hành mô hình trọng số mở đã được mong đợi từ lâu, đặc biệt sau nhiều lần trì hoãn. Trước đó, CEO Sam Altman đã thông báo rằng công ty cần thêm thời gian để “chạy các bài kiểm tra an toàn và đánh giá những rủi ro tiềm ẩn”.

Jensen Huang, CEO của Nvidia, nhận xét: “OpenAI đã cho thế giới thấy những tiềm năng có thể xây dựng trên nền tảng AI của Nvidia, và giờ đây họ đang thúc đẩy sự đổi mới trong phần mềm nguồn mở.”

OpenAI nhấn mạnh rằng họ đã tiến hành đào tạo và thử nghiệm an toàn sâu rộng trên cả hai mô hình trọng số mở, bao gồm việc lọc bỏ dữ liệu độc hại liên quan đến hóa học, sinh học, phóng xạ và hạt nhân trong quá trình huấn luyện trước, cũng như mô phỏng các nỗ lực tinh chỉnh mô hình cho mục đích xấu.

Người dùng có thể tải xuống các trọng số cho gpt-oss-120b và gpt-oss-20b trên nhiều nền tảng như Hugging Face và GitHub. Các mô hình này có thể chạy trên máy tính cá nhân thông qua các chương trình như LM Studio và Ollama. Các nhà cung cấp dịch vụ đám mây Amazon, Baseten và Microsoft cũng đang cung cấp gpt-oss-120b và gpt-oss-20b.

Cả hai mô hình đều có khả năng lý luận nâng cao, sử dụng công cụ và xử lý chuỗi suy nghĩ, đồng thời được thiết kế để chạy ở mọi nơi, từ phần cứng tiêu dùng đến đám mây hoặc ứng dụng trên thiết bị. Ví dụ, người dùng có thể chạy gpt-oss-20b trên máy tính xách tay và sử dụng nó như một trợ lý cá nhân để tra cứu thông tin và ghi chép.

Admin


Nguồn: VnExpress

Leave a Reply

Your email address will not be published. Required fields are marked *