Theo một nghiên cứu được công bố trên tạp chí Nature tuần này bởi nhóm phát triển AI tại DeepSeek, mô hình lý luận R1 của họ được đào tạo với chi phí 294.000 USD, sử dụng 512 chip H800 của Nvidia. Thông tin chi tiết này là một bổ sung quan trọng so với phiên bản nghiên cứu trước đó, được công bố vào tháng 1.
Để tạo ra mô hình ngôn ngữ lớn (LLM) làm nền tảng cho R1, DeepSeek đã chi thêm 6 triệu USD. Mặc dù vậy, tổng chi phí này vẫn thấp hơn đáng kể so với các đối thủ cạnh tranh. CEO OpenAI, Sam Altman, từng tiết lộ rằng việc đào tạo một mô hình nền tảng có thể tốn “cao hơn nhiều” so với 100 triệu USD, mặc dù OpenAI chưa bao giờ công bố con số cụ thể cho bất kỳ mô hình nào của họ.

Đáng chú ý, DeepSeek cũng thừa nhận việc sử dụng chip A100 trong giai đoạn chuẩn bị phát triển R1. Trong tài liệu bổ sung kèm theo nghiên cứu trên Nature, nhóm nghiên cứu, bao gồm cả CEO DeepSeek Liang Wenfeng, cho biết GPU A100 đã được sử dụng để chuẩn bị cho các thử nghiệm với một mô hình nhỏ hơn. Sau giai đoạn này, R1 được huấn luyện trong 80 giờ trên cụm 512 chip H800. Chip H800 là phiên bản được Nvidia thiết kế riêng cho thị trường Trung Quốc sau khi Mỹ ban hành lệnh cấm xuất khẩu chip AI H100 và A100 vào tháng 10/2022.
R1 được thiết kế để thực hiện tốt các nhiệm vụ lý luận như toán học và lập trình, và được định vị là một đối thủ cạnh tranh giá rẻ so với các công cụ được phát triển bởi các công ty công nghệ Mỹ. R1 là một mô hình “trọng số mở,” cho phép người dùng tải xuống và sử dụng miễn phí. Tính đến nay, nó đã trở thành mô hình phổ biến nhất thuộc loại này trên nền tảng cộng đồng AI Hugging Face, với 10,9 triệu lượt tải.
DeepSeek cũng cho biết dữ liệu đào tạo mô hình V3 của họ dựa trên các trang web chứa “một lượng lớn câu trả lời do các mô hình OpenAI tạo ra,” điều này có thể dẫn đến việc mô hình nền tảng gián tiếp tiếp thu kiến thức từ các mô hình mạnh khác. Tuy nhiên, công ty khẳng định đây là một sự trùng hợp ngẫu nhiên, không phải là hành động cố ý.
DeepSeek luôn ủng hộ phương pháp “chưng cất” vì nó giúp mô hình đạt hiệu suất tốt hơn trong khi giảm đáng kể chi phí đào tạo và vận hành, từ đó giúp công nghệ AI trở nên dễ tiếp cận hơn. “Chưng cất” là một kỹ thuật trong đó một hệ thống AI học hỏi từ một hệ thống AI khác, cho phép mô hình mới tận dụng được những lợi ích từ thời gian và sức mạnh tính toán đã được đầu tư vào mô hình cũ mà không phải chịu chi phí tương ứng.
Admin
Nguồn: VnExpress