DeepSeek R1: Chạy AI mượt mà trên một GPU duy nhất

Startup DeepSeek của Trung Quốc vừa công bố bản cập nhật R1-0528 cho mô hình ngôn ngữ lớn (LLM) của mình thông qua nền tảng Hugging Face. Theo DeepSeek, bản cập nhật này là một “nâng cấp nhỏ” nhưng mang lại những cải thiện đáng kể về khả năng suy luận và suy diễn sâu sắc, đặc biệt là trong việc xử lý các tác vụ phức tạp. Công ty khẳng định rằng hiệu suất của mô hình mới chỉ thấp hơn một chút so với mô hình suy luận o3 của OpenAI và Gemini 2.5 Pro của Google.

Ban đầu, DeepSeek không cung cấp nhiều chi tiết về các tính năng mới của R1-0528, khác với lần ra mắt bản R1 vào tháng 1, khi công ty công bố một bài báo học thuật với sự tham gia của nhiều học giả AI hàng đầu Trung Quốc, làm nổi bật một loạt các tính năng quan trọng.

Tuy nhiên, vài giờ sau đó, DeepSeek đã đăng tải một bài viết trên X (trước đây là Twitter) về R1-0528, nhấn mạnh “hiệu suất được cải thiện”. Tiếp đó, trên WeChat, công ty cho biết bản cập nhật mới giảm khoảng 45-50% tỷ lệ “ảo giác” – tức là các đầu ra sai lệch hoặc gây hiểu lầm – trong các tình huống như viết lại và tóm tắt văn bản. Bản cập nhật cũng cho phép “viết bài luận, tiểu thuyết và các thể loại khác một cách sáng tạo”, đồng thời cải thiện khả năng trong các lĩnh vực như viết mã giao diện phần mềm và “nhập vai” dưới dạng tác nhân AI.

R1-0528 có kích thước 685 tỷ tham số, là một bản cập nhật đáng kể. Mô hình này được cấp phép theo giấy phép MIT, cho phép sử dụng cho mục đích thương mại. Mặc dù vậy, kho lưu trữ Hugging Face chỉ chứa các tệp cấu hình và trọng số, cùng với một số hướng dẫn, chứ không có mô tả chi tiết về mô hình. DeepSeek cho biết trên WeChat vào ngày 30/5 rằng “mô hình chứng minh hiệu suất vượt trội qua nhiều đánh giá chuẩn mực khác nhau, bao gồm toán học, lập trình và logic chung”.

Adina Yakefu, một nhà nghiên cứu AI của Hugging Face, cũng đánh giá cao bản nâng cấp của R1. Bà nhận xét với CNBC rằng “mô hình mới sắc nét hơn về mặt lý luận, mạnh hơn về toán học và mã, và gần đạt đến trình độ của các mô hình hàng đầu như Gemini và OpenAI o3”.

Ngoài phiên bản tiêu chuẩn, DeepSeek còn tạo ra một biến thể “được tinh chỉnh” của R1-0528, có tên là DeepSeek-R1-0528-Qwen3-8B, được xây dựng dựa trên mô hình Qwen3-8B với 8 tỷ tham số của Alibaba, ra mắt vào tháng 5. Quá trình “chưng cất” này đã giúp hiệu suất của mô hình mới cao hơn 10% so với Qwen-3 ban đầu.

DeepSeek đã đào tạo DeepSeek-R1-0528-Qwen3-8B bằng cách sử dụng văn bản được tạo ra bởi R1-0528 để tinh chỉnh Qwen3-8B. Việc “chưng cất” này giúp mô hình mới mạnh mẽ hơn và sử dụng ít tài nguyên hơn. Theo NodeShift, mô hình này chỉ yêu cầu một GPU có RAM 40-80 GB để chạy, chẳng hạn như Nvidia A100, trong khi R1-0528 tiêu chuẩn cần khoảng 16 GPU A100 80 GB.

DeepSeek cho biết mô hình nhỏ gọn này hoạt động tốt hơn Gemini 2.5 Flash của Google trong bài kiểm tra AIME 2025, một tập hợp các câu hỏi toán học thử thách, và có sức mạnh tương đương với mô hình lý luận Phi 4 của Microsoft trong bài kiểm tra kỹ năng toán học HMMT.

Trên Hugging Face, DeepSeek mô tả DeepSeek-R1-0528-Qwen3-8B là “dành cho cả nghiên cứu học thuật, lý luận và phát triển công nghiệp quy mô nhỏ”. Mô hình này cũng được cấp phép theo giấy phép MIT. Một số máy chủ như LM Studio đã được cung cấp qua API.

Theo ghi nhận của Reuters, sau thông báo cập nhật R1 của DeepSeek, cổ phiếu của nhiều công ty AI đã giảm từ 5-15%.

DeepSeek: Ứng dụng AI đột phá – Ảnh Reuters. Ảnh: Internet

DeepSeek đã thu hút sự chú ý vào cuối năm ngoái khi ra mắt mô hình V3 và sau đó là R1 vào đầu năm nay. Cả hai đều được đánh giá là có sức mạnh tương đương với các sản phẩm hàng đầu từ OpenAI hoặc Google, mặc dù sử dụng ít GPU hơn để đào tạo. Điều này trái ngược với các công ty như Google, OpenAI và Meta, vốn đã đầu tư hàng tỷ đô la vào AI trong thời gian ngắn. Để đối phó với DeepSeek, nhiều công ty đã áp dụng các chiến lược để tăng sức hút. Ví dụ, Google đã giới thiệu một số gói dịch vụ Gemini với giá cả phải chăng, trong khi OpenAI giảm giá và phát hành mô hình o3-mini sử dụng ít năng lực tính toán hơn.

Vào tháng 3, DeepSeek đã cập nhật mô hình V3, nhưng không nhận được nhiều sự chú ý. Công ty được cho là đã lên kế hoạch ra mắt mô hình R2, kế nhiệm R1, vào tháng 5, nhưng đến nay vẫn chưa xuất hiện.

Admin

Nguồn: VnExpress

Nhận biết sớm: Dấu hiệu của máu lưu thông kém

Phương tiện giao thông Việt Nam bị “bóc phốt” trên tạp chí Mỹ

Nên xin nghỉ việc trước hay sau lễ, Tết để có lợi?

Nhà 197m2 nội thất trắng cho gia đình 3 thế hệ: Thiết kế ấn tượng

Ninh Thuận: Thủ phủ nho thiệt hại nặng nề do trận lũ kỷ lục

Vợ Chồng Già Trẻ: Hạnh Phúc Như Tiên?

DeepSeek R1: Chạy AI mượt mà trên một GPU duy nhất

Leave a Reply Cancel reply

Leave a Reply Cancel reply

Related News