Bộ dữ liệu AI tiếng Việt miễn phí cho cộng đồng

Tại Ngày hội Đổi mới sáng tạo Quốc gia 2025 diễn ra ngày 2/10 ở Hòa Lạc, Hà Nội, dự án ViGen đã công bố Vi-Primer 1.0, một bộ dữ liệu mở tiền huấn luyện (pre-training) tiếng Việt lớn nhất từ trước đến nay.

TS. Vũ Xuân Sơn, đại diện ViGen chia sẻ về dự án, tháng 10/2025. Ảnh: Lưu Quý
TS. Vũ Xuân Sơn (ViGen) chia sẻ dự án AI tiếng Việt (10/2025). Ảnh: Internet

Ông Vũ Xuân Sơn, Giám đốc công nghệ của dự án ViGen, cho biết bộ dữ liệu được thu thập từ 150 tỷ token dữ liệu thô, tổng hợp từ các nguồn mở và các nguồn sẵn có trên mạng. Sau quá trình xử lý, phân loại và tinh lọc kỹ lưỡng, nhóm nghiên cứu đã tạo ra một bộ dữ liệu chất lượng cao gồm 50 tỷ token, sẵn sàng cho việc huấn luyện các mô hình trí tuệ nhân tạo (AI).

Điểm đặc biệt của Vi-Primer 1.0 là được phát hành theo giấy phép ODC-By 1.0, cho phép cộng đồng tự do sử dụng, chia sẻ và phát triển cho mọi mục đích, kể cả thương mại, miễn là ghi nhận nguồn gốc.

ViGen là dự án hợp tác giữa Trung tâm Đổi mới sáng tạo quốc gia (NIC) và nhiều tổ chức, bao gồm AI for Vietnam và Meta, nhằm xây dựng một bộ dữ liệu tiếng Việt mã nguồn mở. Dự án được công bố lần đầu vào tháng 3, với mục tiêu khắc phục hạn chế của các mô hình ngôn ngữ lớn quốc tế, vốn chủ yếu tập trung vào tiếng Anh (tiếng Việt chiếm chưa đến 1%). Nhờ đó, các nhà phát triển có thể tận dụng bộ dữ liệu này để đào tạo và phát triển các ứng dụng AI chuyên biệt cho tiếng Việt.

Theo ông Sơn, việc sở hữu một bộ dữ liệu tiếng Việt chất lượng cao và có tính mở sẽ tạo điều kiện cho việc xây dựng các công cụ AI tiếng Việt chính xác và hiệu quả, phục vụ riêng cho người Việt. Ông dẫn chứng việc các công cụ AI nước ngoài như ChatGPT đôi khi cung cấp thông tin không chính xác về Việt Nam, chẳng hạn như số lượng tỉnh thành đã được cập nhật sau sáp nhập.

Trong khuôn khổ hội thảo, ViGen cũng giới thiệu 5 khung đánh giá, được xây dựng trên 4.020 mẫu, nhằm đo lường năng lực của các mô hình AI tiếng Việt. Các khung này kiểm tra AI trên nhiều khía cạnh, bao gồm kiến thức chuyên sâu, khả năng lập trình, tư duy logic, mức độ an toàn, sự am hiểu văn hóa và các sắc thái ngôn ngữ đặc trưng của người Việt.

Dự án ViGen cũng có kế hoạch ra mắt phiên bản thử nghiệm, cho phép người dùng và các tổ chức trực tiếp đóng góp dữ liệu, sử dụng tài nguyên để huấn luyện mô hình, cũng như kiểm tra và đánh giá chất lượng AI.

Phó giám đốc NIC Võ Xuân Hoài (đứng) chia sẻ về yêu cầu với bộ dữ liệu tiếng Việt phục vụ phát triển AI, tháng 10/2025. Ảnh: Lưu Quý
Phó GĐ NIC: Yêu cầu bộ dữ liệu tiếng Việt cho phát triển AI (10/2025). Ảnh: Internet

Đại diện dự án chia sẻ: “Nền tảng sẽ tích hợp cơ chế thi đua khen thưởng để theo dõi và vinh danh những người đóng góp hàng đầu, qua đó thúc đẩy việc xây dựng kho dữ liệu Việt vì người Việt một cách trực quan, ý nghĩa và hứng khởi”.

Ông Trần Việt Hùng, nhà sáng lập AI for Vietnam, nhấn mạnh tầm quan trọng của dự án: “Thông qua việc mở rộng khả năng tiếp cận bộ dữ liệu tiếng Việt chất lượng cao cho toàn cộng đồng, dự án đang giải quyết thực trạng tiếng Việt lâu nay ít hiện diện trong các hệ thống AI”. Ông cũng kỳ vọng nền tảng này sẽ tạo điều kiện cho sự hợp tác giữa các nhà nghiên cứu, nhà phát triển và các đơn vị đổi mới sáng tạo trên khắp Việt Nam, để cùng nhau xây dựng các giải pháp AI “Made in Vietnam” có khả năng phục vụ thị trường toàn cầu.

Phó giám đốc NIC Võ Xuân Hoài khẳng định AI là một trong những lĩnh vực trọng tâm mà Việt Nam đang đẩy mạnh phát triển và ứng dụng. Ông nhấn mạnh rằng dữ liệu là một trong những trụ cột quan trọng, bên cạnh hạ tầng, chính sách và con người.

“Việt Nam cần một bộ dữ liệu tiếng Việt tiêu chuẩn và nguồn mở. Dữ liệu cần mở để tất cả mọi người, từ doanh nghiệp, startup đến tổ chức, cá nhân trong và ngoài nước đều có thể sử dụng,” ông Hoài nói. “Đây chính là cơ sở để hình thành một môi trường mà AI không bị độc quyền”.

Ông Philip Chua, Giám đốc Chính sách công và sản phẩm của Meta khu vực châu Á – Thái Bình Dương, đánh giá cao việc ra mắt phiên bản thử nghiệm của nền tảng ViGen, coi đây là một cột mốc quan trọng. Ông tin rằng “AI mã nguồn mở có thể mở rộng khả năng tiếp cận công nghệ tiên tiến, giúp nhà phát triển, nhà nghiên cứu và doanh nghiệp Việt Nam xây dựng giải pháp AI thực sự am hiểu bối cảnh địa phương và phục vụ cộng đồng”.

Admin


Nguồn: VnExpress

Leave a Reply

Your email address will not be published. Required fields are marked *