Dự án ViGen, một sáng kiến hợp tác giữa Trung tâm Đổi mới sáng tạo quốc gia (NIC), AI for Vietnam, Meta và nhiều tổ chức khác, đang nỗ lực xây dựng một bộ dữ liệu tiếng Việt mã nguồn mở quy mô lớn. Ông Trần Việt Hùng, đại diện dự án, cho biết bộ dữ liệu này, sau khi được huấn luyện, có khả năng tạo ra các mô hình AI tương đương với trình độ của sinh viên mới tốt nghiệp đại học và có thể được đào tạo thêm để phục vụ nhiều công việc khác nhau.
Ý tưởng về ViGen được hình thành vào cuối năm ngoái khi nhà khoa học trưởng về AI của Meta, Yann LeCun, đến Việt Nam và gặp Bộ trưởng Khoa học và Công nghệ Nguyễn Mạnh Hùng. Bộ trưởng đã đề nghị Meta hỗ trợ Việt Nam xây dựng một bộ cơ sở dữ liệu tiếng Việt “tốt nhất có thể”. Dự án chính thức được công bố vào tháng 3.
Theo lộ trình, bản thử nghiệm đầu tiên của ViGen, bao gồm Bộ dữ liệu tiền huấn luyện (Pretraining Dataset), dự kiến sẽ ra mắt vào tháng 10.
Ông Hùng nhấn mạnh rằng ViGen sẽ là bộ dữ liệu tiếng Việt lớn nhất từ trước đến nay, bao gồm kiến thức từ mẫu giáo đến đại học, cho phép xây dựng các mô hình AI có trình độ tương đương sinh viên tốt nghiệp. Mặc dù Việt Nam đã có một số bộ dữ liệu tiếng Việt, nhưng chúng chưa bao quát đầy đủ kiến thức ở tất cả các cấp học. Để đạt được mục tiêu này, dự án kêu gọi sự hỗ trợ từ các đơn vị cung cấp dữ liệu trên cả nước.
Để thúc đẩy sự đóng góp, ViGen dự kiến sẽ ra mắt Cổng dữ liệu mở, cung cấp quyền truy cập miễn phí vào các bộ dữ liệu tiếng Việt và tạo điều kiện cho cộng đồng liên tục đóng góp dữ liệu ở nhiều thể loại khác nhau. Để đánh giá chất lượng, dự án cũng đặt mục tiêu phát hành bản thử nghiệm của benchmark, một bộ đề kiểm tra được thiết kế bởi con người với các tiêu chuẩn cao, nhằm đánh giá chất lượng của mô hình. Phiên bản đầu tiên sẽ bao gồm 5 benchmark đánh giá khả năng của các mô hình AI về ngôn ngữ, văn hóa, kiến thức phổ thông, suy luận và lập trình.

Các chuyên gia nhận định rằng tiếng Việt là một “ngôn ngữ ít tài nguyên” do số lượng dữ liệu số hóa trên Internet còn hạn chế. Mặc dù nhiều chatbot AI như Meta AI, ChatGPT và Gemini đã hỗ trợ tiếng Việt, nhưng tài nguyên ngôn ngữ tiếng Việt chỉ chiếm dưới 1% trong các mô hình ngôn ngữ lớn.
Ông Hùng giải thích rằng việc thiếu bộ dữ liệu tiếng Việt chất lượng cao đã hạn chế khả năng xử lý tiếng Việt một cách tự nhiên của AI, khiến người Việt chưa thể tận dụng tối đa tiềm năng của công nghệ này.

Ông cũng lưu ý rằng trong khi thế giới đã ứng dụng AI rộng rãi trong ba năm qua, người Việt Nam phần lớn vẫn chỉ sử dụng chatbot cho mục đích giải trí. Điều này, theo ông, là một hệ quả của việc thiếu dữ liệu tiếng Việt, cản trở các cá nhân, doanh nghiệp và tổ chức Việt Nam ứng dụng AI một cách mạnh mẽ.
Các chuyên gia từ Thung lũng Silicon cũng chỉ ra rằng các bộ dữ liệu hiện tại thường rời rạc và thiếu tính đại diện, gây ra rủi ro trong các lĩnh vực quan trọng như giáo dục và y tế. Việc tạo ra một mô hình AI hỗ trợ tiếng Việt một cách tự nhiên sẽ mở đường cho các ứng dụng AI tiếng Việt, giúp tăng năng suất lao động lên gấp nhiều lần.
Tại buổi tham vấn, một số đơn vị phát thanh và truyền hình đã bày tỏ ý định đóng góp dữ liệu âm thanh, đặc biệt là từ các đài phát thanh địa phương, để tăng tính đa dạng cho bộ dữ liệu. Tuy nhiên, việc sàng lọc dữ liệu từ các mạng xã hội để tránh nội dung độc hại là một thách thức lớn. Các chuyên gia cũng nhấn mạnh các vấn đề cần quan tâm như bản quyền dữ liệu và khả năng ứng dụng của dữ liệu trong các lĩnh vực đặc thù, đặc biệt là trong khu vực công.
Ông Vũ Quốc Huy, Giám đốc NIC, nhấn mạnh rằng sự tham gia mạnh mẽ hơn của các đơn vị khác trong việc đóng góp nguồn lực hạ tầng và dữ liệu là rất quan trọng cho sự phát triển lâu dài của bộ dữ liệu. Ông kêu gọi các đơn vị cùng đóng góp để làm phong phú bộ dữ liệu, từ đó nâng cao chất lượng và hiệu quả của AI tại Việt Nam, đồng thời khẳng định sẽ huy động các nguồn lực từ nhà nước để hỗ trợ dự án.
Dự kiến đến năm 2026, bộ dữ liệu ViGen sẽ tiếp tục được tinh chỉnh và nâng cấp số lượng benchmark lên 10, cung cấp các công cụ hữu ích cho các nhà phát triển ứng dụng AI. Với những nỗ lực này, ViGen hứa hẹn sẽ tạo ra một bước đột phá trong lĩnh vực phát triển AI tiếng Việt, mở ra nhiều cơ hội ứng dụng và thúc đẩy sự phát triển kinh tế – xã hội của đất nước.
Admin
Nguồn: VnExpress