Mô hình AI đọc hiểu tài liệu dạng ảnh CATI-VLM của Viện Ứng dụng Công nghệ CMC (CMC ATI) vừa gây ấn tượng khi xếp thứ 12 trong hạng mục trả lời câu hỏi từ tài liệu hình ảnh (Document Visual Question Answering – DocVQA) tại cuộc thi RRC. Bảng xếp hạng này được công bố vào tháng 6 bởi RRC, một tổ chức thuộc Trung tâm Thị giác Máy tính của Đại học Autònoma de Barcelona (Tây Ban Nha).

Cuộc thi RRC là sân chơi quy tụ các trường đại học, viện nghiên cứu và tập đoàn công nghệ hàng đầu thế giới, tập trung vào thúc đẩy các giải pháp thị giác máy tính ứng dụng trong nhiều lĩnh vực như dịch thuật, quản trị dữ liệu, đô thị thông minh và xử lý tài liệu lịch sử.

Theo đại diện CMC, CATI-VLM được xây dựng dựa trên kho dữ liệu khổng lồ 5 TB. Điểm đặc biệt của mô hình này là khả năng phân tích và hiểu nội dung trong tài liệu ảnh một cách trực quan, tương tự như cách con người vẫn làm. Không chỉ dừng lại ở việc nhận dạng ký tự, CATI-VLM còn có thể phân tích cấu trúc bố cục, nhận diện các thành phần phi văn bản như checkbox, biểu đồ, chữ ký, công thức, và thậm chí nắm bắt phong cách thể hiện như font chữ hay các vùng được tô đậm.
Điểm đáng chú ý là CATI-VLM có thể trả lời các câu hỏi đặt ra từ hình ảnh tài liệu mà không cần phải được huấn luyện trước trên các biểu mẫu cụ thể, tương tự như cách ChatGPT hoạt động. Trên bảng xếp hạng của RRC, CATI-VLM đã chứng minh được năng lực vượt trội khi đạt độ chính xác cao nhất trong 4 trên tổng số 7 bộ dữ liệu, mặc dù chỉ sử dụng ba tỷ tham số. Thành tích này giúp CATI-VLM vượt qua nhiều sản phẩm của các tập đoàn công nghệ lớn, bao gồm GPT-4 Vision Turbo kết hợp Amazon Textract OCR (hạng 34) và Baidu (hạng 22).
TS. Đặng Minh Tuấn, Viện trưởng CMC ATI, trưởng nhóm nghiên cứu, nhấn mạnh rằng thành tích này là minh chứng cho khả năng làm chủ công nghệ của Việt Nam trong việc giải quyết các bài toán đặc thù của tiếng Việt và các lĩnh vực chuyên ngành. Ông cho biết bí quyết thành công của nhóm là tập trung tối ưu hiệu suất và độ chính xác, thay vì chạy đua về số lượng tham số, giúp mô hình hoạt động hiệu quả trên hạ tầng phù hợp với điều kiện Việt Nam.
Ông Nguyễn Trung Chính, Chủ tịch CMC, chia sẻ rằng đây là kết quả của hơn 10 năm đầu tư vào nghiên cứu và phát triển của tập đoàn, thể hiện chiến lược làm chủ công nghệ Việt và hướng tới chinh phục thị trường toàn cầu. Ông khẳng định: “Chúng tôi tin trí tuệ Việt Nam hoàn toàn đủ năng lực sánh vai với các gã khổng lồ công nghệ toàn cầu, tạo vị thế xứng đáng trên bản đồ công nghệ thế giới”.
Trong tương lai, Viện Ứng dụng Công nghệ CMC dự kiến sẽ ứng dụng CATI-VLM vào chuỗi sản phẩm thuộc hệ sinh thái C.OpenAI, bao gồm các ứng dụng như trợ lý ảo hỗ trợ rà soát văn bản pháp luật, nền tảng số hóa tài liệu, hệ quản trị tri thức, hệ thống báo cáo tự động cho văn phòng thông minh và các ứng dụng xử lý tài liệu khác.
Admin
Nguồn: VnExpress