LViTES (Leveraging Vision and Text for Endoscopic Segmentation), một mô hình do một sinh viên Việt Nam phát triển, có khả năng phân đoạn tổn thương trong ảnh nội soi. Công cụ này được thiết kế để tự động xác định và khoanh vùng các dấu hiệu bất thường như polyp, viêm loét, hoặc các dấu hiệu tiền ung thư, hỗ trợ đắc lực cho bác sĩ trong quá trình chẩn đoán.
Điểm nổi bật của LViTES là khả năng kết hợp thông tin từ bệnh án hoặc các ghi chú lâm sàng của bác sĩ cùng với phân tích hình ảnh. Sự kết hợp này giúp tăng độ chính xác trong chẩn đoán. Mô hình đã được thử nghiệm thành công trên bộ dữ liệu Kvasir-SEG, một tập dữ liệu mở chứa các hình ảnh về polyp trong hệ tiêu hóa.
Người phát triển mô hình này là Ngọc Thăng, sinh viên năm thứ tư ngành Truyền thông số và Kỹ thuật đa phương tiện. Thăng chia sẻ rằng, anh luôn trăn trở làm sao để mô hình này có thể trở thành một sản phẩm hoàn chỉnh và được tích hợp vào các hệ thống y tế, phục vụ công tác khám chữa bệnh.
Thăng bắt đầu quan tâm đến lĩnh vực Thị giác máy tính từ môn Xử lý ảnh số, nơi anh được học cách ứng dụng Học máy vào phân tích dữ liệu hình ảnh. Trong quá trình thực hiện Đồ án 1 dưới sự hướng dẫn của PGS. TS Trần Thị Thanh Hải, giảng viên trường Điện – Điện tử, Thăng đã tiếp cận bài toán ứng dụng AI để phân tích ảnh nội soi y tế.
Quá trình này giúp Thăng nhận ra những thách thức mà các bác sĩ nội soi thường gặp phải. Cụ thể, các bác sĩ thường mất nhiều thời gian để phân tích hình ảnh và phát hiện tổn thương trong hệ tiêu hóa, trong khi đó lại thiếu các công cụ hỗ trợ nhanh chóng và chính xác. Chính điều này đã thôi thúc Thăng bắt tay vào xây dựng mô hình LViTES.
Dưới sự hướng dẫn của PGS Hải, Thăng đã bắt đầu nghiên cứu đề tài từ tháng 5 năm trước. Trong khoảng nửa năm, quá trình nghiên cứu được chia thành ba giai đoạn chính. Đầu tiên, Thăng tiến hành thu thập và xử lý dữ liệu từ bộ dữ liệu Kvasir-SEG, cũng như hình ảnh nội soi ung thư dạ dày, thực quản. Tiếp theo là giai đoạn xây dựng và huấn luyện mô hình trên nền tảng mạng nơ-ron tích chập (CNN) EfficientNet để trích xuất đặc trưng hình ảnh, kết hợp với kiến trúc Transformer để xử lý thông tin hình ảnh và văn bản. Cuối cùng, mô hình được thử nghiệm trên bộ dữ liệu thực tế, cho thấy hiệu suất vượt trội, đặc biệt là về độ chính xác phân vùng.

Trong quá trình nghiên cứu, Ngọc Thăng làm việc độc lập, đảm nhiệm toàn bộ các công đoạn, từ tìm hiểu lý thuyết đến triển khai thực tế. Thăng cho biết, việc làm một mình giúp anh tự do sáng tạo và kiểm soát toàn bộ quá trình, nhưng đồng thời cũng đòi hỏi anh phải tự giải quyết mọi vấn đề kỹ thuật và học thuật phát sinh.
Một trong những trở ngại lớn nhất mà Thăng gặp phải là sự thiếu hụt dữ liệu văn bản mô tả đi kèm với ảnh nội soi, vốn là nguồn đầu vào thiết yếu để huấn luyện mô hình AI. Để khắc phục vấn đề này, Thăng đã tự xây dựng một module sinh văn bản tự động, có khả năng biến các nhãn hình ảnh thành các mô tả chi tiết về tổn thương.
Quá trình đánh giá mô hình được thực hiện dựa trên các chỉ số phổ biến trong thị giác máy tính, như IoU và Dice coefficient. Bên cạnh đó, Thăng cũng nhận được sự định hướng khoa học từ PGS Hải và đánh giá từ các chuyên gia y tế để đảm bảo tính khách quan. Kết quả thử nghiệm trên hình ảnh nội soi ung thư dạ dày, thực quản cho thấy LViTES có độ chính xác phân vùng vượt trội so với các phương pháp truyền thống.
Thăng chia sẻ rằng, bài toán mà anh giải quyết có thể không quá mới trong giới học thuật, nhưng cách tiếp cận và hướng giải quyết của anh thì chưa có nhiều công trình tương tự. Anh cũng nhấn mạnh tầm quan trọng của khả năng tự học và tinh thần kiên trì, dám thử thách bản thân trong quá trình nghiên cứu. Nền tảng toán học vững chắc cũng giúp Thăng tự tin hơn khi giải quyết các vấn đề liên quan đến mô hình LViTES.
PGS. TS Trần Thị Thanh Hải nhận xét Thăng là một sinh viên điềm đạm và luôn cố gắng hoàn thiện bản thân. Cô đánh giá cao nền tảng kỹ thuật và kiến thức khoa học tự nhiên vững chắc của Thăng, cũng như việc anh đã lựa chọn một hướng đi mới trong lĩnh vực nghiên cứu về mô hình thị giác – ngôn ngữ (Visual Language Models – VLM). Cô Hải khẳng định, Thăng luôn kiên định với chủ đề mình đã chọn và nỗ lực giải quyết các vấn đề một cách trọn vẹn, và đây là một nỗ lực sáng tạo rất đáng ghi nhận.
Trong tương lai, Ngọc Thăng dự định tiếp tục theo đuổi hướng nghiên cứu ứng dụng AI trong lĩnh vực y tế. Anh cho biết đang phát triển một phiên bản nâng cao của mô hình LViTES, với mục tiêu biến nó trở thành một công cụ hỗ trợ đắc lực cho các bác sĩ nội soi trong việc phát hiện sớm và chính xác các bệnh lý. Bên cạnh đó, Thăng cũng có kế hoạch mở rộng ứng dụng của mô hình sang các lĩnh vực chẩn đoán hình ảnh khác, như X-quang và CT scan.
Admin
Nguồn: VnExpress