Sinh viên năm cuối ngành Kỹ sư phần mềm của ĐH RMIT Phùng Minh Tuấn đã giúp giải quyết thách thức rất lớn ngáng đường việc số hóa lượng lớn bệnh án tiếng Việt - giải mã chữ viết tay loằng ngoằng khó đọc của bác sĩ.
Sinh viên Phùng Minh Tuấn | Ảnh: ICTnews
Hầu hết những phương pháp nhận diện chữ viết tay hiện có được phát triển để đọc tiếng Anh và rất ít hay gần như không có phần mềm riêng cho tiếng Việt. Tiếng Việt về cơ bản có những thách thức vì sự hiện diện của các lớp ký tự và dấu câu phức tạp.
Khi làm việc sát sao với Bệnh viện Bệnh nhiệt đới và Đơn vị Nghiên cứu lâm sàng Đại học Oxford (OUCRU) tại TPHCM, Phùng Minh Tuấn đã phát triển thành công một tập hợp đầu cuối để nhận diện chữ viết trên bản quét bệnh án tiếng Việt.
Tuấn và nhóm nghiên cứu đã mất hơn ba tháng thử-sai-thử để tìm ra cách hiệu quả nhất có thể chuyển hình ảnh của một bệnh án giấy thành phiên bản điện tử.
“Chúng tôi áp dụng quy trình giảm nhiễm, chia nhỏ chữ viết xuống cấp độ từ và áp dụng mô hình ngôn ngữ Bigram để tăng xác suất chỉnh sửa có thể cho những từ chung quanh," Tuấn giải thích công nghệ của mình
"Quan trọng hơn là chúng tôi phối hợp và thực hiện một cấu trúc học máy bao hàm mạng lưới thần kinh nhân tạo ResNet để chiết xuất hình dạng chữ và BiLSTM để lên mẫu tần suất chữ, và CTC cho nhiệm vụ sao chép cuối cùng. Tại điểm này, tín hiệu đầu ra cuối cùng dạng chuỗi song hành cùng bộ từ vựng sẽ giúp kết quả chính xác hơn”, cậu nói thêm.
Kết quả này tỏ ra hứa hẹn trong việc giải quyết một số khó khăn trong quy trình số hoá hệ thống bệnh án hiện nay ở Việt Nam.
“Với sự trợ giúp của máy móc trong xử lý toàn bộ bệnh án, các cơ sở y tế có thể dần chuyển sang hệ thống điện tử mà không phải thay đổi quy trình đột ngột,” TS. Đinh Ngọc Minh, Khoa Khoa học và Công nghệ tại Đại học RMIT, đồng thời là thầy trực tiếp hướng dẫn Tuấn, cho biết.
Ông cho rằng ứng dụng này có thể cho phép các cơ sở y tế ở vùng hẻo lánh hay cán bộ y tế không có điều kiện tiếp cận máy tính vẫn tiếp tục sử dụng hệ thống giấy tờ như hiện tại và sau đó có thể số hóa dễ dàng khi có điều kiện.
Hệ thống số hóa này cũng giúp xây dựng bộ dữ liệu ghi chép y khoa tập hợp "tri thức" của các bác sĩ Việt. Nó sẽ có khả năng phục vụ cho việc phát triển hệ thống chuyên gia chẩn đoán, cải tiến quy trình điều trị và giảm thiểu lỗi trong thực hành y khoa như Bệnh viện Bệnh nhiệt đới và OUCRU dự kiến sử dụng.