Kỹ thuật ẩn danh bảo vệ tính riêng tư cho dữ liệu mở
19/08/2021
81 Lượt xem
Kỹ thuật do nhóm tác giả Trường Đại học Bách khoa TPHCM nghiên cứu, nhằm bảo vệ tính riêng tư, đồng thời vẫn đảm bảo tối đa chất lượng dữ liệu cho việc phân tích, tính sẵn sàng và liên tục của hệ thống dữ liệu mở.
Hiện nay, dữ liệu mở(open data) đang là xu hướng phát triển tất yếu của thế giới; trong đó, dữ liệu được tạo ra (dữ liệu nội bộ của những cơ quan tổ chức, từ cá nhân, thiết bị) đang dần trở thành công khai và sẵn sàng cho mọi người sử dụng mà không bị giới hạn bởi các vấn đề liên quan đến bản quyền, bằng sáng chế.
Dữ liệu mở còn được xem là một trong những chỉ tiêu để đánh giá mức độ phát triển của chính phủ điện tử. Nhiều quốc gia đã thiết lập cổng chuyên dụng để chia sẻ dữ liệu, giúp người dân dễ dàng truy cập các dữ liệu mở này.
Việt Nam được xem là một trong những quốc gia có chỉ số chính phủ điện tử ở mức cao. Các bộ dữ liệu mở tại Việt Nam được chia theo các danh mục bao gồm dữ liệu mở về giáo dục, KH&CN, tài nguyên - môi trường…
Tuy nhiên, việc xây dựng và cung cấp dữ liệu mở ở Việt Nam phải đối mặt với rất nhiều vấn đề; trong đó, nổi bật và cấp thiết là phải có giải pháp cho vấn đề bảo mật và tính riêng tư. Các dữ liệu nhạy cảm, mang tính riêng tư phải được loại bỏ hoặc che giấu trước khi công khai dữ liệu.
Ẩn danh (Anonymization), là một bước không thể thiếu trước khi tiến hành công khai dữ liệu. Đây là công nghệ chìa khóa hỗ trợ bảo vệ tính riêng tư ở nhiều mức độ khác nhau, đáp ứng được nhiều yêu cầu ứng dụng cũng như chính sách, luật khác nhau.
Đã có nhiều kỹ thuật ẩn danh được nghiên cứu và phát triển như nén, thu giảm dữ liệu, thay đổi thuộc tính, xáo trộn dữ liệu,… Tuy nhiên, cần chọn kỹ thuật ẩn danh phù hợp cho từng loại dịch vụ.
Tại Việt Nam, đa phần các bộ dữ liệu được công khai dưới định dạng PDF, sau khi bỏ đi thông tin định danh của chủ dữ liệu, hoặc công khai dưới dạng dữ liệu thống kê, nhưng vẫn không áp dụng phương pháp ẩn danh linh hoạt nào để bảo vệ tính riêng tư cần thiết cho các chủ dữ liệu này. Do vậy, việc đề xuất một kỹ thuật ẩn danh để bảo vệ tính riêng tư cho dữ liệu mở tại Việt Nam là rất cấp thiết.
Trong nghiên cứu “Kỹ thuật ẩn danh bảo vệ tính riêng tư cho dữ liệu mở”, nhóm tác giả ở Trường Đại học Bách khoa TPHCM xây dựng một kiến trúc nền tảng phù hợp đi kèm với các kỹ thuật xử lý dữ liệu, để bảo vệ tính riêng tư, trước khi công khai dữ liệu, mà vẫn đảm bảo tối đa chất lượng dữ liệu cho việc phân tích, tính sẵn sàng và liên tục của hệ thống. Kỹ thuật này tương thích với các đặc điểm của dữ liệu khác nhau, đặc biệt là trong môi trường đô thị thông minh.
Nhóm nghiên cứu đã tìm hiểu các kiến trúc dữ liệu mở như CKAN (hệ thống mã nguồn mở quản lý dữ liệu mở, dựa trên nền tảng web để lưu trữ và phân phối dữ liệu), Dspace (kho dữ liệu mã nguồn mở hỗ trợ cho việc quản lý, lưu trữ, phân phối các nội dung điện tử như văn bản, hình ảnh, âm thanh,…),… Đồng thời đã tìm hiểu các giải pháp trong việc thực hiện ẩn danh hóa dữ liệu để bảo vệ tính riêng tư của dữ liệu như: ARX (phần mềm nguồn mở ẩn danh dữ liệu nhạy cảm của cá nhân), SECRETA (hệ thống đánh giá và so sánh các thuật toán ẩn danh cho bộ dữ liệu quan hệ, giao dịch), Amnesia (công cụ ẩn danh dữ liệu cho phép loại bỏ những thông tin định danh người dùng như ngày sinh, số chứng minh thư, địa chỉ,…),…
Từ đó, nhóm đã xây dựng hệ thống kỹ thuật ẩn danh dữ liệu trên nền tảng dữ liệu mở CKAN. Các chức năng có trong hệ thống gồm: tạo yêu cầu ẩn danh; xem kết quả của quá trình ẩn danh; xuất tập dữ liệu sau khi được ẩn danh trên CKAN, với giao diện để người dùng có thể dễ dàng đưa dữ liệu lên server để thực hiện ẩn danh.
Hệ thống đã được chạy thử nghiệm với các tập dữ liệu như SS13ACS (kết quả cuộc khảo sát về dân số của Cục Điều tra dân số Hoa Kỳ); IHIS (kết quả khảo sát sức khoẻ của người dân Hoa Kỳ);.... Các tập dữ liệu này đều được ẩn danh thành công và kết quả xuất hiện trong danh mục quản lý bởi CKAN.
Đề tài đã được Sở KH&CN TPHCM nghiệm thu trong năm qua. Nhóm tác giả đang tiếp tục nghiên cứu, thử nghiệm các kỹ thuật ẩn danh trên các tập dữ liệu âm thanh và hình ảnh.