Sai sót của 400 mô hình AI y tế dạy chúng ta điều gì?

Trong các mô hình AI được xây dựng để giúp giải quyết COVID-19, hàng trăm khiếm khuyết tồn tại có thể được xem là hậu quả của những nỗ lực nhanh chóng nhằm ngăn chặn khủng hoảng. Tuy nhiên, các học giả đã chỉ ra những sai sót này muốn bạn nghe thấy cảnh báo của họ. Tiếng nói của họ chính xác là những gì cần được nhiều lãnh đạo doanh nghiệp và nhà hoạch định chính sách nghe thấy hơn khi Hoa Kỳ đang ngày càng áp dụng AI cho mục đích y tế và thương mại.

Gần đây, Casey Ross đã báo cáo trong STAT về cách mà đại dịch đã khởi động một loạt các hoạt động xây dựng mô hình. Mọi người đều muốn có đóng góp tích cực và giúp giảm bớt những lo ngại xuất phát từ cuộc khủng hoảng này. Họ hỏi: Làm thế nào chúng ta có thể sử dụng học máy để phát hiện COVID-19? Làm thế nào chúng ta có thể dự đoán ai có khả năng mắc bệnh nặng? Và liệu chúng ta có thể xây dựng các mô hình mạnh mẽ thông qua các biến thể của vi-rút? Họ báo cáo những nỗ lực để xây dựng mô hình dựa trên nghiên cứu của những người khác và học hỏi từ cộng đồng AI.

Một năm sau đó, trường Đại học Cambridge thử nghiệm những mô hình này và phát hiện ra rằng, mọi mô hình trong số hơn 400 mô hình mà họ nghiên cứu đều có sai sót nghiêm trọng, bao gồm cả những mô hình được công bố trên các tạp chí khoa học hàng đầu.

Những sai sót này là gì?

Các nhà nghiên cứu tìm thấy hai loại sai sót chung. Thứ nhất là về dữ liệu. Rất nhiều nhà làm mô hình đã sử dụng các tập dữ liệu nhỏ, không đại diện cho nhóm bệnh nhân rộng lớn mà mô hình định đại diện.

Loại sai sót thứ hai là về sự hạn chế công bố thông tin. Những người lập mô hình không tiết lộ nguồn dữ liệu, kỹ thuật họ sử dụng để lập mô hình dữ liệu và khả năng có thiên kiến sai lệch trong cả dữ liệu đầu vào và thuật toán được sử dụng để đào tạo mô hình.

Ross nhấn mạnh rằng việc không công bố nguồn dữ liệu không chỉ giới hạn trong những mô hình COVID-19 này. 45% các sản phẩm AI y tế được phê duyệt bởi Cục Quản lý Thực phẩm và Dược phẩm Hoa Kỳ từ năm 2012 đến 2020 không tiết lộ lượng dữ liệu mà họ sử dụng để xác thực độ chính xác của sản phẩm.

Vì sai những sai sót lại nghiêm trọng?

Năm 2021, những đội ngũ xây dựng AI có những công cụ tốt trong tầm tay, có thể tiếp cận các thuật toán được mã hóa trước và bắt đầu đào tạo dữ liệu. Đó là một tiến bộ đáng kể.

Nhưng các mô hình tốt, mạnh mẽ, được bảo vệ và cực kỳ chính xác vẫn còn là điều khó khăn và cần thời gian. Nếu dữ liệu đầu vào không tốt thì đầu ra của một mô hình cũng sẽ không đáng tin cậy. Ngoài ra, những sai sót của con người mà các nhà nghiên cứu Cambridge nhấn mạnh, như sử dụng cùng một dữ liệu cho việc đào tạo và xác thực, là không thể phản biện được.

Tôi thấy được một số lý do tại sao sự gia tăng của các loại mô hình AI này là đáng lo ngại. Các mô hình không chính xác, không thể theo dõi có thể nhanh chóng dẫn đến việc chăm sóc bệnh nhân không tốt, sức khoẻ kém và chi phí cao. Hệ thống y tế Hoa Kỳ – hay bất kỳ hệ thống y tế nào – đơn giản là không thể để xảy ra sự xói mòn lòng tin của công chúng đối với việc sử dụng các công nghệ AI để chăm sóc bệnh nhân.

Về mặt hoạt động, khoa học dữ liệu có thiếu sót có thể dẫn đến những sai lầm đắt giá, chẳng hạn như các thử nghiệm lâm sàng không chính xác có thể dễ dàng lãng phí từ 3 đến 5 năm thời gian nghiên cứu. Cuối cùng, chúng ta có thể mất đi hiệu lực và hiệu quả, những thứ mà các mô hình này được cho là phải cải thiện.

Thay đổi suy nghĩ về thực hiện kiểm tra an toàn

Hiện tại, khoa học dữ liệu thực sự tốt hầu như không khác biệt với những dữ liệu vô giá trị. Vậy giải pháp ở đây là gì?

Hãy cân nhắc điều này: Chúng ta có sự bảo vệ cho người tiêu dùng trước những sai sót trong các dịch vụ khác. Trước khi bạn ăn tại một nhà hàng chẳng hạn, bạn muốn biết liệu đã có ai kiểm tra nó và chứng minh nó hợp vệ sinh hay không. Trước khi bạn đi thang máy, bạn cho rằng các thanh tra viên đã thông qua kiểm tra an toàn. Khi bạn mua một căn hộ, bạn kỳ vọng rằng người xây nó đã tuân theo các quy tắc an toàn xây dựng.

Cách duy nhất để chúng ta cảm thấy thoải mái trong bất kỳ tình huống nào trong số những kịch bản trên là vì tiêu chuẩn chung về an toàn đã giúp xây dựng niềm tin của công chúng theo thời gian. Các mô hình AI ngày nay có thể tuân theo các phương pháp tốt nhất, nhưng chúng không phải tuân theo bất kỳ bộ tiêu chuẩn chung nào, mặc dù có một số đề xuất hoạt động hiệu quả để thay đổi điều này.

Mong đợi mô hình kiểm soát sẽ sớm thay đổi

Tại Hoa Kỳ, mô hình kiểm soát để xác định các sản phẩm y tế vật lý đáp ứng các tiêu chuẩn chất lượng nghiêm ngặt không hoàn toàn áp dụng được cho AI y tế. Không giống như thuốc hay thiết bị y tế tiêu chuẩn, các hệ thống AI liên tục thay đổi khi chúng được cung cấp dữ liệu mới.

Đơn giản là từ bên ngoài, chúng ta không thể kiểm tra xem dữ liệu có thể thay đổi mô hình như thế nào hay liệu các thuật toán có đưa ra quyết định hoặc dự đoán mang lại kết quả mong đợi một cách nhất quán hay không.

Cựu giám đốc FDA Scott Gottlieb đã nhận ra điều này vào năm 2017 khi cơ quan này bắt đầu vạch ra một mô hình kiểm soát cho tương lai. FDA tiếp tục nghiên cứu những gì cần làm để chứng nhận các nhà sản xuất và nhà cung cấp phần mềm, dựa trên văn hoá chất lượng và cam kết giám sát hiệu suất thực tế của AI trên thị trường.

Triết lý chứng nhận công ty chứ không phải từng ứng dụng này giống như trong mô hình nhà hàng. Một khi bạn chứng nhận nhà hàng đó, bạn không cần phải kiểm tra từng món ăn. Mô hình đáng tin cậy nhưng có thể mở rộng này có thể giảm thiểu rủi ro và thúc đẩy văn hoá doanh nghiệp hướng tới AI có trách nhiệm.

Bên cạnh các tiết lộ cơ bản

Bên cạnh sự minh bạch về nguồn dữ liệu và phương pháp của mô hình, hãy cân nhắc những điều sau:

Thiên kiến sai lệch tiềm năng: Chia sẻ những gì bạn đã làm để tránh tạo ra hay củng cố thiên kiến sai lệch. Mô tả các biện pháp kiểm soát bạn đã đặt ra cho sự sai lệch trong dữ liệu đầu vào cũng như thiết kế thuật toán. Thông báo cách người dùng AI có thể gắn cờ các vấn đề liên quan đến sự thiên vị.

Đánh giá trước khi một mô hình chính thức hoạt động: Hệ thống AI của bạn có thông qua một hội đồng đánh giá trước khi được phát hành không? Đối với các sản phẩm AI y tế, hãy ghi lại các yêu cầu để phê duyệt và trạng thái của các phê duyệt đó. Các nhà lập mô hình trong các tổ chức lớn hơn có thể có một trung tâm AI xuất sắc để giúp họ đáp ứng các tiêu chuẩn cao nhất của tổ chức.

Cơ chế kiểm tra chất lượng theo thời gian: Tính hợp lệ và hữu ích của bất kỳ mô hình nào có thể thay đổi theo thời gian và khi con người cùng dữ liệu tương tác với mô hình. Hãy chia sẻ những kiểm tra mà bạn đã thực hiện để đảm bảo rằng mô hình của bạn vẫn hợp lệ theo thời gian và trên toàn bộ quần thể.

Việc hoài nghi và đặt câu hỏi về cách một hệ thống đưa ra các quyết định và các dự đoán của nó luôn là một điều tốt. Tuy nhiên, nếu không có những hoạt động minh bạch này, chúng ta có nguy cơ đưa AI vào thế giới mà có thể nhanh chóng dẫn đến vỡ mộng.

Theo Forbes