為進一步規(guī)范人工智能輔助檢測醫(yī)療器械(軟件)產(chǎn)品的管理,國家藥監(jiān)局器審中心組織制定了《人工智能輔助檢測醫(yī)療器械(軟件)臨床評價注冊審查指導(dǎo)原則》(2023年第38號),并與2023年11月7日公開發(fā)布,詳見正文。
為進一步規(guī)范人工智能輔助檢測醫(yī)療器械(軟件)產(chǎn)品的管理,國家藥監(jiān)局器審中心組織制定了《人工智能輔助檢測醫(yī)療器械(軟件)臨床評價注冊審查指導(dǎo)原則》(2023年第38號),并與2023年11月7日公開發(fā)布,詳見正文。
人工智能輔助檢測醫(yī)療器械(軟件)臨床評價注冊審查指導(dǎo)原則
本指導(dǎo)原則旨在指導(dǎo)注冊申請人開展人工智能(artificial intelligence,AI)輔助檢測類醫(yī)療器械臨床評價的資料準(zhǔn)備,同時為技術(shù)審評部門審評人工智能輔助檢測類產(chǎn)品臨床評價資料提供參考。
本指導(dǎo)原則進一步明確人工智能輔助檢測類醫(yī)療器械臨床評價的要求和適用情形。申請人可依據(jù)產(chǎn)品的具體特征確定其中內(nèi)容是否適用,若不適用,需闡述理由并提供相應(yīng)的科學(xué)依據(jù),并依據(jù)產(chǎn)品的具體特征對臨床評價資料的內(nèi)容進行充實和細化。
本指導(dǎo)原則是供注冊申請人和技術(shù)審評人員使用的指導(dǎo)性文件,但不包括審評審批所涉及的行政事項,亦不作為法規(guī)強制執(zhí)行,應(yīng)在遵循相關(guān)法規(guī)的前提下使用本指導(dǎo)原則。如果有能夠滿足相關(guān)法規(guī)要求的其他方法,也可以采用,但是需要提供詳細的合理性論述和驗證確認(rèn)資料。
本指導(dǎo)原則是在現(xiàn)行法規(guī)和標(biāo)準(zhǔn)體系以及當(dāng)前認(rèn)知水平下制定,隨著法規(guī)和標(biāo)準(zhǔn)的不斷完善,以及科學(xué)技術(shù)的不斷發(fā)展,相關(guān)內(nèi)容也將適時進行調(diào)整。
一、適用范圍
人工智能醫(yī)療器械從與預(yù)期用途角度可分為輔助決策類和非輔助決策類。其中,輔助決策是指通過提供診療活動建議輔助醫(yī)務(wù)人員進行臨床決策,如通過異常識別、自動制定手術(shù)計劃進行輔助分診、輔助檢測、輔助診斷、輔助治療等。
人工智能輔助檢測產(chǎn)品,是指基于計算機人工智能算法,可包含模式識別和數(shù)據(jù)分析等功能,通過識別、標(biāo)記、突出等方式提示醫(yī)師關(guān)注可能的異常/病變區(qū)域,從而輔助臨床醫(yī)師做出相應(yīng)診療決策的產(chǎn)品,可為獨立軟件或嵌入式軟件;分類編碼為21-04-02,管理類別為第III類;產(chǎn)品還可同時包含非輔助決策功能,如結(jié)構(gòu)化報告生成、前后圖像對比、正常解剖組織的分割(如肺葉、肋骨等)、尺寸測量、CT值測量等臨床功能和數(shù)據(jù)儲存、傳輸?shù)确桥R床功能。人工智能輔助檢測產(chǎn)品常見的有針對肺結(jié)節(jié)、乳腺結(jié)節(jié)、骨折、血管狹窄、結(jié)腸息肉等病變/異常的檢出產(chǎn)品,本指導(dǎo)原則給出此類產(chǎn)品的通用要求,并以肺結(jié)節(jié)輔助檢測和結(jié)腸息肉輔助檢測產(chǎn)品為例(詳見附件),闡述對人工智能輔助檢測產(chǎn)品的臨床試驗中具體要素的考慮建議,同類型產(chǎn)品可參考相關(guān)適用部分。
本指導(dǎo)原則不適用于如下情形(但下述產(chǎn)品可參照本指導(dǎo)原則中適用部分的要求):1.可鑒別病變的性質(zhì)(如良惡性)或疾病分期分型的人工智能輔助診斷類產(chǎn)品;2.預(yù)測疾病發(fā)生概率的產(chǎn)品;3.可同時輔助檢測、鑒別診斷多種病變的多分類人工智能輔助檢測產(chǎn)品(例如同時輔助檢測并分類肺結(jié)節(jié)、條索、胸膜增厚、胸腔積液、肋骨骨折等的產(chǎn)品);4.人工智能輔助分診、轉(zhuǎn)診產(chǎn)品,此類產(chǎn)品通過初步評估患者是否疑似患有目標(biāo)疾病,從而對患者的分診轉(zhuǎn)診提供輔助決策建議,該類產(chǎn)品不給出具體病變情況,且無論輔助分診結(jié)果為陰性、陽性,均需專業(yè)醫(yī)師再一次對患者影像進行評閱,常見的有糖尿病視網(wǎng)膜病變輔助分診、肺炎輔助分診、腦出血輔助分診等;5. 配合體外診斷試劑產(chǎn)品使用的人工智能輔助分析軟件。
二、臨床試驗設(shè)計
(一)臨床試驗?zāi)康?/p>
臨床試驗?zāi)康囊话闶窃u價申報產(chǎn)品在預(yù)期適用范圍下使用時輔助檢測的診斷學(xué)性能,亦可一并觀察產(chǎn)品的可用性與安全性。
(二)臨床試驗基本設(shè)計類型
人工智能輔助檢測類產(chǎn)品的臨床意義通常在于提升醫(yī)師的病變檢測準(zhǔn)確度,為充分評估產(chǎn)品的臨床受益風(fēng)險可接受性,此類產(chǎn)品一般需考慮開展對照試驗,根據(jù)產(chǎn)品特征及臨床診療實際,可以為隨機平行對照、交叉自身對照或多閱片者多數(shù)據(jù)樣本(multiple reader multiple case,MRMC)試驗設(shè)計。
試驗組一般為醫(yī)師在軟件的輔助下完成異常/病變的檢測,對照組一般為臨床醫(yī)師獨立的異常/病變的檢測,比較二者的檢測準(zhǔn)確度。
(三)研究對象
1.適用人群的影像學(xué)樣本
預(yù)期人群的影像學(xué)樣本是人工智能輔助檢測產(chǎn)品臨床試驗的典型研究對象,影像學(xué)樣本需基于定義明確的入選和排除標(biāo)準(zhǔn)收集,可為臨床已有數(shù)據(jù)(如臨床診療中產(chǎn)生的真實世界數(shù)據(jù))。考慮到AI與醫(yī)師觀察、操作的協(xié)同交互等因素,基于實時影像的輔助檢測產(chǎn)品臨床試驗,推薦考慮前瞻性采集影像檢查,作為臨床試驗研究對象。
為了保證臨床試驗質(zhì)量以及結(jié)果的可靠性,選取研究對象時,申請人需考慮如下措施:一是納入數(shù)據(jù)樣本獨立于申報產(chǎn)品或前代產(chǎn)品開發(fā)所用數(shù)據(jù)集,如申報產(chǎn)品或前代產(chǎn)品的訓(xùn)練集、測試集。二是采用臨床已有數(shù)據(jù)進行研究時,需基于明確且嚴(yán)格的入排標(biāo)準(zhǔn)和臨床試驗計劃,連續(xù)收集過往某段時間內(nèi)、特定醫(yī)療機構(gòu)內(nèi)患者影像學(xué)數(shù)據(jù),避免主觀挑選病例。三是考慮陽性樣本中,目標(biāo)疾病的疾病譜分布(如分型、分期)合理性,某些對輔助檢測具有挑戰(zhàn)性的分期、分型,必要時在臨床試驗中富集相關(guān)具有代表性的亞組。四是通常情況下,需避免在一項臨床試驗中同時入組同一患者同一目標(biāo)部位的多組樣本數(shù)據(jù)。五是臨床已有數(shù)據(jù)收集時,需盡可能全面的收集與疾病相關(guān)的信息(適用的),具體包括但不限于:
(1)人口統(tǒng)計學(xué)信息(如年齡、性別);
(2)與輔助檢測目標(biāo)疾病相關(guān)的信息,如病史、疾病狀態(tài)、分期、分型、病變大小、病變位置、器官特征(如乳腺腺體分型)、伴隨疾病等。
(3)確定為陽性/陰性病例的依據(jù),如既往診斷結(jié)論,以及確定疾病狀態(tài)、部位和程度的方法。
2.閱片者
由于閱片者表現(xiàn)的變異度及其與患者樣本變異度和診斷方法(即AI輔助器械)之間的交互效應(yīng),一般情況下宜將閱片者列入研究對象?;诜菍崟r影像的輔助檢測產(chǎn)品(如肺結(jié)節(jié)/骨折/乳腺結(jié)節(jié)輔助檢測等),采用MRMC設(shè)計可較好的控制閱片者偏倚,同等情況下所需的樣本量一般較少,申請人可優(yōu)先考慮選擇。采用MRMC設(shè)計時,根據(jù)預(yù)期的使用者情況,選取不同年資的多位醫(yī)師作為閱片者,申請人需論述閱片者數(shù)量的合理性。
(四)評價指標(biāo)
主要評價指標(biāo)應(yīng)結(jié)合產(chǎn)品設(shè)計特征進行綜合選擇,一般認(rèn)為靈敏度、特異度、ROC或其衍生曲線等診斷準(zhǔn)確性指標(biāo)受樣本患病率差異的影響較小,因此,宜優(yōu)先考慮此類指標(biāo)作為主要評價指標(biāo)。
無論選擇哪些指標(biāo)作為主要評價指標(biāo),該類產(chǎn)品臨床試驗應(yīng)當(dāng)考慮整體的優(yōu)效性設(shè)計,例如ROC或其衍生曲線下面積(Area Under Curve,AUC)的優(yōu)效設(shè)計,或者目標(biāo)疾病輔助檢測特異度非劣效前提下的靈敏度優(yōu)效性,或者息肉/腺瘤初檢檢出率的優(yōu)效性等。
(五)臨床參考標(biāo)準(zhǔn)構(gòu)建
申請人應(yīng)詳述臨床參考標(biāo)準(zhǔn)的選擇、構(gòu)建方法及理由。可供選擇的臨床參考標(biāo)準(zhǔn)構(gòu)建方法包括:一是以臨床已確認(rèn)結(jié)果為臨床參考標(biāo)準(zhǔn),即臨床上結(jié)合患者影像學(xué)檢查、病史、實驗室檢查(如病理檢查)、長期隨訪結(jié)果等方法綜合判定的臨床診斷結(jié)果;二是通過專家組對研究對象(影像樣本)的閱片判定作為臨床參考標(biāo)準(zhǔn)。
對于人工智能輔助檢測產(chǎn)品,若根據(jù)產(chǎn)品設(shè)計判定可采用專家組意見作為臨床參考標(biāo)準(zhǔn),通??蛇x擇高年資醫(yī)師組成的閱片專家組綜合意見為臨床參考標(biāo)準(zhǔn),閱片專家組的成員需獨立于“試驗和對照組的閱片研究者”,并需要明確:1.專家數(shù)量;2.專家經(jīng)驗及專業(yè)水平;3.決策機制(如遵循多數(shù)意見、背靠背第三人仲裁等);4.專家決策時所依據(jù)的信息(如圖像上是否有標(biāo)記,是否還提供了病史或其他檢查結(jié)果等);5.判定所依據(jù)的臨床準(zhǔn)則(如臨床指南、診療規(guī)范、專家共識等)。
對于試驗中對病灶的檢出是否與臨床參考標(biāo)準(zhǔn)專家組意見一致,一般可考慮1.試驗組/對照組勾畫病灶的中心在專家組勾畫的病灶輪廓邊界范圍內(nèi);2.試驗組/對照組勾畫病灶與專家組勾畫病灶的像素重合度高于一定比例(需提供比例設(shè)定的支持依據(jù));若采用其他判定方法,則需論述合理性。
若采用臨床已確認(rèn)結(jié)果作為臨床參考標(biāo)準(zhǔn),則需明確1.已確認(rèn)結(jié)果所依據(jù)的臨床信息,包括檢查類型及結(jié)果;2.各類影像學(xué)檢查的設(shè)備信息,包括影像檢查的掃描條件等;3. 已確認(rèn)結(jié)果的臨床診斷依據(jù);4.得出已確認(rèn)結(jié)果的醫(yī)師情況,包括專家會診,需明確醫(yī)師資質(zhì);5.若還依據(jù)了臨床隨訪數(shù)據(jù),則還需明確隨訪的時間以及隨訪所做的檢查類型及結(jié)果。
(六)樣本量估算與統(tǒng)計分析
樣本量估算需綜合考慮臨床試驗設(shè)計、主要評價指標(biāo)和統(tǒng)計學(xué)要求。申請人需明確計算公式、相應(yīng)參數(shù)及確定理由,以及所用的統(tǒng)計軟件。
臨床試驗資料中可以提供樣本患病率以及目標(biāo)疾病的流行病學(xué)研究的患病率情況進行合理性論述,并確保臨床研究設(shè)計中樣本數(shù)據(jù)隨機分配給閱片者進行評閱。
平行對照試驗樣本量計算可參考《醫(yī)療器械臨床試驗設(shè)計指導(dǎo)原則》中的相關(guān)內(nèi)容。
若采用MRMC的試驗設(shè)計,樣本量計算需首先明確具體的分析方法,如Obuchowski-Rockette Analysis(OR分析方法)、Dorfman-Berbaum-Metz-Hillis Analysis(DBMH分析法),并進一步明確受試醫(yī)師數(shù)量,檢驗水準(zhǔn)α、檢驗效能1-β、預(yù)計效應(yīng)值,優(yōu)效/非劣效界值,其中預(yù)計效應(yīng)值可通過預(yù)試驗或調(diào)研并匯總分析目標(biāo)病灶檢出的診斷學(xué)研究文獻獲得,優(yōu)效/非劣效界值應(yīng)通過同品種產(chǎn)品臨床試驗結(jié)果或權(quán)威文獻研究等確定。不同疾病的檢測效應(yīng)不同,在試驗設(shè)計中應(yīng)明確優(yōu)效/非劣效界值的設(shè)定依據(jù)。以DBMH分析法為例,樣本量估算與交互隨機效應(yīng)值,檢驗的檢驗效能、檢驗水準(zhǔn),受試醫(yī)師數(shù)量,優(yōu)效界值,非劣效界值(如有)等要素有關(guān)。用于樣本量估算的效應(yīng)值(effect size)選擇時,可通過預(yù)試驗得到的誤差和混合效應(yīng)方差來估計,并考慮預(yù)試驗樣本量等情況,在預(yù)試驗結(jié)果的基礎(chǔ)上采用適度保守的估計。
所有應(yīng)用了試驗產(chǎn)品的受試醫(yī)師和患者都將被納入分析,對于主要指標(biāo),除給出主要評價指標(biāo)(靈敏度、特異度、AUC)的點估計外,還將分別對其對應(yīng)的95%置信區(qū)間進行估計,通過試驗組與對照組的優(yōu)效/非劣效比較判斷本試驗產(chǎn)品是否滿足臨床應(yīng)用的需要。
(七)其他臨床試驗設(shè)計需關(guān)注的問題
1.臨床試驗培訓(xùn)
在試驗前對閱片者開展必要的培訓(xùn),可以有效降低試驗的偏倚。除基本情況培訓(xùn)(試驗流程、術(shù)語定義、數(shù)據(jù)樣本閱片的評價標(biāo)準(zhǔn)等)以外,還需考慮案例培訓(xùn)和典型數(shù)據(jù)樣本講解等,且所用案例獨立于試驗研究數(shù)據(jù)樣本;培訓(xùn)中宜設(shè)置閱片者培訓(xùn)結(jié)果測試及合格接受標(biāo)準(zhǔn);建議臨床試驗中,對閱片者的培訓(xùn)與臨床應(yīng)用時的培訓(xùn),在方法、時間、接受標(biāo)準(zhǔn)上盡量保持一致性;并考慮對臨床試驗閱片者資質(zhì)、能力等要求與臨床應(yīng)用時使用者情況的匹配性。對專家組的培訓(xùn)時間和接受標(biāo)準(zhǔn)宜顯著高于試驗組/對照組的閱片者的培訓(xùn)時間和接受標(biāo)準(zhǔn)。
2.影像樣本評閱質(zhì)量控制
一是由閱片者在獨立盲法條件下對患者關(guān)于試驗的影像檢測結(jié)果進行解釋。二是在選取試驗閱片者時基于其專業(yè)能力和參與研究的可能性,充分保證閱片者對預(yù)期使用者的代表性??煽紤]不同醫(yī)療機構(gòu)來源、不同年資/專業(yè)水平的醫(yī)師。三是將數(shù)據(jù)樣本的臨床診斷結(jié)果、臨床參考標(biāo)準(zhǔn)判定結(jié)果、其他診斷信息(如生化檢測結(jié)果、后續(xù)治療等)或基本信息(如年齡、病史等)對試驗的閱片者設(shè)盲。四是對照試驗可考慮采用交叉閱片設(shè)計,交叉設(shè)計中可根據(jù)相關(guān)領(lǐng)域記憶曲線的研究設(shè)置合理的洗脫期。若采用多閱片者,最好每位閱片者按照不同的數(shù)據(jù)樣本順序進行評閱,有文獻報道典型的洗脫期一般為4~6周。是否采用交叉設(shè)計可根據(jù)申報產(chǎn)品的臨床應(yīng)用方法、場景及適用范圍等綜合判定。
三、產(chǎn)品中非輔助決策臨床功能的評價
人工智能輔助檢測醫(yī)療器械產(chǎn)品還可能包括結(jié)構(gòu)化報告生成、前后圖像對比、正常解剖組織的分割(如肺葉、肋骨等)、流程優(yōu)化、尺寸測量(包括大小、體積等)、CT值測量等非輔助決策類軟件功能,可在臨床試驗中設(shè)置次要評價指標(biāo)用于評價這些功能的安全有效性,亦可根據(jù)《醫(yī)療器械臨床評價技術(shù)指導(dǎo)原則》提交相應(yīng)臨床評價資料。若提交臨床評價,上述功能的驗證確認(rèn)可以考慮測試集測試、壓力測試、對抗測試、質(zhì)量良好的數(shù)據(jù)庫測試結(jié)果中的一種或幾種作為臨床評價的支持證據(jù);若在臨床試驗中設(shè)置次要指標(biāo),指標(biāo)一般采用臨床上對功能準(zhǔn)確性評價的臨床參考標(biāo)準(zhǔn)或?qū)W術(shù)上常用的方法,如分割的準(zhǔn)確性考慮,與醫(yī)師的分割結(jié)果的分割一致性Dice相似系數(shù)(Dice similarity coefficient)等;配準(zhǔn)功能可考慮標(biāo)志點配準(zhǔn)誤差(Fiducial Registration Error)、目標(biāo)配準(zhǔn)誤差(target registration error)、標(biāo)志點定位誤差(Fiducial Localization Error)等。
四、與臨床評價相關(guān)的說明書內(nèi)容
說明書中一般需結(jié)合臨床與非臨床資料給出下列適用的信息:1)臨床試驗總結(jié);2)適用范圍;3)數(shù)據(jù)采集設(shè)備和數(shù)據(jù)采集過程相關(guān)要求等。臨床試驗總結(jié)通常考慮臨床數(shù)據(jù)基本信息、評價指標(biāo)與結(jié)果(必要時含亞組結(jié)果)。人工智能輔助檢測類產(chǎn)品的適用范圍需明確輔助檢測適應(yīng)癥(如肺結(jié)節(jié)、骨折),所基于的影像類型(如胸部CT或結(jié)腸鏡檢查影像),產(chǎn)品其他主要功能(如影像的顯示、處理、測量和分析),以及產(chǎn)品臨床定位(不能單獨用作臨床診療決策依據(jù))等。
建議申請人根據(jù)產(chǎn)品實際情況在說明書中體現(xiàn)如下方面的警告注意事項。1)軟件僅輔助醫(yī)師進行病灶檢測,存在假陰/陽性可能,應(yīng)由專業(yè)醫(yī)師結(jié)合患者的病史、癥狀、體征、其他檢查結(jié)果情況綜合給出最終的病灶檢出結(jié)論,核實是否需要進一步診療的決策,并對臨床診斷結(jié)果負責(zé)。2) 產(chǎn)品依據(jù)YYYY年版指南(例如《胸部CT肺結(jié)節(jié)數(shù)據(jù)標(biāo)注與質(zhì)量控制專家共識(2018)》)設(shè)計,如診療指南有所更新,使用者應(yīng)充分評估指南差異可能帶來的風(fēng)險。3)明確產(chǎn)品臨床試驗中未對病灶邊界分割的準(zhǔn)確性進行評價,如依據(jù)軟件的檢測結(jié)果決定手術(shù)干預(yù)或穿刺活檢,醫(yī)師應(yīng)當(dāng)充分評估其風(fēng)險。
五、參考文獻
[1]中華醫(yī)學(xué)會呼吸病學(xué)分會肺癌學(xué)組, 中國肺癌防治聯(lián)盟專家組,肺結(jié)節(jié)診治中國專家共識(2018版)[J]. 中華結(jié)核和呼吸雜志, 2018,41(10): 763-771.
[2]原國家食品藥品監(jiān)督管理總局.醫(yī)療器械臨床試驗設(shè)計指導(dǎo)原則:食品藥品監(jiān)管總局通告2018年第6號[Z].
[3]國家藥品監(jiān)督管理局醫(yī)療器械技術(shù)審評中心.深度學(xué)習(xí)輔助決策醫(yī)療器械軟件審評要點:國家食品藥品監(jiān)督管理局醫(yī)療器械技術(shù)審評中心通告2019年第7號[Z].
[4]Guidance for Industry and Food and Drug Administration Staff Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data - Premarket Notification [510(k)] Submissions(FDA,2012.07.03)
[5]Lung Cancer Screening CT ProtocolsVersion5.1(AAPM,2019.9.13)
[6]FDA. Clinical Performance Assessment: Considerations for Computer-Assisted Detection Devices Applied to Radiology Images and Radiology Device Data - Premarket Approval (PMA) and Premarket Notification [510(k)] Submissions - Guidance for Industry and FDA Staff,(2012.11)[2021-4-15].
[6]Sica, G.T., 2006. Bias in research studies. Radiology, 238(3), pp.780-789.
[7]Xiao-Hua Zhou, Nacy A. Obuchowski, Donna K. McClish. Statistical Methods in Diagnostic Medicine [M]. Hoboken: JohnWiley&Sons, 2011.
[8]國家衛(wèi)生健康委員會. 人工智能輔助診斷技術(shù)臨床應(yīng)用質(zhì)量控制指標(biāo)(2017年版):國家衛(wèi)生計生委通知2017第7號[Z].
[9]Brandon D. Gallas.et al. Evaluating Imaging and Computer-aided Detection and Diagnosis Devices at the FDA [J]. Acad Radiol. 2012 Apr; 19(4): 463–477.
[10]蕭毅, 劉士遠. 肺結(jié)節(jié)影像人工智能技術(shù)現(xiàn)狀與思考[J]. 腫瘤影像學(xué), 2018, 27: 249-252.
[11]Rees, Colin J., et al. “UK key performance indicators and quality assurance standards for colonoscopy.” Gut 65.12 (2016): 1923-1929.
[12]Misawa, Masashi, et al. "Development of a computer-aided detection system for colonoscopy and a publicly accessible large colonoscopy video database (with video)." Gastrointestinal endoscopy 93.4 (2021): 960-967.
[13]國家消化系統(tǒng)疾病臨床醫(yī)學(xué)研究中心(上海), 中華醫(yī)學(xué)會消化內(nèi)鏡學(xué)分會,中華醫(yī)學(xué)會健康管理學(xué)分會等. 中國早期結(jié)直腸癌篩查流程專家共識意見(2019)[J]. 中華醫(yī)學(xué)會雜志,2019,99(38):2961-2970.
[14]Rompianesi, Gianluca, et al. "Artificial intelligence in the diagnosis and management of colorectal cancer liver metastases." World Journal of Gastroenterology 28.1 (2022): 108.
[15]國家藥品監(jiān)督管理局.醫(yī)療器械臨床評價技術(shù)指導(dǎo)原則:國家藥品監(jiān)督管理局通告2021年第73號[Z].