Co studie hodnotila
Tato jednodenní retrospektivní studie hodnotila algoritmus automatického detekce založený na hlubokém učení (DLAD) pro identifikaci abnormalit na rentgenech hrudníku napříč 12 předem vybranými nálezy. Výkon modelu byl porovnán s pěti radiology různých úrovní zkušeností na datové sadě 127 po sobě jdoucích CXRs z městské nemocnice. Skutečnost byla stanovena odborným centrálním čtenářem s přístupem k klinickým záznamům. MDPI+1
Výsledky studie v klinické praxi
DLAD vykázal významně vyšší citlivost než radiologové při detekci jakékoli abnormality na CXRs, což znamená méně přehlédnutých abnormálních skenů. Specificita byla nižší než u radiologů, což vedlo k více falešně pozitivním predikcím. Negativní prediktivní hodnota byla významně vyšší pro DLAD, což naznačuje, že skeny klasifikované jako normální modelem byly velmi pravděpodobně skutečně normální. Klinicky toto podporuje použití AI k pomoci triáži a prioritizaci, což pomáhá snižovat přehlédnuté abnormality a potenciálně zrychlit pracovní postupy zprávy, zatímco konečná interpretace zůstává u radiologa. MDPI
Klíčová čísla
Hodnocené snímky: 127 CXRs
Citlivost DLAD: 92,5%
Citlivost radiologů (průměr bootstrapu): 66,1%
Specificita DLAD: 64,4%
Specificita radiologů (průměr bootstrapu): 80,3%
Negativní prediktivní hodnota (DLAD): 94,9%
Negativní poměr pravděpodobnosti (DLAD): 0.12 (lepší než radiologové)
Rentgenový snímek hrudníku (CXR) je jedním z nejběžnějších radiologických vyšetření pro jak nevážné, tak i vážné klinické indikace, ale lidská chyba nebo nedostatek prioritizace pacientů mohou ztížit včasnou interpretaci. Algoritmy hlubokého učení (DL) se ukázaly jako užitečné při hodnocení různých abnormalit, včetně tuberkulózy, lézí plicní parenchymy nebo pneumotoraxu. Algoritmus automatické detekce založený na hlubokém učení (DLAD) byl vyvinut k detekci vizuálních vzorů na CXR pro 12 předem vybraných nálezů. Pro hodnocení navrhovaného systému jsme navrhli jednostrannou retrospektivní studii, která porovnává DL algoritmus s výkonem 75 radiologů s různými zkušenostmi. Na hodnoceném datovém souboru (n=127) shromážděném z městské nemocnice v České republice, DLAD dosáhl senzitivity (Se) 0.925 a specificity (Sp) 0.644, ve srovnání s bootstrapped Se radiologů 0.661 a Sp 0.803, s statisticky významným rozdílem. Negativní pravděpodobnostní poměr (NLR) navrhovaného softwaru (0.12 (0.04-0.32)) byl významně nižší než hodnocení radiologů (0.42 (0.4-0.43), p<0.0001). Žádné kritické nálezy nebyly softwarem přehlédnuty.





