Co studie hodnotila
Studie hodnotila výkonnost systému Carebot AI CXR, který je založen na deep learningu, pro identifikaci sedmi běžných radiologických nálezů na rentgenových snímcích hrudníku v běžné klinické praxi. Výkon AI byl porovnán se šesti radiology různé úrovně zkušeností v multi-reader designu pomocí 956 po sobě jdoucích CXR ze skutečného nemocničního pracovního toku, přičemž potvrzení odborníků sloužilo jako pravda.
Výsledky studie v klinické praxi
Ve všech hodnocených nálezech AI dosahovala stále vysoké citlivosti, zejména pro nízkofrekvenční a klinicky relevantní abnormality, jako jsou plicní léze a pneumotorax. To významně snížilo počet falešně negativních výsledků ve srovnání s mladšími a středně pokročilými radiology. Specificita byla obvykle nižší než u zkušených radiologů, což vedlo k více falešným pozitivním upozorněním. V klinické praxi to potvrzuje roli AI jako nástroje pro podporu rozhodování zaměřeného na bezpečnost, který pomáhá standardizovat kvalitu detekce a zmírňuje variabilitu spojenou se zkušenostmi.
Klíčová čísla
Analyzované CXR: 956
Zjištěné nálezy: 7 (atelektáza, konsolidace, pleurální výpotek, plicní léze, subkutánní emfyzém, kardiomegalie, pneumotorax)
Citlivost plicních lézí (AI): 90.5%
Citlivost plicních lézí (radiologové): 23.8–66.7%
Citlivost pleurálního výpotku (AI): 95.3%
Celkový trend: vyšší citlivost než u většiny radiologů, nižší specificita
Největší přínos: mladší a středně pokročilí radiologové
Ve této studii jsme vyvinuli algoritmus automatické detekce založený na hlubokém učení (DLAD, Carebot AI CXR) k detekci a lokalizaci sedmi konkrétních radiologických nálezů (atelektáza (ATE), konsolidace (CON), pleurální efuze (EFF), plicní léze (LES), subkutánní emfyzém (SCE), kardiomegalie (CMG), pneumotorax (PNO)) na rentgenech hrudníku (CXR). Shromáždili jsme 956 CXR a porovnali výkonnost DLAD s výkonností šesti jednotlivých radiologů, kteří hodnotili snímky v nemocničním prostředí. Navržený DLAD dosáhl vysoké senzitivity (ATE 1.000 (0.624-1.000), CON 0.864 (0.671-0.956), EFF 0.953 (0.887-0.983), LES 0.905 (0.715-0.978), SCE 1.000 (0.366-1.000), CMG 0.837 (0.711-0.917), PNO 0.875 (0.538-0.986)), i když byl porovnán s radiology (NEJVYŠŠÍ: ATE 0.000 (0.000-0.376), CON 0.182 (0.070-0.382), EFF 0.400 (0.302-0.506), LES 0.238 (0.103-0.448), SCE 0.000 (0.000-0.634), CMG 0.347 (0.228-0.486), PNO 0.375 (0.134-0.691), NEJVYŠŠÍ: ATE 1.000 (0.624-1.000), CON 0.864 (0.671-0.956), EFF 0.953 (0.887-0.983), LES 0.667 (0.456-0.830), SCE 1.000 (0.366-1.000), CMG 0.980 (0.896-0.999), PNO 0.875 (0.538-0.986)). Zjištění studie ukazují, že navržený DLAD má potenciál pro integraci do každodenní klinické praxe jako systém podpory rozhodování, efektivně snižující míru falešně negativních výsledků spojenou s juniorskými a středními radiology.





