一种机器学习工具通过分析电子健康记录数据、检查结果和患者人口统计信息,能够帮助临床医生识别肝细胞癌(HCC)高危人群。肝细胞癌是最常见的肝癌形式。
这是发表在《癌症发现》期刊上一项研究的结论,该研究利用了英国生物样本库50万人的数据,其中包括538例肝细胞癌病例,超过三分之二(69%)的病例发生在没有肝硬化、病毒性肝炎或其他慢性肝病等危险因素的患者中。
研究人员使用英国生物样本库80%的数据训练模型,并在剩余20%的数据上进行初步验证,同时还在美国40万人的All of Us注册数据库上进行了额外验证,该数据库包含445例肝细胞癌病例。
德国亚琛工业大学的共同首席研究员卡罗琳·施耐德表示,该研究的总体目标是寻找改善当前肝细胞癌风险识别方法的途径。目前的方法主要关注狭窄的高风险人群,使用影像学和基于血液的癌症筛查,可能会遗漏许多高危个体。
她说:"筛查通常推荐给已确诊肝硬化或严重肝病的患者,因为许多肝细胞癌病例发生在这些患者中,但还有许多未诊断肝硬化或具有其他危险因素的个体也可能受益。"
他们PRE-Screen-HCC算法的一个版本(模型C)分析了广泛的数据范围,包括人口统计、生活方式、健康记录和血液检查,研究作者表示该模型能够在人群规模上"高精度"地分层个体肝细胞癌发病风险。
有趣的是,添加基因组学和/或代谢组学数据(这在人群水平上可能具有挑战性)并没有显著提高其性能。
施耐德说:"这表明我们可以使用简单、易获得的数据预测肝细胞癌风险,而无需复杂且昂贵的基因测序。"她补充说,这一特点提高了模型广泛应用的潜力,特别是在资源有限的环境中。
肝细胞癌是第五大常见恶性肿瘤,也是全球癌症相关死亡的第三大原因,发病率不断上升,主要由肝病发病率上升驱动,这使其成为一个重大的公共健康问题。
研究人员表示,尽管PRE-Screen-HCC主要基于英国生物样本库的白人参与者数据进行训练,但在种族更加多样化的All of Us队列的非白人亚组中评估时,仍保持了其性能,这为其在不同人群中的应用潜力带来了良好前景。
来自德国德累斯顿工业大学的第一作者扬·克卢斯曼说:"由于有如此多的因素影响风险,迫切需要有效的工具来帮助临床医生识别高危患者。能够同时处理不同类型临床数据的机器学习工具对于这一重大临床挑战可能特别有用。"
Q&A
Q1:PRE-Screen-HCC算法是什么?
A:PRE-Screen-HCC是一种机器学习算法,通过分析人口统计、生活方式、健康记录和血液检查等数据,能够高精度地预测个体患肝细胞癌的风险,帮助临床医生识别高危人群。
Q2:这个算法相比传统筛查方法有什么优势?
A:传统筛查主要针对已确诊肝硬化或严重肝病的患者,容易遗漏其他高危人群。PRE-Screen-HCC算法使用简单易获得的数据,无需复杂基因测序,能够在更大人群范围内识别风险,特别适用于资源有限的环境。
Q3:PRE-Screen-HCC算法在不同种族人群中效果如何?
A:研究显示,尽管算法主要基于英国生物样本库的白人数据训练,但在美国All of Us数据库更具种族多样性的非白人亚组中评估时,仍保持良好性能,表明其在不同人群中具有应用潜力。