Modeling Diagnostic Label Correlation for Automatic ICD Coding
用于自动ICD编码的诊断标签相关性建模
考虑到电子健康记录(EHR)中的临床记录,预测诊断代码是一项具有挑战性的任务,诊断代码被制定为多标签分类任务。大量的标签、分层依赖性和不平衡的数据使预测任务变得极其困难。大多数现有工作都独立地为每个标签构建了二进制预测,忽略了标签之间的相关性。为了解决这个问题,我们提出了一个两阶段框架,通过捕获标签相关性来改进自动ICD编码。具体来说,我们训练一个标签集分布估计器来重新存储由基础预测器生成的每个标签集候选的概率。本文是首次尝试将标签集分布作为ICD编码的重新排序模块。在实验中,我们提出的框架能够改进在基准MIMIC数据集上进行医学代码预测的最佳性能预测器。