日前,第十四届全国知识图谱与语义计算大会(ccks-2020)在南昌召开。会上公布了ccks-2020技术评测结果,云知声-中科院自动化所语言与知识计算联合实验室在“面向中文电子病历的医疗命名实体识别评测任务”中获得冠军,并斩获该任务唯一技术创新奖。
ccks由中国中文信息学会语言与知识计算专业委员会主办,是知识图谱、语义技术、链接数据等领域的核心会议。其中,ccks技术评测致力于促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接,而“技术创新奖”的设立,专门用于鼓励创新性技术的使用。
“面向中文电子病历的医疗命名实体识别”是ccks围绕中文电子病历语义化开展的系列评测的延续,在ccks 2017、2018、2019相关评测任务的基础上进行了延伸和拓展,旨在从电子病历纯文本文档中识别并抽取出医学临床相关的实体指称,并将其归类到预定义的疾病诊断、影像检查、实验室检验、手术、药物以及解剖部位六种实体类别上。
相对于通用领域的命名实体识别,医疗命名实体识别面临两大核心挑战:
实体标注不一致。医疗领域的标注通常需要医学专业背景的人员,而不同科室方向的标注者对标注标准的理解各异,因此容易出现不同标准的标注结果。这一现象难以用规则去规避,也不能简单的直接纠正训练集中标注不一致的实体,因为并不知道哪一种标准是正确的。
缺乏训练数据。由于医学领域数据的敏感性,研究者们往往难以获得足够多的标注数据。标注数据的缺乏通常会导致长尾现象以及模型泛化性不足。当训练数据缺乏时,模型的预测结果可能会因模型参数的不同设置而剧烈变动。在医学场景下,需要的是更稳定、可靠的模型。
为应对上述难点,云知声-中科院自动化所联合实验室团队基于贝叶斯不确定性策略构建了一个基于有噪标签学习的中文医疗命名实体识别系统。该系统由基于对抗训练的半监督深度学习融合模块与基于实体多标、漏标与错标规则的后处理模块共同组成。在本次评测中,系统在官方决赛测试集上取得了严格指标0.9156,松弛指标0.9660的最高分数。
目前,联合实验室团队这一创新研究成果已在云知声旗下“智能病历质控”、“智能语音电子病历”等产品中应用,并用于医疗知识图谱的构建。相关产品已在全国百余所医院落地,对于提升医生工作效率、强化医院信息化管理及智慧医疗体系建设意义重大。
雷锋网雷锋网