中文医疗因果关系抽取数据集,CMedCausal

时间：2023-03-10 10:55:07　来源：柠檬阅读网本文已影响人

李子昊陈漠沙马镇新尹康平童毅轩谭传奇郎珍珍

(阿里巴巴杭州 310000)

汤步洲徐健

(哈尔滨工业大学(深圳)鹏城实验室深圳518055) (阿里巴巴杭州 310000)

互联网在线问诊文本中包含大量医学相关概念，如何利用文本挖掘和深度学习技术获取相关医学知识近年来受到广泛关注[1-2]。然而医学概念的复杂性和多样性、医疗数据的隐私性都为相关研究带来巨大挑战。近年来，国际生物与临床信息学集成研究项目(Informatics for Integrating Biology and the Bedside，i2b2)以及中国健康信息处理会议(China Health Information Processing Conference，CHIP)等积极倡导从医疗数据中挖掘相关信息，针对非结构化病历数据组织一系列评测任务，这些评测任务和数据集在相关研究社区中获得广泛影响力，在医学信息处理领域发挥了重要作用。

医学领域的实体、关系抽取技术可识别医学概念以及概念之间的相互关系，并将这些知识应用到医疗知识图谱中，从而能有效提升医疗图谱的可解释性。人工标注图谱成本较高，为了获取更多、更准确的关系知识，需要利用实体关系联合抽取技术[3-5]。

因果关系是一种重要的关系类型，特别是在注重可解释性的医学领域文本中。目前国外研究人员已提出多个因果关系抽取数据集，如 Dominique M等[6]提出的基于金融领域的因果抽取数据集FinCausal，Tan F A等[7]提出的基于新闻领域的因果关系提取任务，在医疗领域 BioCreativeV社区提出的从生物医学文献中自动抽取因果关系实体并用相关语句表示的任务[8]。相较于国外，国内医学因果关系推理方面的公开数据集资源还比较匮乏。因此，本文充分利用医学搜索引擎以及在线问诊的医疗回答文本，构建首个中文医学因果关系抽取数据集CMedCausal，并依托CHIP 2022会议举办“医学因果实体关系抽取”评测比赛(http://cips-chip.org.cn/2022/eval2)。研究人员可利用CMedCausal开展医学因果关系挖掘，因果解释网络构建等方向的工作，从而提升医疗问诊结果的可解释性。

2.1 数据来源

抽取有来医生网站(https://m.youlai.cn)上较为工整且长度超过200个中文字符的线上问诊及医典百科数据。所采集大部分网上公开问诊数据并没有涉及患者隐私信息，所以不需要进行脱敏处理。筛选后的文本共包含9 153段文本，文本平均长度为265个字符。

2.2 任务定义

2.2.1 概述数据集需要对医学概念片段以及医学概念片段之间的关系进行标注。医学概念片段指可作为一个独立语义单元的连续字符片段，可以是医学实体、临床发现或者具体疾病症状，从因果谓词表达上看这些片断行使条件、原因或者结果的语义角色，边界通常采用奥卡姆剃刀原则,保留原始含义的最小片段。标注人员限定了以临床发现和疾病为中心的医学概念片段内容，临床发现也包括实验室检验结果以及检查结果。医学概念片段之间关系包括因果关系、条件关系、上下位关系3种类型。

2.2.2 因果关系指某种原因直接导致某种结果的关系。对于医学上常见的疾病和临床之间的关系即归类为因果关系。例如“人体的胃肠道功能紊乱，导致患者吸收能力变差”。本例中“胃肠道紊乱”是一个医学概念片段，“胃肠道功能紊乱”是“吸收能力变差”的直接原因，“吸收能力变差”是“胃肠功能紊乱”的直接结果。因果关系是医疗问诊里最常见的关系，也是判断问诊回答逻辑性最重要的依据，对于构建整个医疗知识图谱、实现自动诊断、提高医疗问诊可解释性有重要意义。

2.2.3 条件关系指医学概念片段中一些特定的条件，用于修饰特定的因果关系。例如，“对阿莫西林过敏的患者不可以使用,服用阿莫西林可能会引起皮疹、药物热和哮喘等过敏反应,因此使用前一定要做青霉素皮试试验”。本例中“对阿莫西林过敏”是“服用阿莫西林”导致“皮疹”的条件。与因果关系不同的是，条件概念片段并不能直接导致某个结果发生。

2.2.4 上下位关系指医学概念中的大小和蕴含关系，一般指某个宽泛、总称概念包含某个具体、特殊概念，例如，“阿尔茨海默症是一种精神类疾病”，本例中“精神类疾病”包含了“阿尔茨海默症”这一特定的精神类疾病。上下位关系是医学概念中较为重要的关系，对于医学概念的分类、医学图谱构建有重要作用。

2.3 数据标注

2.3.1 标注规范准则1：医学概念片段应尽可能包含完整有用的信息，包括症状的程度、频率等，无关信息不在标注范围内。如“不及时治疗在局部可能会引起疼痛”中需标注“局部可能会引起疼痛”，仅标注“疼痛”则存在信息丢失；
如果涉及人群信息来区分疾病特点，则需要标注人群，如“小儿咳嗽”。准则2：针对多个医学概念片段组合在一起的长实体，采用如下约定进行标注。若每个概念片段具备独立意义则分开标注，如“过量饮酒、使用激素、劳累等引起的股骨头缺血性病变”中标注(“过量饮酒”，“股骨头缺血性病变”)(“使用激素”，“股骨头缺血性病变”)和(“劳累”，“股骨头缺血性病变”)3对因果关系；
若为非连续实体则合并标注，如“食用奶酪、巧克力、可乐会导致过度肥胖”中标注(“食用奶酪、巧克力、可乐”，“过度肥胖”)这对因果关系。其中非连续实体是指多个实体共用部分文字进而导致实体不连续的现象，例如上面例子中，“食用巧克力”和“食用可乐”即属此类。准则3：任务只标注直接关系，不标注间接的推导关系，例如“A 导致 B，B 又导致 C”，则本任务只标注(A，B)和(B，C)两对因果关系，(A，C)不做标注；
同样的，对于上下位或者别名的情况，仅标注最直观的实体，如“A，又称为 B，会导致 C”，只标注(A，C)。

2.3.2 标注过程本任务由 1 名医学专家、1 名人工智能算法专家带领 8 名医学院本科生基于阿里巴巴夸克内部的标注平台完成，前后用时 1.5 个月。标注流程分为 4 个主要阶段，见图1。(1)标注规范制定。规范主要由医学专家制定，在此阶段算法专家从模型处理能力的视角对规范提出优化建议，如医学专家倾向于将多个医学概念组合在一起标注为一个长实体片段，算法专家则会根据模型经验建议将其标注为独立意义的片段(参见标注规范准则2)。最终目标是保证标注规范既符合医学常识，同时也对算法模型友好。(2)试标注。在试标注阶段医学专家会对8名医学院本科生进行系统性的任务讲解和规范培训，并带领8名医学生每人完成20条数据标注，目标是帮助标注人员充分理解任务，并能快速熟悉标注工具。接下来8名医学生和1名算法专家每人要独立完成50条数据的标注，在此期间医学专家会及时跟进标注人员遇到的问题，确保每位标注人员能充分理解任务并正确完成标注工作，同时也会根据标注人员的问题和反馈来优化标注规范。试标注阶段结束后，标注规范也最终定稿。该阶段耗时 1.5 周。(3)正式标注。由8名经过培训的医学生完成剩余语料标注，每人分配1 080条语料，8位标注人员虚拟分为4个小组，同组内的两名标注同学之间有100条重复语料。这样设置的目的是为了统计和评估标注一致度。该阶段标注人员可以在标注工作组中提问和讨论问题，医学专家每天定时解答标注问题，并针对出现的共性问题组织讨论会。该阶段耗时3周。(4)质检。医学专家从每位标注同学的标注结果中随机挑选50条进行质检，分析标注错误类型并要求标注人员进行修复。质检阶段用时1.5周，经过3轮质检后(5名标注人员经过两轮质检后验收合格，另3名经历3轮质检后验收合格)，产出最终的 CMedCausal 数据集。

图1 CMedCausal 标注过程

2.3.3 标注一致性标注一致性(Inter-Annotator Agreement，IAA)是通过计算同一个虚拟小组内两名标注人员重叠标注的 100 条语料的微平均F1值(Micro-F1)和宏平均F1值(Macro-F1) 指标来评估的。取 4 个虚拟小组的平均值得到的结果是：Micro-F1是0.741，Macro-F1是0.723。

2.3.4 数据统计因果关系、条件关系和上下位关系3类关系的标注数量分别为 70 564、3 819 和 4 861,3种关系占比分布为18.5∶1∶1.3。

3.1 实验数据

将实验数据按8∶1∶1的比例划分成训练、验证和测试集，并针对3份数据信息进行统计，见表1。

表1 实验数据信息统计

3.2 评价指标

本任务采用准确率 (Precision, P)、召回率 (Recall, R) 和F1值(F-Measure,F1)作为评估指标。考虑到 3 类关系的比例相差较大，因此本任务采用Macro-F1作为最终评价标准。具体定义，假设有n个类别C1、Ci、Cn，计算公式如下：设正确预测为类别Ci的样本个数为Tp(i)，预测为Ci的样本个数为Ti，真实的Ci的样本个数为Pi。

(1)

(2)

(3)

3.3 实验环境及参数设计

本次实验选择两种常用的关系抽取(Subject-Predict-Object，SPO)模型作为基线(baseline)。OneRel：Shang Y M等[9]提出的一种基于Transformer[10]的BERT[11]编码，后使用N个矩阵进行全局解码的模型，其中N为关系数，矩阵使用3种标记类型来记录S和O的起始终止位置关系。PRGC：Zheng H等[12]提出的一种基于BERT编码，后判断文本的关系种类，根据关系种类预测S和O，再使用对齐矩阵对相应的S和O进行对齐。编码器使用的是bert-base-chinese(https://huggingface.co/bert-base-chinese)模型，每批数据量设置为 6，迭代次数设置为200，句子最大长度设置为512。

3.4 实验结果分析

实体关系总体抽取结果,见表2；
3类关系的具体实验结果,见表3。

表2 实验结果

表3 3类关系实验结果 (OneRel/PRGC)

整体预测效果OneRel模型F1保持在0.4以上，PRGC由于F1较低。随机抽取100条预测结果进行分析，发现错误类型可归结为3类。第1类错误是实体边界识别错误导致的，占比约15%，如“血虚型瘙痒症”可导致“皮肤可呈现大理石纹样”和“瘙痒剧烈”，由于这两个结果在文中是连在一起出现的，两种模型均将其识别为“血虚型瘙痒症”可导致“皮肤可呈现大理石纹样，瘙痒剧烈”。此类错误中模型会将两个或多个并列实体片段预测为一个长实体，导致召回率降低。第2类错误集中在特定修饰语的识别上，如“颈部淋巴结肿大”导致“脖子结节”，模型仅预测了“结节”这个结果，缺失了发病部位“脖子”，此类错误占比约为20%。第3类错误主要分布在条件关系类别中，条件关系相比其他两类关系构成较为复杂，其尾实体是一个嵌套定义的因果关系，两种模型均无法很好地建模嵌套关系，如“前列腺增生”会导致“排尿不畅”，标注语料中“中老年男性”是该因果关系的修饰条件，但两种模型均只预测了(“前列腺增生”，“排尿不畅”)这对因果关系，无法准确捕获“中老年男性”这个修饰条件。从实验结果来看，条件关系最难预测，F1分数不到0.1。因此如何能同时正确识别出条件关系的头、尾实体是非常有挑战性的任务，进一步体现了CMedCausal数据集的难度。从整体实验结果及错误类型分析中可以看出，当前深度学习模型相比人工标注结果还有较大的提升空间，有待于探索更优的模型以及结合医学知识来达到更好的识别效果。

医疗文本的因果实体关系抽取技术有助于提升医疗诊断整体逻辑性和可解释性，对于自动化问诊有重要作用，在此基础上可以进一步构建医疗知识图谱，从而挖掘更多的潜在关系。目前中文医疗因果关系抽取数据集较为缺乏，因此构建一个完善的关系抽取数据集对领域技术的发展有重要意义。

本文构建了一个专门用于医疗因果推断领域研究的因果关系抽取数据集CMedCausal，系统地介绍了数据来源、标注规范及标注过程。数据集包含医学因果推断方面最常见的3类关系：因果关系、条件关系和上下位关系。CMedCausal的构建方法具有一定有效性，为构建医疗知识图谱、医学因果解释网络、提高医疗问答可解释性奠定基础。

通过实验结果可以看出 CMedCausal 具有较高的挑战性，特别是条件关系的判断涉及复杂的因果关系推理以及修饰限定词的识别。同时相较于英文数据集，中文数据集由于词语之间无明显界限使得标注较为复杂，有无修饰语以及实体片段之间是否并列等情况均会导致预测结果与标注结果不一致，但并不能完全表明模型预测结果是完全错误的，因此如何建立一个合理的适用于医学因果关系抽取任务的评价标准也是至关重要的，有待于进一步探索。

•医学信息研究•

猜你喜欢因果关系实体概念 Birdie Cup Coffee丰盛里概念店现代装饰(2022年1期)2022-04-19玩忽职守型渎职罪中严重不负责任与重大损害后果的因果关系南大法学(2021年6期)2021-04-19幾樣概念店现代装饰(2020年2期)2020-03-03前海自贸区：金融服务实体中国外汇(2019年18期)2019-11-25学习集合概念『四步走』中学生数理化·高一版(2018年9期)2018-10-09做完形填空题，需考虑的逻辑关系高中生·天天向上(2018年7期)2018-07-23聚焦集合的概念及应用中学生数理化·高一版(2017年9期)2017-12-19实体的可感部分与实体——兼论亚里士多德分析实体的两种模式哲学评论(2017年1期)2017-07-31两会进行时：紧扣实体经济“钉钉子”领导决策信息(2017年9期)2017-05-04振兴实体经济地方如何“钉钉子”领导决策信息(2017年9期)2017-05-04

相关热词搜索： 因果关系 抽取中文