课题名字:医疗病历中的关系抽取与知识图谱构建研究
1、 研究的基本内容和要解决的主要问题
1、基本内容
随着科技的迅速发展,数据特别是网络数据正以指数规律飞速地增长。而作为网络数据中非常重要的一部分,文本数据受到了相当大的重视。为了应对海量文本数据带来的挑战,有效地存储、管理以至于利用文本数据,人们迫切地需要一些能够在海量信息源中迅速找到真正需要信息的自动化工具。信息抽取(Information Extraction)的研究正是为了解决这个问题。 信息抽取,是从结构化或者半结构化的文本自动抽取特定信息,并以结构化的形式存储。信息抽取任务一般都会包含了两个紧密相连的任务:命名实体识别和实体关系抽取。文本语料经过实体抽取,得到的是一系列离散的命名实体,为了得到语义信息,还需要从相关语料中提取出实体之间的关联关系,通过关系将实体(概念)联系起来,才能够形成网状的知识结构。
2、 主要问题
每个医疗机构都有自己的电子医疗病历库,每份电子医疗病历上都详细记录了患者的入院情况、入院诊断、主要症状、治疗经过和出院诊断等等。
要解决的问题:
· 命名实体识别:从电子病历(表格形式)中抽取出最关键的实体信息,比如治疗(类型和方案),病名,症状,检查名
注:检查名可以先不考虑,我暂时只考虑前三个实体。
· 关系抽取:
· 定义了三种实体之间的关系:病名和治疗之间的关系,病名和症状之间的关系,症状和治疗之间的关系。
详细说就是,某种病采取了什么治疗,某种病具有什么症状,某种症状采取了什么治疗。
例如这段话:
患者因“确诊肺癌6月,咯血半小时”入院。6月前患者无明显诱因出现
(注:确诊肺癌6月,咯血半小时 是症状)
咳嗽,刺激性咳嗽为主,偶有咳痰为白色泡沫痰,爬坡、上梯等活动后感气
促不适,于2014.4到我院肿瘤科住院治疗,诊断为:左肺腺癌T2N2M1 Ⅳ期
(注:出现咳嗽……感气促不适 是症状)
(肺内),患者拒绝放化疗,院外自行服用易瑞沙,并在我科门诊给予中医中
(注:左肺腺癌T2N2M1 Ⅳ期(肺内) 是病名)
药治疗,病情稳定。3月前,患者无诱因出现咳嗽加重,痰中带血,阵发性
(注:中医中药治疗 是治疗类型)
加重,收住我科。结合相关检查考虑患者病情进展,与患者及家属商议后于
(注:咳嗽加重…是症状)
2014.6.11予TP方案化疗。患者于2014-06-12诉心慌,胸闷,呼吸急促,胸
(注:TP方案 是治疗方案)
水B超及心包积液检查:少量心包积液。右侧中等量胸腔积液,行胸腔穿刺
置管术,引流出血性胸水,并送检查见恶性肿瘤细胞,类型待定,病理
(注:胸腔穿刺置管术 是治疗方案)
号: 1407011 。
· 对治疗类型和方案定义了修饰关系:一种是时间关系,另一种是,医生会提出建议,但是患者拒绝。
例如这段话:
患者于2014.9.15入院完善相关检查考虑病情进展,建议患者换方案化疗或放疗及靶向治疗等,患者拒绝上述治疗,同意继续给予中医中药抗肿瘤治疗。
首先时间信息2014.9.15要抽出来,其次这句话里出现了实体:化疗 放疗 靶向治疗 中医中药抗肿瘤治疗,但是前三个是医生建议的,最后一个才是患者采纳的,这是我们要用的。
二、研究方法及措施
我们已经有了2000条医疗病历数据,预处理工具ltp,以及治疗方案和类型的词典。现在已经实现了:1.用基于词典和模板的方法把治疗方案,治疗类型这两个实体抽出来2.治疗的时间可以抽出来
希望你们能对数据进行标注,用机器学习的方法训练分类器,进行命名实体识别和关系抽取以及最后知识图谱的构建。
电子病历数据样例:
词典样例:
模板:
基本上就是用到正则匹配,比如有些模板:
治疗类型:“给予…治疗” “予…治疗”
治疗方案:“行…” “行…术” “…方案”
预处理工具:
哈工大的语言云平台 ltp 这个工具可以完成中文分句分词,词性标注,句法分析