目的
设计一个文本挖掘模型/算法,从英文的论文中抽取与医疗、癌症相关的词,以及其对应的数据和数据对应的主体描述,并用precision, recall, F-measure值来对模型进行评估,最后设计一个demo,一个网页,来展示这个模型的输出结果。
【下面是几个例子:
原始文本:The mean survival was 11 months in A group and 10 months in B group
需要的输出结果:Mean survival(医疗关键词): A group(数据主体描述)-11 months(数据), B group(数据主体描述)-10 months(数据).
原始文本:Total response rates of A and B groups were 70.0% and 78.9%.
需要的输出结果:Response rates: A group-70%, B group-78.9
原始文本:Six, twelve and eighteen months cumulative survival rates of A and B groups were 75.0%, 42.5%, 26.2% and 81.6%, 26.4%, 10.5%.
需要的结果:Survival rates: A group:6 months_75%, 12 months_42.5%, 18 months_26.2%; B group: 6 months_81.6%, 12 months_26.4%, 18 months_10.5%
】
编程语言
一定要是Python 3
可用的开源软件包:
和python有关的都可以,但用Spacy最好,https://spacy.io/
训练集和测试集:
医疗以及癌症方面的论文(pdf),用这些论文作为训练集,一部分作为测试集。
主要方法:
因为是特定的领域,导师要求主要用Rule Based Approach。(PS:我会提供一篇以前的文章,那篇文章和我需要做的东西几乎一模一样,但他是用java来实现的,而我这里需要用python,所以麻烦师兄看看那篇文章,是否可以把他的方法复盘到python中来?)
需求总结/可交付结果总结:
1. 设计一个模型/算法,用所给的训练集训练之后,能从文本和文章中抽取医疗相关词汇,以及其对应的数据和数据对应的主体描述。
2. 对模型进行验证和评估,用10-fold cross validation(十折交叉验证)对模型进行评估,并得出precision, recall, F-measure
3. 设计一个简易的网页demo,进行成果展示,就像boson NLP网站那样,输入一段话或者载入一篇文章,可以显示出所抽取的内容和结果。http://bosonnlp.com/demo?source=home-banner
医疗相关的词汇:
和导师商量了之后,主要方法想用医疗相关的词汇作为trigger words,再用一定的rules来抽取该词所对应的数据和数据主体描述。医疗相关的词汇我在这汇总一下:
Overall survival
OS
Survival duration Survival time
ST,
survival rate
Median survival time
Progression free survival (PFS)
Progression rate
PR
Time to progression
TTP Time-to-progression
Event free survival
EPS
Overall response rate
ORR
OR
Response rate
Duration of response
Response duration
RT
Response time
DoR
Complete Response
Complete Remission
CRR
CR
Complete response rate
Partial Response
Partial Remission
PRR
PR
Minor Response
MRR
MR
Mean survival
Disease Free Survival
DFS
Objective Response Rate
ORR
CR+PR
Patients
People in hospital
Survival rate
Survival time
Survival duration
ST
Survival
/docProps/thumbnail.jpeg