代写 algorithm database statistic 第29卷第3期 计 算 机 应 用 研 究 Vol.29No.3 2012 年 3 月 Application Research of Computers Mar. 2012
第29卷第3期 计 算 机 应 用 研 究 Vol.29No.3 2012 年 3 月 Application Research of Computers Mar. 2012 语义分析与词频统计相结合的 中文文本相似度量方法研究* 华秀丽1,2 ,朱巧明2 ,李培峰2 ( 1. 苏州大学 计算机科学与技术学院,江苏 苏州 215006; 2. 江苏省计算机信息处理技术重点实验室,江苏 苏州 215006) 摘 要: 基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文 本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的 方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计 算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选 TF-IDF 值较 高 的 词 项 作 为 特 征 项 ,再 借 助 H […]