第29卷第3期 计 算 机 应 用 研 究 Vol.29No.3 2012 年 3 月 Application Research of Computers Mar. 2012
语义分析与词频统计相结合的 中文文本相似度量方法研究*
华秀丽1,2 ,朱巧明2 ,李培峰2
( 1. 苏州大学 计算机科学与技术学院,江苏 苏州 215006; 2. 江苏省计算机信息处理技术重点实验室,江苏
苏州 215006)
摘 要: 基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文 本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的 方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计 算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选 TF-IDF 值较 高 的 词 项 作 为 特 征 项 ,再 借 助 H o w N e t 语 义 词 典 和 T F – I D F 方 法 对 特 征 项 进 行 语 义 分 析 和 词 频 统 计 相 结 合 的 文 本 相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到 的 F – 度 量 值 明 显 优 于 只 采 用 T F – I D F 方 法 或 词 语 语 义 的 方 法 ,从 而 证 明 了 提 出 的 文 本 相 似 度 计 算 方 法 的 有 效 性 。 关键词: 向量空间模型; 语义分析; 词频; 概率分布; 文本相似度
中图分类号: TP391 文献标志码: A 文章编号: 1001-3695( 2012) 03-0833-04 doi: 10. 3969 /j. issn. 1001-3695. 2012. 03. 008
Chinese text similarity method research by combining semantic analysis with statistics
HUA Xiu-li1,2 ,ZHU Qiao-ming2 ,LI Pei-feng2
( 1. School of Computer Science & Technology,Soochow University,Suzhou Jiangsu 215006,China; 2. Provincial Key Laboratory of Computer
Information Processing Technology of Jiangsu,Suzhou Jiangsu 215006,China)
Abstract: Based on the statistical text similarity measurements method used TF-IDF method to model text documents as term frequency vectors,and computed similarity between documents by using cosine similarity. This method ignored semantic infor- mation of text documents,the similarity value wasn’t correct. Although based on semantics method made up for the drawback, but need of knowledge to construct the relationship between words. By studying the advantages and disadvantages of two kinds of methods,this paper presented a novel text similarity method,which firstly pre-processed text,then chose the terms with higher TF-IDF value as the feature items,next used semantic dictionary and TF-IDF method to compute the text similarity,fi- nally used several K-means clustering methods for evaluating performance of the new text document similarity. Experimental results show that the method’s F-measure is superior to the others’which proves that the proposed method is effective.
Key words: vector space model; semantic analysis; term frequency; probability distribution; text similarity
0 引言
文本聚类作为信息处理的一个重要方向,通过将大量信息 组织成少数有意义的簇,并保证同一簇内的文本之间是相似 的,达到改善检索性能的目的。文本相似度量方法是实现快 速、高质量文本聚类的重要途径。另外,文本相似度量方法在 信 息 检 索 [ 1 ] 、图 像 检 索 [ 2 ] 、文 本 摘 要 自 动 生 成 [ 3 ] 、文 本 复 制 检 测[4]等领域也有广泛的应用基础。目前,文本的相似度量方 法主要分为基于统计学和基于语义分析两类。
基于统计学的文本相似度量方法是将文本看做一个个独 立的词语,利用词语的词频信息将文本建模为高维而稀疏的向 量,并利用向量间余弦相似度、Jaccard 相似度等方法计算文本
间的相似度。基于统计学的计算方法主要包括向量空间模型、 隐性语义索引模型、基于属性论的方法等。它的缺点表现在: 需要大规模语料库的支持; 忽略了词语之间存在的语义关系; 文本表示模型维数高而且稀疏,处理困难。
基于语义分析的文本相似度量方法则利用特定领域的知 识库来构建词语之间语义关系,以此考察文本之间的相似性。 与基于统计学的计算方法相比,该方法不需要大规模语料库的 支持,而且准确度较高,但知识库的建立是一项复杂而繁琐的 工程,因此现有研究一般采用收录词比较完备的词典代替知识 库。如文献[5,6]使用 HowNet[7]进行词语和句子的语义相似 度 研 究 ,文 献 [ 8 ] 使 用 同 义 词 词 林 计 算 句 子 之 间 的 相 似 度 ,文 献[9]采用 WordNet[10]研究词语消歧等。
收稿日期: 2011-08-23; 修回日期: 2011-10-15 基金项目: 国家自然科学基金资助项目( 60970056,61070123,61003155) ; 模式识别国家 重点实验室开发课题基金资助项目; 江苏省自然科学基金资助项目( BK2008160) ; 高等学校博士学科点专项科研基金资助项目( 20093201110006)
作者简介: 华秀丽( 1986-) ,女,山东泰安人,硕士研究生,主要研究方向为自然语言处理、文本相似度计算( huaxiuliemail@ 126. com) ; 朱巧明( 1963-) ,男, 江苏苏州人,教授,博导,主要研究方向为中文信息处理; 李培峰( 1970-) ,男,江苏苏州人,副教授,博士,主要研究方向为中文信息处理.
·834· 计算机应用研究 第29卷
本文针对传统方法进行文本相似度计算时存在的缺陷,在 对文本表示模型进行有效的降维处理的基础上,提出了一种既 考虑词项的概率分布、又兼顾词项之间的语义关系的文本相似 度计算方法。同时表明在给定两个文本时,利用本文提出的算 法对两者在语义层次以及词频统计层次进行综合衡量计算出 的相似度更加有效、准确。
1 相关工作
1. 1 向量空间模型(VSM)
向量空间模型是统计学方法中最为经典的一种文本相似 度量方法,采用它进行文本相似度计算时,最重要的是计算词 项的权重,也就是词项在文本中的重要程度,计算时一般采用 TF-IDF 方法。使用 TF-IDF 方法计算向量中词项的权重时会 涉及到两个概念:
a) 词频。某个词项在一个文本中出现的次数,通常情况 下认为某个词的词频越大,它与文本的主题越相关。
b) 逆文本频率[11]。某个词项在文本集合的多篇文本中出 现的次数越多,该词项的区分能力越差。例如一个包含了 100 篇的文本集合中,如果某个词项 A 在 50 篇文本中都出现,而 另外一个词项 B 只在 5 篇文本中出现,则词项 B 比 A 具有更 好的区分能力。
利用上述概念计算每一个词项的 TF-IDF 值:
TFIDF(ωi) =tf(ωi) ×idf(ωi) =tfj(ωi) ×log(N/df(ωi)) (1)
其中:TFIDF(ωi)表示当前词项ωi 的TF-IDF值,该值等于词项 ωi 的词频 tf( ωi ) 与逆文本频率 idf( ωi ) 的乘积,具体地,文本 j 中任一词项ωi 的TF-IDF值可以通过tfj(ωi)和log(N/df(ωi)) 计算得出; tfj ( ωi ) 表示当前词项 ωi 在文本 j 中出现的频率; N 表示文本集合中所有文本的总数; df( ωi ) 表示文本集合中有多 少篇文本出现了当前词项 ωi 。通过对文本集合中的每个词项 进行上述分析,得到每一篇文本中每一个词项的 TF-IDF 值,然 后利用这些 TF-IDF 值为每一篇文本建立一个向量空间模型, 通过余弦计算得到文本之间的相似性。
1. 2 词语语义相似度计算
人们希望获取准确信息的要求越来越高,对仅利用词语的 表面信息( 如词频) 的文本相似度计算方法提出了挑战。不能 仅考虑词项在文本中的概率分布情况,还必须从深入挖掘文本 语义的角度进行相似度计算。举一个简单例子,这里有两篇文 章,一篇是关于目前教科书研究情况的介绍,另外一篇是关于 课 本 研 究 情 况 的 介 绍 ,两 篇 文 章 中 分 别 对 “ 教 科 书 ”“ 课 本 ”提 到多次。如果采用传统的基于词频统计的相似度量方法对两 篇文章进行相似度计算,则可能会因为两者的词项不同而被认 为不相似,尽管“教科书”和“课本”是一对同义词。
正因为如此,人们开始研究词与词之间的相似度。词与词 之间的相似度量需要将所有的词组织起来构成一个语义网络, 通过考察该网络中词与词之间的边、节点等信息来建立词与词 之间的相似度。英文最常用的是普林斯顿大学研究开发的 WordNet[10],而中文是由董振东先生编著的知网,也称做 How- Net[7]。本文采用 HowNet[7]进行词语语义相似度计算。
文献[1]详细介绍了 HowNet 的知识结构以及知识描述语 言的语法等内容,并据此提出了利用 HowNet 进行词语相似度
计算的方法和词语相似度计算的公式:
s i m ( S 1 ,S 2 ) = α ( 2 )
其中:S1、S2 表示两个义原;dist(S1,S2)表示它们的路径长度;α 是一个调节参数,表示相似度为 0. 5 时的路径长度。
由于式( 2) 仅从义原路径长度来考虑两个词语的相似度, 而未充分利用 HowNet 体系结构,计算结果不够准确。因此本 文在原来算法的基础上对其进行了改进。通过研究发现,影响 词语相似度的因素除义原节点之间的路径长度之外,义原所在 概念树的深度以及概念树的密度也是影响相似度计算的重要 因子。本文在式( 2) 的基础上,加入了义原所在树的深度信 息,采用如下公式进行词语的相似度计算:
α+( dist( S1,S2) )
sim( S1,S2) =α×( depth( S1) +depth( S2) ) / ( α×( depth( S1) +depth( S2) ) +
d i s t ( S 1 ,S 2 ) )
( 3 )
其中: depth( S) 表示 S 距离根节点的层次。
同时对 HowNet 中未登录的词也进行了处理。对这些
HowNet 概念中未出现的词语,首先对它们进行切分,然后进行 组合语义,最后借助参照概念修正组合语义。
2 文本预处理和特征选择 2. 1 文本预处理
在对文本建立词项的词频向量之前,对文本进行适当的预 处理是非常有必要的。预处理阶段首先要对文本进行分词。 本文采用中国科学院的 ICTCLAS( http: / /ictclas. org/) 分词工 具,接着对分词过后的文本进行去除停用词的处理。此外,由 于本文中提出的方法还需要对词项进行语义分析,因此除删除 停用词外还需要进行下面三个预处理步骤:
a) 需要处理文本中的人名、地名、组织机构名称等特殊词 项。采用命名实体识别技术来处理文本中的这些特殊词项,将 这些特殊词项统一替换为特定的字符串,人名对应于 PER,地 名对应于 LOC,组织机构名称对应于 ORG 等。在对文本进行 特征选择时,可以忽略这些词项,避免了其对文本聚类的影响。
b) 对文本内部出现的同义词进行一致性处理。比如,在 同一文本的上下文中可能同时出现“土豆”和“马铃薯”两个意 思 完 全 相 同 的 词 项 ,会 将 它 们 进 行 合 并 ,统 一 用 “ 土 豆 ”或 “ 马 铃薯”来表示这个概念。这样做的目的是为了节省文本之间 计算词语语义相似度的时间开销。
c) 对文本中所有的词项进行词性分析。因为最能表征文 本含义的主要是文本中的实词,所以需要给出所有词项的语义 属性,即该词项是名词、动词、形容词还是副词等。
2. 2 特征项选择 文本预处理结束后,接下来要对整个文本集合中的每一篇
文本的词项进行 TF-IDF 值的计算,并将文本中各个词项的 TF-IDF 值表示为一个向量,以此进行文本的相似度计算。这 样得到的向量维度非常高而且稀疏,因此需要对其进行降维处 理。本文采取的方法是从每一篇文章中挑选若干关键词项来 表示文本,这样就可以做到在保证不影响文本特征提取的前提 下,最大可能地减少文本特征向量的表示维度。那么哪些词项 才算关键词项呢?通过分析语料发现,可以表达文本主要意思
第 3 期 华秀丽,等: 语义分析与词频统计相结合的中文文本相似度量方法研究 ·835·
的是句子的主干成分,而主干成分主要由名词、动词构成,所以 选择名词和动词作为关键词项。降维处理时将每一篇文本中 词项的TF-IDF值进行排序,然后从中选取TOPP(P为百分 比) 的关键词项作为文本的特征表示。与传统的 TF-IDF 方法 对比,维度下降了 1 – P,这样大大提高了效率。
3 文本相似度计算 在得到了每篇文本的特征向量后,接下来要考虑如何计算
两篇文本之间的相似度。由于一篇文本由特征词项来表示,因 此文本的相似度就可以由特征词项向量间的相似度来描述。
设νi、νj 是两篇不同文本的特征词项向量。νi = ( ωi1, ωi2,…,ωim),νj =(ωj1,ωj2,…,ωjn),定义文本的相似度为
( 8) 计算得出。
cosSim(νi,νj) = ∑TFIDF( ωik) ×TFIDF( ωjk) /
k=1 mn
槡∑(TFIDF(ω ))2 ×∑(TFIDF(ω ))2 (5) k = 1 ik l = 1 jl
式( 5) 表示向量的 vi 和 vj 之间的余弦相似度,其中 λ 指向量 vi 和 vj 中出现的相同词项的数目( 可以使向量 vi 和 vj 表示为相 同的维数,本文为了体现公式的通用性,没有进行这样的处理) 。
本文基于这样的假设来推导公式,如果两篇文本中彼此相 似度较高的词项越多,那么这些词项所占的 TF-IDF 值在各自 文档中的比例越高,说明计算这些词项的语义相似度更能反映 文本的相似情况。而剩余的词项由于语义相似度偏低,再通过 计算语义相似度来得出的文本相似情况可信度不高,但可以利 用它们在整个文本集合中的概率分布情况反映相似度。因此 需要计算 vecSim( νi ,νj ) 的加权因子,而加权因子根据关键词 向量中满足相似度阈值条件的关键词的 TF-IDF 值在整篇文本 TF-IDF 值总和中所占的比例计算得到。具体的加权因子计算 式由式( 6) 给出:
( 3) 计算得到; vecSim( vi ,vj ) 由向量 vi 、vj 中所包含的词项语 义相似度决定,相似的向量必定包含相似度较高的词项,而不 相似的向量则彼此所包含的词项相似度较低。
算法 1 语义分析与词频统计相结合的相似度算法
输入:关键词项向量vi、vj 的词项相似度阈值μ。 输出:关键词项向量vi、vj 的相似度。
a)从向量νi 中的词项ωi1开始,利用式(3)寻找向量νj 中与ωi1最
为相似的词项 ωjk ( 即 sim( ωi1 ,ωjk ) 词项语义相似度取得最大值) ,记录 词项 ωi1 和 ωjk 之间的相似度,同时判断 sim( ωi1 ,ωjk ) 是否大于等于阈 值μ,如果是将ωi1放入集合Λi。同理,vi 中的其他项作相同处理。
b) 累加 νi 中每个项的相似度,除以向量 νi 中词项的数量,即向量 νi 的维度,以此作为向量νi 和νj 的相似度 sim( νi,νj) 。重复步骤 a) b) 的过程,得到向量νj 和νi 的相似度sim(νj,νi)。
c)计算sim(νi,νj)和sim(νj,νi)的算术平均值,作为向量νi 和νj 的 语 义 相 似 度 v e c S i m ( ν i ,ν j ) 。
d) 利用式( 1) 分别为向量νi 和νj 中的词项计算 TF-IDF 权值,利用 式(5)计算向量νi 和νj 之间的余弦相似度。
e) 由于在前面的步骤中已经分别找出了集合 Λi 和 Λj 中的元素, 因此利用式( 6) 计算加权因子 wf。
f) 根据前述一系列步骤,利用式( 4) 最终得出向量 νi 和 νj 之间的 文本相似度。
textSim(νi,νj) =wf×vectSim(νi,νj) +(1-wf)cosSim(νi,νj) (4) 其中: wf 表示关键词向量 v 和 v 之间相似度的加权因子; vec-
ij
Sim( νi ,νj ) 表示关键词向量 vi 和 vj 之间的语义相似度,由式
λ
实验设计与结果分析
实验数据
4 4. 1
∑ TFIDF( ωik ) ∑ TFIDF( ωjl ) wf= 12 (k∈Λi +l∈Λj )
mn
∑TFIDF( ω ) ∑TFIDF( ω ) k=1 ik l=1 jl
(6)
实验数据来源于知网期刊论文,人工收集了 500 篇论文, 其中涉及的领域有计算机、机械、电子、航空、化工、物理总共六 类文本集合,为方便叙述将这些文本集合称之为数据集。实验 中选取数据集中的一些子集用于实验验证,表 1 总结了实验中 所用的实验数据摘要。
表 1 实验数据摘要
数据集名称 聚类数目 总的文本 聚类中最少 聚类中最多 平均聚类
数目 文本数目 文本数目 文本数目 计算机 6 110 8 20 16 机械 8 105 10 15 13 电子 8 106 7 20 13 航空 5 69 8 16 12 化工 5 60 10 15 11 物理 5 50 8 14 10
实验中首先采用自然语言处理工具 ICTCLAS 对文本集合 进行预处理,包括对文本进行分词和词性标注,之后识别文本 集合中的人名、地名、组织机构;然后应用TF-IDF算法对文本 中的所有词项进行权值计算,从中选择特定比例的 TOP 关键 词项; 再结合本文提出的文本相似度计算算法对实验文本进行 相似度计算,这样就会得到文本的相似度矩阵。接下来用得到 的相似度矩阵进行聚类。为了证实提出的方法更加有效,同时 实 现 了 基 于 T F – I D F 得 到 相 似 度 矩 阵 进 行 文 本 聚 类 ,以 及 文 献
[12]提出的基于语义( 本文称之为 SemanticSim) 得到相似度 矩阵进行聚类( 文献[12]是针对英文语料采用 WordNet 进行 语义相似度计算,本文借助它的实验参数,采用 HowNet 进行 了 SemanticSim 实验: 5 级上位关系的词项扩展、利用同义词项 频率代替词项频率以及词义消歧) 的算法,以便对这三种聚类 效果进行比较。
实验中为了更客观地反映本文提出的文本相似度算法的 有效性,聚类算法的实现采用了 CLUTO[13]工具包。实验对比 了 CLUTO 工具包实现的直接 K-均值( DKM) 、二分 K-均值 ( BKM) 以及凝聚 K-均值( AKM) 聚类算法。
其中,TFIDF( ωik ) 表示关键词词项 ωik 的 TF-IDF 值,右端表示 关键词向量 vi 中所有满足相似度阈值条件的关键词项 ωik ( k∈Λi ) 的 TF-IDF 值在 vi 所有的词项 TF-IDF 值总和中所占 的百分比。式( 6) 中的集合 Λi 和 Λj 定义如下:
Λ i = { k : 1 ≤ k ≤ m , m a x { s i m ( ω i k ,ω j l ) } ≥ μ } 1≤l≤n
Λ j = { l : 1 ≤ l ≤ m , m a x { s i m ( ω j l ,ω i k ) } ≥ μ } 1≤k≤n
( 7 )
如果关键词向量vi 中的某个关键词ωik与另一个关键词 向量vj 中的关键词ωjl(l=1,2,…,n)的相似度超过用户设定 的相似度阈值 μ,则将该关键词 ωik 放入集合 Λi 。同理集合 Λj 中的元素依据集合 Λi 的方法对关键词向量 vj 中的关键词进 行选择。
1(1m
vecSim( vi,vj) = ∑ max {sim( ωik,ωjl) }+
2 mk=1 1≤l≤n
1n) ∑ max{sim(ωjl,ωik)}
(8) 其中: sim( ωjl ,ωik ) 表示关键词 ωik 、ωjl 之间的语义相似度,由式
n l=1 1≤k≤n
·836· 计算机应用研究 第29卷
实验中采用 F-度量值来衡量本文提出的文本相似度。F-
度量值是信息检索中一种组合查准率和召回率指标的平衡指
标 ,综 合 利 用 查 准 率 、查 全 率 以 及 F – 度 量 值 可 以 判 断 每 一 篇 文
本在聚类后是否被正确划分到了所属类别,因此,可以计算每
一个聚类 j 所属类别 i 的查准率 P( i,j) 及查全率 R( i,j) 。查准
率P(i,j) =nij/nj,nj 是类别j的文本数目,nij是聚类j中隶属于
类别 i 的文本数目。同理,可以得到查全率 P( i,j) = nij /ni ,F-
度量值 F( i,j) =2 ×P( i,j) ×R( i,j) 。 P( i,j) + R( i,j)
提出的文本相似度计算方法比只采用 TF-IDF 方法或词语语义 方法得出的文本相似度值更加有效、准确。
5 结束语 本文针对基于统计学以及语义分析进行文本相似度计算
时存在的缺陷,提出了一种新颖的文本相似度计算方法。与传 统的基于向量空间模型进行文本相似度计算不同,该方法不再 仅借助于词语的表面信息进行相似度计算,而是从词语的语义 相似度、词语在文本中的概率分布两方面综合衡量文本之间的 相似度。同时本文考虑到传统的 TF-IDF 算法在对大量文本进 行向量表示时会致使维度很高,而且极度稀疏的问题,对其采 取了降维处理。经聚类实验证明,本文的方法是有效的。
后续的工作将在现有探讨词项相似性、词频统计对文本相 似度量影响的基础上,进一步深入分析文本相似度所蕴涵的语 义相似特征,考虑文本的段落、篇章等结构信息,更好地提高文 本相似度计算的效果。
参考文献:
[1] KUMAR N. Approximate string matching algorithm[J]. International Journal on Computer Science and Engineering,2010,2 ( 3 ) : 641 -644 .
[2] COELHO T A S,CALADO P P,SOUZA L V,et al. Image retrieval using multiple evidence ranking[J]. IEEE Trans on Knowledge and Data Engineering,2004,16( 4) : 408-417.
[3] KO Y,PARK J,SEO J. Improving text categorization using the im- portance of sentences[J]. Information Processing and Manage- ment,2004,40( 1) : 65-79.
[4] THEOBALD M,SIDDHARTH J. SpotSigs: robust and efficient near duplicate detection in large Web collection[C]/ /Proc of the 31st An- nual International ACM SIGIR Conference on Research and Develop- ment in Information Retrieval. New York: ACM Press,2008: 563-570.
[5] 刘群,李素建.基于《知网》的词汇语义相似度计算[C]//第三届 汉语词汇语义学研讨会论文集.2002:59-76.
[6] 李素建. 基于语义计算的语句相关度研究[J]. 计算机工程与应 用 ,2 0 0 2 ,3 8 ( 7 ) : 7 5 – 7 8 .
[7] 董振东.知网[EB/OL].(2003).http://www.keenage.com.
[8] 车万翔,刘挺,秦兵,等.面向双语句对检索的汉语句子相似度计 算[C]/ /全国第七届计算语言学联合学术会议. 北京: 清华大学
出 版 社 ,2 0 0 3 : 8 1 – 8 8 .
[9] PATWARDHAN S,BANERJEE S,PEDERSEN T. Using measures of
semantic relatedness for word sense disambiguation[C]/ / Proc of the 4th International Conference on Intelligent Text Processing and Com- putational Linguistics. 2003: 301-308.
[10]MILLERG. WordNet: alexicaldatabaseforEnglish[J].Communi- cations of the ACM,1995,38( 11) : 39-41.
[11] SALTON G. The SMART retrieval system-experiments in automatic document processing[M]. Upper Saddle River: Prentice-Hall,1971: 207 -214 .
[12]HOTHO A,STAAB S,STUMME G. WordNet improves text docu- ment clustering[C]/ / Proc of SIGIR Semantic Web Workshop. New York: ACM Press,2003: 505-514.
[13] KARYPIS G. CLUTO: a clustering tookit[R]. Minneapolis: University of Minnesota,2002.
4. 2
实验 1 特征项选择
实验中对本文提出的相似度算法中选取 TOP 关键词项的 比例问题进行了研究。通过实验发现,选择不同比例的关键词 项对文本相似度计算有不同的影响。实验中首先设定关键词 项相似度阈值参数 μ = 0,即将所有词语的语义相似度看做同 样重要的条件,选取 DKM 算法进行聚类。图 1 给出了选择不 同比例的 TOP 关键词项对相似度影响的实验结果。实验表明 选取文本中 60% 左右的 TOP 关键词项能够取得最好的聚类效 果,低于这个比例,由于选取的关键词数目偏少,代表文本特征 的信息不足,致使聚类效果欠佳; 反之,选择过多的关键词项因 引入了噪声项,降低了文本之间相似度计算的准确性。
4. 3 实验 2 相似度阈值确定
在确定了 TOP 关键词项比例后,还要确定相似度阈值 μ 对文本相似度计算的影响。本文选择了 60% 的 TOP 关键词项 作为文本特征向量,同样利用 DKM 算法进行聚类的条件下, 研究同一聚类中的关键词相似度阈值 μ 的不同对聚类效果的 影响。
由图 2 得知,随着 μ 的逐渐升高,聚类效果也逐步提升,这 是因为随着相似度阈值的提高,文本之间的区分度越来越大, 使得聚类效果越来越好,尤其是 μ∈[0. 7,0. 75]时,聚类效果 达到最优值,但当相似度阈值超过 0. 75 时,继续提高 μ 反而聚 类效果下降了。这是因为本文选择使用的基于 HowNet 的词 语语义相似计算很少能够有超过 0. 75 的相似度值,导致了 F- 度量值的下降。
实验 3
实验设定 TOP 关键词项百分比为 60% ,μ = 0. 70 的条件
三种文本聚类算法的比较实验
4. 4
下,采用本文提出的文本相似度计算方法分别进行 DKM、
BKM、AKM 聚类实验,实验效果如图 3 ~ 5 所示。
从图 3 ~ 5 可以看出,采用本文提出的文本相似度算法在 三种经典的聚类算法下进行聚类都比传统的 TF-IDF 算法以及 SemanticSim 算法具有更好的 F-度量值。这是因为本文提出的 文本相似度算法选择性地吸收了另外两种相似度算法的优点, 并有效规避了它们的缺点。因此通过聚类实验有效证明,本文