|
题目:
雅宝题库答案:
****此区域为收费内容**** 需支付 1 知识币后可查看,1币=0.01元查看答案
雅宝题库解析:
概念层次自动构建题目对自然语言处理和信息检索领域中的诸多研究都具有重要意义,也是当前的研究难点。本文针对领域概念层次自动构建题目进行了深入研究,提出了一个由领域文本库自动构建概念层次的完整流程,该流程主要包括:领域术语提取、术语间上下位关系识别、词义消歧、概念层次构建及标注等阶段。按照该流程,可由领域文本库构造出一个自然结构为多叉树的领域概念层次。本文对流程中的各个阶段分别进行了研究,并最终实现了一个概念层次自动构建系统。本文的主要工作包括:(1)给出了两个新的相似度公式,一个是短语粒度上的词之间统计相似度量SP(Term Similarity in Phrase Level),另一个是基于领域信息的概念相似度量。第一个相似度量统计两个词在类似短语中的出现规律,若两个词经常在类似短语的相同位置出现,则它们的相似度越大。基于领域信息的概念相似度量是针对已消歧的单词,计算单词含义之间的相似度,而非计算词之间的相似度。该度量赋予同一领域的概念更大的相似度。在领域术语排序和对术语消歧的应用中,这两个相似度量取得了较好的结果。(2)提出一个基于图的领域术语排序模型GDTR(Graph-based Domain Terms Ranking Model)。该模型首先构造候选术语的相似度图,图中的顶点是候选术语,术语之间边上的权重是它们的相似度。之后,该模型依据频率和图中心算法对图中的顶点(候选术语)打分排序。实际应用中,可选择排在前N个的候选术语作为真正的领域术语。在该模型中,构造术语相似度图所用的相似度量和图中心算法可以自由选择。该模型将候选术语的频率和其在候选术语相似度图中的中心度结合,对所有候选术语排序。实验表明,该模型在多个领域文本库上优于已有的若干术语排序算法。(3)提出以Hearst Patterns为起点的基于规则的启发式上下位关系识别方法。该方法首先寻找文本库中满足Hearst Patterns的所有术语对;然后根据得到的术语对,反过来搜寻这些术语对在文本库中共同出现时的其他模式,并利用找到的新模式提取出满足这些模式的术语对;反复在模式和术语对之间迭代,直至没有新的模式和术语对出现为止。该方法继承了Hearst Patterns高精确率的优点,并通过不断地在模式和术语对之间迭代,有效地克服了普通的基于规则的上下位关系识别方法召回率低的缺点。(4)提出利用遗传算法解决词义消歧题目的方法,其基本思想是通过遗传算法寻找要消歧的所有单词的一组含义,使得它们取这组含义时,整体语义相似度最大。文本给出了三个基于遗传算法的词义消歧方法,它们分别是GWSD, WGWSD和 Lesk-WGWSD。 该类方法可以对一组领域术语进行消歧,因为领域术语具有较强的共性;它们也可用于普通的词义消歧任务,因为一个上下文片段中的所有词之间是相互关联的,这与用遗传算法解决词义消歧题目的出发点吻合,即选择使得要消歧的所有单词整体语义相似度最大的一组含义作为最优解。基于遗传算法的词义消歧方法是全局性的词义消歧方法,它们综合考虑所有要消歧单词的信息,同时对它们消歧,而不是每次只针对一个单词消歧。WGWSD和Lesk-WGWSD在普通的词义消歧任务中优于已有的一些词义消歧算法。且GWSD可对输入的一组领域术语进行消歧,赋予这些术语与领域相关的含义。(5)实现了一个领域概念层次自动构建系统。该系统遵循本文提出的领域概念层次自动构建流程,实现了由领域文本库自动构建自然结构为多叉树,且经过标记的领域概念层次的功能。实验结果表明,该系统可自动生成全面的、深层次的、有意义的领域概念层次。 |
上一篇:句子语义相似性度量的研究下一篇:人寿保险业务系统的设计与实现
|