面向元数据的文本检索关键技术研究

[复制链接]
查看: 78|回复: 0

2万

主题

3万

帖子

7万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
73682
发表于 3 小时前 | 显示全部楼层 |阅读模式
目:


雅宝题库答案
****此区域为收费内容****    需支付 1 知识币后可查看,1币=0.01元查看答案


雅宝题库解析:
    随着信息技术的高速发展,互联网上的各种异构信息急剧增加,这给基于关键词匹配技术的信息检索系统提出了更大的挑战;同时,如何提供一个合理的检索结果排序,使用户能够从返回的大量检索结果中快速找到所需信息,也成为海量信息检索系统的必须要解决好的题目。    为解决以上题目,本文首先利用元数据技术对各类异构信息资源进行定义和描述,设计了一种描述型核心元数据模型,从而解决了异构信息的统一描述题目。随着元数据数量的急剧增加,研究并开发一个高性能的元数据检索系统成为必然。描述性元数据是一种文本信息,本文围绕面向元数据的文本检索关键技术开展研究,包括元数据描述与表示、信息检索模型、元数据权重计算、元数据检索结果的排序等技术,使得用户能够从海量的元数据信息中快速准确地获取所需信息资源;同时应用统计方法对海量的元数据进行分析,并基于共现分析模型提出了一种词语间关系密切度SRC算法,从而实现定量计算词语之间的语义关联关系的程度大小并揭示事件或事物之间的潜在关系,最后与元数据检索技术结合起来,有效提高信息检索效率。    论文围绕面向元数据的文本检索关键技术开展研究工作,主要贡献及创新点如下:    (1) 提出一种可配置的特征词语义权重算法TF-FDF    本文针对TF-IDF的不足,提出了一种可配置的特征词语义权重算法TF-FDF。该方法使得基于VSM模型的特征词权重计算更加合理、更加灵活,并适用于特定领域的信息检索。通过实验验证,在面向特定领域的信息检索中该方法明显优于传统的TF-IDF方法。其中可配置的文档频度FDF(Flexible Document Frequency)需要对特定领域的文档集进行事先观察,通过判断特征词的分布情况确定FDF参数,最后利用FDF函数求得每个特征词的FDF值,使得TF-FDF更能准确反映出词语的语义权重。    (2) 提出一种基于共现分析模型的词语语义关系密切度算法    共现分析是一种基于统计的分析方法,可以对词语间语义关联关系进行定量分析。本文综合考虑了共现词语的距离远近和上下文位置关系,并对共现词语之间存在句子或段落分隔的共现关系进行了惩罚,最后基于LAR模型提出了改进的共现分析算法,并基于该算法计算出词语之间的语义关系密切度SRC(Semantic Relation Closeness)。SRC可应用于词语间的语义关联关系发现、查询的自动扩展、本体构建等功能之中。实验证明,该方法优于基于条件概率模型的共现分析方法。    (3) 提出一种用于排序的元数据权重计算方法MetaRank    在海量信息检索中,检索结果的排序题目一直是当前研究的热点。基于“链接分析”的PageRank是一种与查询无关的网页静态权重算法,该算法根据网页的链接信息对网页权重进行离线计算,可以极大地降低排序时间。元数据本身没有链接关系,本文利用不同元数据之间相同特征词的两两映射关系建立无向图,在此基础上,本文参考改进的PageRank算法提出了元数据文档权重计算方法——MetaRank算法。MetaRank不但考虑了文档间的链接关系,还充分考虑了文档中特征词的权重关系。因而比PageRank考虑的题目更加全面,也使排序结果更为准确。经过理论证明和实验验证,MetaRank算法是收敛的,并在时间和空间复杂度上能够满足应用要求。    (4) 提出了一种基于排序支持向量机RankingSVM的检索结果综合排序方法    排序学习是信息检索和机器学习相结合的一个新兴研究方向,其目标是在给定的训练样本中通过机器学习获取一种最优排序函数。本文结合元数据的特点,分别实现了基于扩展布尔模型、基于查询扩展的空间向量模型以及基于元数据权重MetaRank的三种检索结果排序方法,并将不同模型产生的排序结果及元数据文档的属性作为RankingSVM中的多特征输入,然后利用机器学习方法综合各种模型的排序结果以获取最优排序结果。通过实验结果分析,证明本文实现的元数据检索系统的结果排序方法是一种质量高且实时性好的排序方法。    本文研究成果已经在面向科技信息资源的元数据检索系统中得到应用并发挥了重要作用。





上一篇:基于视频跟踪的针刀导航系统的设计与实现
下一篇:整体叶轮宽行加工刀位优化算法研究
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

精彩课程推荐
|网站地图|网站地图