搜索

文本分析与检索

gecimao 发表于 2019-07-01 13:17 | 查看: | 回复:

  3.对于每一个文档 d,用排除了SVD中消除后的词的新的向量替换原有的向量

  概率模型不够完备:在document层面上没有提供合适的概率模型,使得pLSA并不是完备的生成式模型,而必须在确定document i的情况下才能对模型进行随机抽样

  用一组词及其词频分布来刻画主题,并认为文本片段是从一个概率模型中生成的。

  信息检索模型是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。 本质上是对相关度建模。

  信息检索模型是描述信息检索中的文档、查询和它们之间的关系(匹配函数)的数学模型。

  匹配函数把经过处理的文献表示和查询表示同时放在系统中进行匹配,通过设置不同的匹配函数得到不同的输出结果;

  – 自我保护功能,降低用户对搜索系统的期望,使自己不在责任方,检索结果不好的原因在于用户构造查询不好

  •布尔模型目前仍然是商业文档数据库的主流模型,并为一些新的领域提供了一个好的起点

  

  

  

   −

  

  

  

  •可以根据结果文档对于查询串的相关度通过Cosine Ranking等公式对结果文档进行排序

  •索引项被假设为彼此之间相互独立的,然而在实际中,考虑索引项之间的相关性也许是个缺陷

  • 由于许多索引项之间的相关性具有局限性,不加区别地将其应用到所有文档中,会影响检索系统的整体性能

  −给定一个用户查询,存在一个文档集合,该集合只包括与查询完全相关的文档而不包括其他不相关的文档,称该集合为理想结果集合

  −给定一个查询q和文档集中一个文档dj,概率模型试图找出用户对其感兴趣的概率

  •模型假设这个概率只是依赖于查询和文档的表示,进而模型假设文档集中存在一个子集,它使得总体相关概率在集合中的文档被认为是与查询相关的,不在集合中的则被认为是不相关的

   对一篇文档而言,若文档中的各个索引词相互独立,则有

  表示文档dj与查询q不相关的概率。文档dj与查询q的相似度sim(dj, q)可以定义为:

   −

  − 2) 不相关文档中的索引词ki的分布可以通过文档集中索引词的分布来估计,即

   −

   改进

   − 1) 用已经检出的文档中索引词ki的分布来估计

   − 2) 假定所有未检出的文档都是不相关的来估计

   即

  

本文链接:http://windsorflowers.net/diguixiangliang/307.html
随机为您推荐歌词

联系我们 | 关于我们 | 网友投稿 | 版权声明 | 广告服务 | 站点统计 | 网站地图

版权声明:本站资源均来自互联网,如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

Copyright @ 2012-2013 织梦猫 版权所有  Powered by Dedecms 5.7
渝ICP备10013703号  

回顶部