当前位置:首页百度站长平台:搜索引擎索引系统概述 举报文章

百度站长平台:搜索引擎索引系统概述

作者:admin    来源:用户投稿    时间:2015.6.18   

170205520

  众所周知,搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。过去几周给大家介绍了抓取相关的简要过程。今天简要介绍一下索引系统,以亿为单位的网页库中查找特定的某些关键词犹如大海里面捞针,也许一定的时间内可以完成查找,但是用户等不起,从用户体验角度我们必须在毫秒级别给予用户满意的结果,否则用户只能流失。怎样才能达到这种要求呢?

  如果能知道用户查找的关键词(query切词后)都出现在哪些页面中,那么用户检索的处理过程即可以想象为包含了query中切词后不同部分的页面集合求交的过程,而检索即变成了页面名称之间的比较、求交。这样,在毫秒内以亿为单位的检索成为了可能。这就是通常所说的倒排索引及求交检索的过程。如下为建立倒排索引的基本过程:

  

  (1)页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等;

  (2)分词的过程实际上包括了切词分词同义词转换同义词替换等等,以对某页面title分词为例,得到的将是这样的数据:term文本、termid、词类、词性等等;

  (3)之前的准备工作完成后,接下来即是建立倒排索引,形成{termàdoc},可以粗略的理解为如下,为什么是【term->doc】,而不是直接应用【doc->term】呢?

  上述即是索引系统中的倒排索引过程,是搜索引擎实现毫秒级检索非常重要的一个环节。

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:百度  站长  平台  搜索  搜索引擎  索引  引擎  系统  概述  
  • 相关搜索
图片推荐
    如何将HTTP站点转换成HTTPS、及后续问题

    如何将HTTP站点转换成HTTPS、及后续问题

    文/那年那月  https及https的本地测试环境搭建。asp.net结合https的代码实现http网站转换成https网站,以及之后遇到的问题等。  一:什么是https  SSL(Securi
    90后连续创业失败者的独白:被投资人骗,团队解散

    90后连续创业失败者的独白:被投资人骗,团队解散

    在我还是个媒体实习生的时候就认识李佳了,转眼3年过去,她仍然在创业的路上坚持。  不管媒体包装得多么光鲜,但创业并不是一件容易的事,她一路上跌跌撞撞吃了不少亏,她希望和大家分享自己的创业经验。同时,也
    qq兴趣部落一天引流4000微信粉丝实操经验

    qq兴趣部落一天引流4000微信粉丝实操经验

    现在很多站长喜欢写推广类的文章,我想主要原因是这类文章的受众多,比较讨好。这也导致一系列的副作用,很多的文章只是为了博取流量,可操作性很差,甚至是有些作者本人也从来没有实践过。你自己都不去或者不能实践
    LG G4 S或将搭载骁龙615处理器 本月或发布

    LG G4 S或将搭载骁龙615处理器 本月或发布

    【Yesky新闻频道消息】 不久前,有消息称,LG正计划为大家带来一款LG G4的衍生版LG G4 S。即将发布的LG G4 S又有了新消息。据悉该机将搭载高通骁龙615处理器,GPU采用Adreno
    阿里把开了一年的“美版天猫”卖了

    阿里把开了一年的“美版天猫”卖了

    [摘要]阿里巴巴将把11Main网上商城转让给纽约一家风险投资支持的电商企业OpenSky。    腾讯科技讯 阿里巴巴集团在美国整体上市的前夕,阿里启动了国际化战略。在国际化的第一站美国,阿里集团开
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面