当前位置:首页简单的认识搜索引擎 举报文章

简单的认识搜索引擎

作者:admin    来源:用户投稿    时间:2015.7.17   

  虽然百度已全面取消referer,但网站SEO优化工作,依然不可缺少。因为做SEO优化,是为了使网站更加适合搜索引擎的检索行为,为网站带来自然流量。常言道,知己知彼,百战不殆,下面,就和白掌一起来认识一下搜索引擎把。

  首先,和白掌一起认识一下什么是搜索引擎。

  搜索引擎,就是在搜索框中,直接入所需信息的关键词,就可从互联网中获取与搜索词相关信息的软件系统。通常,这些搜索结果会呈现在搜索结果页,搜索到的信息,可能是网页,可能是图像,也可能是其它类型的文件。对于人工实时维护更新的站点,大多情况下,也就是我们所优化的网站,搜索引擎会派出基于一定算法的网站爬虫来抓取站点实时更新的信息。但是,在搜索引擎发展之初,并没有网站爬虫的存在。

  然后,让我们一起来看一下搜索引擎早期的发展。

  在互联网发展早期,蒂姆•伯纳斯•李建立了第一个网站并托管在CERN(欧洲核子研究组织)的服务器上。后来,蒂姆在这个网站中列举了其它网站,其中尚存有记录的是1992年的一次具有历史意义的快照。但随着越来越多服务器上线,这份列表无法及时更新,自后再上线的新服务器,都会出现在NCSA Mosaic下一个名为“What‘s New”的分类中。

  第一个被用于在互联网上提供搜索服务的工具时Archie,这一象征“Archive“的名称,并不包含其中的字母”v“。这一工具,是由蒙特利尔市McGill University计算机科学专业的学生Alan Emtage、Bill Heelan和J.Peter Deutschz于1990年做成。他们下载了公共匿名FTP站点上所有文件的目录列表,创建了一个可对文件名称进行搜索的数据库。但不管怎样,受数据量的限制,Archie不能索引这些站点的内容,只能进行手动搜索。

  1991年,Mark McCahill创建了Gopher系统。它的出现促使两大新搜索程序-Veronica和Jughead-诞生。类似于Archie,这两项搜索程序可搜索收录于Gopher索引系统中的文件名和标题。其中,Veronica提供了在Gopher列表的大多数目录标题中进行关键词搜索的服务,Jughead则是一个从特定Gopher服务器获取菜单信息的工具。当搜索引擎Archie的名称还未收录到Archie系列丛书中,Veronica和Jughead就已存在于这套丛书中,不过其中会索引Archie相关的内容。

  1993年夏天,虽然专业目录有人工维护,但尚没有为Web而存在的搜索引擎。Geneva某大学的Oscar Nierstrasz写了一系列Perl手稿。Oscar会在这些手稿中,定期反馈网页的情况,后来他又按照一种标准格式,将这些手稿编辑了一遍。这些手稿,就是之后W3Catalog的雏形,web的第一个原始搜索引擎发布于1993年9月2日。

  1993年6月,Matthew Gray打造了第一个web robot(搜索引擎爬虫机器人)-the Perl-based World Wide Web Wanderer,并将其用于生成一种叫做Wandex的索引。Wanderer存在的目的是为了衡量维网(World Wide Web)的大小,Web的第二个搜索引擎是Aliweb,它出现于1993年11月。Aliweb没有采用web robot,它是使用一种特定的格式来索引每一个站点的信息。

  1993年12月,Jonathon Fletcher创建了Jump Station系统。这种系统使用一种Web Robot来发现网页并为其建立索引,同时,用一种web格式来作为其搜索程序的接口。Jump Station可以说是世界上第一个World Wide Web的搜索引擎。它将网页搜索引擎的三大基本特征-抓取、索引和搜索-集于一体。但是由于Jump Station所在平台可用资源的局限性,其索引内容仅限于web robot遇到的网页标题和副标题。

  1994年,WebCrawler诞生,它是允许Web Robot爬取“全文内容“的搜索引擎之一。与其前辈不同的是,它支持用户搜索任一网页中的任一个搜索词。之后,它成为所有主流搜索引擎的标准,也是第一个被公众所熟知的搜索引擎。

  同年,卡内基梅隆大学创建了Lycos。Lycos是搜索引擎中的元老,最早提供信息搜索服务的网站之一,也是重要的商业典型。1996年,Lycos以收录6000W文件位居当时最大的搜索引擎。

  随后,互联网中出现很多搜索引擎。这些搜索引擎包括Magellan网际网路搜索引擎、EXCITE搜索引擎、Infoseek资讯查找、因特通、Northern Light搜索引擎和AltaVista,纷纷抢占人气。Yahoo!是当时广受欢迎的搜索方式,但它的搜索功能仅能在它的网页目录下运行,而不是其网页的全文本副本。查询的人也可以浏览目录,而无需进行关键词搜索。

  1996年,Netscape计划在其浏览器打造一款专属自己并极具特色的搜索引擎。消息发出后,对此感兴趣的互联网公司很多, Netscape就改变计划,与五家主流搜索引擎达成协议,将这五个搜索引擎轮流放在Netscape的搜索引擎页。这五家公司分别是 Yahoo!,Magellan,Lycos,Infoseek和Exicite。

  1998年,Google从Goto.com引入了PPC的概念,简单的说就是,买卖搜索词, 这对于之后搜索引擎商业化具有重大意义,使互联网变现成为可能。

  在20世纪90年代末期,搜索引擎,也以互联网投资风暴中的明星产品而著称。有些公司高调进入互联网市场,在首次公开募股中均获得了创纪录的收益。有些公司则砍掉了其公共搜索引擎,转型为专门的营销公司,比如Northern Light。很多搜索引擎公司都遭遇了投机泡沫(1995-2001)期间的互联网泡沫,鼎盛于1999年,结束于2001年。

  2000年前后,Google搜索引擎声名鹊起。正如谷歌后来的创始人Sergey Brin和Larry Page所写的Anatomy of a Search Engine一文中所解释的,PageRank技术的提出采用谷歌搜索可以得到较好的搜索结果。这一为网页排名的迭代算法,是通过互联网浩瀚的超链接关系来确定页面的等级。Google把从A网页到B网页的链接解释为A网页给B网页的“点赞”,然后Google根据“点赞”网页(甚至来源的来源,即链接到A网页的网页)和“被点赞”网页的等级来决定新的等级,简单的说,一个高等级的网页可使其它低等级页面的等级提升。谷歌搜索也一直为其搜索引擎维持一个简洁的页面。相反,谷歌的很多竞争对手都选择将其搜索引擎嵌入到某一门户网站。树欲静而风不止,谷歌因其饱受欢迎一直在被Mystery Seeker恶搞,比如前段时间,谷歌地图中显示白宫是个“黑鬼屋”。

  2000年,Yahoo!在Inktomi的搜索引擎中提供搜索服务。2002年,Yahoo!收购Inktomi,并于2003年收购Overture。2004年,Yahoo!兼并了Inktomi和Overture的技术,推出自己的搜索引擎,与谷歌成为竞争对手。

  1998年秋天,Microsoft采用Inktomi的搜索结果推出MSN搜索。1999年上半年, MSN开始在Inktomi搜索结果中掺杂来自Looksmart搜索结果。1999年有一段时间,MSN搜索也会采用AltaVista的搜索列表。2004年,Microsoft开始专注搜索技术,打造自己的Web Robot。2009年1月1日,Microsoft将MSN更名为Bing并上线。2009年7月29日,Yahoo!与Microsoft达成合作关系,在这一合作中,Yahoo!可得到Microsoft Bing技术的支持。

  最后,和白掌一起来了解一下搜索引擎的工作。

  搜索引擎的工作通常分为三个步骤,即爬行、索引,搜索。

  简单地说,搜索引擎会存储标记有html的网页,这些网页通常都是网站爬虫(有时也称作蜘蛛)抓取来的。而网站爬虫,会定期到访网站,并爬行网站内容的自动程序。站长可通过robots.txt文件来排除不希望被爬虫抓取的页面。

  爬虫将页面内容抓取回来后,搜索引擎会对这些内容进行分析,以确定如何索引这些内容,例如,搜索引擎会从网页的标题、网站内容、题目或Meta标签中提取出关键词。网页的数据会存储至索引库,用于之后的搜索词搜索。用户的搜索词可以是单个的词,索引会帮助用户尽可能快的找到搜索词相关的信息。

  搜索词处理

  用户在搜索引擎界面入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。搜索词的处理必须十分快速。

  排序

  对搜索词处理后,搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的网页,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到“搜索”页面。

  再好的搜索引擎也无法与人相比,这就是为什么网站要进行搜索引擎优化。没有SEO的帮助,搜索引擎常常不能正确的返回最相关、最权威、最有用的信息。

  xue.sem123.com,让信息变得简单。

好文打赏,给Ta鼓励
扫一扫用手机阅读本文
Tags:简单  简单的  认识  搜索  搜索引擎  索引  引擎  
  • 相关搜索
图片推荐
    4款过亿美金APP的创业法则:人性至上,专注+极致

    4款过亿美金APP的创业法则:人性至上,专注+极致

    创业,两个字,一横一竖:错的,倒下;对的,站着。  自从2011年开始,我转向QQ开放平台业务,见证了中国互联网第二波最美妙的创业红利大潮,陪伴了几百个创业团队从暗淡走向光亮,或从坟墓中走向重生。时至
    盘点:网络营销常用的十五大推广形式

    盘点:网络营销常用的十五大推广形式

    摘要: 随着互联网行业的快速发展,网络营销也如火如荼的进行中。2010年06月08日的《中国互联网状况》白皮书中更是明确指出建立了电子商务系统的大型企业已超过50%,通过互联网寻找供应商的中小企业超过
    微信公众平台关于禁止发布签类测试信息的公告

    微信公众平台关于禁止发布签类测试信息的公告

    近期微信公众平台及朋友圈出现毕业签、月份签等签类测试活动的信息。此行为属于违规行为,给用户带来骚扰,破坏朋友圈的体验。即日起,一旦发现微信公众帐号有发布签类测试行为:包括但不限于发布新年签、大学测试、
    站在网络营销的角度看好声音为什么那样红

    站在网络营销的角度看好声音为什么那样红

    《中国好声音》一夜之间红遍大街小巷,用爆红来形容也毫不为过,浙江卫视也凭借好声音一举翻身,成为各大卫视之翘楚,曾经的老大湖南卫视的王牌节目《快乐大本营》也黯然失色。芒果台为了扭转颓势,重金打造《百变大
    粉丝经济背后的真相:当感情成为附加值

    粉丝经济背后的真相:当感情成为附加值

    导读:很多人都发现了:现在有点名气的人,都不拘于自己的本行,流行跨界,赚粉丝的钱。锤子手机的情怀营销做得风生水起,《小时代》也在质疑声中一路高歌猛进。  很多人都发现了:现在有点名气的人,都不拘于自己
    五个案例告诉你:大公司创新为啥那么难

    五个案例告诉你:大公司创新为啥那么难

    最近中移动宣布将成立新媒体集团,并将在2015年1月正式投入运营。10月15日晚,联想集团宣布将成立一家全新的子公司,完全基于互联网平台打造中国领先的互联网模式的智能终端和服务业务。该公司将于2015
    从消费者心理看移动互联时代如何做好APP营销

    从消费者心理看移动互联时代如何做好APP营销

    导读:随着手机从功能性向智能性发展,移动互联时代已经到来。面对移动互联时代,企业需要建立起全新的营销理念,以此捕捉未来的商业机遇与发展。  随着手机从功能性向智能性发展,移动互联时代已经到来。面对移动
    网络营销推广怎么做才能有效引流——最新方法有哪些

    网络营销推广怎么做才能有效引流——最新方法有哪些

    最近在带学员团队做项目,而从最简单的网络推广开始着手,一天下来遇到了各种问题。为什么发帖会被删除?百度知道账号被封禁?发的帖子不收录?发帖没有效果?等等。看到学员发过来的工作明细,不忍直视。如下图: 
你是怎么知道非凡网赚网的?
  •   
  • 联系QQ 邮箱:976382653@qq.com 微信:976382653
    在线留言
    发布软文
    广告自助购
    文章调用
    常见问题
    保存到桌面