虽然百度已全面取消referer,但网站SEO优化工作,依然不可缺少。因为做SEO优化,是为了使网站更加适合搜索引擎的检索行为,为网站带来自然流量。常言道,知己知彼,百战不殆,下面,就和白掌一起来认识一下搜索引擎把。
首先,和白掌一起认识一下什么是搜索引擎。
搜索引擎,就是在搜索框中,直接入所需信息的关键词,就可从互联网中获取与搜索词相关信息的软件系统。通常,这些搜索结果会呈现在搜索结果页,搜索到的信息,可能是网页,可能是图像,也可能是其它类型的文件。对于人工实时维护更新的站点,大多情况下,也就是我们所优化的网站,搜索引擎会派出基于一定算法的网站爬虫来抓取站点实时更新的信息。但是,在搜索引擎发展之初,并没有网站爬虫的存在。
然后,让我们一起来看一下搜索引擎早期的发展。
在互联网发展早期,蒂姆•伯纳斯•李建立了第一个网站并托管在CERN(欧洲核子研究组织)的服务器上。后来,蒂姆在这个网站中列举了其它网站,其中尚存有记录的是1992年的一次具有历史意义的快照。但随着越来越多服务器上线,这份列表无法及时更新,自后再上线的新服务器,都会出现在NCSA Mosaic下一个名为“What‘s New”的分类中。
第一个被用于在互联网上提供搜索服务的工具时Archie,这一象征“Archive“的名称,并不包含其中的字母”v“。这一工具,是由蒙特利尔市McGill University计算机科学专业的学生Alan Emtage、Bill Heelan和J.Peter Deutschz于1990年做成。他们下载了公共匿名FTP站点上所有文件的目录列表,创建了一个可对文件名称进行搜索的数据库。但不管怎样,受数据量的限制,Archie不能索引这些站点的内容,只能进行手动搜索。
1991年,Mark McCahill创建了Gopher系统。它的出现促使两大新搜索程序-Veronica和Jughead-诞生。类似于Archie,这两项搜索程序可搜索收录于Gopher索引系统中的文件名和标题。其中,Veronica提供了在Gopher列表的大多数目录标题中进行关键词搜索的服务,Jughead则是一个从特定Gopher服务器获取菜单信息的工具。当搜索引擎Archie的名称还未收录到Archie系列丛书中,Veronica和Jughead就已存在于这套丛书中,不过其中会索引Archie相关的内容。
1993年夏天,虽然专业目录有人工维护,但尚没有为Web而存在的搜索引擎。Geneva某大学的Oscar Nierstrasz写了一系列Perl手稿。Oscar会在这些手稿中,定期反馈网页的情况,后来他又按照一种标准格式,将这些手稿编辑了一遍。这些手稿,就是之后W3Catalog的雏形,web的第一个原始搜索引擎发布于1993年9月2日。
1993年6月,Matthew Gray打造了第一个web robot(搜索引擎爬虫机器人)-the Perl-based World Wide Web Wanderer,并将其用于生成一种叫做Wandex的索引。Wanderer存在的目的是为了衡量维网(World Wide Web)的大小,Web的第二个搜索引擎是Aliweb,它出现于1993年11月。Aliweb没有采用web robot,它是使用一种特定的格式来索引每一个站点的信息。
1993年12月,Jonathon Fletcher创建了Jump Station系统。这种系统使用一种Web Robot来发现网页并为其建立索引,同时,用一种web格式来作为其搜索程序的接口。Jump Station可以说是世界上第一个World Wide Web的搜索引擎。它将网页搜索引擎的三大基本特征-抓取、索引和搜索-集于一体。但是由于Jump Station所在平台可用资源的局限性,其索引内容仅限于web robot遇到的网页标题和副标题。
1994年,WebCrawler诞生,它是允许Web Robot爬取“全文内容“的搜索引擎之一。与其前辈不同的是,它支持用户搜索任一网页中的任一个搜索词。之后,它成为所有主流搜索引擎的标准,也是第一个被公众所熟知的搜索引擎。
同年,卡内基梅隆大学创建了Lycos。Lycos是搜索引擎中的元老,最早提供信息搜索服务的网站之一,也是重要的商业典型。1996年,Lycos以收录6000W文件位居当时最大的搜索引擎。
随后,互联网中出现很多搜索引擎。这些搜索引擎包括Magellan网际网路搜索引擎、EXCITE搜索引擎、Infoseek资讯查找、因特通、Northern Light搜索引擎和AltaVista,纷纷抢占人气。Yahoo!是当时广受欢迎的搜索方式,但它的搜索功能仅能在它的网页目录下运行,而不是其网页的全文本副本。查询的人也可以浏览目录,而无需进行关键词搜索。
1996年,Netscape计划在其浏览器打造一款专属自己并极具特色的搜索引擎。消息发出后,对此感兴趣的互联网公司很多, Netscape就改变计划,与五家主流搜索引擎达成协议,将这五个搜索引擎轮流放在Netscape的搜索引擎页。这五家公司分别是 Yahoo!,Magellan,Lycos,Infoseek和Exicite。
1998年,Google从Goto.com引入了PPC的概念,简单的说就是,买卖搜索词, 这对于之后搜索引擎商业化具有重大意义,使互联网变现成为可能。
在20世纪90年代末期,搜索引擎,也以互联网投资风暴中的明星产品而著称。有些公司高调进入互联网市场,在首次公开募股中均获得了创纪录的收益。有些公司则砍掉了其公共搜索引擎,转型为专门的营销公司,比如Northern Light。很多搜索引擎公司都遭遇了投机泡沫(1995-2001)期间的互联网泡沫,鼎盛于1999年,结束于2001年。
2000年前后,Google搜索引擎声名鹊起。正如谷歌后来的创始人Sergey Brin和Larry Page所写的Anatomy of a Search Engine一文中所解释的,PageRank技术的提出采用谷歌搜索可以得到较好的搜索结果。这一为网页排名的迭代算法,是通过互联网浩瀚的超链接关系来确定页面的等级。Google把从A网页到B网页的链接解释为A网页给B网页的“点赞”,然后Google根据“点赞”网页(甚至来源的来源,即链接到A网页的网页)和“被点赞”网页的等级来决定新的等级,简单的说,一个高等级的网页可使其它低等级页面的等级提升。谷歌搜索也一直为其搜索引擎维持一个简洁的页面。相反,谷歌的很多竞争对手都选择将其搜索引擎嵌入到某一门户网站。树欲静而风不止,谷歌因其饱受欢迎一直在被Mystery Seeker恶搞,比如前段时间,谷歌地图中显示白宫是个“黑鬼屋”。
2000年,Yahoo!在Inktomi的搜索引擎中提供搜索服务。2002年,Yahoo!收购Inktomi,并于2003年收购Overture。2004年,Yahoo!兼并了Inktomi和Overture的技术,推出自己的搜索引擎,与谷歌成为竞争对手。
1998年秋天,Microsoft采用Inktomi的搜索结果推出MSN搜索。1999年上半年, MSN开始在Inktomi搜索结果中掺杂来自Looksmart搜索结果。1999年有一段时间,MSN搜索也会采用AltaVista的搜索列表。2004年,Microsoft开始专注搜索技术,打造自己的Web Robot。2009年1月1日,Microsoft将MSN更名为Bing并上线。2009年7月29日,Yahoo!与Microsoft达成合作关系,在这一合作中,Yahoo!可得到Microsoft Bing技术的支持。
最后,和白掌一起来了解一下搜索引擎的工作。
搜索引擎的工作通常分为三个步骤,即爬行、索引,搜索。
简单地说,搜索引擎会存储标记有html的网页,这些网页通常都是网站爬虫(有时也称作蜘蛛)抓取来的。而网站爬虫,会定期到访网站,并爬行网站内容的自动程序。站长可通过robots.txt文件来排除不希望被爬虫抓取的页面。
爬虫将页面内容抓取回来后,搜索引擎会对这些内容进行分析,以确定如何索引这些内容,例如,搜索引擎会从网页的标题、网站内容、题目或Meta标签中提取出关键词。网页的数据会存储至索引库,用于之后的搜索词搜索。用户的搜索词可以是单个的词,索引会帮助用户尽可能快的找到搜索词相关的信息。
搜索词处理
用户在搜索引擎界面入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文特有的分词处理,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。搜索词的处理必须十分快速。
排序
对搜索词处理后,搜索引擎程序便开始工作,从索引数据库中找出所有包含搜索词的网页,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到“搜索”页面。
再好的搜索引擎也无法与人相比,这就是为什么网站要进行搜索引擎优化。没有SEO的帮助,搜索引擎常常不能正确的返回最相关、最权威、最有用的信息。
xue.sem123.com,让信息变得简单。