不少新手在做网站优化的时候,总是只盯着站内优化和外链,然而优化的效果并不显著,大家往往会忽略另一个十分重要的数据分析,那就是网站日志的分析。
网站日志的数据不同于统计数据,统计数据可以看出每天网站的访问量、来源与访问时长等相关数据,这些数据的分析必不可少,但同样网站日志里面的数据分析也必不可少。今天小编盛淇seo跟大家分享一下。
首先我们了解一下网站日志在那个地方可以找到,就以本站举个例子,本站使用的是网的服务器,网站日志的位置以及下载请看下图:
其他空间服务商的网站日志存在位置的名称可能不同,不过几乎都是大同小异,实在没找到可以直接联系空间商。
网站日志一般都以天为单位作为一个文件,如上图下载的就是今天的日志,2016-7-22的日志,当然因为今天还没有过完,所以统计的数据只统计到小编点击下载的那一刻,所以一般都分析昨天的网站日志。
查看网站日志的方法有很多,由于下载的是txt文件,直接打开查看或者用Excel表格打开也是可以的,但不建议这样做,因为数据太多,分析无从下手。
所以小编盛淇seo推荐大家常用的网站日志分析工具进行分析,推荐的工具包括爱站工具包里面的日志分析工具以及金花站长工具里面的日志分析工具,今天给大家介绍的就是金花站长工具,因为小编亲测使用过,认为较好使用。
步骤
1.百度搜索金花站长工具,然后下载安装。
2.打开金花站长工具
3.选择数据分析,接着点击下面的网站日志分析
4.日志文件夹的默认路径是桌面,也就是说你下载的日志如果是在桌面放在,直接点击分析日志按钮即可,如果不是那就点击选择文件。ps:按钮选择目录是可以批量分析日志的,即同一个文件夹里面的所有日志。
5.打开所要分析的日志之后,我们主要看三项数据:百度蜘蛛来访页面和次数、404错误页和来访IP、其他错误及来访IP
6.分析百度蜘蛛来访数据分析(如下图),一般蜘蛛都有真假之分,如果手动一个个IP用nslookup命令去区分,工作量就有点大了,所以我们可以点击删除虚假的按钮,把假蜘蛛全部去掉,留下的便是真正百度蜘蛛的来访数据。
7.404错误页分析(如下图),404页面可以帮助我们轻易找出网站的死链接,同时还有一点,就是找出对网站的恶意访问者,包括有人尝试用各种路径试图登录网站后台或者进行Sql注入,从而控制我们的网站,对于这样的IP,小编二话不说就会屏蔽该IP的访问,如图中的121.42.0.82这个IP,给我网站制造了大量的404页面。
8.其他错误分析(如下图),在404页面分析出的恶意IP如无意外就会第二天的其他错误里面看到它,因为已经禁止它们的恶意访问,所以出现的是403状态码。
以上就是网站日志的分析以及工具的使用。
最后跟大家一起了解一下日志分析的我们所希望得出的结论:
1、重要的频道(大量流量着陆页面,高转化率,用户直接交易页面等)有更多的爬虫来抓取;
2、在爬虫一定的抓取时间内,尽量少花精力放在一些无用的噪音页面上(重复页面,低质量页面,空内容页面,404页面,不排名页面,低转化页面等);
3、爬虫在抓取页面的时候,尽量增加抓取的有效性,而不是重复抓取几篇相同的页面;
4、爬虫不会被繁杂的URL参数所扰,不会进入无休止的爬虫陷阱中;
5、每个页面的下载时间足够的快,这样,可以让爬虫在时间一定的基础上能够更多的抓取页面;
6、爬虫都能够完整的抓到我们想让他抓的页面,不要抓到我们的隐私页面;
7、日志中不要有太多的404,不要有无理由的跳转,不要有很多的500(服务器错误),这样的情况出现;
8、那些更新频繁但是价值很低的页面不要吸引太多的爬虫精力;
9、我们所有的产品,所有的品类,所有一切有用的东西都要被爬虫完整爬到并且快速遍历;
10、能用碰到真正的爬虫,而不是一些模拟爬虫的机器人;
11、爬虫能够完整的下载到我们的robots.txt;
12、爬虫可以根据我们入口的调整,robots.txt的限制引导,JS的设计等按照我们的要求进行爬取;
13、爬虫越多越好。。。对我们的兴趣越大越好,当然,一切是在我们自身信任度和重要度增加的基础上。
本文由 盛淇seo 原创 欢迎转载 转载请标明出处以及相关链接
原文链接:http://www.shengqiseo.com/jishu/929.html