作为一名seoer,对网站日志分析是必需要掌握的一项基本的技能,通过日志分析可以分析爬虫抓取页面有效性,通过日志分析蜘蛛返回的状态码能及时发现网站里面是否存在错误或者蜘蛛无法爬取的页面,排查网站页面中存在的404错误页面,500服务器错误等这些噪音内容上噪音页面上(重复页面,低质量页面,空内容页面,404页面,不排名页面等)
一、网站日志可以为我们做什么?
1、 可以分析爬虫抓取页面有效性(减少搜索引擎在一些噪音页面上:重复页面,低质量页面,空内容页面,404页面,不排名页面 的抓取频率);
2、排查网站页面中存在的404错误页面,500服务器错误等
3、页面重要内容是否被爬虫完整爬到并且快速遍历;
4、正确分辨蜘蛛爬虫
二、常见HTTP状态码解读
1、200代码,表示蜘蛛爬取正常
2、404代码,访问的这个链接是错误链接
3、301代码,永久重定向
4、302代码,表示临时重定向
5、304代码,客户端已经执行了GET,但文件未变化。
6、500代码,表示网站内部程序或服务器有错
接着,我列举一个网站日志的案例:
日志里的含义,可以大家看下网站日志中各个数据都代表什么意思,总之这个文件是记录的一天发生在网站上的一些行为。当我们拿到这么一个网站日志,我们就可以审视我们的日志,并且通过对日志文件分析解决网站存在的问题;
三、日志代码解读
从日志文件当中可以解读出两个部分内容:
1、搜索引擎抓取情况
从日志文件中,可以大家看到搜索引擎抓取了一些404页面及低质量重负页面(噪音行为)
备注:可以通过nslookup ip 识别蜘蛛的真假
/date-2016-01.html(低质量重负页面)
/author-1.html(低质量重负页面)
/downloads/(低质量页面)
/contact.html(死链接接),但这里有个问题,这个页面返回的状态码为200而不是404,但页面却跳转到404页面,从中可以发现服务器设置一定有问题;
所以,当我们有一些页面不希望他们抓取的时候,我们需要在robots中进行规范。规范robots一个重要的手段,就是robots.txt。爬虫纠偏,让爬虫花更多的精力放在我的详情页面上。
2、用户访问网站情况
关于用户网站访问情况, 主要分析用户访问网站行为轨迹及用户属性,在这就不进行讲述
著作权归作者所有。
商业转载请联系作者获得授权,非商业转载请注明出处。
作者:站长之家编辑
链接:https://www.chinaz.com/web/2016/0405/519083.shtml
来源:站长之家
阅读排行
联络方式:
电话:400-878-0179
邮箱:ben_zhao@xing-t.com
上海市浦东新区中融大厦1207室
-
高端网站设计的原则及注意要点
企业网站最重要的功能就是能将你想要展示给用户的东西全部展示出来,例如企业简介、产品介绍、新闻资讯、解决需求,联系方式等等内容都可以展示在网站上。而企业网站建设策划主要目的在于,能够通过网站首页,公司简介…
-
如何做好小程序推广,这五点你必须…
小程序是一种微信提供的无需下载,无需安装,即点即用的应用,和app有些相似,但是使用更加轻量级,用户只需要在微信搜一下或者是扫二维码就可以打开应用。而且微信为了小程序的进一步发展,为其提供了多个独立的流量…
-
找建站公司做网站需要注意哪些问题…
建网站等于在互联网站敞开一扇大门,门面做的好,不仅可以展示品牌形象,还可以吸纳流量,促进沟通。那么,如果找网站建设公司为自己的企业做网站需要注意哪些问题呢?星途小编认为至少需要注意以下几点。
-
上海网页制作公司所开发的响应式网…
现在做各行各业都需要有方便的捷径来完成,如果没有了方便接听,做起来会比较困难,做网页也不例外。一场网页制作过程尤为的艰辛,要想制作好需要花费大量的时间以及后台人员不断的努力才能完成,但是有了响应式网页就…
-
公司企业建站的详细步骤有哪些,应…
很多公司和企业在创办初期都想做个网站在互联网和手机上展示自己。但是自己之前没接触过,不知道建站有哪些具体步骤和重点应该注意,下面上海企业建站小编详细给你说说: