1、123开头IP是收录蜘蛛
123开头蜘蛛先行,对网页做初步分析,以便为后面正式到网页开展工作做准备。 所谓收录蜘蛛是指,百度爬虫造访后,百度后端会通过一系列判定手段,如反作弊处理、原创度检测等等,决定是否能够可以收录,是否可以牵引百度快照的蜘蛛到访。无快照的页面(不收录,无索引)2、220开头的是快照蜘蛛
220开头蜘蛛一般在123蜘蛛造访后,再次造访。 当快收录蜘蛛检测网页通过了收录标准之后,通过快照蜘蛛生成结构化数据,进入倒排索引。这个时候的网页才有快照,才能被用户搜索到。3、如果网页不过关, 220开头蜘蛛不会造访
每次快照更新前,收录蜘蛛、快照蜘蛛均有造访,但是如果你的网页质量不佳,123开头的ip抓取过之后,百度不会再次通过220开头的ip来抓取网页了。所以这时候你就需要特别注意了。一般不超过2:1, 如果收录蜘蛛出现次数远远大于快照蜘蛛,说明网页内容不过关。4、更新页面是220开头直接来造访
如果你的页面内容进行了更新,百度会通过220开头的ip来再次抓取你的网页。所谓的高权重蜘蛛是当网页达到快照的收录标准后才会来访问的,不是通过外链直接来的哦。SEO策略延伸
现在绝大部分SEO从业人员只知道每天去写内容,然后就等着内容收录,等着排名。 有些人总提出这样的问题:为什么我的网站一直没收录?为什么有收录了却没有排名? 我们已经知道可以不用通过“site”命令,通过百度爬虫日志,就可以获取网站的收录情况。 所以说,网站爬虫分析系统非常重要! 一个好的网站爬虫分析系统有如下几个功能点:功能1 整个网站的抓取频率趋势
可以简单了解网站在百度眼中的质量。抓取频率越高,说明百度越喜欢。如果抓取频率一直走低,就要关注近期的内容质量是否变差了。如果频率大幅度降低,查看是不是网址有报错。功能2 查看收录蜘蛛与蜘蛛比率
只有快照蜘蛛访问过的页面才是有效收录,才能获取百度排名。所以如果很多页面光有收录蜘蛛(123开头的),而快照蜘蛛(220开头)较少,内容一定有问题。查一下内容质量(摩天楼内容助手可以有效解决这一痛点)、内容广告之类是否触犯了百度算法。功能3 提取重要排名页面的抓取规律
一般情况下,百度会对已有的重要排名页面定期更新快照,123,220开头的蜘蛛定期轮流到访。如果重要排名页面的抓取频率持续走低,说明排名预计会有所下降,尽早查找原因。 另外重要排名页面一般爬虫频率较大,是重要的新内容发现入口,所有如果有相关的新内容,可以在该页面布局,以达到秒收的效果。 如果有编程经验的同学,可以按照以上的想法打造自己的爬虫分析系统。如需转载请保留本文出处: https://www.zhe94.com/729.html