很多站长都会使用百度资源搜索平台,来查看一下网站的收录,蜘蛛抓取,索引,以及主动提交链接给百度等等。猪机博客也经常使用资源平台进行模拟抓取看看百度蜘蛛能否正常对网站进行爬行。
然后有很多站长在使用百度模拟抓取功能时,会显示抓取失败的问题:提示抓取异常信息:socket 读写错误。担心百度站长工具抓取诊断socket读写错误对自己的网站收录产生不好的影响 。那socket读写错误到底是什么原因产生的呢?
模拟百度蜘蛛进行抓取诊断地址:
https://ziyuan.baidu.com/crawltools/
以下是百度Spider抓取结果及页面信息:
提交网址:https://www.pigji.com/352.html
抓取网址:https://www.pigji.com/352.html
抓取UA:Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
抓取时间:2020-04-02 16:57:23
网站IP:104.***.***.*** 报错
下载时长:0秒
抓取异常信息:socket 读写错误
看一下百度官方的说明 :
【socket读写错误】
当百度spider访问服务器,进行tcp通信的时候,socket读写发生异常,导致数据不能正常返回。请检查服务器连接状况和防火墙设置是否符合预期。
socket读写错误网友猜测一些原因
1、服务器装了“安全狗”,“”云锁”,关了就好了。
2、服务器安装了宝塔面板,开启了“cc攻击”,关了就ok。由于使用的宝塔面板而且开启了“CC攻击”防火墙,而已又把攻击频率设置的太低。CC攻击触发频率(次)50,CC攻击触发周期(秒)60 导致抓取失败。
3、由于nginx 将 http强制转换成https了,做了301跳转,导致http无法直接访问,而百度抓取的是http站点, 将强制跳转https,关了就好了。或者做百度https认证:https://ziyuan.baidu.com/https
4、服务器上的防火墙设置问题。被防火墙拦截了。另外要保证80端口 443端口的正常
5、百度搜索资源平台 自己也经常出问题,多抓取几次试试。
6、可以更换一些稳定的VPS服务器。
百 度搜索网站提交地址
百度收录入口,将网站地址提交到百度申请收录:
https://ziyuan.baidu.com/linksubmit/url/