1.在大数据采集中，请求头部的名称，查看是否为“爬虫”

1.在大数据采集中，请求头部的名称，查看是否为“爬虫”，常规采集的平台会禁止任何声称自己是“爬虫”的访问者；

2.使用的IP地址是否存在为平台的黑名单内；

3.网站创建页面的JavaScript执行有问题；

4.浏览器的cookie没有在每次发起请求时都发送到了平台上；

5.爬虫在平台上的采集速度过于频繁；

6.异常访问，并不是合法途径请求访问。

7.向采集平台提交表单或发出POST请求参数有问题。

OK，分析出以上的各类问题，接下来就是怎么解决这些问题；

大数据采集的平台，常规的网络管理人员都有做一定的限制，那么我们在使用爬虫ip的时候，做到同正常的用户访问习惯一致的话，那么，就可以有效的解决以上的问题。

1.尝试将http代理ip的数量增加，让服务器认为是不同的用户在同时访问。

2.使用正常的HTTP请求头，设置User-Agent。

3.申请多个key，各个key轮流使用，突破QPS限制和访问次数限额。

4.做好访问的间隔时间，不要在极短的短时间内访问。

通过以上4点的处理，基本都能有效的解决http/socks代理IP使用中的常见问题，对于大数据的采集也是会有更高的效率。

所以，有出现以上问题的小伙伴，按照以上的解决方法处理即可，速代理目前单日可提供最高20w的不重复数量，对于各类使用场景都有很好的支持，欢迎各类小伙伴前来测试。