请选择 进入手机版 | 继续访问电脑版

528站长之家

 找回密码
 立即注册
查看: 51|回复: 0

爬虫一定要使用代理ip吗

[复制链接]

88

主题

88

帖子

101

积分

新手上路

Rank: 1

积分
101
发表于 2020-12-11 15:18:11 | 显示全部楼层 |阅读模式
  很多人对爬虫工作了解为一定需要代理ip才能进行下去。其实并不是,爬虫不用代理也是可以的,爬虫程序从本质上来说也是个访问网页的用户而已,只不过是个不那么守规矩的特殊用户,服务器一般很不欢迎这样的特殊用户总是用各种手段发现和禁止。我们先看看哪种情况下可以不使用。
  业务量很小
  业务量很小的爬虫工作,有时候并不需要使用代理ip就可以完成,比如爬取几百篇文章,用个火车头就轻松完成了;或者对工作效率没有太大的要求,可以模拟人工正常访问速度慢慢的爬。
  反爬策略弱
  有些网站没有反爬虫策略,那么就不需要使用代理ip也可以正常的进行爬虫工作,不过建议还是不要太猛烈了,以免造成网站服务器崩溃;有的网站反爬虫策略非常薄弱,可能不需要代理ip也可以正常的进行爬虫工作。
  访问频率低
  最常见的就是判断你访问的频率,因为普通人访问网页的频率是不会很快的,如果发现某个ip访问的过快就会将此ip封禁。当然你可以选择采取降低访问频率的方法避免被服务器发现,但是如果你的爬虫和一个普通人访问的频率差不多访问逻辑也差不多的话,那么你的爬虫也就没多大的存在意义了。做爬虫都希望自己的爬虫尽快的抓取大量的数据,而且还要经常频繁的更新数据,当然有节操的爬虫都知道将爬取频率设在一个合理的范围降低目标服务器的压力而不是逞能爬的飞快,要知道爬与反爬没有绝对的有效手段,它们之间往往保持着微妙的默契,不会赶尽杀绝,而且你爬别人,别人也会爬你是不,出来混迟早要还的,不过这是另一个层面的东西了。更常用的手段是使用番茄加速https://www.fanqieip.net/代理ip,突破服务器的反爬虫机制,继续较高频率的抓取。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

本平台源码教学视频均通过网络等公开合法渠道获取,仅作为交流使用,其版权归原作者或版权方所有

本平台不对涉及的版权问题负法律责任。若版权方认为侵犯到您的权益,请联系我们删除

小黑屋|528站长之家 ( 沪ICP备11253786号-3 )

GMT+8, 2021-5-16 01:48 , Processed in 0.052610 second(s), 26 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表