网页数据抓取

来源,忘记将地址copy下来

第一招:判断来访的是浏览器来的否,不是就把它跳转到网站的一些与数据无关的页面。

这招没有过多久,人们就开始模仿浏览器或者google、baidu这样的爬虫。招数过时。

第二招:设置登陆,需要登陆之后才能看到有用的数据。但是很快就有人在抓取之前模拟先做登陆这一道程序。招数失败。

第三招:设置验证码,这招对用户体验不好。弥补一下,把验证码定到访问N次以上再输验证码。

没过多久人们开始找代理IP设置一个IP数组,动态循环。招数失败。

第四招:这招和第二招的效果基本是一样,监测一个IP在一段时间的访问次数,

如果访问次数超过N就把它跳转到错误页面或者提醒它访问太频繁。随着第二招被破也就失败了。

第五招:使用cookie记录用户的访问信息,当用户的访问太频繁的时候就给验证码。

但是最后自己又摸索出来一条路子,就是用按键精灵控制360定时删除cookie。自我觉得这招不安全,再想其他的招数。

第六招:把数据中的重要信息、加密或者转化成图片,随后自己又把别人加密的数据和图片数据给解析。还是不够安全。

第七招:前端使用JavaScript耍花样

相关推荐