
这两天搞线上活动,突然发现后台数据显示有些访客被系统挡住了,显示的是“被挡访客”。我就纳闷了,这到底是怎么回事? 被挡访客到底是什么鬼? 最开始我以为是网络问题或者我自...
这两天搞线上活动,突然发现后台数据显示有些访客被系统挡住了,显示的是“被挡访客”。我就纳闷了,这到底是怎么回事?
最开始我以为是网络问题或者我自己设置错了什么地方。毕竟之前没怎么关注过这个数据,这回搞活动才仔细看。一看到这个“被挡”两个字,心里就有点不安。是不是我的网站被人恶意攻击了?还是说我设置了什么奇怪的访问限制,把正常用户给拦住了?
我赶紧去翻阅了我们用的这个数据分析工具的帮助文档,结果文档写得那叫一个“专业”,看得我云里雾里。什么“流量过滤机制”、“异常行为检测”,听着挺高大上,但就是没说人话。
文档看不懂,那就自己动手试验。我先是去看了那些被挡访客的

这些迹象让我开始往“非正常人类”访问这个方向去想了。很可能它们不是真实用户,而是某种自动化程序,也就是我们常说的爬虫或者恶意脚本。
我找了我们负责运维的小兄弟聊了聊,他给我解释了几个最常见的原因:
这玩意儿最常见。有些竞争对手或者数据采集公司,会用大量的爬虫程序来抓取我的网站内容。这些爬虫的速度很快,行为模式固定,系统很容易识别出来,然后就会判定为异常流量,直接给“挡”掉。
小兄弟说,如果爬虫设置得比较“乖”,模仿用户行为,可能还不会被挡。但很多爬虫都是粗暴型的,系统一看就不对劲,比如一个IP地址在几秒内请求上百次,那肯定不是人干的事。

虽然这回的量还不算大到能影响网站运行,但有时候“被挡访客”也可能是小型拒绝服务攻击(DDoS)的早期迹象。攻击者会用大量肉鸡或者僵尸网络来访问网站,试图搞垮服务器。我们的系统一般会有一层防护,提前识别并拦截这种异常突增的流量。
我听了心里咯噔一下,幸亏系统给挡住了,不然活动期间网站要是崩了,那就麻烦大了。
还有一种情况,就是有些访客的请求头信息有问题,可能是用了某些特殊的代理或者篡改了用户代理(User Agent)。系统识别不了这些信息,或者觉得这些信息是伪造的,也会出于安全考虑给拦截了。
搞清楚原因后,我心里踏实多了。原来这“被挡访客”不是个坏事,反而是咱们系统的
我把这个情况整理了一下,给运营团队和市场团队都发了个邮件,让他们知道这个数据不用太担心,这是网站的安全机制在保护我们。我也让技术部那边
实践记录总结下来就是:
以后看到这个数据,我就知道这帮不速之客又被拦在门外了,网站运行正常,咱们的重点还是放在怎么服务好那些真正的用户上。