|
本帖最后由 Mita 于 2025-1-4 00:48 编辑
光是拒之门外是不够的,既然总有正常访客,那就一定有完美伪装。
要的就是那种,看起来好像给你访问了,实际上展示的是什么内容谁知道呢。以前国内网站删帖封号都有通知,现在全统一成自己可见,淡化审核痕迹。在b站发一个动态,然后立刻复制链接去无痕模式看一眼就知道了。
所以说,反制爬虫,应该让他们正常访问网站,而修改展示内容。简单一点的就是把字符乱码,完美一点的就是把话替换成“你今天吃饭了吗?”这种有实际含义但是完全无关的内容。
例如,每句话之间都有标点符号,所以可以替换这样:
晚安,今天的风儿也是格外喧嚣,关东煮真的好好吃:
昨夜,不知道怎么回答这个问题,拼尽全力无法战胜:
……
(两个字的,随机从「早安,午安,晚安,昨夜……」里面挑一句加替换,11个字的,随机加载某些11字的句子显示。其他字数同理)。
难点一下就降低至只需「识别爬虫」,而无需考虑爬虫绕过检测了,检测模式甚至可以随机或者采取概率,例如爬虫也有概率显示正常内容,这样让对方疑神疑鬼的,增加采集的成本,因为必须人工审核内容是否有效。当采集自己网站的成本高于别人时,它可能就把目标转向别人了。
我看到有些博客就是这么做的,对中国IP乱码,国外IP正常显示,但有没有隐藏的溯源功能,只有博主本人知道。
简体中文互联网越来越低质量,再继续贡献优质内容只会被别人继续恶心到。既然对方毫不留情,那自己为了保护原创内容,用点鬼点子可一点也不过分。更何况这还不是终极杀招,只要脑洞够大,攻击力还能翻十几倍。 |
|