找回密码
 注册免广告
搜索
长桥证券羊毛 📈熊猫速汇 50 元券 🔥ByBit 交易所羊毛🐑MyFin 5 欧元羊毛 🔥
人人必备的 Wise 💳英、德、香港转运 📦,送 $25币安手续费 9 折Ledger 硬件钱包送比特币
最便宜的 eSIM 流量手机号 📱数字货币银行卡,注册送 7 美元💲IBKR开户送 $1000 股票 
查看: 236|回复: 4

关于 discuz 的防采集

[复制链接]

26

主题

126

回帖

349

积分

中级会员

积分
349
mobile 发表于 2025-1-2 17:31:58 | 显示全部楼层 |阅读模式

注册免广告

您需要 登录 才可以下载或查看,没有账号?注册免广告

×

后台开启防采集功能,有个参数叫“每日最大访问量”,默认 200
测试发现,访问次数超过 200 会在帖子后面加参数 ?_dsign=xxxxxxxx,是 js 跳转
如果不跳转,会显示白屏,也就是,采集的爬虫要能响应这个 js 跳转才能读取网页内容
如果帖子/回帖帮助到你,请给作者评分/点赞

3

主题

587

回帖

1282

积分

金牌会员

积分
1282
esazx 发表于 2025-1-4 06:19:32 | 显示全部楼层
Mita 发表于 2025-1-4 00:37
光是拒之门外是不够的,既然总有正常访客,那就一定有完美伪装。

要的就是那种,看起来好像给你访问了,实 ...

没啥用处,就和指纹浏览器一样,爬虫加脚本能用正常的浏览器内核来采集
回复 支持 1 反对 0

使用道具 举报

23

主题

893

回帖

1777

积分

金牌会员

积分
1777
潇湘妃子 发表于 2025-1-2 18:50:38 | 显示全部楼层
现在的爬虫技术可以采用Selenium框架,基本上就是一个完整的浏览器。

点评

那我关掉了, 用处不大  详情 回复 发表于 2025-1-2 19:34
回复 支持 反对

使用道具 举报

1006

主题

8504

回帖

2万

积分

版主

积分
20407
HelloWorld 发表于 2025-1-2 19:34:02 | 显示全部楼层
潇湘妃子 发表于 2025-1-2 18:50
现在的爬虫技术可以采用Selenium框架,基本上就是一个完整的浏览器。

那我关掉了, 用处不大
回复 支持 反对

使用道具 举报

24

主题

193

回帖

2945

积分

版主

积分
2945
Mita 发表于 2025-1-4 00:37:49 | 显示全部楼层
本帖最后由 Mita 于 2025-1-4 00:48 编辑

光是拒之门外是不够的,既然总有正常访客,那就一定有完美伪装。

要的就是那种,看起来好像给你访问了,实际上展示的是什么内容谁知道呢。以前国内网站删帖封号都有通知,现在全统一成自己可见,淡化审核痕迹。在b站发一个动态,然后立刻复制链接去无痕模式看一眼就知道了。

所以说,反制爬虫,应该让他们正常访问网站,而修改展示内容。简单一点的就是把字符乱码,完美一点的就是把话替换成“你今天吃饭了吗?”这种有实际含义但是完全无关的内容。

例如,每句话之间都有标点符号,所以可以替换这样:
晚安,今天的风儿也是格外喧嚣,关东煮真的好好吃:
昨夜,不知道怎么回答这个问题,拼尽全力无法战胜:

……

(两个字的,随机从「早安,午安,晚安,昨夜……」里面挑一句加替换,11个字的,随机加载某些11字的句子显示。其他字数同理)。

难点一下就降低至只需「识别爬虫」,而无需考虑爬虫绕过检测了,检测模式甚至可以随机或者采取概率,例如爬虫也有概率显示正常内容,这样让对方疑神疑鬼的,增加采集的成本,因为必须人工审核内容是否有效。当采集自己网站的成本高于别人时,它可能就把目标转向别人了。

我看到有些博客就是这么做的,对中国IP乱码,国外IP正常显示,但有没有隐藏的溯源功能,只有博主本人知道。

简体中文互联网越来越低质量,再继续贡献优质内容只会被别人继续恶心到。既然对方毫不留情,那自己为了保护原创内容,用点鬼点子可一点也不过分。更何况这还不是终极杀招,只要脑洞够大,攻击力还能翻十几倍。

点评

没啥用处,就和指纹浏览器一样,爬虫加脚本能用正常的浏览器内核来采集  详情 回复 发表于 2025-1-4 06:19
疯狂米塔.彻底疯狂! 彻底疯狂! 彻底疯狂! 彻底疯狂!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册免广告

本版积分规则

排行榜|意见建议|数字居民论坛

GMT+8, 2025-2-22 16:59

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表