找回密码
 注册免广告
搜索
长桥证券羊毛 📈13 美元 eSIM 羊毛📱Coinbase 大羊毛熊猫速汇 50 元券 🔥
ByBit 交易所羊毛🐑MyFin 5 欧元羊毛 🔥人人必备的 Wise 💳英、德、香港转运 📦,送 $25
最便宜的 eSIM 流量手机号 📱个人 IBAN 出金,注册送 $25 比特币 ฿免费领取 500M 新加坡 eSIM 流量 🎁数字货币银行卡,注册送 7 美元💲
查看: 157|回复: 4

关于 discuz 的防采集

[复制链接]

21

主题

105

回帖

280

积分

中级会员

积分
280
mobile 发表于 5 天前 | 显示全部楼层 |阅读模式

注册免广告

您需要 登录 才可以下载或查看,没有账号?注册免广告

×

后台开启防采集功能,有个参数叫“每日最大访问量”,默认 200
测试发现,访问次数超过 200 会在帖子后面加参数 ?_dsign=xxxxxxxx,是 js 跳转
如果不跳转,会显示白屏,也就是,采集的爬虫要能响应这个 js 跳转才能读取网页内容
如果帖子/回帖帮助到你,请给作者评分/点赞

3

主题

407

回帖

882

积分

高级会员

积分
882
esazx 发表于 3 天前 | 显示全部楼层
Mita 发表于 2025-1-4 00:37
光是拒之门外是不够的,既然总有正常访客,那就一定有完美伪装。

要的就是那种,看起来好像给你访问了,实 ...

没啥用处,就和指纹浏览器一样,爬虫加脚本能用正常的浏览器内核来采集
回复 支持 1 反对 0

使用道具 举报

23

主题

854

回帖

1669

积分

金牌会员

积分
1669
潇湘妃子 发表于 5 天前 | 显示全部楼层
现在的爬虫技术可以采用Selenium框架,基本上就是一个完整的浏览器。

点评

那我关掉了, 用处不大  详情 回复 发表于 5 天前
回复 支持 反对

使用道具 举报

892

主题

7891

回帖

1万

积分

版主

积分
18916
HelloWorld 发表于 5 天前 | 显示全部楼层
潇湘妃子 发表于 2025-1-2 18:50
现在的爬虫技术可以采用Selenium框架,基本上就是一个完整的浏览器。

那我关掉了, 用处不大
回复 支持 反对

使用道具 举报

19

主题

146

回帖

2898

积分

版主

积分
2898
Mita 发表于 3 天前 | 显示全部楼层
本帖最后由 Mita 于 2025-1-4 00:48 编辑

光是拒之门外是不够的,既然总有正常访客,那就一定有完美伪装。

要的就是那种,看起来好像给你访问了,实际上展示的是什么内容谁知道呢。以前国内网站删帖封号都有通知,现在全统一成自己可见,淡化审核痕迹。在b站发一个动态,然后立刻复制链接去无痕模式看一眼就知道了。

所以说,反制爬虫,应该让他们正常访问网站,而修改展示内容。简单一点的就是把字符乱码,完美一点的就是把话替换成“你今天吃饭了吗?”这种有实际含义但是完全无关的内容。

例如,每句话之间都有标点符号,所以可以替换这样:
晚安,今天的风儿也是格外喧嚣,关东煮真的好好吃:
昨夜,不知道怎么回答这个问题,拼尽全力无法战胜:

……

(两个字的,随机从「早安,午安,晚安,昨夜……」里面挑一句加替换,11个字的,随机加载某些11字的句子显示。其他字数同理)。

难点一下就降低至只需「识别爬虫」,而无需考虑爬虫绕过检测了,检测模式甚至可以随机或者采取概率,例如爬虫也有概率显示正常内容,这样让对方疑神疑鬼的,增加采集的成本,因为必须人工审核内容是否有效。当采集自己网站的成本高于别人时,它可能就把目标转向别人了。

我看到有些博客就是这么做的,对中国IP乱码,国外IP正常显示,但有没有隐藏的溯源功能,只有博主本人知道。

简体中文互联网越来越低质量,再继续贡献优质内容只会被别人继续恶心到。既然对方毫不留情,那自己为了保护原创内容,用点鬼点子可一点也不过分。更何况这还不是终极杀招,只要脑洞够大,攻击力还能翻十几倍。

点评

没啥用处,就和指纹浏览器一样,爬虫加脚本能用正常的浏览器内核来采集  详情 回复 发表于 3 天前
你就像泥鳅一样不安分!你为什么要走?你为什么要走?你为什么要走?你为什么要走!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册免广告

本版积分规则

排行榜|意见建议|数字居民论坛

GMT+8, 2025-1-7 10:39

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表