S!Art GBK价值480元
分类: Discuz!
一个骑行生活的Discuz模板
一个骑行生活的Discuz模板
修罗论坛(xinuo)转Discuz 3.x转换程序
相信很多人会先选择xinuo,因为他的界面清爽什么的。但是xinuo功能太简单了,他的那些第三方插件的代码也太垃圾了,很多人用完xinuo没多久,就会想切换回Discuz,这边提供了一个插件来帮助大家。
安装方法很简单,解压上传到Discuz的source\plugin目录,然后在后台按照步骤一步一步运行就可以了。
如果在使用过遇到任何问题,可以在评论区留言。
Discuz防采集设置如何开启
如何保护好discuz论坛的内容不被别人采集,可以在论坛网站后台开启discuz防采集设置。
方法/步骤
- 打开discuz网页后,直接点击打开登录页面,在登录页面输入管理员帐号和密码,然后点击登录,如下图所示。
- 成功登录后,直接点击导航上面的【管理中心】,如下图所示。
- 点击后跳转到discuz管理中心认证页面,直接输入密码,然后点击提交,如下图所示。
- 成功登录discuz管理中心后,直接点击导航栏里的【全局】,如下图所示。
- 在点击左侧全局列表里的【防采集设置】选项,如下图所示。
- 在打开的discuz防采集设置页面后,直接点击【是】开启防采集,如下图所示。
- 选择是后会显示出设置防采集的具体内容,然后根据提示填写,最后勾选哪些内容是要防止采集的,设置好后直接点击提交,如下图所示。
- 点击提交后,discuz提示当前设置更新成功。
当然,这种防采集很容易被突破,参见这篇文章
[b2_insert_post id=”217″]
- 打开discuz网页后,直接点击打开登录页面,在登录页面输入管理员帐号和密码,然后点击登录,如下图所示。
突破Discuz!的防采集
当短时间内频繁采集discuz,会触发discuz的防采集机制,默认打开的是一段javascript脚本,然后再通过跳转跳转到真实地址,这样子的情况下如何采集呢,本文将教会你如何破解这类型的防采集的采集。
Discuz开启防采集后的采集方法,也就是帖子后面加了?dsign=这样子的
Discuz在X3中增加了防采集功能,具体见Discuz x3.0防采集设置图文教程
[b2_insert_post id=”558″]
开启防采集后,访问DZ站点的伪静态链接如http://www.discuz.net/thread-3275423-1-1.html后面会跟上一个?_dsign=xxxxxx,正常链接如http://www.discuz.net/forum.php?mod=viewthread&tid=3305274会加上&_dsign=xxxxxx。这让人很不爽 (o#゜ 曲゜)o
使用httplib2访问原帖子页面(下面以http://www.dz.net/forum.php?mod=viewthread&tid=768为例),返回的是一段混淆过的js,如:
<script type="text/javascript">RKbW=function(){'RKbW';var _R=function(){return '=76'}; return _R();};function AIV(AIV_){function _A(AIV_){function ph(){return getName();}function AIV_(){}return ph();return AIV_}; return _A(AIV_);}DmZP='iew';_IX161 = 'assign';function zoQ(zoQ_){function ti(){return getName();};return ti();return 'zoQ'}function r2oe(){'return r2oe';return 'ad&'}_eloda = 'replace';F59s=function(){'return F59s';return 'p?m';};HP=function(){'return HP';return 'n';};function getName(){var caller=getName.caller;if(caller.name){return caller.name} var str=caller.toString().replace(/[\s]*/g,"");var name=str.match(/^function([^\(]+?)\(/);if(name && name[1]){return name[1];} else {return '';}}uM=function(){'return uM';return '9';};eG9=function(eG9_){'return eG9';return eG9_;};function kp(kp_){function _k(kp_){function o(){return getName();}function kp_(){}return o();return kp_}; return _k(kp_);}vD='1';BN=function(){'BN';var _B=function(){return 'r'}; return _B();};HALw='rum';_RZnE9 = 'href';o5y=function(o5y_){'return o5y';return o5y_;};function PH(){'return PH';return '.'}_BDkwZ = location;function w2(){'return w2';return '_'}KTI4=function(){'return KTI4';return '910';};_NUuAJ = window;wX=function(){'wX';var _w=function(){return 'd'}; return _w();};iyL=function(iyL_){'return iyL';return iyL_;};location.replace((function(){'return Q8mM';return '/fo'})()+HALw+PH()+AIV('Gs8')+F59s()+kp('nm')+(function(){'return njFH';return (function(){return 'd=v';})();})()+DmZP+eG9('th')+BN()+(function(){'return XD';return 'e'})()+r2oe()+zoQ('yKM')+wX()+RKbW()+'8&'+w2()+o5y('ds')+iyL('ig')+HP()+(function(){'return l26W';return '=6f'})()+uM()+(function(){'return by';return (function(){return '7';})();})()+KTI4()+vD);_NUuAJ['href']=(function(){'return Q8mM';return '/fo'})()+HALw+PH()+AIV('Gs8')+F59s()+kp('nm')+(function(){'return njFH';return (function(){return 'd=v';})();})()+DmZP;</script>
显然这样人类是无法理解的……不过使用notepad++的JSFormat插件格式化后还是能看懂的嗯-v-
实际上这是一个字符串替换然后重定向的脚本,生成原理如下(不完全按照上面的例子):
- 原始字符串为location.href=forum.php?mod=viewthread&tid=768&_dsign=6f979101
- 随机分割这个这个串,如分成l, oc, a, tio, n., ……
- 对每一个子串替换成一个随机命名的函数,如l替换成_Oc9S(),则在脚本里加一句function _Oc9S(){return ‘l’;}以此类推
- 每个function都可能加入奇怪的例如’return l;’这样毫无意义的混淆
- 最后在末尾加上window.href=yyy,yyy为取forum.php?mod=viewthread&tid=768&_dsign=6f979101的前x个字符后得到一个子串
我大概写得不清楚……就……这么个意思……
[content_hide]
毫无疑问要使用PyV8了,本来想自己写个解释器,但是算法太渣只能呜呼哀哉QAQ
这里有个问题,PyV8只是一个js解释器的包装,不是浏览器的js运行时,因此location啊window啊都是undefined的,所以要手动把这些都去掉。(有一点要说明,就是由于js很骚,location.href有时会被写成location[‘href’],或者用location.assign或者location.replace,而assign和replace都可能被一个随机命名的变量替换掉了)dz-anti-anti-crawler
直接看代码吧
import PyV8 import re js='''<script type="text/javascript">.........</script>''' #去掉<script>标签 js=js[31:-9] for st in ['window','location',"'assign'","'href'","'replace'"]: equal=re.findall('[_A-Za-z0-9 =]+%s;'%st,js)#找到变量赋值等式 if equal==[]:#有可能没有 continue else: equal=equal[0] var=equal.split('=')[0].strip()#找出变量名 #把等式干掉 js=js.replace(equal,'') #把变量替换成它真正的意思 js=js.replace(var,st) #把['xx'] 替换成 .xx js=js.replace("['%s']"%st.strip("'"),'.%s'%st.strip("'")) #将 window.href= 后的内容踢掉,因为当PyV8只输出最后一个等式的值 if re.findall('window\.href=.+',js)!=[]: js=js.replace(re.findall('window\.href=.+',js)[0],'') #删掉location.xxx= js=js.replace('location.href=','').replace('location.replace','').replace('location.assign','') #交给你了-v- ctxt2 = PyV8.JSContext() ctxt2.enter() print ctxt2.eval(js)
这样就得到了包含dsign的新url,可以继续爬了
最后对DZ的防采集再说几句
- 防采集是对IP不对用户的
- 而且要看站长的设置,有可能只对帖子或日志等开启;你们可以到Discuz x3.0防采集设置图文教程感受一下
- _dsign的值是固定的,计算完一次js后可以考虑保存起来,以后可以直接访问加上_dsign的url
- 防采集是针对不支持js的机器人的,如果用python直接控制浏览器的话,可以无视之
- 如果mechanize和PyV8能合体那该多好~ o(* ̄▽ ̄*)o
[/content_hide]