分类: 数据抓取

  • 小说站94采集器之系统设置(图文+视频)教程

    小说站94采集器之系统设置(图文+视频)教程

    之前讲解了94采集器的安装,从本文开始讲解94采集系统的设置,指导大家一步步实现linux系统下的杰奇cms小说采集。

    图片[1] - 小说站94采集器之系统设置(图文+视频)教程 - 长江技术博客
    94采集器设置管理

    1 系统设置视频教程

    见上方视频

    2 数据库设置

    根据自己的杰奇cms小说网站的数据库信息进行设置,如下截图所示:

    图片[2] - 小说站94采集器之系统设置(图文+视频)教程 - 长江技术博客

    3 系统设置

    图片[3] - 小说站94采集器之系统设置(图文+视频)教程 - 长江技术博客

    注意:文本格式根据自己小说站模板的格式来进行设置

    图片[4] - 小说站94采集器之系统设置(图文+视频)教程 - 长江技术博客

    4 分类设置

    包含大类设置(一级分类)和小类设置(二级分类),其实和使用关关采集器设置分类差不多:

    1=玄幻小说,玄幻魔法,玄幻,玄幻奇幻,玄幻魔法,异陆,魔法,异能,玄幻小说,东方玄幻,异界大陆,玄幻仙侠,魔法奇幻,魔幻,玄幻,魔法,玄幻魔法,异陆,奇幻,奇幻-异界幻想,奇幻-仙侠情缘,奇幻-妖精灵怪,奇幻-西方魔幻,奇幻-吸血家族,玄幻小说,重生文学,奇幻小说,玄幻异界,奇幻魔法,东方玄幻,异世大陆,王朝争霸,高武世界
    2=修真小说,武侠修真,武侠,武侠仙侠,武侠修真,修真,仙侠,仙侠修真,武侠小说,仙侠小说,远古神话,修真小说,古典仙侠,洪荒封神,女生武侠,恩怨情仇,仙侠,修真文明,幻想修仙,现代修真,神话修真
    3=都市小说,都市言情,都市,都市小说,都市言情,都市生活,言情,言情小说,台湾言情,都市异能,都市激战,官场风云,青青校园,都市官场,爱情婚姻,都市生活,都市异能,异术超能,青春校园,娱乐明星,都市娱乐
    4=穿越小说,历史,军事,历史军事,战争,战争小说,历史小说,军事小说,历史穿越,战史风云,谍战特工,架空历史,军史传奇,前世今生,家宅布衣,穿越,架空,古言,历史,历史古代,穿越小说,历史军事
    5=网游小说,游戏,游戏竞技,网游竞技,网游,游戏小说,网游动漫,网游小说,竞技小说,动漫小说,游戏异界,虚拟网游,动漫,网游,电子竞技,虚拟网游,游戏异界,游戏主播
    6=科幻小说,科幻,科幻小说,科幻-未来世界,科幻小说,科幻灵异,古武机甲,未来世界,星际文明,超级科技,时空穿梭,进化变异,末世危机,科幻末日,科幻空间
    7=女频小说,豪门世家,恩怨情仇,婚恋爱情,职场丽人,婚恋爱情,言情耽美,女生频道,女生,女频小说,女生频道,纯爱,情感,校园,耽美言情,现言,爱情,同人,女生言情,耽美百合,幻想言情,浪漫青春
    8=灵异小说,恐怖小说,惊悚小说,恐怖,惊悚,灵异小说,灵异,悬疑灵异
    9=次元小说,N次元,同人动漫,主角小说
    10=其他类型,其他,其它,其他小说,其它小说,其他类型,其它类型,综合其他

    就是一些1对多的映射关系,等号左边个人网站的分类id,等号右边可以根据目标网站进行调整。

    5 频道设置

    1=男
    2=女

    同样,左边根据你自己网站进行设置,等号右边可以根据目标网站进行调整。

    6 连载状态设置

    0=连载中
    1=已完结

    同样,左边根据你自己网站进行设置,等号右边可以根据目标网站进行调整。

    7 标识设置

    采集的目标站文章中,如果匹配到了如下设置信息,文章会被进行标识,那么后续再进行采集更新就会修复这些章节

    图片[5] - 小说站94采集器之系统设置(图文+视频)教程 - 长江技术博客

    8 UA设置

    就是访问的浏览器标识,必须设置;可以直接使用如下:

    Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36
    Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.62
    Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko
    Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Mobile Safari/537.36
    Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Mobile Safari/537.36 Edg/92.0.902.62

  • 小说站94采集器之采集规则编写(图文+视频)教程

    小说站94采集器之采集规则编写(图文+视频)教程

    94采集器的系统配置完成后,接下来就是采集规则编写,利用采集规则对目标站进行采集。

    1 概述

    可以直接导入已有的采集规则,也可以自己编写新规则;采集规则有两种编写方式,分别是正则规则和CSS规则。

    2 采集规则编写视频教程

    最上面。

    3 手工导入已有规则

    94采集器系统中,规则列表栏目下,直接点击“导入”即可,本文提供了几个已有的规则供大家下载(附件)。

    图片[1] - 小说站94采集器之采集规则编写(图文+视频)教程 - 长江技术博客

    4 新规则编写

    94采集器系统中,规则列表栏目下,直接点击“添加”,规则每个参数都有详细的描述(如下截图),CSS规则和正则规则的具体写法,可以通过视频教程学习。

    图片[2] - 小说站94采集器之采集规则编写(图文+视频)教程 - 长江技术博客

    另外,点击系统右上角的感叹号,可以弹出常用的CSS规则集合,按照作者的说法,这些规则几乎匹配99%的笔趣阁小说站模板。

    图片[3] - 小说站94采集器之采集规则编写(图文+视频)教程 - 长江技术博客

    注意,有些站开启了防采集功能,就不要采集了。

  • 94采集器5.2.4源码(注意是源码)

    94采集器5.2.4源码(注意是源码)

    94采集器本身功能相对于关关来说还是弱了不少,但因为可以运行在Linux上这一点特质,使得很多站长趋之若鹜,但是94采集器已经很久没有更新了,作者也不知道哪里去了。如果想改点功能或者增加点什么功能或者fix什么bug都成为妄想。

    无错源码今天提供的是94最后发布的5.2.4版本,相信可以帮助有需要的人解燃眉之急,毕竟源码在手,天下我有。

    照例先看下截图吧

    94的作者是少见的拿中文来写代码的作者,怎么说呢,就感觉这代码看着很亲切又很遥远。。。。。

    需要的筒子们自取吧。

    关于94采集器的安装,请参见以下这篇文章

    [b2_insert_post id=”3172″]

  • 【强烈推荐】小说采集器关关采集器版本9.0源代码

    关关采集器一直是小说采集的不二选择,强大的规则,替换功能,能够满足所有人的需求。

    唯一的缺点是.net开发的,必须在windows下使用,但这并不影响网站拥有者对它的热爱。

    本站提供关关采集器9.0源码,以便一起研究学习这个采集器的过人之处。

    所有源码保证无错,有问题请私信站长。

    代码仅供研究学习开发的思路,严禁用于任何不法用途。

  • 推荐两个接码平台,一个国外一个国内

    做网站或者其他应用难免要接国外或者国内平台的短信,但我们也没有那么多手机号。尤其是国外,手机号没有怎么办,这边小编给大家推荐两个接码平台,一个国外一个国内的,对于有些应用想测试却没有那么多手机号的用户来说是非常有效的。

    国外的推荐 Sms-Active   这是一个老牌的接码平台了,基本什么平台的码都可以接。价钱也很便宜。

    国内的推荐 椰子平台  也是国内的老平台了,使用方法如下:

    1、如何获取验证码


    【第一步】:选择你要想取的那个项目。(如果没有需要申请,不懂可以看下面帮助。)【第二步】:选
    注册或者别的。【第三步】:等短信到了以后填上去。可以先选一个普通的项目试试,比如:椰子云。别
    2、怎么充值?
    在导航栏找到充值的入口,点开后,会看到一些网址。这都是商户挂出的第三方发卡网链接,你在发卡网
    卡密进行充值。
    3、充值遇到问题怎么办?
    如果遇到问题先不要急于在第三方发卡网投诉,1、先找商户在发卡网留下的联系方式进行沟通;2、如果
    以解决也必须解决的,因为我们不是骗子。君子爱财,取之有道!
    4、【收不到短信怎么办】?

    这个问题最为常见,有以下几种常见原因,请仔细阅读:

    1、【热门项目】,如果你的项目太热门了,比如抖音注册……等,很大概率手机号被人用过了,这个时候可能取不到短信,但你可以先试试.如果不行,可以在专
    断是不是你的短信,就不能发给你。这种情况,到项目列表里面,申请一下新项目(申请项目请按格式)。我们会尽快审核通过的,正常是当天能审核。或者联系客服为您增加了关键字模板。

    2、【网络问题】比如还有一种情况就是 客户做的是【V视美交】项目,来的验证码是
    【V视】亲爱的会员您好,您获取的验证码是:349305。
    这样肯定是不来码的
    正确做法是搜索短信内容中【】内的关键词:V视
    因为平台不会去判断你的项目名称是什么,只会看短信模板的内容!
    很简单理解,在举例子,“大蘑菇”
    来的短信内容是【大蘑菇】您的验证码是123456
    那么你就要搜【】中的“大蘑菇”项目
    5、取不到号码怎么办?
    有几种可能:1、你使用的条件过多,没有对应的号码。2、没有充值余额了。3、获取号码没有收到短信,一直没有释放。这时候点下全部释放即可。4、服务器网络不通,这种机率很小,重试就知道了。
    6、没有我要的项目怎么办?
    新项目层出不穷,可以先搜索,如果没有搜到,说明没有人申请过,这时你只需要在【项目列表】里面申请。
    找到项目列表-添加项目里 输入项目名称,并粘贴完整的《短信模板》即可!
    示例:【葫芦娃】验证码54585,您正在注册成为葫芦娃用户,感谢您的支持!
    7、项目一直没有通过是怎么回事?
    项目是人工审核,一般是当天肯定会审核完毕。在所有项目那儿即可以看到,或者搜索下也可以看到。当然如一些高风险项目,比如政府、银行网站,微信,QQ,论坛,运营商这种,我们可能不通过审核。在没有
    8、专属对接有什么用?
    对接大多用在热门项目上,因为热门项目大家都想用,有些大工作室一通宵都可以把所有卡跑完,这时候来晚了,肯定只能走对接。因为对接会贵一点。具体的价格有两种一种是你申请的时候提出的价格,你可以参
    9、怎么使用对接?
    1、到【项目列表】搜索您需要做的项目。2、如果公开对接没有你要的项目,可以发布【缺卡对接】,这样卡商看到你的项目觉得价格也合适,就同意了。这样你的专属对接里就有了他。3、通过别的聊天方式找
    10、对接的价格可不可以便宜点?
    对接的价格是卡商自行设定的,或者与你商议后设定的,平台没有干涉的权利,你可以试试与卡商砍价。当然还不如自己申请一个价格或者搜索更便宜的来得高效。
    11、为什么要拉黑号码?
    拉黑,是你取过到手机号后,为了避免再取到该手机号。拉黑后你就不会再取到此手机号
    12、api释放号码有什么用?
    释放号码,为避免资源浪费,是你同一时间只能取多少个号码,如果不释放一直获取,就会出现号码不够用
    13、平台每天都更新号码吗?
    我们平台本身并没有卡,也不更新任何卡,是不是每天更新卡是平台的卡商决定的,当然了,由于我们卡商很多,正常来讲每天都有新卡的。

    14、为什么感觉虚拟卡比石卡多?
    从成本来看,虚拟卡比实卡多是很正常的,我们平台的实卡已经算是很多了。
    15、以前的号码还可以用吗?
    这个要看情况,如果该卡商还一直挂着,你使用以前的号码,取指定号码

  • 94Spider采集器无错版

    94Spider采集器无错版

    94Spider采集器无错版,已修复所有错误。

    直接导入安装即可,谨记使用python 3.8.x,其他版本python会报错。

    cfscrape不需要额外安装,已经包含在文件中。

    作为程序员是一定要了解爬虫的,若是我们能把爬虫定制为一个小小的系统,在采集同类型的资源时,将会事半功倍,下面我推荐的是一个python版本的采集器,这个采集器主要是采集小说网站的,但是不防我们拿来研究研究,开阔一下思路,可以做我们自己的采集器。

    下面说一下,它的安装教程,至于程序的获取请看最后,

    上传94采集安装包

    1)下载最新版本94采集器,上传至Linux服务器

    先在自己的Linux上安装宝塔面板,用宝塔面板管理;

    将下载的94采集器压缩包上传到服务器上(路径可以自己定)并解压

    2)找到config.py文件,修改

    只修改端口,94采集器作者反馈其他的不需要修改;端口可以自己定义,只要不被占用即可

    9e3df8dcd100baa16967b400d0e57a19cafc2ec7.jpeg@f_auto

    94采集器文件修改

    宝塔安全组放通
    登录宝塔面板–》安全,将上面设置的端口放通

    c9fcc3cec3fdfc03e3fe311465ca449fa6c2269d.jpeg@f_auto

     

    安装设置python管理器

    注意:如果你宝塔面板中的安全加固功能开启了,请先关闭,不然管理器启动会失败

    1)使用宝塔安装python管理器,并利用管理器安装python3.8.5版本

    aa18972bd40735fa5628ad1607a4ccb80d240842.png@f_auto
    203fb80e7bec54e7d026167027cd585b4dc26a93.png@f_auto

     

    2)添加项目管理

    参考下面的设置。

    9f510fb30f2442a785bae2314eb66e40d31302ea.png@f_auto

    最后你可以用 ip:9099 (ip+端口)或者配置代理域名访问试试。

    具体端口不是看宝塔的接口,要看你config.py中设置的端口号。

    无错版94采集器请到底部下载。

    下载地址已失效。

  • 九四采集器-无线程采集限制破解文件

    94采集器默认是限制了同时开启线程的。

    使用本文件替换后可以破解线程限制。

    使用方法:

    init.py文件放入app\view
    task.py文件放入app文件夹

  • 火车头采集常用的纯正则过滤总结「采集内容处理」

    火车头采集常用的纯正则过滤总结「采集内容处理」

    有时候千辛万苦采集下来的内容但是杂乱无章,面对复杂的html代码想过滤无从下手,为了得到一个标准的内容,下面分享一下火车头采集常用的纯正则过滤规则。

    2022051610063133.webp

    场景1

    每一个段落都是<p></p>没有多余的HTML标签和与主题无关的字符

    提取数据方式

    选择 正则提取,组合结果填 <p>[参数1]</p>

    场景2

    有些内容开始和结尾并没有p标签,换行是用br标签来完成,所以我们要创造p标签

    数据处理

    第一步:清除与正文无关的内容,如文中的广告,注释等

    正则 <header>[sS]*?</header>|<!–.*?–>| |规则4|规则5 替换为 空

    如果发布到一些免费平台,有的HTML特殊字符并不会被转化,只需在末尾加入’|&.*?;’过滤掉最后特殊HTML字符即可。

    第二步:只保留图片以及常用的块级元素

    正则 (?i)<(?!/?h|/?p|/?div|br|img).*?> 替换为 空

    只保留标题标签 h 分段标签 p、div、br 以及图像标签 img ;前面的(?i)表示不区分大小写

    第三步:去掉除了img标签外的所有标签的选择器或样式,并把标签修改为p

    正则 <(?!img)(/?)w+.*?> 替换为 <$1p>

    第四步:把乱七八糟的图像样式,改成标准图像代码

    正则 <img.*?src=”(.+?)”.*?> 替换为 <img src=”$1″>

    第五步:规范段落标签<p>开始</p>结束

    正则 </?p>替换为</p><p>

    慧聪网段落只有<p>开始没有</p>

    结束某些站个别文章,</p>结束后没有<p>开始就直接是下个段落的内容

    第六步:把<p>或</p>前后的空格替换为空

    正则 s*(</?p>)s* 替换为 $1

    第七步:把连续2个以上的<p>或</p>替换为1个

    正则 (<p>){2,}|(</p>){2,} 替换为 $1$2

    第八步:把所有的空段落替换为空

    内容 <p></p> 替换为 空

    第九步:由于第五步的关系,文章开头可能是</p>结尾可能是<p>需要清理他们

    正则 ^</p>|<p>$ 替换为 空
  • 最新火车头(高铁采集器)wordpress 6.X 免登陆发布模块

    最新火车头(高铁采集器)wordpress 6.X 免登陆发布模块

    本版本在wordpress6.3下不能正常发布,请使用下方最新支持wordpress6.3的版本

    [b2_insert_post id=”5465″]

    源码说明

    WordPress 6.x 5.x 4.x 都可以用本插件发布!!! 本站实测无错,请不必怀疑。

    更新说明

    1.  适用于火车头采集器7.6-9.6(同高铁采集器)
    2.  优化了验证标题重复
    3.  优化了附件、图片、缩略图的上传和生成
    4.  增加了对多个分类方式的发布参数(post_taxonomy_list),使用方法请参考功能特性
    5.  修复BUG: 分类名称如果含有数字会导致分类错误
    6.  旧版发布接口重新设计,新版本号为T1,以后不再对旧版升级维护.旧版本支持3.X-4.8.2
    7.  修复BUG:当规则中没有发布模块中某个参数时会导致发布数据异常(会显示db:标签名)
    8.  优化strtoarray函数

    功能特性

    1.分类(category):

    • 分类支持分类名和分类ID, 系统自动判断
    • 多分类处理(多个分类请用逗号隔开)
    • 自动创建分类,如果网站内没有这个分类,会自动创建分类。
    • 自动创建父分类, 适用于想要设置父分类并且网站中不存在. 使用方法: WEB发布模块/高级功能/内容发布参数/ -> 增加 post_parent_cate
    • 添加分类描述 使用方法: WEB发布模块/高级功能/内容发布参数/ -> 增加 category_description

    2.标签:

    • 多标签处理(多个标签请用逗号隔开)

    3.作者:

    • 多作者处理, 可设置多个作者随机发布文章, 发布参数中指定post_author
    • 自定义作者功能,如果提交的数据为用户名的话,会自动检测系统是否存在该用户,如果已存在则以该用户发布,不存在则自动新建用户(接口以针对中文用户名进行了处理)

    4.图片和缩略图:

    • Web图片上传,根据主题或网站后台设置自动生成缩略图,并自动设置第一张图片为文章的特色图片. 使用方法: WEB发布模块/高级功能/文件上传设置/->增加 图片所在的标签,表单名为: fujian递增数字
    • 自定定义缩略图(特色图像) 使用方法: WEB发布模块/高级功能/文件上传设置/ 增加 缩略图所在的标签,表单名为: thumb递增数字
    • 标准的php.ini单次最大文件上传数为20个, 如果发布的内容附件超过20个,将会出错. 如果遇到此问题请更改php.ini的max_file_uploads/2018/03 参数 . 或者更换上传方式为FTP

    5.时间和预约发布:

    • 正确的时间格式为2017-10-01 23:45:55或者2017-10-01 23:45
    • 自动处理服务器时间与博客时间的时区差异
    • 随机时间安排与预约发布功能: 可以设定发布时间以及启用预约发布功能. 启用预约发布后,如果POST过来的数据包涵时间,则以时间为准立即发布,反之则以接口文件配置时间发布。

    6.评论:

    • 发布评论,支持评论时间、评论作者、评论内容, 需要在火车头->Web发布模块/内容发布参数/ ->新增 comment、commentdate、commentauthor三个参数,分别对应评论内容、评论时间、评论作者. 三个参数缺一不可

    7.其它:

    • 标题重复判断, 打开参数配置中的$checkTitle,即可判断标题是否重复,对于重复结果不予发布
    • 发布文章后自动ping,需要再后台设置->撰写->更新服务 填入ping地址
    • ‘pending review’ 更新文章状态pending(审核) 为 publish(所有人可见)

    使用说明

    将locoy.php放到wordpress站点根目录
    编辑任务/选择”第三步: 发布内容设置”页面下的”Web发布配置管理”

  • Discuz防采集设置如何开启

    Discuz防采集设置如何开启

    如何保护好discuz论坛的内容不被别人采集,可以在论坛网站后台开启discuz防采集设置。

    方法/步骤

    1. 打开discuz网页后,直接点击打开登录页面,在登录页面输入管理员帐号和密码,然后点击登录,如下图所示。
      8601a18b87d6277f9cb80f3b24381f30e924fc0e
    2. 成功登录后,直接点击导航上面的【管理中心】,如下图所示。

      b7fd5266d0160924614d9f18d80735fae6cd344c
    3. 点击后跳转到discuz管理中心认证页面,直接输入密码,然后点击提交,如下图所示。
      d50735fae6cd7b894e040780032442a7d9330e4c
    4. 成功登录discuz管理中心后,直接点击导航栏里的【全局】,如下图所示。
      9213b07eca806538588d99109bdda144ad348249
    5. 在点击左侧全局列表里的【防采集设置】选项,如下图所示。
      0b55b319ebc4b745aafc8a15c3fc1e178a82154c
    6. 在打开的discuz防采集设置页面后,直接点击【是】开启防采集,如下图所示。
      8b13632762d0f7038818a8df04fa513d2697c50e
    7. 选择是后会显示出设置防采集的具体内容,然后根据提示填写,最后勾选哪些内容是要防止采集的,设置好后直接点击提交,如下图所示。
      7af40ad162d9f2d3457a19eca5ec8a136327cc4d
    8. 点击提交后,discuz提示当前设置更新成功。

    当然,这种防采集很容易被突破,参见这篇文章

    [b2_insert_post id=”217″]