标签: 94采集器

  • 小说站94采集器安装视频教程

    小说站94采集器安装视频教程

    前言

    在使用杰奇CMS建小说站的同时,往往会配套使用关关采集器进行采集小说内容,但是关关采集器需要安装在windows系统上,如果想长期建设和维护小说站,对windows系统配置(cpu、内存、硬盘)是有一定的要求,前期投入费用不低。

    本文介绍的94采集器是一款杰奇Linux系统采集器,即可以安装在linux上,这样能实现将杰奇CMS和采集器同时安装在Linux上。如果你有一台Linux主机,现在就可以建立自己的小说站啦。

    你也可以看看这篇文章,使用杰奇CMS建立小说站对服务器的要求。

    什么配置服务器适合做杰奇CMS小说站 - 长江技术博客
    什么配置服务器适合做杰奇CMS小说站 - 长江技术博客

    下面开始正题,教大家在Linux上安装94采集器。

    安装视频教程

    见顶部

    上传94采集安装包

    1)下载最新版本94采集器,上传至Linux服务器(94采集器下载在文章底部)

    先在自己的Linux上安装宝塔面板,用宝塔面板管理;

    将下载的94采集器压缩包上传到服务器上(路径可以自己定)并解压

    2)找到config.py文件,修改

    只修改端口,94采集器作者反馈其他的不需要修改;端口可以自己定义,只要不被占用即可

    图片[1] - 小说站94采集器安装教程-杰奇CMS采集 - 长江博客
    94采集器文件修改

    宝塔安全组放通

    登录宝塔面板–》安全,将上面设置的端口放通

    图片[2] - 小说站94采集器安装教程-杰奇CMS采集 - 长江博客
    宝塔面板端口放通

    安装设置python管理器

    注意:如果你宝塔面板中的安全加固功能开启了,请先关闭,不然管理器启动会失败

    1)使用宝塔安装python管理器,并利用管理器安装python3.8.5版本

    图片[3] - 小说站94采集器安装教程-杰奇CMS采集 - 长江博客
    图片[4] - 小说站94采集器安装教程-杰奇CMS采集 - 长江博客

    2)添加项目管理

    参考下发截图设置

    图片[5] - 小说站94采集器安装教程-杰奇CMS采集 - 长江博客

    3)启动失败问题

    启动失败问题,查看日志,提示缺少cfscrape,解决方法如下:

    图片[6] - 小说站94采集器安装教程-杰奇CMS采集 - 长江博客

    到此,94采集器安装完成。

    94采集器登录

    使用Linux的ip加端口的方式登录,如:http://x.x.x.x:9098

    默认的登录用户名和密码在config文件;如果修改用户名和密码,修改之后需要重启python项目

    图片[7] - 小说站94采集器安装教程-杰奇CMS采集 - 长江博客
    九四采集器登录页面

    如果还有安装问题,可读取这篇文章,下载视频教程。

    94采集器下载地址

    [b2_insert_post id=”3172″]

    当然,如果现有的94采集器无法满足你的要求,你还可以下载 94采集器来修改源码达到自己的目的。

    94采集器源码下载地址

    [b2_insert_post id=”3748″]

  • 小说站94采集器之添加任务(图文+视频)教程

    1 概述

    94采集器支持单书号文章采集、书号列表采集、分类列表采集等方式,可以实现对目标站全量、分批采集,完全可以满足个人运营采集的需求。

    2 添加任务视频教程

    见上面视频

    3 任务参数配置

    主要参数说明

    任务ID:空白,后期生成会自动补数据
    规则ID:选择采集规则
    任务名称:随便写
    间隔时间:这里的单位是秒,数据太小,会导致采集源站屏蔽,一般600-1800秒
    添加类型:有四个选项,一般默认选“添加” 正常采集
    默认、书号、书号列表、列表:这个选择是根据你规则来选择和配置的,这里我们的规则是按照列表来采集的,所以图片中我们只配置了列表,具体设置可以参考自己规则配置。
    封面更新:否
    简介更新:否
    标识修复:是
    字数修复:1000
    采集间隔:0.1-10
    重试次数:5-60
    重试间隔:1-30
    最低章节数:2 章节数低于2章节的不采集
    最高章节数:10000 章节数高于10000章节的不采集
    UserAgent:直接选择,因为在配置系统参数的时候已经加入了
    对比方式:最后章节名称 按需选择
    小说线程数/章节线程数:根据服务器配置写,我是1H1G的测试vps 所以写1-2
    代理信息设置:如果用代理 这里设置
    过滤信息设置:如果有不想采集的小说名称,写这里

    添加书号类型任务

    QQ20220615205824-1024x414-1
    书号类型任务参数设置

    添加书号列表类型任务

    QQ20220615210056-1024x412-1
    书号列表任务参数设置

    添加列表类型任务

    QQ20220615210325-1024x406-1
    列表任务参数设置

    任务启动,成功采集

    QQ20220615210916-1024x194-1

    小说站94采集器的主要教程暂时就介绍到这里,其他功能大家可以自己测试。整体上来说从安装到设置,再到最后的采集,94采集器的设置还是比较简单的。

    注意事项

    • 采集后没有数据或者章节内没有内容:查询txt路径是否正确
    • 采集后图片不显示:排除模板原因的话,查询img路径是否正确
    • 采集后章节内容不换行:采集规则问题,使用<p>替换 或者/n替换,不要使用</br>替换
    • 采集突然中断:请修复杰奇cms数据库,切记使用杰奇后台修复
  • 小说站94采集器之系统设置(图文+视频)教程

    小说站94采集器之系统设置(图文+视频)教程

    之前讲解了94采集器的安装,从本文开始讲解94采集系统的设置,指导大家一步步实现linux系统下的杰奇cms小说采集。

    图片[1] - 小说站94采集器之系统设置(图文+视频)教程 - 长江技术博客
    94采集器设置管理

    1 系统设置视频教程

    见上方视频

    2 数据库设置

    根据自己的杰奇cms小说网站的数据库信息进行设置,如下截图所示:

    图片[2] - 小说站94采集器之系统设置(图文+视频)教程 - 长江技术博客

    3 系统设置

    图片[3] - 小说站94采集器之系统设置(图文+视频)教程 - 长江技术博客

    注意:文本格式根据自己小说站模板的格式来进行设置

    图片[4] - 小说站94采集器之系统设置(图文+视频)教程 - 长江技术博客

    4 分类设置

    包含大类设置(一级分类)和小类设置(二级分类),其实和使用关关采集器设置分类差不多:

    1=玄幻小说,玄幻魔法,玄幻,玄幻奇幻,玄幻魔法,异陆,魔法,异能,玄幻小说,东方玄幻,异界大陆,玄幻仙侠,魔法奇幻,魔幻,玄幻,魔法,玄幻魔法,异陆,奇幻,奇幻-异界幻想,奇幻-仙侠情缘,奇幻-妖精灵怪,奇幻-西方魔幻,奇幻-吸血家族,玄幻小说,重生文学,奇幻小说,玄幻异界,奇幻魔法,东方玄幻,异世大陆,王朝争霸,高武世界
    2=修真小说,武侠修真,武侠,武侠仙侠,武侠修真,修真,仙侠,仙侠修真,武侠小说,仙侠小说,远古神话,修真小说,古典仙侠,洪荒封神,女生武侠,恩怨情仇,仙侠,修真文明,幻想修仙,现代修真,神话修真
    3=都市小说,都市言情,都市,都市小说,都市言情,都市生活,言情,言情小说,台湾言情,都市异能,都市激战,官场风云,青青校园,都市官场,爱情婚姻,都市生活,都市异能,异术超能,青春校园,娱乐明星,都市娱乐
    4=穿越小说,历史,军事,历史军事,战争,战争小说,历史小说,军事小说,历史穿越,战史风云,谍战特工,架空历史,军史传奇,前世今生,家宅布衣,穿越,架空,古言,历史,历史古代,穿越小说,历史军事
    5=网游小说,游戏,游戏竞技,网游竞技,网游,游戏小说,网游动漫,网游小说,竞技小说,动漫小说,游戏异界,虚拟网游,动漫,网游,电子竞技,虚拟网游,游戏异界,游戏主播
    6=科幻小说,科幻,科幻小说,科幻-未来世界,科幻小说,科幻灵异,古武机甲,未来世界,星际文明,超级科技,时空穿梭,进化变异,末世危机,科幻末日,科幻空间
    7=女频小说,豪门世家,恩怨情仇,婚恋爱情,职场丽人,婚恋爱情,言情耽美,女生频道,女生,女频小说,女生频道,纯爱,情感,校园,耽美言情,现言,爱情,同人,女生言情,耽美百合,幻想言情,浪漫青春
    8=灵异小说,恐怖小说,惊悚小说,恐怖,惊悚,灵异小说,灵异,悬疑灵异
    9=次元小说,N次元,同人动漫,主角小说
    10=其他类型,其他,其它,其他小说,其它小说,其他类型,其它类型,综合其他

    就是一些1对多的映射关系,等号左边个人网站的分类id,等号右边可以根据目标网站进行调整。

    5 频道设置

    1=男
    2=女

    同样,左边根据你自己网站进行设置,等号右边可以根据目标网站进行调整。

    6 连载状态设置

    0=连载中
    1=已完结

    同样,左边根据你自己网站进行设置,等号右边可以根据目标网站进行调整。

    7 标识设置

    采集的目标站文章中,如果匹配到了如下设置信息,文章会被进行标识,那么后续再进行采集更新就会修复这些章节

    图片[5] - 小说站94采集器之系统设置(图文+视频)教程 - 长江技术博客

    8 UA设置

    就是访问的浏览器标识,必须设置;可以直接使用如下:

    Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36
    Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36 Edg/92.0.902.62
    Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko
    Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Mobile Safari/537.36
    Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Mobile Safari/537.36 Edg/92.0.902.62

  • 小说站94采集器之采集规则编写(图文+视频)教程

    小说站94采集器之采集规则编写(图文+视频)教程

    94采集器的系统配置完成后,接下来就是采集规则编写,利用采集规则对目标站进行采集。

    1 概述

    可以直接导入已有的采集规则,也可以自己编写新规则;采集规则有两种编写方式,分别是正则规则和CSS规则。

    2 采集规则编写视频教程

    最上面。

    3 手工导入已有规则

    94采集器系统中,规则列表栏目下,直接点击“导入”即可,本文提供了几个已有的规则供大家下载(附件)。

    图片[1] - 小说站94采集器之采集规则编写(图文+视频)教程 - 长江技术博客

    4 新规则编写

    94采集器系统中,规则列表栏目下,直接点击“添加”,规则每个参数都有详细的描述(如下截图),CSS规则和正则规则的具体写法,可以通过视频教程学习。

    图片[2] - 小说站94采集器之采集规则编写(图文+视频)教程 - 长江技术博客

    另外,点击系统右上角的感叹号,可以弹出常用的CSS规则集合,按照作者的说法,这些规则几乎匹配99%的笔趣阁小说站模板。

    图片[3] - 小说站94采集器之采集规则编写(图文+视频)教程 - 长江技术博客

    注意,有些站开启了防采集功能,就不要采集了。