网站首页 >ZBLOG 正文

火车头ZBlog博客采集，WordPress内容获取工具

admin 2024-07-03 19:47:36 ZBLOG 24 ℃

广告位后台主题配置管理

今天给各位分享火车头zblog博客采集的知识，其中也会对火车头采集wordpress进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、火车头采集器发布文章怎么随机到栏目id
2、谁有火车头发布接口zblog1.4php版本
3、SEO站长如何批量采集文章

火车头采集器发布文章怎么随机到栏目id

首先讲一讲网站结构，通常网站结构为树形结构，一个网站主要包以下几种页面：首页、栏目页、文章页，其结构如下图。

其次讲一讲火车头采集原理，火车头的运行需要一套规则来指定该如何采集所需数据，即需要编写火车头采集规则，编写采集规则也是新手最头痛的问题。

火车头采集器通常通过网址抓取网站返回的源代码，然后在源代码中提取需要的信息。因此，采集数据需要先采集网址，然后再采集数据。

下面开始编写采集规则：

运行LocoyPlatform.exe

在左侧“任务列表树”选择一个分组点击右键，选择“新建任务”弹出新建任务对话框。填写任务名，网站编码一般选择自动即可。

添加起始网址

填写“第一步：采集网址规则”这里需要按照网站的树形结构逐级获取下一级结构的网址，直至获取到内容页的网址。先填写起始网址，通常为目标站首页地址。点击“添加”，在单条网址处填上火车头博客的首页地址，然后依次点击“添加” -“完成”。

编写“多级网址获取”规则

这里需要先在起始地址页面找到所有需要采集的栏目页的代码区域，先查看起始页地址的源码，找到如图所示代码区域：

点击右侧“添加”按钮打开“添加多级网址采集规则”，选择“从页面自动分析得到地址链接”单选按钮，在下面“从该选定区域中提取网址”，“从”（左侧）文本框填上栏目地址代码区域开始之前的标志性代码（要保证其在该页的唯一性），“到”右侧文本框填上栏目地址代码区域结束之后的标志性代码，在“结果网址过滤”的“必须包含”和“不得包含”文本框填上相应代码，如果该区域没有多余的链接不需要过滤，可以不填，这里的栏目页网址必须包含“category-”。然后点击“保存”返回。

现在需要获取内容页的地址。先打开栏目页查看源码，查找内容页地址存在的区域及地址规律。按照上一步的方法先填写内容页所在区域的起始和结束标志性代码，然后分析这个区域中包含的链接与我们说需要的内容页地址链接规律，添加过滤代码。这里起始代码为“!--显示--”，结束代码为“div class="qnphp07ac-26ee-9cac-2a61 page" style="float:right"”过滤代码为必须包含“read-”不得包含“#”。如图：

需要注意的是这里文章比较多会有很多分页，所以需要填写“列表分页获取”规则。通常只需要指定分页代码的区域，如有必要可以填写“组合生成列表页分页”规则。这里的列表分页规则其实代码为“li class="qnphp26ee-9cac-2a61-4211 pageNumber"”，结束代码为“title="下一页"”。如果勾选“自动识别分页”的话，会自动提取a标签的href属性，如果不勾选自动识别的话，需要填写组合生成列表页分页”规则。

然后保存返回，可以通过“测试网址采集”来测试规则是否正确，不正确可以返回修改规则，正确的话可以开始编写“第二步采集内容规则”。

编写“第二步采集内容规则”

先打开内容页以及内容页的源码，找到需要提取的信息的前后代码特征。以提取标题和内容为例。首先复制文章标题，然后在源码中查看该标题出现的几处地方，找一处前后代码在每一篇文章都一样的地方，该例共出现了3处，第二处的代码没有其他干扰代码。点击“添加”，标签名填“标题”，提取数据方式选择前后截取，前后代码分别为“h1 class="qnphp9cac-2a61-4211-eca6 ContentTitle"strong”和“/strong/h1”。如果采集的内容需要作进一步处理（如替换删除编码转换过滤html等），在下方“数据处理”点击添加填写相应规则。

再添加一个标签，标签名为“内容”，按照上述方法填写内容的前后代码片段，需要注意的是，前后代码片段最好不要出现不完整的标签（如：“div class="qnphpe807-1a7c-6a7c-657c Content-body"” 应该写作“div class="qnphp1a7c-6a7c-657c-ba06 Content-body"”，一个完整的标签应该是以“”开始，以“”结束，如果之间的内容在各个内容页有一部分不一样，将不一样的部分用（*）代替即可），否则提取的内容会包含部分不完整的标签。通常正文包含的HTML会比较多，可以添加HTML过滤功能，建议仅保留段落（p）、图片（img）、换行（br）等标签。

测试内容采集规则

保存规则后返回采集内容规则页面，在右侧“规则测试”的典型页面文本框填上一个内容页的地址，然后点击测试，如果下面显示到的内容符合预期说明可以了，如果未获取到内容或者获取到内容不正确，返回检查并修改规则。

开始采集

选择要采集的任务规则，勾选“采网址”和“采内容”复选框，点击工具栏“开始”按钮。

后续工作

采集到的数据保存在数据库，可以通过在任务名上点右键，选择“打开DATA下任务文件夹”打开数据库所在位置，该数据库可以通过ACCESS打开和编辑。如果想要重新采集，需要通过右键选择“清空该任务网址库”和“清空任务所有采集数据”。

谁有火车头发布接口zblog1.4php版本

字段说明：（标有*的为必填字段，绿色值为默认值）

*log_CateID：文章的分类ID

*log_Title：文章标题

*log_Content：文章内容

log_Tag：文章标签ID，格式为{标签ID}，多个为{1}{2}{3}

log_Status：文章的状态，0为正常发布，1为草稿，2为审核

log_Type：文章的类别，0为文章，1为页面

log_IsTop：文章是否置顶，0是不置顶，1是置顶

log_Intro：文章摘要，默认是50字符

log_PostTime：文章发布时间，为UNIX时间戳，默认当前时间

log_ViewNums：文章浏览数，默认为0次

发表地址后缀：zb_users/plugin/QeeZer_Locoy/LocoyPost.php?locoy_key=火车头自动发布密令

火车头采集器（V8.6为例）设置部分：

主要就是发布地址、post字段设置等，

火车头zblog博客采集（火车头采集wordpress）

SEO站长如何批量采集文章

有很多的软件可以进行采集啊，比如火车头，八爪鱼这些都是可以进行批量采集文章的

注意：网站批量采集的文章内容的质量不太好，建议可以进行手动采集，将网站进行伪原创进行发布这样的话可以让你的网站内容好，并且在搜索引擎上排名上的快，这些事本人自己总结的经验，SEO是一个比较慢的一个技术，不用太着急，越是着急越不容易的到排名，希望你不要太着急，希望可以帮助到你

关于火车头zblog博客采集和火车头采集wordpress的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。