广告位 后台主题配置管理 |
广告位 后台主题配置管理 |
今天给各位分享zblog火车头发布规则的知识,其中也会对zblog火车头发布模块进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!
前沿:
如果你对火车头一点都不知道,你还是去网上自学一点火车头采集的知识,我也不是什么大师,硬着头皮写的,至少能用,在这里我不会教你如何写采集规则,因为写法种类太多,你问我我也不知道,火车头相关文件夹里提供的发布接口内置了马甲发布文章,并且支持远程图片抓取本地化,和发布文章时间设置(10-70分钟随机)。用户只需关注火车头标题和内容即可,参数值标题(title),内容(content)。
第一步:站点设置里设置下火车头免登录发布接口的全局变量值:
第二步:将发布接口上传覆盖程序根目录:
第三步:登录火车头软件后导入发布模块"
下图更多处下拉--选择导入:
导入后:
上图中,数字1处填写你在网站后台设置的全局变量值。
2 处选择 utf-8 编码。
3 处填写你网站域名,不要带 反斜杠'/'.
4处选择不需要登录
5 处点击获取列表--选择你需要入库的分类
6 随便给当前这个发布模块写个名字,后续采集任务模块会用到。
最后点击保存配置按钮。
---------
下面讲解导入采集任务:
新建任务分组后,在该分组下导入任务规则(导入任务至该分组):
选择我们的采集任务规则(.ljobx文件):
下一步:双击规则项
点击第三步:修改发布内容设置
修改下你发布的分类:
最后保存即可:
然后右键开始任务采集:
字段说明:(标有*的为必填字段,绿色值为默认值)
*log_CateID:文章的分类ID
*log_Title:文章标题
*log_Content:文章内容
log_Tag:文章标签ID,格式为{标签ID},多个为{1}{2}{3}
log_Status:文章的状态,0为正常发布,1为草稿,2为审核
log_Type:文章的类别,0为文章,1为页面
log_IsTop:文章是否置顶,0是不置顶,1是置顶
log_Intro:文章摘要,默认是50字符
log_PostTime:文章发布时间,为UNIX时间戳,默认当前时间
log_ViewNums:文章浏览数,默认为0次
发表地址后缀:zb_users/plugin/QeeZer_Locoy/LocoyPost.php?locoy_key=火车头自动发布密令
火车头采集器(V8.6为例)设置部分:
主要就是发布地址、post字段设置等,
1、运行火车头软件,点击发布到发布窗口界面;
2、点击添加,依次选择发布接口,选择网站编码、填写后台路径、(因为是免登陆接口)选择不需要登录http请求,然后获取列表看看是否成功,成功后请保持配置。
(注意:如果无法获取列表说明没有配置成功,检测接口文件是否上传,后台路径是否正确等)
3、如果你需要同时发布到多个网站,请重复2操作,原则上可以发布N个。
4、配置完发布接口后回到火车头界面,双击你要发布的采集规则,进入采集规则 编辑任务窗口,切换到第三步:发布内容配置;
5、点击 启用 Web在线发布到网站,然后添加发布配置,在弹出Web发布配置窗口选择你你的发布配置,点击添加,多个网站发布可以多选;
6、双击你添加的网站发布,点击获取列表 绑定你要发布到网站的指定栏目的栏目ID,保存规则,到此你的采集规则发布到网站已经配置好了;
7、如果你要一条采集规则多个网站发布就重复第6步,原则上可以发布N个站。
这个问题我好像回答过一次哦,不过现在wordpress4.2已经出来,你的wordpress可以升级了,到时,你可以用 高时银博客 提供的wordpress4.2火车头发布模块了。 针对你的问题,答案如下: 如果你已经有了发布模块,那么打开火车头后,首先要配置发布设置,点击窗口上的“发布”按钮,弹出“Web发布配置管理”窗口,点击“更多”——“导入”,导入你的发布模块,然后再下拉框,如下图: 选择你刚导入的发布模块,然后“编码设置”选 utf-8 ,并输入你的网站网址, 然后点击“内置浏览器登录……”,如下图: 会弹出登录窗口,输入你网站的用户名、密码、记住密码,如果登录成功,在上图中的Cookie处会获取到你网站登录时的 cookie信息,这时,你点击上图中的“获取列表”,就会显示出你网站的分类信息,然后在“配置名”处填写你网站的名字(这个随便你取)。 这样发布模块就配置成功了。 然后就是你对火车头的“采集网址规则”、采集内容规则,这2个弄好后,在配置“发布内容设置”时添加你上面配置好的“Web发布配置”。 一切弄好了,就可以采集发布了。
1
首先讲一讲网站结构,通常网站结构为树形结构,一个网站主要包以下几种页面:首页、栏目页、文章页,其结构如下图。
其次讲一讲火车头采集原理,火车头的运行需要一套规则来指定该如何采集所需数据,即需要编写火车头采集规则,编写采集规则也是新手最头痛的问题。
火车头采集器通常通过网址抓取网站返回的源代码,然后在源代码中提取需要的信息。因此,采集数据需要先采集网址,然后再采集数据。
2
下面开始编写采集规则:
运行LocoyPlatform.exe
3
在左侧“任务列表树”选择一个分组点击右键,选择“新建任务”弹出新建任务对话框。填写任务名,网站编码一般选择自动即可。
添加起始网址
填写“第一步:采集网址规则”这里需要按照网站的树形结构逐级获取下一级结构的网址,直至获取到内容页的网址。先填写起始网址,通常为目标站首页地址。点击“添加”,在单条网址处填上火车头博客的首页地址,然后依次点击“添加” -“完成”。
编写“多级网址获取”规则
这里需要先在起始地址页面找到所有需要采集的栏目页的代码区域,先查看起始页地址的源码,找到如图所示代码区域:
点击右侧“添加”按钮打开“添加多级网址采集规则”,选择“从页面自动分析得到地址链接”单选按钮,在下面“从该选定区域中提取网址”,“从”(左侧)文本框填上栏目地址代码区域开始之前的标志性代码(要保证其在该页的唯一性),“到”右侧文本框填上栏目地址代码区域结束之后的标志性代码,在“结果网址过滤”的“必须包含”和“不得包含”文本框填上相应代码,如果该区域没有多余的链接不需要过滤,可以不填,这里的栏目页网址必须包含“category-”。然后点击“保存”返回。
现在需要获取内容页的地址。先打开栏目页查看源码,查找内容页地址存在的区域及地址规律。按照上一步的方法先填写内容页所在区域的起始和结束标志性代码,然后分析这个区域中包含的链接与我们说需要的内容页地址链接规律,添加过滤代码。这里起始代码为“!--显示--”,结束代码为“div class="qnphp5027-9c48-db22-5b0c page" style="float:right"”过滤代码为必须包含“read-”不得包含“#”。如图:
需要注意的是这里文章比较多会有很多分页,所以需要填写“列表分页获取”规则。通常只需要指定分页代码的区域,如有必要可以填写“组合生成列表页分页”规则。这里的列表分页规则其实代码为“li class="qnphp9c48-db22-5b0c-7444 pageNumber"”,结束代码为“title="下一页"”。如果勾选“自动识别分页”的话,会自动提取a标签的href属性,如果不勾选自动识别的话,需要填写组合生成列表页分页”规则。
然后保存返回,可以通过“测试网址采集”来测试规则是否正确,不正确可以返回修改规则,正确的话可以开始编写“第二步采集内容规则”。
编写“第二步采集内容规则”
先打开内容页以及内容页的源码,找到需要提取的信息的前后代码特征。以提取标题和内容为例。首先复制文章标题,然后在源码中查看该标题出现的几处地方,找一处前后代码在每一篇文章都一样的地方,该例共出现了3处,第二处的代码没有其他干扰代码。点击“添加”,标签名填“标题”,提取数据方式选择前后截取,前后代码分别为“h1 class="qnphpdb22-5b0c-7444-fc7f ContentTitle"strong”和“/strong/h1”。如果采集的内容需要作进一步处理(如替换删除编码转换过滤html等),在下方“数据处理”点击添加填写相应规则。
再添加一个标签,标签名为“内容”,按照上述方法填写内容的前后代码片段,需要注意的是,前后代码片段最好不要出现不完整的标签(如:“div class="qnphp1152-e994-2eaf-4914 Content-body"” 应该写作“div class="qnphpe994-2eaf-4914-3657 Content-body"”,一个完整的标签应该是以“”开始,以“”结束,如果之间的内容在各个内容页有一部分不一样,将不一样的部分用(*)代替即可),否则提取的内容会包含部分不完整的标签。通常正文包含的HTML会比较多,可以添加HTML过滤功能,建议仅保留段落(p)、图片(img)、换行(br)等标签。
测试内容采集规则
保存规则后返回采集内容规则页面,在右侧“规则测试”的典型页面文本框填上一个内容页的地址,然后点击测试,如果下面显示到的内容符合预期说明可以了,如果未获取到内容或者获取到内容不正确,返回检查并修改规则。
开始采集
选择要采集的任务规则,勾选“采网址”和“采内容”复选框,点击工具栏“开始”按钮。
后续工作
采集到的数据保存在数据库,可以通过在任务名上点右键,选择“打开DATA下任务文件夹”打开数据库所在位置,该数据库可以通过ACCESS打开和编辑。如果想要重新采集,需要通过右键选择“清空该任务网址库”和“清空任务所有采集数据”。
zblog火车头发布规则的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于zblog火车头发布模块、zblog火车头发布规则的信息别忘了在本站进行查找喔。
广告位 后台主题配置管理 |
广告位 后台主题配置管理 |