当前位置:首页 > ZBLOG > 正文

zblog火车采集器(火车站信息采集)

今天给各位分享zblog火车采集器的知识,其中也会对火车站信息采集进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

火车头采集器采集正常,发布失败提示无标题(实际上标题采集正常)

1

大家都知道php有个函数htmlspecialchars()是将预定义字符串做转换的,而htmlspecialchars()这个函数在php5.4默认为utf8编码的

2

一般建站新手站长搭建织梦环境都是用的dedeampz织梦集成环境一键搭建的织梦环境,原因就在这里了,dedeampz搭建完成的CMS网站默认的编码格式是gbk的

3

如果你安装的是织梦5.3或者5.6可能没事,因为dede5.6之前的版本其中php的版本默认配置的是5.3版本的php,但是织梦5.7开始集成其中的php是5.4版本的,而这时的php5.4默认编码格式跟环境的编码格式冲突(格式不一致)

4

格式不一致的时候如果你输入的标题是纯英文+数字,这没问题,能正常使用,因为编码格式utf-8跟gbk的区别在于中文字符

5

如果你输入的是中文字符,那么htmlspecialchars()函数在转换的时候因为编码格式不同导致的乱码是他不识别,所以就直接输出空,因为他什么也没有转过来,这也就是为什么你输入汉语标题提交,却提示“标题不能为空”的原因!

6

问题分析清楚了,解决方法也很明显了,下面提供两种解决方法

第一种:将php的版本切换回5.3版本或者比5.3更早的版本的,这个问题自然就解决了

7

第二种:给htmlspecialchars(函数)添加ENT_COMPAT ,'GB2312'

就是给php的这个函数强制设定编码格式,这样也能解决这个问题,具体对应的位置是

①:dede/article_add.php 这个php文件中查找

$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen));

改成

$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen),ENT_COMPAT ,'GB2312');

②:然后再找到dede/article_edit.php这个php文件中查找

$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen));

改成

$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen),ENT_COMPAT ,'GB2312');

③:include/ckeditor/ckeditor_php5.php 查找

htmlspecialchars($value)

改为htmlspecialchars($value, ENT_COMPAT ,'GB2312')

这样也能解决以上问题

本文采用站点信息

解决的请点赞

火车头采集器怎么用?详细的介绍

火车头采集是很老的一个采集器品牌了,功能较全,不过相对的操作也比较复杂,不懂技术的可能完全没办法上手,懂技术的多研究多看视频会好些,详细的介绍,你可以去他们官网上去介绍。

同类采集器里面也有些功能全,操作也简单的,你可以去多比较下,像八爪鱼采集器。

火车头采集器怎么用?

软件程序的获取:

大家可以从百度中搜索“火车头采集器”,并进入对应官方来获取程序的最新版本下载地址。当然也可以从小编所提供的网盘地址中获取最新版本程序:

请点击输入图片描述

请点击输入图片描述

2

安装并运行“火车头采集器”程序,在弹出的登陆界面中直接点击“登陆”按钮就可以以免费版身份登陆。

请点击输入图片描述

3

在程序主界面中,点击“新建”下拉箭头,从中选择“任务”项。

请点击输入图片描述

4

在弹出的窗口中,输入“任务名”,同时点击“起始网址”栏目右侧的“添加”按钮。

请点击输入图片描述

5

接下来就极为重要的一步,就是对要进行采集的网站进行分板,对所采取的网站中各片文章的URL进行综合分析并找出规律,最后按如图进行填写。

请点击输入图片描述

6

然后切换至“第二步:采集内容规则”选项卡中,我们需要对网页内容进行分板。在此以“搜狗浏览器”为例,右击要进行分析的网页,从弹出的菜单中选择“审查元素”项。

请点击输入图片描述

7

在“开发式模式”界面中,点击“选择页面中的一个元素去透视”按钮,接着点击“标题”内容,此时就可以在“开发者”窗口中显示标题所对应的标签,此例为“h2"。

请点击输入图片描述

8

接下来在”采集内容规则“界面中,点击“添加”按钮来添加“标题”项,或者直接双击“标题”项进行修改。在弹出的界面中,勾选”前后截取“,将设置前后辍分别为"h2“、”/h2".

请点击输入图片描述

9

利用同样的方法添加其它采集内容的规则。

切换至“第三步:发布内容设置”选项卡,勾选“启用 方式二”,并进行如图设置。

请点击输入图片描述

10

最后从任务列表中,勾选要采集的内容,点击“开始”按钮就可以按规则采集网站中的网页内容啦。

请点击输入图片描述

如果还有啥问题,请留言或者私信,如果回答的还算可以,请列为最佳答案

火车头采集器如何采集Javacript:voidc

火车头采集器采集内容之前是先采集网址的,所以你说的这个网址其实早就知道了,而采集内容的时候是不会采集到得,因为一般情况下一个网页的源代码里不会有这个网页的网址。 比如A是一个网页的网址,用火车头采集器的时候首先读取的就是这个网页地址A,然后再根据这个地址来请求数据,根据你的采集规则来采集内容,而这个网页的内容里没有这个网址A,那么你肯定是采集不到的。那么这个网址A在哪里呢?在生成的文件里。 比如你保存到本地之后生成一个CSV的文件,打开之后再最后一列(URL)就是采集的内容对应的这个网址。

谁有火车头发布接口zblog1.4php版本

字段说明:(标有*的为必填字段,绿色值为默认值)

*log_CateID:文章的分类ID

*log_Title:文章标题

*log_Content:文章内容

log_Tag:文章标签ID,格式为{标签ID},多个为{1}{2}{3}

log_Status:文章的状态,0为正常发布,1为草稿,2为审核

log_Type:文章的类别,0为文章,1为页面

log_IsTop:文章是否置顶,0是不置顶,1是置顶

log_Intro:文章摘要,默认是50字符

log_PostTime:文章发布时间,为UNIX时间戳,默认当前时间

log_ViewNums:文章浏览数,默认为0次

发表地址后缀:zb_users/plugin/QeeZer_Locoy/LocoyPost.php?locoy_key=火车头自动发布密令

火车头采集器(V8.6为例)设置部分:

主要就是发布地址、post字段设置等,

火车头采集器怎么采集今日头条文章?

第一步采集网址,下载好火车头采集器后打开,新建一个任务,任务名随意。把需要采集的网站文章列表页网址添加到起始网址。从图中看出该列表页有34页,每页有N篇文章。

2

列表页会一级网址,添加多级网址获取,从而获取二级网址(文章页网址)

设置列表分页获取,3个地方分别是:分页源代码前面和后面还有中间位置。这一步用于获取列表页面链接,因为有34个列表页面。设置完保存。

网址获取选项,这一步用于获取列表页上面文章页的链接,根据自己需要设置需要截取的部分和根据网址的结构设置包含与不包含某些字符。为空即没限制,设置完保存。

设置好链接采集规则后,可以测试网址,看测试结果调整规则。看图可以看到采集链接规则从起始链接到全面列表页再到列表页上的文章页链接都已经成功采集。

第二步是采集内容,首先修改标题规则,在页面源代码里面找到标题的代码,把标题前后代码负责过去截取出标题。保存。

修改内容采集规则,跟标题规则差不多,也是源代码里面找到内容的前后代码。这里内容会有一些其他html标签,所以得添加一个html标签排除的规则。

完成后,测试看一下结果,从测试结果来调试规则,直到测试结果是自己想要的内容为止。

第三步是采集导出。前面1、2两步把规则设置好,最后就要把文章导出了。先做一个导出的模版。

然后选择方式二,把每一篇文章都分别记录到一个txt文本,保存位置自己选择,模板选择刚刚做好的导出模版.保存的文件名用文章标题为命名。其他默认,保存。

把采集网址,采集内容,发布3个选项框都勾选,然后开始采集。完成后文本就自动生成在刚刚保存的文件夹里面了。

火车头采集器采集文章教程到此就完成了,由于每个网站都是不一样的,所以这里只能用一个网站演示,只是一个方法思路,自己采集文章还需要灵活变通。

关于zblog火车采集器和火车站信息采集的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。

取消
扫码支持 支付码