当前位置：首页 > ZBLOG > 正文

zblog火车采集器（火车站信息采集）

admin
ZBLOG
2022-12-20 00:41:25
15

今天给各位分享zblog火车采集器的知识，其中也会对火车站信息采集进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、火车头采集器采集正常，发布失败提示无标题（实际上标题采集正常）
2、火车头采集器怎么用？详细的介绍
3、火车头采集器怎么用？
4、火车头采集器如何采集Javacript:voidc
5、谁有火车头发布接口zblog1.4php版本
6、火车头采集器怎么采集今日头条文章？

火车头采集器采集正常，发布失败提示无标题（实际上标题采集正常）

大家都知道php有个函数htmlspecialchars()是将预定义字符串做转换的，而htmlspecialchars()这个函数在php5.4默认为utf8编码的

一般建站新手站长搭建织梦环境都是用的dedeampz织梦集成环境一键搭建的织梦环境，原因就在这里了，dedeampz搭建完成的CMS网站默认的编码格式是gbk的

如果你安装的是织梦5.3或者5.6可能没事，因为dede5.6之前的版本其中php的版本默认配置的是5.3版本的php，但是织梦5.7开始集成其中的php是5.4版本的，而这时的php5.4默认编码格式跟环境的编码格式冲突（格式不一致）

格式不一致的时候如果你输入的标题是纯英文+数字，这没问题，能正常使用，因为编码格式utf-8跟gbk的区别在于中文字符

如果你输入的是中文字符，那么htmlspecialchars()函数在转换的时候因为编码格式不同导致的乱码是他不识别，所以就直接输出空，因为他什么也没有转过来，这也就是为什么你输入汉语标题提交，却提示“标题不能为空”的原因！

问题分析清楚了，解决方法也很明显了，下面提供两种解决方法

第一种：将php的版本切换回5.3版本或者比5.3更早的版本的，这个问题自然就解决了

第二种:给htmlspecialchars(函数)添加ENT_COMPAT ,'GB2312'

就是给php的这个函数强制设定编码格式，这样也能解决这个问题，具体对应的位置是

①：dede/article_add.php 这个php文件中查找

$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen));

改成

$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen),ENT_COMPAT ,'GB2312');

②：然后再找到dede/article_edit.php这个php文件中查找

$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen));

改成

$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen),ENT_COMPAT ,'GB2312');

③：include/ckeditor/ckeditor_php5.php 查找

htmlspecialchars($value)

改为htmlspecialchars($value, ENT_COMPAT ,'GB2312')

这样也能解决以上问题

本文采用站点信息

解决的请点赞

火车头采集器怎么用？详细的介绍

火车头采集是很老的一个采集器品牌了，功能较全，不过相对的操作也比较复杂，不懂技术的可能完全没办法上手，懂技术的多研究多看视频会好些，详细的介绍，你可以去他们官网上去介绍。

同类采集器里面也有些功能全，操作也简单的，你可以去多比较下，像八爪鱼采集器。

zblog火车采集器（火车站信息采集）

火车头采集器怎么用？

软件程序的获取：

大家可以从百度中搜索“火车头采集器”，并进入对应官方来获取程序的最新版本下载地址。当然也可以从小编所提供的网盘地址中获取最新版本程序：

请点击输入图片描述

安装并运行“火车头采集器”程序，在弹出的登陆界面中直接点击“登陆”按钮就可以以免费版身份登陆。

请点击输入图片描述

在程序主界面中，点击“新建”下拉箭头，从中选择“任务”项。

请点击输入图片描述

在弹出的窗口中，输入“任务名”，同时点击“起始网址”栏目右侧的“添加”按钮。

请点击输入图片描述

接下来就极为重要的一步，就是对要进行采集的网站进行分板，对所采取的网站中各片文章的URL进行综合分析并找出规律，最后按如图进行填写。

请点击输入图片描述

然后切换至“第二步：采集内容规则”选项卡中，我们需要对网页内容进行分板。在此以“搜狗浏览器”为例，右击要进行分析的网页，从弹出的菜单中选择“审查元素”项。

请点击输入图片描述

在“开发式模式”界面中，点击“选择页面中的一个元素去透视”按钮，接着点击“标题”内容，此时就可以在“开发者”窗口中显示标题所对应的标签，此例为“h2"。

请点击输入图片描述

接下来在”采集内容规则“界面中，点击“添加”按钮来添加“标题”项，或者直接双击“标题”项进行修改。在弹出的界面中，勾选”前后截取“，将设置前后辍分别为"h2“、”/h2".

请点击输入图片描述

利用同样的方法添加其它采集内容的规则。

切换至“第三步：发布内容设置”选项卡，勾选“启用方式二”，并进行如图设置。

请点击输入图片描述

最后从任务列表中，勾选要采集的内容，点击“开始”按钮就可以按规则采集网站中的网页内容啦。

请点击输入图片描述

如果还有啥问题，请留言或者私信，如果回答的还算可以，请列为最佳答案

火车头采集器如何采集Javacript:voidc

火车头采集器采集内容之前是先采集网址的，所以你说的这个网址其实早就知道了，而采集内容的时候是不会采集到得，因为一般情况下一个网页的源代码里不会有这个网页的网址。比如A是一个网页的网址，用火车头采集器的时候首先读取的就是这个网页地址A，然后再根据这个地址来请求数据，根据你的采集规则来采集内容，而这个网页的内容里没有这个网址A，那么你肯定是采集不到的。那么这个网址A在哪里呢?在生成的文件里。比如你保存到本地之后生成一个CSV的文件，打开之后再最后一列(URL)就是采集的内容对应的这个网址。