wordpress CMS主题 微信
Home > wordpress火车头采集 > 怎样火车头采集和发布文章(5):创建任务之采集内容规则

怎样火车头采集和发布文章(5):创建任务之采集内容规则

高时银博客 wordpress火车头采集 点击: 4,855 次 2 0

前面2节我们介绍了火车头采集器创建任务中的采集网址规则的相关内容,文章的网址URL我们采集到了,接下来我们要做的就是采集文章内容了。下面,就随着高时银博客一起来看看火车头采集器创建任务第二步——采集内容规则

进入主窗口,点击“第二步:采集内容规则”,如下图:

怎样火车头采集和发布文章(5):创建任务之采集内容规则

这个窗口左侧用来添加或编辑文章页面相关标签的规则,右侧是用来测左侧的内容规则。我们采集文章一般要采集到对方文章的标题、内容、标签这3个,当然,如果你还需要作者等相关信息,也可以添加。这里,我只需要采集到标题、文章内容、标签这3样就可以了。

1、添加或编辑标题:双击左侧的“标题”,如下图

怎样火车头采集和发布文章(5):创建任务之采集内容规则

双击后会弹出如下图窗口:

怎样火车头采集和发布文章(5):创建任务之采集内容规则

然后,我们打开卢松松博客“好友分享”分类的任何一篇文章,查看其源代码页面,源代码中,我们可以看到文章标题在<title>与</title>,因为我们只想取文章的标题,不想取卢松博客名,所以我们在上图的窗口中右侧中添加的是" -卢松松博客</title>”,而不是</title>。

2、添加或编辑内容标签:双击“内容”,弹出如下图:

怎样火车头采集和发布文章(5):创建任务之采集内容规则

然后在文章源代码页面中找到文章的内容前的唯一标签 <dd class="con"> (如下图),再找到文章内容结束后唯一标签 字符 “ 相关阅读”(因为卢松博客文章后台都有“相关阅读”推荐列表)。然后把它们都添加到上图中的 1 和他2 处。

怎样火车头采集和发布文章(5):创建任务之采集内容规则

 

这样我们就可以采集到文章的内容。但是,文章中可能有链接、有框架、DIV…… 如果不想要这些,我们是可以设置的。单击左侧的“添加”——>“html标签过滤”,如下图:

怎样火车头采集和发布文章(5):创建任务之采集内容规则

然后右侧的“标签过滤”框里勾选这些,如:链接<a ,勾选好以后,一定要记得点击左侧的“确定”,确定以后,会在左侧出现“html标签排除”菜单,如下图:

怎样火车头采集和发布文章(5):创建任务之采集内容规则

这些都弄好了以后,再单击底部的“确定”按钮进行保存。

3、添加或编辑tag标签:因为火车头默认没有tag,所以,我们点左侧的添加,弹出如下窗口:

怎样火车头采集和发布文章(5):创建任务之采集内容规则

记住,在wordpress4.2.2发布模块中的“标签名”是“ tag ”,所以这里我们要填写“tag”,这2个名字一定要一样,否则我们发布文章时就获取不到文章的 tag 标签了。在标签规则中,如果采集的文章中有标签,我们就可以直接采集,跟前面采集标题和内容的方法一样,这里不多说。如果采集的文章中没有标签,而我们自己一定要给文章添加标签,那怎么办呢?我们可以如下图那样选择“自定义固定格式的数据”,来创建”随机tag标签“。

怎样火车头采集和发布文章(5):创建任务之采集内容规则

在上图中的”随机抽取信息“的空白域中添加你想作为文章tag的短语,如图所示,每行一个。然后可以点击”测试“按钮测试一下效果。这样,发布文章到我们网站的时候,就会随机选一个作为文章的 tag 标签。

当然,tag标签也可以通过文章中的”短语链接”、图片alt,我就这样做过,你也可以研究一下。

采集内容规则弄好了,我们可以测试一下,如下图,我们把卢松松博客好友分享的一篇文章URL地址复制到“规则测试”处,然后点击旁边的“测试”按钮,就可以看到效果。

怎样火车头采集和发布文章(5):创建任务之采集内容规则

好了,第二步——采集内容规则就讲到这里,这一部分还有很多,但基本的东东,我们这里已经讲完,当然,你还可以进一步地深究,这里的功能是非常强大的,如:文章标题和内容中的替换功能,这个对伪原创是非常有帮助的。

wordpress发布模块登录版 地址:http://wanlimm.com/77201505103691.html

wordpress发布模块免登录 地址:http://wanlimm.com/77201506044245.html


文章作者:高时银博客
本文地址:http://wanlimm.com/77201504293268.html
版权所有 © 转载时必须以链接形式注明作者和原始出处!

目前还没有评论。赶快来坐沙发吧。

发表评论