wordpress CMS主题 微信
Home > wordpress火车头采集 > 怎样火车头采集和发布文章(4):创建任务之采集网址规则(二)

怎样火车头采集和发布文章(4):创建任务之采集网址规则(二)

高时银博客 wordpress火车头采集 点击: 3,375 次 0 0

前一节高时银博客跟大家一起分享了怎样火车头采集和发布文章:创建任务之采集网址规则(一),主要是讲解了添加采集“起始网址”,本节将继上一节,讲解获取分类页文章网址。如上一节,我们打开卢松松博客的“好友分享”分类页,然后在页面空白处单击一下右键——>查看源代码(我用的是搜狗浏览器高速,一般浏览器都有这个选项,如果右键不好用,也可以点击浏览器菜单中的”查看——>查看源代码“),如下图:

wordpress发布模块登录版 地址:http://wanlimm.com/77201505103691.html

wordpress发布模块免登录 地址:http://wanlimm.com/77201506044245.html

怎样火车头采集和发布文章(4):创建任务之采集网址规则(二)

这时我们打开了好友分享的源代码页,备用。

然后,依然后是火车头采集器的”第一步:采集网址规则”,点击“多级网址获取 ——> 添加” 如下图:

怎样火车头采集和发布文章(4):创建任务之采集网址规则(二)

 

然后弹出“添加多级网址采集规则”,如下图:

怎样火车头采集和发布文章(4):创建任务之采集网址规则(二)

再回到刚才打开的卢松松博客源代码页,通过“在页面内查找”工具(这个搜狗浏览器菜单“查看——>在页面内查找”),查找到  <div id="container"> ,在源代码页显示是唯一的,如下图:

怎样火车头采集和发布文章(4):创建任务之采集网址规则(二)

 

<div id="container">标签是“好友分享”分类页文章列表的唯一开始标签。然后再同样的方法找到文章列表的唯一结束标签代码 <div class="postt"><script type="text/javascript">BAIDU_CLB_fillSlot("312260");</script>

我们把 <div id="container"> 添加到“从该选定区中提取网址”的第一个文本域中(下图1处),把<div class="postt"><script type="text/javascript">BAIDU_CLB_fillSlot("312260");</script>添加到第二个文本域中(下图2处)。然后,在源代码页这2个标答之间的代码中找到文章标题的链接URL地址,把这个地址添加到“结果网址过滤”处的文本域中(下图3处),然后用通配符替换掉这个链接URL中的会变化的字符,如 lusongsong.com/info/post/1106.html 中的1106就是,不同的文章会显示不同的数字(可能是文章的ID,各个网站的不同),如下图:

怎样火车头采集和发布文章(4):创建任务之采集网址规则(二)

然后点击保存,就回到了上一个窗口,如下图:

怎样火车头采集和发布文章(4):创建任务之采集网址规则(二)

这样我们就添加了一个“多级网址获取”规则,如上图蓝色区域,我们还可以对这个规则进行“修改、删除”操作。规则做好了,就可以测试一下效果,看有没有设计错误,我们可以点击右下解的“测试网址采集”按钮进行测试,对刚才的规则测试结果如下图,说明规则正确。

怎样火车头采集和发布文章(4):创建任务之采集网址规则(二)

 

如了,到这里,火车头采集和发布文章创建任务第一步——采集网址规则的介绍就完了,说起来难,其实很简单,说简单吧,有时还真有点摸着路,呵呵,总之慢慢来吧。

 


文章作者:高时银博客
本文地址:http://wanlimm.com/77201504283240.html
版权所有 © 转载时必须以链接形式注明作者和原始出处!

目前还没有评论。赶快来坐沙发吧。

发表评论