3.采集帖子内容 这一步也是最终,最重要的一步,将所有的图片都下载下来。 火车头中选第二步,采集内容规则,随便开一个帖子的链接,如
如图,右键帖子题目“死亡爱丽丝|白雪姬”检查,可以看到它处于标签中。
回到火车头,添加一个名为“标题”的采集内容,前后截取,开始字符是,结束字符是。 然后把刚才的地址填入右边地址栏《典型页面》中,测试一下采集: 这样就是ok的。 同理你也可以采集时间、作者之类的东西。这里就不演示了,直接说怎么采集图片。
同样f12,鼠标移到的时候,整个图片区域被选中了,且每个标签中都有一张图片,地址也在其中,我们要获取的是所有图片的地址。
回到火车头,添加一个名为“图片”的采集内容,如图配置:
配置完成后出来测试一下采集,发现已经可以自动下载了。并且生成了以帖子标题为名的文件夹。 这里特别提个醒,有些图片的标签不是以
最后设置下图片的保存地址,下载方式异步下载(比较快),其他配置自己看着改。
到这里,整个规则就写完了,这是最简单的规则,对于那些没有太多防范的网站,采集率几乎是百分百。这里也友情提醒下大家,不要去恶意刷人家网站的流量,本次教程也作为演示,对于被测试的网站,我也说句抱歉,大家也不要拿这个网站做测试了。
最后我们跑一下看看:
电脑空间不够我就不跑完了。 |