热搜:
查看: 557|回复: 0

火车头采集教程—78tp引流推广-凯发app官网登录

[复制链接]

1005

主题

2218

帖子

3625

积分

管理员

rank: 9rank: 9rank: 9

积分
3625
发表于 2020-1-10 18:30:10 | 显示全部楼层 |

    • 分析网页

    网页里的东西之所以能被批量下载,是因为有特定的规律,我们要做的就是找到这个规律,并编写规律规则,交给火车头去执行。
    打开网页后点“cos”页面,可以看到分如下区块:
    我们要采集的是帖子区域里,帖子里的图片:


    所以我们的分析思路就是:找出帖子区每个帖子的链接,然后通过链接打开每个帖子并获取里面的图片地址并下载它们。要完成这个操作,那么就要使用chrome浏览器的f12了。

    2.采集帖子地址
    • 打开火车头采集器,新建一个分组cosplaymore,选中该分组并按“任务”在该分组下新建一个名叫cos的任务。


    我们看到有起始网址,多级网址获取这个选项。

    • 回到我们打开的网页,观察下面翻页和网址:

    翻到第二页,这是你会发现网址由变成了,list-30-x  x代表的是当前页数。

    • 回到火车头,添加批量网址,如图,将 list-30-x 中的页数用(*)这个变量替代,因为一共有80页,所以项数改成80,下面会生成批量地址:


    然后再按“添加”加入全部地址。
    这样就搞定第一级网址了。

    • 接下来我们获取第二级地址,即所有帖子的地址。按下f12,选中帖子区,移动鼠标至其中一个层(div)时,可以发现整个帖子区都被选中了。


    如图我们可以发现整个帖子区是从
    的,里面的每个
  • 标签就是一个帖子,而
  • 标签里href后面就是帖子的地址。
    • 回到火车头,添加多级网址获取–从选定区域获取网址–从
    。为了采集更精确,我们设定网址必须包含“show”。(ps.不能从
    ,否则每页采集的只有一个帖子地址,至于为什么仔细看下上图就知道了)
  • 我们测试一下网址采集,如图,可以看到已经正常获取帖子地址了,80页共有2226个帖子地址。


3.采集帖子内容
这一步也是最终,最重要的一步,将所有的图片都下载下来。
火车头中选第二步,采集内容规则,随便开一个帖子的链接,如

  • 我们先添加一个标题:

如图,右键帖子题目“死亡爱丽丝|白雪姬”检查,可以看到它处于标签中。
回到火车头,添加一个名为“标题”的采集内容,前后截取,开始字符是,结束字符是
然后把刚才的地址填入右边地址栏《典型页面》中,测试一下采集:
这样就是ok的。
同理你也可以采集时间、作者之类的东西。这里就不演示了,直接说怎么采集图片。

同样f12,鼠标移到
的时候,整个图片区域被选中了,且每个

标签中都有一张图片,地址也在其中,我们要获取的是所有图片的地址。


回到火车头,添加一个名为“图片”的采集内容,如图配置:

配置完成后出来测试一下采集,发现已经可以自动下载了。并且生成了以帖子标题为名的文件夹。
这里特别提个醒,有些图片的标签不是以
最后设置下图片的保存地址,下载方式异步下载(比较快),其他配置自己看着改。

到这里,整个规则就写完了,这是最简单的规则,对于那些没有太多防范的网站,采集率几乎是百分百。这里也友情提醒下大家,不要去恶意刷人家网站的流量,本次教程也作为演示,对于被测试的网站,我也说句抱歉,大家也不要拿这个网站做测试了。

最后我们跑一下看看:



电脑空间不够我就不跑完了。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

qq|伪原创工具|论文降重|小学作文|读后感|毕业论文|凯发app官网登录-凯发app官方网站 ( )"));

gmt 8, 2023-10-21 03:26 , processed in 0.045439 second(s), 22 queries .

powered by discuz! x3.4

© 2001-2017 comsenz inc.

返回列表
网站地图