标签:

网络矿工资讯

  • 收藏

网络矿工5.32的新特性

2015/6/10 0:00:00   网络矿工

5.3发的有点仓促,但因为当时有部分用户需要其中的功能来采集数据,所以当时就赶着发了。

5.31和5.32实际都是5.3的补充。从版本发展目标来看,5.3重点解决的问题是采集策略。期望可以提供多种采集策略的组合。这样可以从本质上提升网络矿工的采集能力,增强对复杂网站及复杂数据结构的采集,降低人工的维护成本。

5.31没有对外发布过,是一个中间产品,有些客户会用到,是通过技术支持发布的。5.32现在放出测试版本。

说说新增的功能吧:

1、增加了一些数据加工规则,这些都是在逐步完善的,规则越多,处理的数据质量就会越来越高,也方便用户日后的数据应用;

2、增加了Cookie轮询机制;

3、增加了独立设置header功能;

4、增加了对屏蔽页面的检测,防止因为网址屏蔽IP后,未出现采集错误造成的数据遗漏,并可控制发现被屏蔽后停止采集;

5、增加了 对工作线程独立设置代理的功能;

6、增加了socket5代理支持;

7、调整多页规则,实现多页与导航页数据采集的绑定;

说说采集策略。

一个任务在采集的时候对目标网站而言,cookie和IP,是判断唯一性的标准,有些时候,我们换了IP,但如果没有清除浏览器的Cookie,网站还会检测的是同一人信息,这也是网站防止作弊的必要检测手段。

一个采集任务在采集的时候,通常情况下这两个信息是无法区分的,换句话说,就是以任务为单位,在5.32中,细化了,是以线程为单位的。一个任务,三个线程,可以独立设置三个独立的IP稳定采集,同时为每个IP分配独立的COOKIE(登录身份信息),同时还可以设置采集间隔来控制每个线程的采集延时。这样一个任务,瞬间就可以模拟出三台计算机来进行数据采集。

同时配合网络矿工的执行策略,及屏蔽检测规则,可以有效应对海量数据采集中遇到的各种问题,并有效解决进行数据采集。

 

阅读:2048  评论:0  点赞:41
  • 评论

推荐阅读

QQ咨询

自助客服

我要提问
QQ交流群
102085506
暗号:小矿

电话咨询
0351-7250789
18735171797