标签:

采集网址

  • 收藏

采集网址配置

2016/5/5 11:19:24   一孑

采集网址配置中有三个重要的规则:导航、翻页、多页。

在配置前我们需要了解三个规则的含义:

导航:通常用于列表页跳转到内容页的规则配置,当然所有的页面跳转都可以用导航来实现;所以,导航规则就是用于页面的跳转,无论是何种跳转都可以,哪怕是302跳转都可以用导航来处理;

翻页:这个规则很明白,就是翻页规则,注意:很多时候翻页可以可以用网址参数来替换,而不需再配置翻页规则;

多页:多页的规则不太容易理解,尽可能简单的去说。一条网址会返回一些数据,但很多时候,我们看到的一个页面,并且需要采集的数据并不是由一条网址返回数据,而是多个网址返回的数据。譬如:

http://news.163.com/16/0504/15/BM80OIL70001124J.html 这样的页面,如果需要采集跟帖数,会发现跟帖数在源码中无法找到,如下图:

1.png

通过Fiddler来检测一下,实际跟帖数请求的地址为:

http://sdk.comment.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/BM80OIL70001124J?ibc=jssdk&callback=tool100875017984952257_1462416203077&_=1462416203078

如果我们采集时,需要将跟帖数与正文同时采集,就需要用到了多页的规则。相当于,将多个网址请求的数据同时采集,并最终合并,这就是多页需要解决的问题。

比较典型的应用就是Tab页面的采集,和上面这个跟帖数量的采集。


无论是导航、翻页、多页都支持三种配置方式:正则、前后标记配置及自定义参数。

翻页和导航还支持特征码配置;


>>翻页特征码:翻页的特征码输入的是翻页的符号,譬如:下一页,或者 >> 或者是翻页的图片,系统会自动根据特征码来获取到特征码的url,即翻页地址。注意:一定要是唯一的,翻页的地址在一个页面有可能会多个,但翻页url肯定唯一,所以找到这个唯一;

>>导航特征码:导航的地址有可能是多个,所以导航的特征码就不是某个符号了,而是需要导航地址的特征信息,注意:是网址的特征信息;网络矿工会自动将页面中所有的网址提取出来,然后根据您提供的特征信息注意匹配,匹配成功即为导航地址;

>>前后标记配置:这是网络矿工中最常用的配置方法,所以,我们会单独详细讲解。

>>自定义参数配置:请点击http://www.minerspider.com/article_1261.html 


阅读:3697  评论:0  点赞:32
  • 评论

推荐阅读

QQ咨询

自助客服

我要提问
QQ交流群
102085506
暗号:小矿

电话咨询
0351-7250789
18735171797