采集网址配置的目的是尽可能的将需要采集的所有网址通过规律配置起来。譬如:可以使用数字参数进行页码的模拟,通过翻页规则进行翻页的处理,通过导航进行详细页的获取,总之采集网址的配置就是要将所有需要采集的网址尽可能的在一个任务中配置完成。
采集任务的数量,并不是由采集网址决定的,而是由采集数据的规则决定,这个在后面的采集数据规则配置中还会讲到。
采集网址的配置支持几种配置方法:
1、通过数字参数、日期参数、字母参数等,来模拟网址的变化规律;
2、通过字典来模拟无规律的网址采集,譬如:关键词数据采集;
3、通过外部数据库来导入网址进行数据采集;
4、通过导航、翻页等页面操作来实现所有网址的采集;
在配置网址的时候,需要注意以下几个内容:
1、要确定网址是GET方式还是POST方式,POST必须要加入post标记,在网络矿工中,post标记是<POST:ASCII></POST>;
2、网址中是否有中文,如果有中文,一定要进行编码,url中是不允许出现中文的,所以一定要编码;
3、配置网址的时候,需要识别是否为Ajax,如果是Ajax,则需要使用Fiddler来检测到网址,此时需要注意,Ajax的地址有时需要配置Header,header可以通过Fiddler来查看进行配置;
4、还有一个重要问题,Cookie,尽管Cookie一般是用于存储登录信息,但部分网站也会使用Cookie进行一些访问限制,此时需要配置Cookie信息;
有关采集网址配置详细讲解,可下面的章节。