标签:

网址采集

  • 收藏

网址参数详解

2016/5/5 10:15:49   一孑


需要重点说明的是:网址参数在网络矿工中的任意地方,当然是网址配置的任意地方,都可以使用,如果没有菜单提供,手工输入网址参数即可。

网络矿工支持常用的网址参数有:

数字参数:递增或递减,及数字补零参数,数字参数都用于页码、分类等;

字母参数:递增或递减,多用于字母分类;

日期参数:递增或递减及各类日期格式,多用于按照日期索引的网址配置;

字典参数:字典参数可用于不规则的网址内容替换,譬如:关键词搜索采集;

=======================================================

以下开始讲解参数格式,具体参数可在网址配置中,右侧菜单“网址参数”找到,添加后,也可手工修改,因此需要了解网址参数的格式,即可随时手工修改。

网络矿工中所有参数全部用大括号来识别,

{Num:1,100,1}   Num 表示为数字,1-起始值;100-终止值;1-每采集一次相加的值,如果改为-1,则为递减;

{NumZero:1,100,1}  NumZero 表示为数字补零,何为补零?看终止值为100,即三位字符,从数字角度,1只能用一位字符表示,但很多情况下,会用001表示,因此我们需要补零,这就是这个参数的用途。1-起始值,会根据终止值的位数来判断进行自动补零,实际采集时会用 001 替换;其他参数同数字参数;

{Letter:a,z} Letter 表示为字母参数,字母参数按照从a-z开始递增;

{Letter:z,a} Letter 表示为字母参数,字母参数按照从z-a递减;

注意:在实际采集中,我们遇到了判断大小写的情况,在配置时请注意,如果大写,改为大写即可。

{ShortDate:2016-1-1,2016-5-5}  ShortDate 表示为短日期,短日期不会在月份和天前面自动补零,是按照每天进行递增;

{LongDate:2016-01-01,2016-05-05} LongDate 表示为长日期,长日期会自动在月份和天前面补零;

注意:长日期与短日期都支持格式自定义,即年月日中间的分隔符号可以自定义,默认为-,可以手工修改为/,甚至可以为:2016/01-01

{8Date:20160101,20160505} 8Date 表示为8为日期,即年4位月2位日2位,中间没有任何分隔符;

字典参数:有单独教程详解,不在此说明;


同步变量:当一条网址使用了多个参数时,最终分解的网址则是两个参数相乘的数量,譬如:

http://www.minerspider.com/article_6_1.html 使用参数替换后

http://www.minerspider.com/article_{Num:6,7,1}_{Num:1,2,1}.html,采集时分解网址如下:

http://www.minerspider.com/article_6_1.html

http://www.minerspider.com/article_6_2.html

http://www.minerspider.com/article_7_1.html

http://www.minerspider.com/article_7_2.html

但有时我们需要同步第一个参数和第二个参数,让其同步递增,以确保网址正确,通常在翻页中会出现此种情况,因此我们需要使用同步参数,如下:

http://www.minerspider.com/article_{Num:6,7,1}_{Syn:1,2,1}.html ,这样在采集时,分解如下:

http://www.minerspider.com/article_6_1.html

http://www.minerspider.com/article_7_2.html

两个参数会同时变化进行递增,以确保参数提交的正确。

=======================================================

其他,如果网址中需要用到base64编码,则使用<BASE64></BASE64>识别,系统会自动转成base64进行提交。

阅读:2336  评论:0  点赞:32
  • 评论

推荐阅读

QQ咨询

自助客服

我要提问
QQ交流群
102085506
暗号:小矿

电话咨询
0351-7250789
18735171797