标签:

采集数据

  • 收藏

逐一讲解数据加工规则

2016/5/5 12:52:15   一孑

网络矿工采集器提供了强大的数据编辑功能,在采集数据的同时即可完成数据加工操作,最终输出高质量的数据结果,下面对数据编辑的操作进行详细解释:

  • 输出时去掉网页符号

很容易理解,如果采集的数据含有网页符号,则会自动删除,何为网页符号,系统定义为一个完成的<></>标签,或</>标签。经常会遇到用户说,使用了此规则,但却没有完全删除网页符号,最大的可能是网页标签没有闭合,譬如:class="title" id ="1234431">,如果是这样,需要增加数据加工规则使标签闭合即可。

  • 输出时附加前缀

也很容易理解,在采集的数据前面增加字符串;

  • 输出时附加前缀

在采集的数据尾增加字符串;

  • 左起去掉字符

从采集的数据起始位置开始,删除指定数量的字符;

  • 右起去掉字符

从采集的数据尾开始,删除指定数量的字符;

  • 替换其中符合条件的字符

<OldValue:><NewValue:> OldValue:原有字符;NewValue:新字符

譬如采集的数据是:网络矿工数据采集软件,需要将“数据采集软件”替换成“采集器”,最终字符串味:网络矿工采集器

<OldValue: 数据采集软件><NewValue: 采集器>

如果替换成空字符,则等同于删除某些字符。

注意:此方式不支持通配符;

  • 去掉字符串的首尾空格

不解释;

  • 输出时采用正则表达式进行替换

也是字符串替换,但支持正则,意味着替换的字符换可以更加灵活和方便。

<OldValue:><NewValue:> OldValue:原有字符匹配的正则;NewValue:新字符。

可以全部替换,全部替换则意味着可以输入一个固定值。替换成空字符也等同于删除。

  • 根据指定的条件删除整行

采集数据的时候,规则相同,数据就全部采集下来了,但有时有些数据我们并不一定全部需要,就可以通过此进行处理,譬如:如果为空的数据我们可以删除,指定此选项即可,或者包含某些字符的数据我们也不需要,也可以指定条件删除即可。

  • 必须包含指定的条件

原理同上,只是换了一种条件的指定方式,必须包含某个字符串,不包含的全部删除。

  • 将符合条件的数据置为空

实际就是第5项的选择,直接将指定的字符串替换成空。更容易理解。

  • Unicode码转换成汉字

U码转汉字,如果网页源码中的汉字使用U码显示,可以用此来转换。譬如:\u7f51\u7edc\u77ff\u5de5,代表的就是“网络矿工”

  • 需进行HTML解码

严格讲不是解码,是转码,网页中有可能存在很多字符在网页中都是以编码后的形式显示,浏览器在展示数据的时候会自动转换成字符,但采集的时候,就需要此选 项进行转换了。譬如:&#34; 代表的是 “     &#48;代表的是 0 ,如果不转换,我们是无法识别的。

  • 去除网页代码,但保留段落换行符号

保留段落,可以还原原文,但去掉网页符号,实际相当于去掉了对文章的格式化处理,同时也去掉了无用的数据。

  • 去除网页符号,但将段落换行符号替换成\r\n

同上,只是换行不是网页符号了,是文本符号;

  • 自动编号 起始值

对采集的数据增加一列输出自动编号;

  • 将指定的符号替换成分行符号,并进行拆分行处理

对采集的数据,按照标记进行拆行处理,但为何要进行拆行处理呢?可以实现数据一对多的采集,也可以对无明确标记的数据进行统一采集并进行分拆。

  •   格式化字符串

         1、格式化数字操作:

         带有两位小数:{0:###0.00}

         2、格式化为货币

         {0:C}  最终格式化为:¥680.00

         财务货币写法:{0:#,000.00} 最终格式化为:5,600.00

         3、格式化为百分比

         {0:#%}  100%

         4、格式化日期

         长日期 {0:yyyy-MM-dd}

         带有时间的日期  {0:yyyy-MM-dd HH:mm:ss}

  • 自动输出下载地址

    系统会自动将下载的文件存储在本地的地址输出。

  • 从采集网址中获取数据

    注意:仅能从采集页的地址中获取,输入正则表达式来提取相应的数据,譬如:需要提取网址中的编号,即可使用此方式进行。正则的使用,请参考http://www.minerspider.com/article_1245.html

  • 从采集数据中获取

    直接输入采集数据规则的名称即可,可以复制一列出来,数据与您指定的采集数据规则项一致,这样的目的是为了可以进行数据的二次加工,通常与“使用正则从采集数据中二次提取数据”规则一起使用来获取更加精准的数据。

  • 使用正则从采集数据中二次提取数据

    很容易理解,输入正则获取数据。

  • 采集数据组合

    将两个采集数据项进行拼接,采集数据项用大括号扩起来,譬如:{Title}+{Content},则表示将Title和Content合并,如果两个采集数据项都是数字,则直接相加;详细参见http://www.minerspider.com/article_1262.html

  • 字符串解码/解码

    这个直接输入编码字符集即可,譬如:gb2312,utf-8,big5等等;

  • 输入一个固定值

    很容易理解,应用场景,譬如:直接输入一个编号再插入数据库时候用于类别标识;
 

  • 同义词替换

    伪原创的常用操作,使用此规则,首先先配置同义词库,在菜单工具->同义词库中增加自己需要的同义词库即可,然后在此选择同义词库名称。

  • 段落合并

    伪原创常用操作,系统会将少于150字符的段落与上下段进行合并。

  • 对下载的文件进行重命名

    可以对下载的文件进行重新命名,默认情况下是网站自带名称,但很多下载的文件名称不规范,在此可利用此规则进行重命名,命名规则可点击右侧按钮进行操作。

  • 调用插件编辑

    此规则的用途是为了支持多个数据加工插件,默认情况下,在配置采集任务的时候,即可增加数据加工插件,但有可能我们需要多个插件来处理采集的数据,那么在此就可以增加了,而且是按照顺序执行的。

  • 使用外部字典替换数据

    在此选择一个文本文件,每行一组词汇,中间用,分割,有点类似同义词替换,只是使用了文本文件,更加灵活一些。

  • 对下载文件的源地址进行正则替换

    这个规则的目的是为了将采集的图片地址替换成自己网站的图片地址,确保数据发布到网站后,地址可以实现对应,也可以正确的加载图片。

  • 将相对地址转换成绝对地址

    简单,不解释;

  • 指定此数据采集项不允许重复

    数据排重重要规则,如果选用此规则,一定要确保当前的采集数据项的数据是唯一的,否则将不会输出数据,导致采集失败。与网址排重不同的是:网址排重是针对的一条网址,而很多情况下,一条网址下会有多条数据,则需要此规则进行排重。

  • 给下载的图片增加水印

    简单不解释,只支持文字水印,暂不支持图片水印;

还有其他的一些规则,譬如:MD5加密,base64解密等等,操作简单就不在此一一介绍了。

阅读:3248  评论:0  点赞:35
  • 评论

推荐阅读

QQ咨询

自助客服

我要提问
QQ交流群
102085506
暗号:小矿

电话咨询
0351-7250789
18735171797