采集数据规则配置教程专题


如果您还未看采集网址配置,建议先了解采集网址的配置。采集数据规则的配置是为了获取到高质量的数据,在此同时也会讲到数据加工规则的应用,灵活应用来获取我们最终想要的数据。


16-05-05 12:52
网络矿工采集器提供了强大的数据编辑功能,在采集数据的同时即可完成数据加工操作,最终输出高质量的数据结果,下面对数据编辑的操作进行详细解释: 输出时去掉网页符号 很容易理解,如果采集的数据含有网页符号,则会自动删除,何为网页符号,系统定义为一个完成的<></>标签,或<...
4065 0 35
sominer
16-05-05 12:14
采集数据组合是将采集的数据进行字符串的合并或者数值的加减操作。譬如:采集数据1是 省份 采集数据2是 城市,我们可以合并成 省份+城市,就是:山西省太原市。合并的话,需要在增加一个采集数据项,选择“此数据不从网页中获取,而是由数据加工规则制定”,然后开始添加数据加工规则项:选择“采集数据组合”,数据...
3122 0 31
sominer
16-04-27 18:54
采集的数据如果需要发布到数据库,则需要使用Sql语句。Sql语句是数据库的编程语言,有标准的语法,但对于不同的数据库,语法上还是有些差异。关于Sql的语法及详细的讲解,大家可以百度一下。今天我们主要讲解Insert into 语句和Select语句。insert语句是用于将数据插入到指定的数据表,数...
1638 0 2
sominer
16-04-13 12:00
网络矿工采集数据发布到数据库支持access、mssqlserver、mysql及oracle。小规模数据及不是很熟悉数据库操作的用户建议使用access。常用的是mysql。实际各个数据库本身的操作并没有太大的区别,都是遵循sql语法的。网络矿 工对数据库的操作很简单,就是两个步骤:连接及存储数据...
1433 1 2
sominer
16-04-13 11:38
此种情况比较少见,采集的国外的网站,小众语言,入库sqlserver,出现乱码譬如:časopis 这样的语言,说实话我也不知道这是什么语言,google了一下,才知道是斯洛伐克语系统入库默认字段类型为:text,但如此入库则乱码,会出现?asopis,č没有被识别到。原因如下:此为unicode编...
773 0 0
sominer
16-04-13 10:56
网络矿工采集器默认情况下采用了采集数据即时输出的策略,这样做的好处是可以实时查看采集数据的质量和内容,但隐含一个问题就是:如果采集的数据量大了,会影响系统性能,假设采集了5万条数据,这5万条数据都会在界面中显示,可想而知,系统可能会变慢,因为这5万条数据将缓存到内存中,就好像你打开了一个有5万条数据...
919 0 0
sominer
1共查询到6条记录
QQ咨询

自助客服

我要提问
QQ交流群
102085506
暗号:小矿

电话咨询
0351-7250789
18735171797