16-06-12 15:22
http的请求常用的有两种:get和post。先简单了解一下get和post的区别,非专业性,高手请绕路。get是可以通过浏览器地址栏看到所有的信息,post则看不到,是隐藏在http头信息中的。get提交的数据有限,post可以提交大数据,因此表单、文件上传等都是post。好了,最基本的我们了解了...
12016 0 52
sominer
16-06-02 13:57
在做售后支持的时候,我们经常会告诉客户使用Fiddler来获取Cookie,可是如何使用Fiddler获取Cookie呢?第一步:打开Fiddler;第二部:在浏览器中进行登录的操作;如果不是登陆获取Cookie,那么打开您需要采集的网站,然后进行一次正常的操作;第三部:在Fiddler中找到相应的...
5715 0 51
sominer
16-05-05 12:52
网络矿工采集器提供了强大的数据编辑功能,在采集数据的同时即可完成数据加工操作,最终输出高质量的数据结果,下面对数据编辑的操作进行详细解释: 输出时去掉网页符号 很容易理解,如果采集的数据含有网页符号,则会自动删除,何为网页符号,系统定义为一个完成的<></>标签,或<...
4065 0 35
sominer
16-05-05 12:14
采集数据组合是将采集的数据进行字符串的合并或者数值的加减操作。譬如:采集数据1是 省份 采集数据2是 城市,我们可以合并成 省份+城市,就是:山西省太原市。合并的话,需要在增加一个采集数据项,选择“此数据不从网页中获取,而是由数据加工规则制定”,然后开始添加数据加工规则项:选择“采集数据组合”,数据...
3122 0 31
sominer
16-05-05 11:19
采集网址配置中有三个重要的规则:导航、翻页、多页。在配置前我们需要了解三个规则的含义:导航:通常用于列表页跳转到内容页的规则配置,当然所有的页面跳转都可以用导航来实现;所以,导航规则就是用于页面的跳转,无论是何种跳转都可以,哪怕是302跳转都可以用导航来处理;翻页:这个规则很明白,就是翻页规则,注意...
5140 0 37
sominer
16-05-05 11:18
自定义参数通常用于较为复杂的网址跳转,或者多用于多页的配置。导航和多页的获取参数值得方法略有不同,导航则通过前后标记直接获取,多页则通过采集数据来获取。结合实例讲解自定义参数的配置:网络矿工采集器支持传参的导航模式,这种方式多用于 js 导航的配置操作,我们以一个实际的例子来进行讲解。 首先我们先看...
3835 0 44
sominer
16-05-05 10:15
需要重点说明的是:网址参数在网络矿工中的任意地方,当然是网址配置的任意地方,都可以使用,如果没有菜单提供,手工输入网址参数即可。网络矿工支持常用的网址参数有:数字参数:递增或递减,及数字补零参数,数字参数都用于页码、分类等;字母参数:递增或递减,多用于字母分类;日期参数:递增或递减及各类日期格式,多...
3016 0 32
sominer
16-05-04 15:09
采集网址配置的目的是尽可能的将需要采集的所有网址通过规律配置起来。譬如:可以使用数字参数进行页码的模拟,通过翻页规则进行翻页的处理,通过导航进行详细页的获取,总之采集网址的配置就是要将所有需要采集的网址尽可能的在一个任务中配置完成。采集任务的数量,并不是由采集网址决定的,而是由采集数据的规则决定,这...
3287 0 36
sominer
16-05-03 23:04
首先要知道什么是http与https?http是超文本传输协议,就是一种规范,所有的网站都遵循这样的规范来进行数据传输。https就是基于http的基础上增加了安全协议,目的是为了防偷窥、防篡改及身份认证。防偷窥就是防止别人可以看到传输的数据,譬如:进行密码提交。被人看到了,密码就泄露了。防篡改就是...
5401 0 133
sominer
16-04-27 18:54
采集的数据如果需要发布到数据库,则需要使用Sql语句。Sql语句是数据库的编程语言,有标准的语法,但对于不同的数据库,语法上还是有些差异。关于Sql的语法及详细的讲解,大家可以百度一下。今天我们主要讲解Insert into 语句和Select语句。insert语句是用于将数据插入到指定的数据表,数...
1638 0 2
sominer
16-04-15 20:47
采集任务:即一个由各种规格构成的数据采集实体,在网络矿工中,可通过软件操作对采集任务进行分类、增加、更改等操作。采集任务包含了六个部分(基础设置、采集网址、采集规则、数据输出规则、发布规则及高级设置)用于指导网络矿工进行数据采集。采集任务存储格式为xml格式,存储于tasks目录下;数据输出规则:即...
1299 3 4
sominer
16-04-13 12:00
网络矿工采集数据发布到数据库支持access、mssqlserver、mysql及oracle。小规模数据及不是很熟悉数据库操作的用户建议使用access。常用的是mysql。实际各个数据库本身的操作并没有太大的区别,都是遵循sql语法的。网络矿 工对数据库的操作很简单,就是两个步骤:连接及存储数据...
1433 1 2
sominer
16-04-13 11:56
网络矿工支持两种排重方式:网址排重与数据排重为何需要两种?网址排重容易理解,就是已经采集的网址数据再次采集时就不采了,这对固定网址数据采集非常有效。譬如:文章类数据。这种方式也就是常说的增量采集。但还有另外一种情况,就是网址固定不变,但内容会变化,譬如:某宝的评价记录,每当有了新的评价信息,则会自...
1942 0 1
sominer
16-04-13 11:53
Fiddler是一个http的调试工具,可以实现对http通讯的监测、模拟、篡改。在我们的使用范畴中,Fiddler经常会用来实现http数据的监测,获取我们需要的信息。网络矿工中提供了嗅探器,但实际在使用过程中,包括我在内,还是更习惯Fiddler,因为其功能更加丰富一些,也更适合调试配置的信息。...
2066 0 1
sominer
16-04-13 11:45
下载文件可以实现重命名操作,当前网络矿工支持的几种重命名方式有:当前日期、当前网页的标题、当前任务名称、自动编号、当前文件名及正则获取正则获取,是根据从当前网页源码中获取数据来对下载的文件进行重命名。重命名规则配置完成后,系统并不更改采集的文件地址数据,而是直接更改保存在本地的下载文件的名称,此点比...
807 0 2
sominer
12下一页共查询到30条记录
QQ咨询

自助客服

我要提问
QQ交流群
102085506
暗号:小矿

电话咨询
0351-7250789
18735171797