16-06-12 15:22
http的请求常用的有两种:get和post。先简单了解一下get和post的区别,非专业性,高手请绕路。get是可以通过浏览器地址栏看到所有的信息,post则看不到,是隐藏在http头信息中的。get提交的数据有限,post可以提交大数据,因此表单、文件上传等都是post。好了,最基本的我们了解了...
12016 0 52
sominer
16-05-05 12:52
网络矿工采集器提供了强大的数据编辑功能,在采集数据的同时即可完成数据加工操作,最终输出高质量的数据结果,下面对数据编辑的操作进行详细解释: 输出时去掉网页符号 很容易理解,如果采集的数据含有网页符号,则会自动删除,何为网页符号,系统定义为一个完成的<></>标签,或<...
4065 0 35
sominer
16-05-05 12:14
采集数据组合是将采集的数据进行字符串的合并或者数值的加减操作。譬如:采集数据1是 省份 采集数据2是 城市,我们可以合并成 省份+城市,就是:山西省太原市。合并的话,需要在增加一个采集数据项,选择“此数据不从网页中获取,而是由数据加工规则制定”,然后开始添加数据加工规则项:选择“采集数据组合”,数据...
3122 0 31
sominer
16-05-05 11:19
采集网址配置中有三个重要的规则:导航、翻页、多页。在配置前我们需要了解三个规则的含义:导航:通常用于列表页跳转到内容页的规则配置,当然所有的页面跳转都可以用导航来实现;所以,导航规则就是用于页面的跳转,无论是何种跳转都可以,哪怕是302跳转都可以用导航来处理;翻页:这个规则很明白,就是翻页规则,注意...
5140 0 37
sominer
16-05-05 11:18
自定义参数通常用于较为复杂的网址跳转,或者多用于多页的配置。导航和多页的获取参数值得方法略有不同,导航则通过前后标记直接获取,多页则通过采集数据来获取。结合实例讲解自定义参数的配置:网络矿工采集器支持传参的导航模式,这种方式多用于 js 导航的配置操作,我们以一个实际的例子来进行讲解。 首先我们先看...
3835 0 44
sominer
16-05-05 10:15
需要重点说明的是:网址参数在网络矿工中的任意地方,当然是网址配置的任意地方,都可以使用,如果没有菜单提供,手工输入网址参数即可。网络矿工支持常用的网址参数有:数字参数:递增或递减,及数字补零参数,数字参数都用于页码、分类等;字母参数:递增或递减,多用于字母分类;日期参数:递增或递减及各类日期格式,多...
3016 0 32
sominer
16-05-04 15:09
采集网址配置的目的是尽可能的将需要采集的所有网址通过规律配置起来。譬如:可以使用数字参数进行页码的模拟,通过翻页规则进行翻页的处理,通过导航进行详细页的获取,总之采集网址的配置就是要将所有需要采集的网址尽可能的在一个任务中配置完成。采集任务的数量,并不是由采集网址决定的,而是由采集数据的规则决定,这...
3287 0 36
sominer
16-05-03 23:04
首先要知道什么是http与https?http是超文本传输协议,就是一种规范,所有的网站都遵循这样的规范来进行数据传输。https就是基于http的基础上增加了安全协议,目的是为了防偷窥、防篡改及身份认证。防偷窥就是防止别人可以看到传输的数据,譬如:进行密码提交。被人看到了,密码就泄露了。防篡改就是...
5401 0 133
sominer
16-04-13 11:56
网络矿工支持两种排重方式:网址排重与数据排重为何需要两种?网址排重容易理解,就是已经采集的网址数据再次采集时就不采了,这对固定网址数据采集非常有效。譬如:文章类数据。这种方式也就是常说的增量采集。但还有另外一种情况,就是网址固定不变,但内容会变化,譬如:某宝的评价记录,每当有了新的评价信息,则会自...
1942 0 1
sominer
16-04-13 11:41
今天讲解一个案例,采集具备csrf防御网站数据。CSRF(Cross-site request forgery跨站请求伪造,也被称为“one click attack”或者session riding,通常缩写为CSRF或者XSRF,是一种对网站的恶意利用。尽管听起来像跨站脚本(XSS),但它与XS...
1115 0 0
sominer
16-04-13 11:31
网络矿工支持代理采集,不过当前仅支持http代理。在网络矿工中,代理支持有一个重要的选项:代理轮询。何 为代理轮询?代理轮询的就是意味着:加入您提供了10个代理IP地址,系统将从第一个IP开始使用,每个IP地址采集一条网址,让后使用下一个代理IP地 址继续采集,直到10个IP都使用完,然后开始从头继...
1806 0 0
sominer
16-04-13 11:30
网络矿工5.3支持单页面循环采集了,下面我们将详细讲解一下循环采集的用法。以实例讲解。先看需求,这是一个客户的实际需求。采集页面为:http://www.emis.de/journals/EM/expmath/volumes/11/11.html这个页面有一个标题,多个卷数,每个卷数对应多个内容。在...
824 0 0
sominer
16-04-13 11:28
默认情况下,采集任务的日志会同采集的数据实时输出到界面,当关闭后,日志不进行保存,只保存采集获取的数据。但很多情况下我们需要了解,这个采集任务是否在采集过程中发生了错误,并对这些错误的网址进行重新采集,此时我们需要系统记录错误的日志,供日后查阅,为此我们只需要在配置采集任务时,选择“自动保存出错信息...
819 0 0
sominer
16-04-13 11:27
在网络矿工中,可视化配置仅支持普通页面,对于Ajax技术实现的数据页面无法采集,请使用小矿机器人进行可视化配置操作,在网络矿工中针对ajax技术实现的数据页面采集配置则需要使用规则配置方法。谨请注意!可视化采集,就是通过鼠标在网页中进行待采数据选择,选择后,系统会自动记录此数据的xpath地址,在采...
1174 0 0
sominer
16-04-13 11:07
新建采集任务,输入需要采集的网址,然后点击“获取cookie”,打开获取cookie的页面输入,登录的网址,打开页面,然后再页面中,进行登录,成功登录后,系统会自动记录当前的cookie,如下:点击确定,退出即可。重要:并非所有网站通过此方法都可完整的获取cookie,如果网站做了一些限制,通过此方...
1063 0 0
sominer
12下一页共查询到17条记录
QQ咨询

自助客服

我要提问
QQ交流群
102085506
暗号:小矿

电话咨询
0351-7250789
18735171797