• 收藏

网络矿工中的一些概念

2016/4/21 14:18:58   一孑


采集任务


是指为了可以正确采集数据配置的规则集合,包括网址规则、数据规则、清洗规则、发布规则、运行策略规则,在网络矿工中所有的采集都是以采集任务为单位存在,系统解析这些规则以最终实现数据采集;

导航


一个页面跳转到另外一个页面的操作就是导航,通常情况下,导航是由列表页跳转到内容页面,目录页跳转到内容页。但有一种情况不属于导航,即翻页,理论上来讲翻页也属于导航的类别,但翻页尤其稳定的特点,因此我们不将翻页归属为导航;

多页


当前网页结构较为复杂,我们在浏览器一个页面看到的数据,可能是由多个url请求的数据集合,类似这样的情况,我们称之为多页,最为典型的就是Tab页面,譬如:某宝的商品详情及评价的展示方式;

采集延时


是指每次采集中间的间隔,延时即将每次采集延迟一个时间间隔继续采集,譬如:采集10个页面,请求10次,设置采集延时之后,则第一次请求之后会自动停止一个设定的时间间隔然后继续第二次采集,以此类推,采集一些具有访问频率限制的网站极为有效;

代理采集


首先要知道何为代理。点击查看代理解释。代理采集就是设置代理IP的信息,让从本机发出的http请求使用代理服务器进行转发;代理又可分为透明、匿名和高匿;简单的说,透明就相当于没有用代理,匿名相当于是告诉网站我用了代理但却是起到了代理的作用,高匿就是网站根本就不知道你使用了代理,还认为你是一个另外的请求;

排重


排重的意思就是已经采集的内容将不再进行二次采集,排重在网络矿工中有两个级别:网址排重和数据排重,对于文章类采集网址排重即可,因为一个网址代表了一篇文章,但对于某些数据就不适合,譬如:动态变化的列表数据,一个网址对应了多条数据,并且网址和数据并无关系,典型的应用为评论,评论第一页的数据总在变化,而且是一页中有多条评论,此时就需要用到数据排重;

Cookie


存在在浏览器中用于识别身份的信息;多用于登录网站的采集,用户登陆后,网站为了可以识别用户的身份需要设置cookie,但当前很多网站在使用cookie时已经不再局限于登录身份信息的存储,还包括了验证信息(用于验证合法访问)、访问信息等;

直接入库


直接入库是指采集数据后直接存储在数据库,不做中转存储,默认情况下网络矿工采集的数据会保存在内存中,等采集任务运行完毕一次性写入磁盘,选择直接入库后,采集的数据将不再内存中进行临时存储,将直接写入数据库;这样对于内存的占用几乎为零;

阅读:2374  评论:0  点赞:0
QQ咨询

自助客服

我要提问
QQ交流群
102085506
暗号:小矿

电话咨询
0351-7250789
18735171797