标签:

正则

  • 收藏

请记住一个常用的正则匹配公式

2016/4/15 18:34:07   一孑

数据采集匹配的核心是正则,正则效率很高,并且灵活准确。但同时也异常复杂,较难掌握。在此我们推荐一个正则模板,请牢记此模板。因为这可能是您在使用网络矿工时会经常遇到并拿来使用的。


(?<=前置字符串).+?(?=后置字符串)


“前置字符串”及“后置字符串”是您需要匹配文本中的前后内容。


譬如:

<title>	网络矿工——专注互联网数据挖掘</title>

需要采集“网络矿工--专注互联网数据挖掘”,则套用上面的模板就是:

(?<=<title>).+?(?=</title>)

怎么样,简单吧。


在网络矿工的使用中,我们经常会用到正则,是因为我们会对已经采集的数据进行二次加工处理,只是采集而言,用到的机会并不多,因为网络矿工会自动生成正则表达式。但对于数据清洗,正则使用的机会要多一些。


因此我们需要多了解一下正则表达式,推荐一篇教程,http://manual.phpv.net/regular_expression.html 通俗易懂。

阅读:2864  评论:0  点赞:6
  • 评论

推荐阅读

QQ咨询

自助客服

我要提问
QQ交流群
102085506
暗号:小矿

电话咨询
0351-7250789
18735171797