码迷,mamicode.com
首页 > 编程语言 > 详细

【开卷有益】JAVA正则表达式模版

时间:2014-12-19 00:41:32      阅读:265      评论:0      收藏:0      [点我收藏+]

标签:正则表达式   java   数据挖掘   机器学习   数据抽取   

专业既然是机器学习,那工作肯定也是继续和数据打交道,那么问题来了,很多时候推荐算法和数据挖掘算法都是现成可用的,平台初建,重点还在数据过滤和抽取,怎样高效的抽取数据?


利用往常算法比赛中常用的字符串处理方法吗,omg,维护它是一个淡淡疼的忧伤。


那么,重点来了,正则表达式,干净利落。


模版如下:


//step1,set reg string
String regStr = "^helloworld"
//step2,set Pattern
Pattern regPattern = Pattern.compile(regStr );
//step3,set Matcher
Matcher regMatcher = regPattern.matcher(srcText);
//step4,display what you found from this pattern
if(regMatcher.find()){
    System.out.print(regMatcher.group());
}


当然,首先你得会写正则表达式,记住,能分组就分组,特征相关数据提取会很顺利。


模版很简单,正则抽取的正则表达式是重点。


那么,多次匹配怎么办,谨记,正则抽取是树形结构,用for循环,你就输了。


解决方案:状态机,甚至,你可以用回调函数(callable接口)来做这件事


这属于后话,码字累了,今天主要是开卷。



【开卷有益】JAVA正则表达式模版

标签:正则表达式   java   数据挖掘   机器学习   数据抽取   

原文地址:http://blog.csdn.net/wolfguypan/article/details/42015543

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!