这里是几个主要非英文语系字符范围(google上找到的): 2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的符号、标点、带圈或带括符文数字、月份,以及日本的假名组合、单位、年号、月份、日期、时间等。 3400~4DFFh:中日韩认同表意文字 ...
分类:
其他好文 时间:
2017-08-07 15:56:02
阅读次数:
262
1.正则表达式 正则就是使用一些具有特殊含义的符号组合到一起,来描述字符串或字符的方法。 2.常用的正则匹配模式 ...
分类:
编程语言 时间:
2017-08-06 19:37:35
阅读次数:
168
Pattern p=Pattern.compile("[a-zA-Z0-9]+"); Matcher w=p.matcher(str); while(w.find()){ String word=w.group(); int index=w.start(); if(!dict... ...
分类:
其他好文 时间:
2017-08-06 12:53:37
阅读次数:
186
定义正则表达式 /.../ 用于定义正则表达式 /.../g 表示全局匹配 /.../i 表示不区分大小写 /.../m 表示多行匹配 JS正则匹配时本身就是支持多行,此处多行匹配只是影响正则表达式^和$,m模式也会使用^$来匹配换行的内容) 方法:1、 test -判断字符串是否符合规定的正则 2 ...
分类:
编程语言 时间:
2017-08-06 00:55:59
阅读次数:
124
location配置语法规则:location[=|~|~*|^~]/uri/{...}=表示精确匹配,优先级最高^~表示uri以某个常规字符开头,理解为匹配url路径即可。nginx不对url做编码,因为请求为/static/20%/aa可以被规则^~/static//aa匹配到(注意是空格)~表示区分大小写的正则匹配~*表示不区分大小..
分类:
其他好文 时间:
2017-08-04 16:13:10
阅读次数:
102
利用awk分析data.csv中label列各取值的分布. 在终端执行head data.csv查看数据: 因为行内包含换行符的项会被分成多行(例如上面的第3,4行),所以需要结合正则匹配 -F ',' 表示根据逗号分隔; $(NF-1)~/^[A-Z][0-9]/ 表示分隔后的倒数第二项(在此指取 ...
分类:
其他好文 时间:
2017-08-03 13:48:51
阅读次数:
130
什么是phantomjs phantomjs官网是这么说的,‘整站测试,屏幕捕获,自动翻页,网络监控’,目前比较流行用来爬取复杂的,难以通过api或正则匹配的页面,比如页面是通过异步加载。phantomjs就是一个完整的浏览器只能没有界面,因此我们可以用它来模拟真正的浏览器去访问页面,然后再获取页面 ...
分类:
Web程序 时间:
2017-08-03 12:34:01
阅读次数:
1771
content为需要匹配的值 var b=/<a([\s]+|[\s]+[^<>]+[\s]+)href=(\"([^<>"\']*)\"|\'([^<>"\']*)\')[^<>]*>/gi; var s=content.toLowerCase().match(b); //得到链接地址 for(v ...
分类:
Web程序 时间:
2017-08-01 16:32:35
阅读次数:
179
正则表达式带有局限性,适合匹配,不适合查找; 原理:正则匹配到子串后,会从子串的结尾处开始继续匹配 比如“aaaca ”中查找所有“aa”的子串,按理来说应该有2个“aa”子串(01、12);然而,全局正则匹配到01位后,继续从2位开始匹配,就会忽略到12位的子串,所以只会匹配到1个子串 var r ...
分类:
其他好文 时间:
2017-08-01 15:35:50
阅读次数:
155
例如一个功能接口的返回值 是一个HTML文本: 例如我们要取上图中标识的id的值,并且这个值是动态的,这是我们就需要用到正则表达式进行匹配。 如下是正则匹配的方法(代码中都有注释): 我们在真正使用的时候可以调用这个方法,然后对其中的一些值进行传参。 注意:当要去的值是动态值时,我们需要先将这个动态 ...
分类:
编程语言 时间:
2017-07-30 13:45:09
阅读次数:
260