1.昨天复习了Java基础(I/O流)和正则表达式 今天不讲Java中的
I/O 主要用一个实例来爬取网站中的邮箱代码如下: 1 package com.miao.baba.pacong; 2 3 import
java.io.BufferedReader; 4 import java.io.IO....
分类:
编程语言 时间:
2014-05-29 05:11:03
阅读次数:
404
1、用正则表达式约束路由有工程11-3URLTestDemo,如在Global.asax中有如下路由定义:
public static void RegisterRoutes(RouteCollection routes) { routes.MapR...
分类:
其他好文 时间:
2014-05-28 21:07:42
阅读次数:
377
yyyy-MM-dd HH:mm:ss
标准格式验证^((((1[6-9]|[2-9]/d)/d{2})-(0?[13578]|1[02])-(0?[1-9]|[12]/d|3[01]))|(((1[6-9]|[2-9]/d)/d{2})-(0?[13456789]|1[012])-(0?[1-9]...
分类:
其他好文 时间:
2014-05-28 19:01:37
阅读次数:
277
假如我们根本就不知道有正则这玩意儿存在,要去匹配一个字母串我们应该怎么做了?让我们也做一回创造者吧。当你输入你的用户名和密码的时候,服务器君为了给自己少点麻烦,就给浏览器君打了个电话说:你定的货的参数可要对着了,哥的时间很宝贵。浏览器君坐不住了,立马找来自己的小弟,权叫他正则君吧。你把这事给我办一下...
分类:
其他好文 时间:
2014-05-28 01:39:23
阅读次数:
268
/g意思就是:global可选标志,带这个标志表示替换将针对行中每个匹配的串进行,否则则只替换行中第一个匹配串。如:we.fdffddfwe.加上/g后,则2个we都会出来;/i意思就是
case insensitive,区分大小写小字。如:sw与sW不管;/d意思是digital.是一个数字如:/...
分类:
其他好文 时间:
2014-05-27 16:57:49
阅读次数:
234
(?)[^Trait:.*?Nature[^(?:-[^){1,4}new
Regex("(?)[^Trait:.*?Nature[^(?:-[^){1,4}", RegexOptions.IgnoreCase)
分类:
其他好文 时间:
2014-05-26 20:16:31
阅读次数:
183
从HTML页面提取内容所面临的主要问题是,我们必须寻找一种方法精确地识别出自己想要的那一部分内容。以下是利用正则表达式匹配并提取网页中特定信息的方法:采集网页中所有链接标记:]*?>[\s\S]*?以上可以修改a标记采集对应的标记元素。采集图片:]*?/?>以上可以修改img标记采集对应的标记元素。...
分类:
Web程序 时间:
2014-05-26 19:12:12
阅读次数:
288
#encoding:utf-8
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from sgmllib import SGMLParser
import re
import urllib
class URLLister(SGMLParser):
def start_a(self, attrs):
url = [v ...
分类:
编程语言 时间:
2014-05-25 22:47:56
阅读次数:
340
敏感词、文字过滤是一个网站必不可少的功能,如何设计一个好的、高效的过滤算法是非常有必要的。前段时间我一个朋友(马上毕业,接触编程不久)要我帮他看一个文字过滤的东西,它说检索效率非常慢。我把它程序拿过来一看,整个过程如下:读取敏感词库、如果HashSet集合中,获取页面上传文字,然后进行匹配。我就想这个过程肯定是非常慢的。对于他这个没有接触的人来说我想也只能想到这个,更高级点就是正则表达式。但是非常...
分类:
编程语言 时间:
2014-05-25 21:26:01
阅读次数:
386
正则表达式正则用来从字符串筛选出子字符串。简单使用编辑器搜索时,勾选上正则,可以搜索出满足特定条件的结果。\bfunction\b这样可以搜索出function单词。做搜索功能时
var reg = new RegExp(inpStr); apps.forEach(function (v, i).....
分类:
编程语言 时间:
2014-05-25 16:05:08
阅读次数:
272