爬虫,又称蜘蛛,是从别的网站抓取资源的一种方法,C#.NET使用爬虫的方法如下:protected string GetPageHtml(string url){string pageinfo;try{WebRequest myreq = WebRequest.Create(url);WebResp...
分类:
其他好文 时间:
2014-07-19 18:15:25
阅读次数:
180
使用Scrapy这个python的网络爬虫框架抓取Scrapy中文文档开发第一步:新建项目scrapy startproject myfirst目录结构:myfirst│ scrapy.cfg Scrapy项目配置文件│└─myfirst Scrapy项目代码存放目...
分类:
其他好文 时间:
2014-07-19 16:00:43
阅读次数:
207
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。不过由于一个网站的网页很多,而我们又不可能事先知道所有网页的URL地址,所以,如何保证我们抓取到了网站的所有HTML页面就是一个有待考究的问题了。一般的方法是,定义一个入口...
分类:
其他好文 时间:
2014-07-19 15:13:58
阅读次数:
241
呵呵,已经过了25岁生日的我,还在学校里过着无忧无虑的生活,真感觉自己在学校待得的太久,都有点麻木了。尽管看新闻,看博客,知道此时的社会是多么残酷,可是没有亲身经历,似乎觉得跟自己没有任何关系,以至于麻木到没有进龋每天惶惶然,悠哒悠哒,碌碌无为,那么多雄心大..
分类:
其他好文 时间:
2014-07-19 02:14:55
阅读次数:
204
(非原创) 用户注册 用户名: 密 码: 确认密码: 警告:禁止粘贴 身份证号: 性 别:男女 出生日期: YYYY-MM-DD或者YYYY/MM/DD 籍 贯: 爱 好:音乐 篮球 旅游 睡觉 * 全选 反选 邮 箱: 手机号码: 自我介...
分类:
Web程序 时间:
2014-07-18 15:21:55
阅读次数:
250
官方文档地址:http://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.htmlBeautiful Soup 相比其他的html解析有个非常重要的优势。html会被拆解为对象处理。全篇转化为字典和数组。相比正则解析的爬虫,省略了学习正...
分类:
编程语言 时间:
2014-07-18 11:35:42
阅读次数:
287
假设所有西瓜重 Asum,所求的是用 Asum / 2 的背包装,最多装下多少。刚开始用贪心作的,WA。后来用01背包,结果TLE,数据太大。原来用的是深搜!dfs(int sum, int i) 表示当前装已了 sum,对第 i 个进行决策。用时1200多MS,不知道大牛们60MS是怎么搞的,泥煤...
分类:
其他好文 时间:
2014-07-17 22:36:47
阅读次数:
255
---1.以日期字符操作转换日期 如果是VIP1生日不对,可以以上传的数据日期为生日begindeclare @NowBirthday datetime, @birthday datetime,@stat datetime,@end datetime,@statbirthday datetime,....
分类:
数据库 时间:
2014-07-17 18:00:31
阅读次数:
310
运用python抓取博客园首页的全部数据,并且定时持续抓取新发布的内容存入mongodb中...
分类:
数据库 时间:
2014-07-17 17:14:21
阅读次数:
292
案例一:trackinfo,基础表处理常用的低性能UDF背景描述:日志信息10分钟加载一次到实时日志表trackreal中(按小时分区),为了保证实时性,在加载的过程中并没有做任何的过滤处理,加载到trackreal表后再过滤非法数据、爬虫数据等,生成按天增量日志表trackinfo,然后根据不同的...
分类:
其他好文 时间:
2014-07-17 13:09:44
阅读次数:
226