自学python网络爬虫,发现request比urllib还是要好用一些,因此利用request和BeautifulSoup来实现糗百的首页笑话的抓取。BeautifulSoup通过find和findAll以及利用正则表达式实现HTML对应模块的抓取,当然select也是一个不错的选择。下面是临时的 ...
分类:
编程语言 时间:
2016-10-28 22:31:08
阅读次数:
204
var divs = html.CssSelect("div"); //all div elementsvar nodes = html.CssSelect("div.content"); //all div elements with css class ‘content’var nodes = ... ...
分类:
Web程序 时间:
2016-10-21 15:58:40
阅读次数:
418
Atitit.html css 浏览器原理理论概论导论attilax总结 1.1. 浏览器是怎样工作的:渲染引擎,HTML解析(连载二)1 2. 5.1.1 DOM标准 1011 3. 《WebKit技术内幕》(朱永盛...)【简介_书评_在线阅读】 - .html2 4. HTML5与CSS3权威 ...
分类:
Web程序 时间:
2016-10-01 00:01:43
阅读次数:
371
HTML转义字符的解析方法: 第一种:ASP.NET中的html解析 HttpUtility.HtmlDecode()方法 system.web 第二种:网络爬虫中的 WebUtility.HtmlDecode 方法 (String) WebUtility.HtmlDecode 方法 (String ...
分类:
Windows程序 时间:
2016-09-08 12:43:33
阅读次数:
1211
第三方Html解析类库Hpple,在导入框架libxml2.2.dylib后,XCode仍然找不到<libxml/tree.h>。 1 、项目 -Targets 中的 Build P hases , 找到 Link Binary With Libraries , 点击 “+”, 添加 “libxml ...
分类:
其他好文 时间:
2016-09-07 19:01:45
阅读次数:
165
1.模块使用 (1)superagent:Nodejs中的http请求库(每个语言都有无数个,java的okhttp,ios的afnetworking) (2)cheerio:Nodejs中的html解析库(每个语言基本都有。。) (3)async:Nodejs中的同/异步并发函数执行库(这个非常牛 ...
分类:
Web程序 时间:
2016-09-01 20:11:05
阅读次数:
379
浏览器每天就这么来来回回跑着,要知道不同的人写出来的html和css代码质量参差不齐,说不定哪天跑着跑着就挂掉了。好在这个世界还有这么一群人——页面重构工程师,平时挺不起眼,也就帮视觉设计师们切切图啊改改字,其实背地里还是干了不少实事的。 说到页面为什么会慢?那是因为浏览器要花时间、花精力去渲染,尤 ...
分类:
Web程序 时间:
2016-08-30 17:43:41
阅读次数:
179
对上文 【web安全】第二弹:XSS攻防中的复合编码问题 的一些补充,思路来源于:http://escape.alf.nu/3/ html解码的问题: 通过appendChild添加的节点,不会被HTML解码,示例代码如下: 只有通过innerHTML插入页面的代码才会被HTML解析。 解析后为: ...
分类:
其他好文 时间:
2016-08-29 19:08:29
阅读次数:
131
html、javascript会涉及到三个解析器,html解析器、xml解析器、javascript解析器。那么好了,问题来了,以上代码经常混编在一起,各自有各自的规则,终究会有冲突的,如下就是冲突。 根据W3C XHTML 1.0的规定:在XHTML中,因为<和&这两个符号有特殊意义(小于号用于标 ...
分类:
Web程序 时间:
2016-08-20 21:45:04
阅读次数:
134
1.参考文献 http://hi.baidu.com/accpzhangbo/blog/item/52aeffc683ee6ec238db4965.html 2.解析 查看java.lang.System的源代码,我们可以找到System.exit(status)这个方法的说明,代码如下: /** ...
分类:
其他好文 时间:
2016-08-19 19:00:34
阅读次数:
112