1.pyquery简介
python中的pyquery模块语法与jquery相近,可用来解析HTML文件。官方文档地址:https://pythonhosted.org/pyquery/ 。通过HTML中的标签、id、给定的索引等来获取元素,使得解析HTML文件极为方便。
2.实例
2.1 爬取豆瓣电影页面中主演
右键chrome中的审查元素,观察到主演的标...
分类:
编程语言 时间:
2014-07-22 23:02:54
阅读次数:
455
帮朋友抓取微信公众平台的用户评论信息。只说核心的部分,怎么解析评论信息。
查看HTML代码,没有发现关于评论部分的标签。看了是用JS动态生成的,但是查找ajax请求也没有找到。最后搜索一下,原来是在这里:
wx.cgiData = {
total_count : 91,
latest_msg_id : '200325222...
分类:
微信 时间:
2014-07-22 22:59:35
阅读次数:
4934
今天来讲如何利用Python爬虫下载文章,拿韩寒的博客为例来一步一步进行详细探讨。。。
韩寒的博客地址是:http://blog.sina.com.cn/s/articlelist_1191258123_0_1.html
可以看出左边是文章列表,而且不止一页,我们先从最简单的开始,先对一篇文章进行下载,再研究对一页所有的文
章进行下载,最后再研究对所有的文章下载。...
分类:
编程语言 时间:
2014-07-22 22:59:35
阅读次数:
330
先说说看这篇博客你能知道什么:1 腾讯、网易、新浪不同新闻的地址格式以及评论内容的地址格式(返回数据为json的异步接口);2 一些比较通用的设计方法,对软件设计的菜鸟可能有帮助;
之前也说了要写这边博客,现在终于写出来了。我的毕业设计的指导老师说毕设论文的字数不够……所以我决定把这些本不应该出现在论文中的实现细节凑到论文中。至于下面说到的东西要解决什么问题,各位可以先看看这个网站(我毕设的初步结果,目前还在优化中,包括代码结构还有UI设计):http://reetseenews.duapp.com/
这个...
分类:
Web程序 时间:
2014-05-02 06:50:01
阅读次数:
436
《Pro
AngularJS》该书以一个SportsStore案例为主线铺开。一、开发环境设置该书中所用的server开发环境是Deployed,从来没听说过,而且作者也说该server没什么人用,我干脆弃用之。其他的环境包括NodeJS——这个必须装karma——测试环境,前期还没有用到,以后认真...
分类:
Web程序 时间:
2014-05-02 05:16:51
阅读次数:
477
DNS 解析是高性能网络爬虫的瓶颈,主要是因为:1.
由于域名服务的分布式的特性,DNS解析可能需要多次的请求转发,有时需要几秒甚至更长的时间来解析出相应的IP 地址。2.
现有的标准库对DNS解析的实现是同步的。JAVA中InetAddress.getByName是线程阻塞的。并且JAVA中实现的...
分类:
其他好文 时间:
2014-05-02 00:20:56
阅读次数:
349
C语言的控制流程是基础中的基础,几乎没有程序不用到选择和循环控制的,今天又来看这些内容,以求入门。选择结构:
只有一个选项:这个肯定很easy啊,就是 if(expression){ Statements; } 这里就是要注意代码的简单易懂,ex...
分类:
编程语言 时间:
2014-05-02 00:19:50
阅读次数:
333
目录
javascript与node.js
javascript与你
由于javascript真正意义上有两种,甚至可以说是三种形态(从最早的作为DHTML进行增强的小工具,到像jQuery那样严格意义上的前端技术,再到现在的服务端技术),因此,比较难找到一个”正确“的方式来学习JavaScript,使得让你书写Node.js应用的时候感觉自己是在真正开发它而不仅仅是使用它。...
分类:
Web程序 时间:
2014-05-01 18:45:36
阅读次数:
614
1,按照vmware,导入系统(注意td提供的版本是64位的)
2,linux系统:root/root
3,配置ip:
Enter a cop entry in the linux hosts file (/etc/hosts accessible from the linux command line in the VMware console, ie. c:>vi /etc/host...
分类:
其他好文 时间:
2014-04-30 22:13:39
阅读次数:
503