import?urllib
import?string
import?re
def?getHtml(url):
page=urllib.urlopen(url)
html=page.read()
return?html
def?getPic(html):
imgre=re.compile(r‘src=".+?\.jpg"?data-big-img‘)
imglist...
分类:
编程语言 时间:
2015-09-09 17:45:55
阅读次数:
200
#!/usr/bin/envpython
#coding=utf-8
‘‘‘
@这个脚本会将指定网页中的壁纸图片下载到本地
‘‘‘
importurllib
importre
defget_html_info(url):
‘‘‘@获取网页源代码‘‘‘
html=urllib.urlopen(url)
html_info=html.read()
returnhtml_info
defget_img(info):
‘‘‘@获取通过正则表..
分类:
编程语言 时间:
2015-09-08 15:36:21
阅读次数:
229
NodeJs 获取网页内容 http.get 默认请求超时过长了,程序要卡死好一会。根据网上资料现改造了一个带超时设置的获取网页内容方法。主要方法使用 setTimeout 来超时,代码如下:// 获取指定网页,返回HTMLfunction getUrlHtml(url, fn_success, f...
分类:
Web程序 时间:
2015-09-07 12:35:52
阅读次数:
1693
一、使用正则表达式实现爬虫: Import requests,re 获取网页源码:htmlsource=requests.get(url).text 使用正则表达式匹配网页中的内容: Re模块常用的函数 Re.findall(pattern,string,flags=0) #返回内容为包含匹配结果的...
分类:
编程语言 时间:
2015-09-06 20:06:56
阅读次数:
212
asp.net 获取网页Document时常会用到edited by:曹永思-博客园1、获取某个class的div内的标签获取****内的标签方法一: string g = " (?[\\s\\S]*?)"; Regex reg = new Regex(g, RegexOpti...
分类:
Web程序 时间:
2015-09-02 10:41:08
阅读次数:
156
方法一:#coding:utf-8importreimportrequests#获取网页内容r=requests.get('http://www.163.com')data=r.text#利用正则查找所有连接link_list=re.findall(r"(?<=href=\").+?(?=\")|(...
分类:
编程语言 时间:
2015-08-30 09:57:54
阅读次数:
166
JSoup好处:可以以选择器的方式获取页面信息,简单方便易学习。这里分别介绍下以get方式和post方式发送http请求获取网页1、使用get的方式爬信息,以博客园为爬取网页上的标题等信息,爬取200页,通过观察网页可以发现规律,他们有共同的部分“http://www.cnblogs.com/#p”...
分类:
Web程序 时间:
2015-08-21 20:55:22
阅读次数:
158
今天无意发现一个问题, 有个别几个网页使用MSXML2.ServerXMLHTTP 获取网页源代码的时候,.responseText总是返回一部分内容,无法获取完整的内容。经过搜索,找到解决方案: 使用 .responseBody (参考:http://blog.links.cn/asp/aspxm...
分类:
Web程序 时间:
2015-08-21 15:14:11
阅读次数:
267
最近在使用Python爬取网页内容时,总是遇到JS临时加载、动态获取网页信息的困难。例如爬取CSDN下载资源评论、搜狐图片中的“原图”等,此时尝试学习Phantomjs和CasperJS来解决这个问题。这第一篇文章当然就是安装过程及入门介绍,主要先介绍Phantomjs安装过程及常见用法,参考官方文档,包括:网页截图、页面加载、代码运算、DOM操作、网络请求及响应等,希望对你有所帮助~...
分类:
编程语言 时间:
2015-08-19 07:08:52
阅读次数:
227
阅读英文文章时有时会出现不少这篇文章专有的一些单词,这些单词在其他地方不太可能会使用到,但是在阅读这篇文章时使用的频率可能会比较大,于是想能不能做一个工具,当你给定文章的url时,它将这篇文章中出现次数较多的那些单词统计出来。这样当你把这些单词的意义搞明白,在读这篇文章会不会压力小很多?
那么做这个工具的思路如下:
首先必须能够根据给定的url获取网页的正文信息或者网页的html文件;...
分类:
Web程序 时间:
2015-08-18 19:28:58
阅读次数:
2740