码迷,mamicode.com
首页 >  
搜索关键字:获取网页    ( 745个结果
python 获取网页图片 保存在本地
import?urllib import?string import?re def?getHtml(url): page=urllib.urlopen(url) html=page.read() return?html def?getPic(html): imgre=re.compile(r‘src=".+?\.jpg"?data-big-img‘) imglist...
分类:编程语言   时间:2015-09-09 17:45:55    阅读次数:200
简单 python爬虫 <2>
#!/usr/bin/envpython #coding=utf-8 ‘‘‘ @这个脚本会将指定网页中的壁纸图片下载到本地 ‘‘‘ importurllib importre defget_html_info(url): ‘‘‘@获取网页源代码‘‘‘ html=urllib.urlopen(url) html_info=html.read() returnhtml_info defget_img(info): ‘‘‘@获取通过正则表..
分类:编程语言   时间:2015-09-08 15:36:21    阅读次数:229
NodeJs http.get 方法请求时间过长问题处理!
NodeJs 获取网页内容 http.get 默认请求超时过长了,程序要卡死好一会。根据网上资料现改造了一个带超时设置的获取网页内容方法。主要方法使用 setTimeout 来超时,代码如下:// 获取指定网页,返回HTMLfunction getUrlHtml(url, fn_success, f...
分类:Web程序   时间:2015-09-07 12:35:52    阅读次数:1693
Python爬虫入门
一、使用正则表达式实现爬虫: Import requests,re 获取网页源码:htmlsource=requests.get(url).text 使用正则表达式匹配网页中的内容: Re模块常用的函数 Re.findall(pattern,string,flags=0) #返回内容为包含匹配结果的...
分类:编程语言   时间:2015-09-06 20:06:56    阅读次数:212
asp.net正则表达式学习例子
asp.net 获取网页Document时常会用到edited by:曹永思-博客园1、获取某个class的div内的标签获取****内的标签方法一: string g = " (?[\\s\\S]*?)"; Regex reg = new Regex(g, RegexOpti...
分类:Web程序   时间:2015-09-02 10:41:08    阅读次数:156
Python实现抓取页面上链接
方法一:#coding:utf-8importreimportrequests#获取网页内容r=requests.get('http://www.163.com')data=r.text#利用正则查找所有连接link_list=re.findall(r"(?<=href=\").+?(?=\")|(...
分类:编程语言   时间:2015-08-30 09:57:54    阅读次数:166
JSoup-初步使用
JSoup好处:可以以选择器的方式获取页面信息,简单方便易学习。这里分别介绍下以get方式和post方式发送http请求获取网页1、使用get的方式爬信息,以博客园为爬取网页上的标题等信息,爬取200页,通过观察网页可以发现规律,他们有共同的部分“http://www.cnblogs.com/#p”...
分类:Web程序   时间:2015-08-21 20:55:22    阅读次数:158
MSXML2.ServerXMLHTTP responseText 获取的内容不完整,解决方案
今天无意发现一个问题, 有个别几个网页使用MSXML2.ServerXMLHTTP 获取网页源代码的时候,.responseText总是返回一部分内容,无法获取完整的内容。经过搜索,找到解决方案: 使用 .responseBody (参考:http://blog.links.cn/asp/aspxm...
分类:Web程序   时间:2015-08-21 15:14:11    阅读次数:267
[Python学习] 在Windows下安装PhantomJS和CasperJS及入门介绍(上)
最近在使用Python爬取网页内容时,总是遇到JS临时加载、动态获取网页信息的困难。例如爬取CSDN下载资源评论、搜狐图片中的“原图”等,此时尝试学习Phantomjs和CasperJS来解决这个问题。这第一篇文章当然就是安装过程及入门介绍,主要先介绍Phantomjs安装过程及常见用法,参考官方文档,包括:网页截图、页面加载、代码运算、DOM操作、网络请求及响应等,希望对你有所帮助~...
分类:编程语言   时间:2015-08-19 07:08:52    阅读次数:227
网页词频统计工具
阅读英文文章时有时会出现不少这篇文章专有的一些单词,这些单词在其他地方不太可能会使用到,但是在阅读这篇文章时使用的频率可能会比较大,于是想能不能做一个工具,当你给定文章的url时,它将这篇文章中出现次数较多的那些单词统计出来。这样当你把这些单词的意义搞明白,在读这篇文章会不会压力小很多? 那么做这个工具的思路如下: 首先必须能够根据给定的url获取网页的正文信息或者网页的html文件;...
分类:Web程序   时间:2015-08-18 19:28:58    阅读次数:2740
745条   上一页 1 ... 49 50 51 52 53 ... 75 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!