爬虫:scrapy,beautifulsoup自然语言处理:nltk,Pattern(Google,Twitter,andWikipediaAPIs,awebcrawler,aHTMLDOMparser),结巴分词科学计算:NumPy,SciPy,matplotlib机器学习、数据挖掘:scikit-learn,pandas,MDP(neuralnetworks),PyBrain(neuralnetworks),Theano(GPU,deeplearn..
分类:
编程语言 时间:
2015-02-07 19:02:28
阅读次数:
185
挺信手拈来的
def gettitle( url ):
try:
_ = re.search('(.*?)', requests.get(url).content)
print url, _.group(1)
except:
pass...
分类:
编程语言 时间:
2015-02-07 06:54:21
阅读次数:
205
Python BeautifulSoup 简单笔记 http://rsj217.diandian.com/post/2012-11-01/40041235132http://www.cnblogs.com/scrat/archive/2013/01/18/2866637.htmlBeautiful ...
分类:
编程语言 时间:
2015-02-06 16:27:22
阅读次数:
160
网上关于使用python 的发送multipart/form-data的方法,多半是采用
ulrlib2 的模拟post方法,如下:
import urllib2
boundary='-------------------------7df3069603d6'
data=[]
data.append('--%s' % boundary)
data.append('Content-Dispos...
分类:
编程语言 时间:
2015-02-06 11:23:31
阅读次数:
177
当我们需要使用Apache配置虚拟主机时,有可能会出现这个问题:Apache: You don't have permission to access / on this server# 同IP不同域名# Listen for virtual host requests on all IP addr...
分类:
数据库 时间:
2015-02-05 09:20:22
阅读次数:
192
在学习 ajax 时遇到了一个问题XMLHttpRequest cannot load file:xxxxxxxx . Cross origin requests are only supported for HTTP. 谷歌了下, 在stackoverflow 上发现了原因所在:XMLHttp.....
分类:
其他好文 时间:
2015-02-01 21:46:02
阅读次数:
137
雅虎给出了优化网站加载速度的34条法则(包括Yslow规则22条) 详细说明,下载转发 ponytail 的译文(来自帕兰映像)。1.Minimize HTTP Requests 减少HTTP请求图片、css、script、flash等等这些都会增加http请求数,减少这些元素的数量就能减少响应时间...
分类:
Web程序 时间:
2015-02-01 00:31:57
阅读次数:
245
requests 模块安装1、下载setuptools工具,下载ez_setup.py-》https://pypi.python.org/pypi/setuptools,点击ez-setup.py 复制到本地后,保存为py文件2、下载get-pip.py,安装pip http://www.pip-i...
分类:
其他好文 时间:
2015-01-29 12:31:48
阅读次数:
571
写技术博客主要就是总结和交流的,如果文章用错,请指正啊!以前一直在使用SGMLParser,这个太费时间和精力了,现在为了毕业设计,改用BeautifulSoup来实现HTML页面的解析工作的。一、字符的编码和解码 和网页打交道,首先解决的就是web页面的编码方式,不幸的是不同网站的页面编码方式基....
分类:
编程语言 时间:
2015-01-28 17:40:25
阅读次数:
156
在网上看到有人利用python+beautifulsoup爬取豆瓣Top250试着自己模仿这个做了个爬取IMDB的,可惜只能爬取到11个。后来检查了超久,才发现,soup=BeautifulSoup(contents)这里,内容不完整,只能到11个电影为止。代码如下:import urllib2fr...
分类:
数据库 时间:
2015-01-26 21:03:15
阅读次数:
228