字符串(str)编码成字节码(bytes),字节码解码为字符串获取当前环境编码:sys.stdin.encodingurl编码urllib.parse.quote()url解码urllib.parse.unquote()列表去重:pages
= list(set(pages))创建文件夹(可多级创建...
分类:
编程语言 时间:
2014-05-10 01:30:27
阅读次数:
610
需要调用windows.Forms命名空间,使用一个类库WebPreview1.1.rar_by_Kai.Ma,此处仅记录之。给一个下载链接WebPreview1.1.rar_by_Kai.Ma.rar
分类:
Web程序 时间:
2014-05-08 21:19:08
阅读次数:
307
最近在做一个机票数据抓取的项目,经常需要在代码中post一堆参数。通过Httpfox
copy下 所有row到Editplus,通过正则替换:(.*?)\s+?(.*)\nnew
NameValuePair("\1","\2"),\n可以直接生成Java代码。
分类:
其他好文 时间:
2014-05-08 19:42:26
阅读次数:
259
对于rel=“external
nofollow”和rel=“nofollow”,这两句代码,使用起来效果基本是一致的,只是前者较后者更为规范一点,两者翻译过来的意思就是:rel=“external
nofollow”就是不要抓取外部链接,rel=“nofollow”就是不要抓取。 网易博客、...
分类:
其他好文 时间:
2014-05-05 21:49:02
阅读次数:
306
packagecom.smilezl.scrapy;importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;importjava.net.HttpURLConnection;importjava.net.URL;importjava.sql.Connection;importjava.sql.DriverManager;importjava.sql.Statement;importjava.u..
分类:
Web程序 时间:
2014-05-04 17:35:41
阅读次数:
341
BeautifulSoup 善于网页数据分析 ,抓取CSDN极客头条内容放入ListView ,
用户点击选择 webViewShow 网页href
geek.py 超过100行,得闲时看吧
# -*- coding: utf-8 -*-
import android
import urllib2, re
from BeautifulSoup import BeautifulSoup
im...
分类:
移动开发 时间:
2014-05-04 09:53:02
阅读次数:
468
推荐阅读:HtmlAgilityPack入门教程1HtmlAgilityPack入门教程2向HtmlAgilityPack道歉:解析HTML还是你好用获取html中meta标签中的content的内容网易新闻页面信息抓取
-- htmlagilitypack搭配scrapysharpHTML解析利器...
分类:
Web程序 时间:
2014-05-03 22:37:47
阅读次数:
351
一个网络问题困扰了我好几天,终于幸运的解决了.言归正传,笔者按照M了个J的教程来进行新浪的开发,到抓取微博数据的时候挂了,一直无法读取微博接口,现在仍没解决,不过我新建了一个应用,用自己的账号调试通过了.接下来说说遇到的几个坑.网络用的AFN框架,开发环境Xcode5,ARC.最开始一直按照MJ的做...
分类:
数据库 时间:
2014-05-03 22:08:17
阅读次数:
574
BeautifulSoup 善于网页数据分析
请参考: http://www.crummy.com/software/BeautifulSoup
例如: 抓取CSDN首页极客头条内容 soup.py
import urllib2, re
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen("http://gee...
分类:
编程语言 时间:
2014-05-03 15:31:42
阅读次数:
401