from bs4 import BeautifulSoupimport requestsurl = 'http://bj.xiaozhu.com/fangzi/1508951935.html'wb_data = requests.get(url)soup = BeautifulSoup(wb_dat ...
分类:
编程语言 时间:
2016-05-07 18:25:12
阅读次数:
245
from collections import Iteratorfrom bs4 import BeautifulSoupimport requestsimport reimport timeheader = { 'Host': 'jst1.58.com', 'User - Agent': 'Moz ...
分类:
编程语言 时间:
2016-05-06 10:42:49
阅读次数:
890
今天写爬虫的时候,遇到了一个奇怪的问题,请求得到html内容之后,将对象使用Beautiful处理之后,竟然得到了空的内容。import requests
from bs4 import BeautifulSoupheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like...
分类:
Web程序 时间:
2016-04-29 16:02:49
阅读次数:
1426
使用文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/ python的编码问题比较恶心。 Demo ...
分类:
编程语言 时间:
2016-04-24 12:25:53
阅读次数:
741
from selenium import webdriverimport timeimport refrom bs4 import BeautifulSoupimport urllib #获取企业基本信息数据def get_enterprise_data(ename): #搜索页面链接地址 keyw ...
分类:
其他好文 时间:
2016-04-13 14:39:10
阅读次数:
1158
from selenium import webdriverimport timeimport refrom bs4 import BeautifulSoup #********************************************************************* ...
分类:
其他好文 时间:
2016-04-13 14:34:20
阅读次数:
278
功能 自己主动获取CSDN文章列表,并对每篇文章添加点击量. 源代码 import urllib.request import re import time import random from bs4 import BeautifulSoup p = re.compile('/a359680405
分类:
编程语言 时间:
2016-03-07 18:35:51
阅读次数:
120
from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc) print(soup.prettify()) # <html> soup.title # <title>The Dormouse's story</title> soup.tit
分类:
其他好文 时间:
2016-03-05 11:34:35
阅读次数:
182
原创python爬虫代码 主要用到urllib2、BeautifulSoup模块 #encoding=utf-8 import re import requests import urllib2 import datetime import MySQLdb from bs4 import Beaut
分类:
编程语言 时间:
2016-02-29 12:15:23
阅读次数:
191
没得事就爬一下我喜欢的海贼王上的图片须要在d盘下建立一个imgcache目录# -*- coding: utf-8 -*-import urllibimport urllib2import jsonfrom bs4 import BeautifulSoupimport threadpool impo...
分类:
编程语言 时间:
2016-01-23 12:45:15
阅读次数:
234