下面就是bs4的安装过程了: 1.去官网下载BeautifulSoup4:Beautiful Soup 4.3.2 2.解压文件 将下载得到的压缩包解压到任意文件夹,路径不含中文 3.打开cmd命令提示符 win+r,输入cmd,回车 进入解压后的目录,我这里是C:\Python27\bs4\bea ...
import requests from bs4 import BeautifulSoup def get_book(url): wb_data = requests.get(url) soup = BeautifulSoup(wb_data.text,'lxml') title_list = so... ...
分类:
其他好文 时间:
2018-04-18 01:02:17
阅读次数:
385
1. 将新闻的正文内容保存到文本文件。 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news 一个列表页所有单条新闻汇总-->列表newsls.append(news) 所有列表页的所有新闻汇总列表newstotal.extend(newsls) 3. 安装pandas,用pand ...
分类:
其他好文 时间:
2018-04-12 22:26:31
阅读次数:
212
import requests from bs4 import BeautifulSoup from datetime import datetime import re import pandas news_list = [] def crawlOnePageSchoolNews(page_url... ...
分类:
其他好文 时间:
2018-04-12 20:55:59
阅读次数:
151
爬虫的学习相对来说,比较烦锁,因为网站的反爬规则,经过两天的研究,终于搞定了抽屉新热榜自动点赞与豆瓣自动统一短评(豆瓣登录的验证码目前需要手动输入) 抽屉网的规则问题 示例如下: 豆瓣网 ...
分类:
其他好文 时间:
2018-04-12 18:00:22
阅读次数:
340
1. 将新闻的正文内容保存到文本文件。 newscontent=soup.select('.show-content')[0].textf=open('new.txt','w')f.write(newscontent)f=open('new.txt','r')print(f.read()) 2. 将 ...
分类:
其他好文 时间:
2018-04-12 13:42:22
阅读次数:
123
1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。re.split('',news) 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getCl ...
分类:
其他好文 时间:
2018-04-11 23:02:33
阅读次数:
206
1.取出一个新闻列表页的全部新闻 包装成函数。 2.获取总的新闻篇数,算出新闻总页数。 3.获取全部新闻列表页的全部新闻详情。 截图: 4.找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。 等会再修改,还没修改完 ...
分类:
其他好文 时间:
2018-04-11 21:49:15
阅读次数:
168
1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。re.split('',news) 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getCl ...
分类:
其他好文 时间:
2018-04-11 21:38:15
阅读次数:
190
import requests from bs4 import BeautifulSoup import string import time import datetime import re #获取文章详情 def getNewDetail(newsrrl): #点击次数 def getClic ...
分类:
其他好文 时间:
2018-04-10 21:54:07
阅读次数:
249