码迷,mamicode.com
首页 >  
搜索关键字:soup    ( 551个结果
Windows下安装BeautifulSoup
下面就是bs4的安装过程了: 1.去官网下载BeautifulSoup4:Beautiful Soup 4.3.2 2.解压文件 将下载得到的压缩包解压到任意文件夹,路径不含中文 3.打开cmd命令提示符 win+r,输入cmd,回车 进入解压后的目录,我这里是C:\Python27\bs4\bea ...
分类:Windows程序   时间:2018-04-21 19:29:30    阅读次数:219
爬虫-爬取豆瓣图书TOP250
import requests from bs4 import BeautifulSoup def get_book(url): wb_data = requests.get(url) soup = BeautifulSoup(wb_data.text,'lxml') title_list = so... ...
分类:其他好文   时间:2018-04-18 01:02:17    阅读次数:385
数据结构化与保存
1. 将新闻的正文内容保存到文本文件。 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news 一个列表页所有单条新闻汇总-->列表newsls.append(news) 所有列表页的所有新闻汇总列表newstotal.extend(newsls) 3. 安装pandas,用pand ...
分类:其他好文   时间:2018-04-12 22:26:31    阅读次数:212
数据结构化与保存
import requests from bs4 import BeautifulSoup from datetime import datetime import re import pandas news_list = [] def crawlOnePageSchoolNews(page_url... ...
分类:其他好文   时间:2018-04-12 20:55:59    阅读次数:151
爬虫学习---基础操作--抽屉新热榜自动点赞与豆瓣自动统一短评
爬虫的学习相对来说,比较烦锁,因为网站的反爬规则,经过两天的研究,终于搞定了抽屉新热榜自动点赞与豆瓣自动统一短评(豆瓣登录的验证码目前需要手动输入) 抽屉网的规则问题 示例如下: 豆瓣网 ...
分类:其他好文   时间:2018-04-12 18:00:22    阅读次数:340
数据结构化和保存
1. 将新闻的正文内容保存到文本文件。 newscontent=soup.select('.show-content')[0].textf=open('new.txt','w')f.write(newscontent)f=open('new.txt','r')print(f.read()) 2. 将 ...
分类:其他好文   时间:2018-04-12 13:42:22    阅读次数:123
使用正则表达式,取得点击次数,函数抽离
1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。re.split('',news) 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getCl ...
分类:其他好文   时间:2018-04-11 23:02:33    阅读次数:206
获取全部校园新闻
1.取出一个新闻列表页的全部新闻 包装成函数。 2.获取总的新闻篇数,算出新闻总页数。 3.获取全部新闻列表页的全部新闻详情。 截图: 4.找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。 等会再修改,还没修改完 ...
分类:其他好文   时间:2018-04-11 21:49:15    阅读次数:168
使用正则表达式,取得点击次数,函数抽离
1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。re.split('',news) 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getCl ...
分类:其他好文   时间:2018-04-11 21:38:15    阅读次数:190
使用正则表达式,取得点击次数,函数抽离
import requests from bs4 import BeautifulSoup import string import time import datetime import re #获取文章详情 def getNewDetail(newsrrl): #点击次数 def getClic ...
分类:其他好文   时间:2018-04-10 21:54:07    阅读次数:249
551条   上一页 1 ... 27 28 29 30 31 ... 56 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!