搜索关键字：soup，搜索到551个结果！码迷,mamicode.com！

Windows下安装BeautifulSoup

下面就是bs4的安装过程了: 1.去官网下载BeautifulSoup4：Beautiful Soup 4.3.2 2.解压文件将下载得到的压缩包解压到任意文件夹，路径不含中文 3.打开cmd命令提示符 win+r，输入cmd，回车进入解压后的目录，我这里是C:\Python27\bs4\bea ...

分类：Windows程序时间：2018-04-21 19:29:30 阅读次数：219

爬虫-爬取豆瓣图书TOP250

import requests from bs4 import BeautifulSoup def get_book(url): wb_data = requests.get(url) soup = BeautifulSoup(wb_data.text,'lxml') title_list = so... ...

分类：其他好文时间：2018-04-18 01:02:17 阅读次数：385

数据结构化与保存

1. 将新闻的正文内容保存到文本文件。 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news 一个列表页所有单条新闻汇总-->列表newsls.append(news) 所有列表页的所有新闻汇总列表newstotal.extend(newsls) 3. 安装pandas，用pand ...

分类：其他好文时间：2018-04-12 22:26:31 阅读次数：212

数据结构化与保存

import requests from bs4 import BeautifulSoup from datetime import datetime import re import pandas news_list = [] def crawlOnePageSchoolNews(page_url... ...

分类：其他好文时间：2018-04-12 20:55:59 阅读次数：151

爬虫学习---基础操作--抽屉新热榜自动点赞与豆瓣自动统一短评

爬虫的学习相对来说，比较烦锁，因为网站的反爬规则，经过两天的研究，终于搞定了抽屉新热榜自动点赞与豆瓣自动统一短评（豆瓣登录的验证码目前需要手动输入）抽屉网的规则问题示例如下：豆瓣网 ...

分类：其他好文时间：2018-04-12 18:00:22 阅读次数：340

数据结构化和保存

1. 将新闻的正文内容保存到文本文件。 newscontent=soup.select('.show-content')[0].textf=open('new.txt','w')f.write(newscontent)f=open('new.txt','r')print(f.read()) 2. 将 ...

分类：其他好文时间：2018-04-12 13:42:22 阅读次数：123

使用正则表达式，取得点击次数，函数抽离

1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。re.split('',news) 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getCl ...

分类：其他好文时间：2018-04-11 23:02:33 阅读次数：206

获取全部校园新闻

1.取出一个新闻列表页的全部新闻包装成函数。 2.获取总的新闻篇数，算出新闻总页数。 3.获取全部新闻列表页的全部新闻详情。截图： 4.找一个自己感兴趣的主题，进行数据爬取，并进行分词分析。等会再修改，还没修改完 ...

分类：其他好文时间：2018-04-11 21:49:15 阅读次数：168

使用正则表达式，取得点击次数，函数抽离

1. 用正则表达式判定邮箱是否输入正确。 2. 用正则表达式识别出全部电话号码。 3. 用正则表达式进行英文分词。re.split('',news) 4. 使用正则表达式取得新闻编号 5. 生成点击次数的Request URL 6. 获取点击次数 7. 将456步骤定义成一个函数 def getCl ...

分类：其他好文时间：2018-04-11 21:38:15 阅读次数：190

使用正则表达式，取得点击次数，函数抽离

import requests from bs4 import BeautifulSoup import string import time import datetime import re #获取文章详情 def getNewDetail(newsrrl): #点击次数 def getClic ...

分类：其他好文时间：2018-04-10 21:54:07 阅读次数：249