码迷,mamicode.com
首页 > 编程语言 > 详细

Python学习笔记之爬虫1

时间:2018-01-02 16:54:43      阅读:186      评论:0      收藏:0      [点我收藏+]

标签:rom   down   数据   ram   for循环   idt   app   pos   soup   

 爬虫的操作步骤:
技术分享图片

 

爬虫三步走

  • 爬虫第一步:使用requests获得数据:
    1.导入requests
    2.使用requests.get获取网页源码
  • import requests
    r = requests.get(‘https://book.douban.com/subject/1084336/comments/‘).text
    

      

      

  • 爬虫第二步:使用BeautifulSoup4解析数据:
    1.导入bs4
    2.解析网页数据
    3.寻找数据
    4.for循环打印
from bs4 import BeautifulSoup
soup = BeautifulSoup(r,‘lxml‘)
pattern = soup.find_all(‘p‘,‘comment-content‘)
for item in pattern:
print(item.string)

  

  • 爬虫第三步:使用pandas保存数据:
    1.导入pandas
    2.新建list对象
    3.使用to_csv写入
import pandas
comments = []
for item in pattern:
comments.append(item.string)
df = pandas.DataFrame(comments)
df.to_csv(‘comments.csv‘)

   

完整的爬虫

import requests
r = requests.get(‘https://book.douban.com/subject/1084336/comments/‘).text
 
from bs4 import BeautifulSoup
soup = BeautifulSoup(r,‘lxml‘)
pattern = soup.find_all(‘p‘,‘comment-content‘)
for item in pattern:
print(item.string)
 
import pandas
comments = []
for item in pattern:
comments.append(item.string)
df = pandas.DataFrame(comments)
df.to_csv(‘comments.csv‘)

代码运行结果:

技术分享图片

  

Python学习笔记之爬虫1

标签:rom   down   数据   ram   for循环   idt   app   pos   soup   

原文地址:https://www.cnblogs.com/PeterZhang1520389703/p/8177550.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!