码迷,mamicode.com
首页 > 其他好文 > 详细

爬取我们的宇宙未来将如何终结

时间:2020-05-02 16:36:28      阅读:50      评论:0      收藏:0      [点我收藏+]

标签:join   try   nbsp   inf   height   效果   如何   bsp   gen   

1.首先先安装了request库和bs4库,然后正好最近在网上看到了一篇自己比较感兴趣的文章,就决定爬它了。

2.博文主页:

https://zhidao.baidu.com/daily/view?id=203615

3.代码:

import requests
from bs4 import BeautifulSoup
import re
url="https://zhidao.baidu.com/daily/view?id=203615"
r=requests.get(url)
try:
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    message=r.text
except:
    print("ERROR")
soup=BeautifulSoup(message,"html.parser")
songlist=soup.find_all("p")
for i in range(0,39):
    print(songlist[i].get_text())

4.最终效果:

技术图片

 

5.创建一个txt文件然后将结果复制粘贴进去,然后弄词云。

词云代码:import jieba
import wordcloud
f=open("爬虫.txt",encoding="utf-8")
t=f.read()
f.close()
words=jieba.lcut(t)
txt=" ".join(words)
w=wordcloud.WordCloud(font_path="msyh.ttc",width=1000,\
                      height=1000,background_color="white",\
                      stopwords={"我们"},max_words=100)
w.generate(txt)
w.to_file("爬虫.png")

词云效果:

技术图片

 

爬取我们的宇宙未来将如何终结

标签:join   try   nbsp   inf   height   效果   如何   bsp   gen   

原文地址:https://www.cnblogs.com/qq9962/p/12818497.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!