标签:select imshow set key dcl 网站 cloud res axis
1.选一个自己感兴趣的主题。最近好多人和我说要去旅游,我就想自己家这边有什么吸引人的地方呢?
2.网络上爬取相关的数据,截取网站的标题以及来源。
import requests
from bs4 import BeautifulSoup
res=requests.get(‘http://trips.tuniu.com/search?q=%E6%BD%AE%E6%B1%95‘)
res.encoding=‘utf-8‘
soup=BeautifulSoup(res.text,‘html.parser‘)
for trips in soup.select(‘li‘):
if len(trips.select(‘.list-name‘))>0:
title=trips.select(‘.list-name‘)[0].text
url=trips.select(‘a‘)[0][‘href‘]
print(title,url)
3.进行文本分析,生成词云。使用字典的方法统计出20个词。
import jieba fr=open("csx.txt",‘r‘,encoding=‘utf-8‘) s=list(jieba.cut(fr.read())) exp={‘,‘,‘\n‘,‘.‘,‘。‘} key=set(s)-exp dic={} for i in key: dic[i]=s.count(i) wc=list(dic.items()) wc.sort(key=lambda x:x[1],reverse=True) for i in range(20): print(wc[i]) fr.close()
生成词云。
#coding:utf-8 import jieba from wordcloud import WordCloud import matplotlib.pyplot as plt text =open("csx.txt",‘r‘,encoding=‘utf-8‘).read() print(text) wordlist = jieba.cut(text,cut_all=True) wl_split = "/".join(wordlist) mywc = WordCloud( font_path="simfang.ttf" ).generate(text) plt.imshow(mywc) plt.axis("off") plt.show()
标签:select imshow set key dcl 网站 cloud res axis
原文地址:http://www.cnblogs.com/qq1014928301/p/7764369.html