码迷,mamicode.com
首页 > 其他好文 > 详细

一个完整的大作业

时间:2017-11-01 01:02:13      阅读:178      评论:0      收藏:0      [点我收藏+]

标签:select   imshow   set   key   dcl   网站   cloud   res   axis   

1.选一个自己感兴趣的主题。最近好多人和我说要去旅游,我就想自己家这边有什么吸引人的地方呢?

技术分享

2.网络上爬取相关的数据,截取网站的标题以及来源。

import requests
from bs4 import BeautifulSoup
res=requests.get(‘http://trips.tuniu.com/search?q=%E6%BD%AE%E6%B1%95‘)
res.encoding=‘utf-8‘
soup=BeautifulSoup(res.text,‘html.parser‘)

for trips in soup.select(‘li‘):
if len(trips.select(‘.list-name‘))>0:
title=trips.select(‘.list-name‘)[0].text
url=trips.select(‘a‘)[0][‘href‘]
print(title,url)

技术分享

3.进行文本分析,生成词云。使用字典的方法统计出20个词。

 

import jieba
fr=open("csx.txt",‘r‘,encoding=‘utf-8‘)
s=list(jieba.cut(fr.read()))
exp={‘,‘,‘\n‘,‘.‘,‘。‘}
key=set(s)-exp
dic={}
for i in key:
    dic[i]=s.count(i)
wc=list(dic.items())
wc.sort(key=lambda x:x[1],reverse=True)
for i in range(20):
    print(wc[i])
fr.close()
 

  技术分享

生成词云。

#coding:utf-8
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt
  
text =open("csx.txt",‘r‘,encoding=‘utf-8‘).read()
print(text)
wordlist = jieba.cut(text,cut_all=True)
wl_split = "/".join(wordlist)
  
mywc = WordCloud(
      font_path="simfang.ttf"
 
    ).generate(text)
plt.imshow(mywc)
plt.axis("off")
plt.show()

  技术分享

 

一个完整的大作业

标签:select   imshow   set   key   dcl   网站   cloud   res   axis   

原文地址:http://www.cnblogs.com/qq1014928301/p/7764369.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!