标签:pen 列表 键值 序列 总结 初始 read def 定义
1.列表,元组,字典,集合分别如何增删改查及遍历。
列表
(1)增加元素:
(2)删除元素:
(3)修改元素:
(4)查找元素:
names = [‘mike‘,‘mark‘,‘candice‘,‘laular‘] print(names[2])
names = [‘mike‘,‘mark‘,‘candice‘,‘laular‘] print(names[1:3]) #通过切片方式取值,切片是顾头不顾尾,打印结果:[‘mark‘, ‘candice‘] print(names[1:]) #取下标后面所有的值,打印结果:[‘mark‘, ‘candice‘, ‘laular‘] print(names[:3]) #取下标前面所有的值,打印结果:[‘mike‘, ‘mark‘, ‘candice‘] print(names[:]) #取所有的值,打印结果:[‘mike‘, ‘mark‘, ‘candice‘, ‘laular‘] print(names[-1]) #取最后一个值,打印结果:laular print(names[:1:2])#隔几位取一次,默认不写步长为1,即隔一位取一次;结果为取下标为1之前的值,隔2位取一个[‘mike‘]
元组的增删改差:
字典
(1)增加元素:
(2)删除元素:
(3)修改元素:
(4)查询元素:
集合:
2.总结列表,元组,字典,集合的联系与区别。参考以下几个方面:
(1)列表
(2)元组
(3)字典
(4)集合
3.词频统计
1.下载一长篇小说,存成utf-8编码的文本文件 file
2.通过文件读取字符串 str
3.对文本进行预处理
4.分解提取单词 list
5.单词计数字典 set , dict
6.按词频排序 list.sort(key=lambda),turple
7.排除语法型词汇,代词、冠词、连词等无语义词
8.输出TOP(20)
排序好的单词列表word保存成csv文件
import pandas as pd
pd.DataFrame(data=word).to_csv(‘big.csv‘,encoding=‘utf-8‘)
线上工具生成词云:
https://wordart.com/create
(1)读取字符串进行预处理并分解提取单词
f=open(r‘F:\1.txt‘,‘r‘,encoding=‘utf8‘) word=f.read() word=word.lower() s=‘,.!?‘ for c in s: word = word.replace(c, "") wordlist=word.split()
(2)单词计数字典
wordlist wordset=set(wordlist) worddict={} for w in wordset: worddict[w]=word.count(w)
(3)按词频排序
wordsort = list(worddict.items()) wordsort.sort(key = lambda x:x[1],reverse=True)
wordsort
排序后的结果
(4)排除无语义词
自定义停用词表
exclude = {‘am‘,‘the‘,‘and‘,‘i‘,‘you‘,‘it‘,‘is‘,‘if‘,‘do‘,‘a‘,‘me‘} def gettxt(): txt=open(r‘F:\1.txt‘,‘r‘,encoding=‘utf8‘).read().lower() s=‘,.!?‘ for c in s: txt = txt.replace(c, "") return txt wordlist = gettxt().split() wordset = set(wordlist)-exclude worddict = {} for w in wordset: worddict[w]=word.count(w) wordsort = list(worddict.items()) wordsort.sort(key = lambda x:x[1],reverse=True) wordsort
结果:
使用stops.txt(连接不上)
(5)可视化
import pandas as pd pd.DataFrame(data=wordsort).to_csv(r‘F:\big.csv‘,encoding=‘utf-8‘)
作业博客要求:
标签:pen 列表 键值 序列 总结 初始 read def 定义
原文地址:https://www.cnblogs.com/lirou/p/10538622.html