如下所示: import xlrd import pandas as pd from pandas import DataFrame DATA_DIR = 'D:/' excel_name = '%s2017.xls' % DATA_DIR wb = xlrd.open_workbook(excel ...
分类:
编程语言 时间:
2020-03-20 22:23:15
阅读次数:
636
1.打开所要爬取的网页https://s.weibo.com/weibo?q=%E7%83%AD%E6%90%9C&wvr=6&b=1&Refer=SWeibo_box 2.打开开发者工具查找所要爬取的数据位置 3.进行爬取并数据可视化 import requests#引入requests库用于下载 ...
分类:
编程语言 时间:
2020-03-20 14:21:37
阅读次数:
79
import pandas as pd import numpy as np df = pd.DataFrame(np.arange(10).reshape(5,2),index=list("cvbnm"),columns=list('AB')) print(df) print(" ") print ...
分类:
其他好文 时间:
2020-03-16 21:57:38
阅读次数:
72
1.导入相应的库 2.找到要爬取的网站:http://top.baidu.com/buzz?b=341&c=513&fr=topbuzz_b341_c513 3.找到爬去的内容: 4.用for循环将需要的内容添加到空列表中,在使用DataFrame打印出热搜榜前十 import requests f ...
分类:
其他好文 时间:
2020-03-16 16:23:23
阅读次数:
77
1. DataFrame 本片将介绍Spark RDD的限制以及DataFrame(DF)如何克服这些限制,从如何创建DataFrame,到DF的各种特性,以及如何优化执行计划。最后还会介绍DF有哪些限制。 2. 什么是 Spark SQL DataFrame? 从Spark1.3.0版本开始,DF ...
分类:
其他好文 时间:
2020-03-16 12:56:06
阅读次数:
95
[toc] 使用 或`concat_ws() `SQL函数,可以将一个或多个列连接到Spark DataFrame上的单个列中。在文本中,将学习如何使用这些函数,还可以使用原始SQL通过Scala示例来连接列。 Preparing Data & DataFrame 注意,我们需要导入spark对象上 ...
分类:
其他好文 时间:
2020-03-14 23:54:22
阅读次数:
61
方法(一)通过字典追加(列名要一致) data={'a':50,'b':60,'c':70} df=df.append(data,ignore_index=True) 方法(二)通过Serise 1 data=pd.Serise([50,60,70],index=list('abc')) 2 df= ...
分类:
移动开发 时间:
2020-03-14 23:28:18
阅读次数:
934
pyspark可用于读取textfile格式的hive表格。 1. 查看hive表的属性方法(在hive或者spark-sql命令行均可): 查询建表信息: show create table database_name.table_name; 查询表的属性信息 (可看到表的格式信息例如,Input ...
分类:
其他好文 时间:
2020-03-14 20:06:06
阅读次数:
166
import urllib.request; from pandas import DataFrame; from pandas import Series; from bs4 import BeautifulSoup; import pandas as pd file_name = "2222.t ...
分类:
其他好文 时间:
2020-03-14 01:13:06
阅读次数:
92
什么是Spark SQL? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和DataSet,并且作为分布式SQL查询引擎的作用。 我们已经学习了Hive,它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapRe ...
分类:
数据库 时间:
2020-03-11 10:46:14
阅读次数:
68