码迷,mamicode.com
首页 > 其他好文 > 详细

第三章——供机器读取的数据

时间:2017-10-05 19:36:04      阅读:222      评论:0      收藏:0      [点我收藏+]

标签:tsv   ted   命令行   image   java   text   idt   逗号   ble   

本书使用的文件、代码:https://github.com/huangtao36/data_wrangling

机器可读(machine readable)文件格式:
1、逗号分隔值(Comma-Separated Values, CSV)
2、JavaScript对象符号(JavaScript Object Notation, JSON)
3、可扩展标记语言(eXtensible Markup Language, XML)
 

第三章使用的数据文件:

技术分享
 

一、CSV数据

CSV文件:将数据列用逗号分隔的文件,文件扩展名为.csv
TSV文件:将数据列用Tab分隔的文件(tab-separated values),文件扩展名为.csv或.tsv(要打开文件确定是何种类型的数据)
 
用excel打开文件data-text.csv:
技术分享

 

用 Sublime打开data-text.csv:
技术分享
 

  Python代码1:

import csv
 
csvfile = open(‘data-text.csv‘,‘rb‘) #打开文件,只读模式
reader = csv.reader(csvfile)  #读取数据
 
for row in reader:  #输出数据
  print row

在PyCharm中运行:

技术分享

 

 在控制台中使用命令行运行:

技术分享

 技术分享

  Python代码2:

import csv

csvfile = open(‘data-text.csv‘,‘rb‘)
reader = csv.DictReader(csvfile)

for row in reader:
  print row

  在PyCharm中运行:

 技术分享

  在控制台中使用命令行运行:

 技术分享

 

 

 

 

 


 

第三章——供机器读取的数据

标签:tsv   ted   命令行   image   java   text   idt   逗号   ble   

原文地址:http://www.cnblogs.com/huangtao36/p/7629823.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!