0816 1459

时间：2016-08-21 12:29:58 阅读：244 评论：0 收藏：0 [点我收藏+]

标签：

---恢复内容开始---

1.json & pickle

磁盘上只能存储字符串或二进制数据，直接存字典、列表、元组等是存不了的，所以需要把各种数据转换成字符串格式，然后再存到硬盘。

直接将一个字典类型的数据写入硬盘，提示错误：TypeError: write() argument must be str, not dict。

将内存里的数据类型（字典、列表、元组、集合、字符串等）转换为字符串格式存入硬盘，这个过程叫序列化。反序列化就是再把硬盘里的数据加载回内存。

可以通过str()方法把一个字典类型变成字符串类型，然后存入硬盘；也可以通过eval()方法将一个字符串变成字典，重新读入程序。但是，str()和eval()实际上并不是通用的方法，而且有点low，最好使用专业的方法json.dumps()和json.loads()。

序列化示例：

 1 import json
 2 
 3 info = {
 4         ‘name‘:‘ci‘,
 5         ‘age‘:22
 6         }
 7 f = open(‘test.t‘,‘w‘)
 8 print(type(info))
 9 print(type(json.dumps(info)))
10 f.write(json.dumps(info))
11 
12 
13 结果：
14 <class ‘dict‘ at 0x87ffe0>
15 <class ‘str‘ at 0x889360>
16 #数据已经写入文件test.t里。

View Code

反序列化示例：

 1 import json
 2 
 3 f = open(‘test.t‘)
 4 fr = f.read()
 5 print(type(fr))
 6 frj = json.loads(fr)
 7 print(type(frj))
 8 print(frj[‘age‘])
 9 
10 
11 结果：
12 <class ‘str‘ at 0x889360>
13 <class ‘dict‘ at 0x87ffe0>
14 22
15 #直接把硬盘上的str信息转化为字典，并用key得到value。

View Code

json默认只支持最基本的简单的数据类型（字典、列表、元组、集合、字符串等），像什么方法、类json使无法序列化的。因为json最主要的作用是实现不同语言间的数据交互，比如把python的列表转化成C的列表，假如要序列化类啊、方法啊，那就麻烦多了，所以json只支持序列化简单的数据类型。

xml的作用跟json一样，但是xml很麻烦，以前的人们都用xml实现不同语言的数据交互，但是json出来后，json就是主流了，xml必将被完全取代。

下例展示json无法序列化一个方法：

 1 import json
 2 def p():
 3     print(‘test‘)
 4 
 5 info = {
 6         ‘name‘:‘ci‘,
 7         ‘age‘:22,
 8         ‘p_neicun_dizhi‘:p
 9         }
10 print(info[‘p_neicun_dizhi‘])
11 f = open(‘test.t‘,‘w‘)
12 print(type(info))
13 print(type(json.dumps(info)))
14 f.write(json.dumps(info))
15 
16 结果：
17 <function p at 0x7fd99a7f6a60>
18 Traceback (most recent call last):
19 TypeError: Object of type ‘function‘ is not JSON serializable
20 #提示方法不是一个可被JSON序列化的对象。

View Code

要想序列化复杂的东西，就要用到pickle了，pickle可以序列化所有的数据类型；pickle保存的数据只有python能识别，其他语言识别不了；pickle的用法与json一样。

pickle序列化示例：

 1 import pickle
 2 
 3 def p():
 4     print(‘test‘)
 5 info = {
 6         ‘name‘:‘ci‘,
 7         ‘age‘:22,
 8         ‘p_neicun_dizhi‘:p
 9         }
10 print(info[‘p_neicun_dizhi‘])
11 f = open(‘test.t‘,‘wb‘)
12 pickle.dump(info,f)
13 
14 #文件模式改成了"wb"

View Code

pickle反序列化示例：

 1 import pickle
 2 def p():
 3     print(‘test‘)
 4 f = open(‘test.t‘,‘rb‘)
 5 frj = pickle.load(f)
 6 print(frj)
 7 print(frj[‘p_neicun_dizhi‘]())
 8 
 9 结果：
10 {‘p_neicun_dizhi‘: <function p at 0x7f99a5acaa60>, ‘age‘: 22, ‘name‘: ‘ci‘}
11 test
12 
13 #文件模式“rb”
14 #反序列化的代码里要有一个序列化时的同名方法，不然会反序列化失败；因为在序列化完毕时，内存里的东西就被回收了，所以序列化只存了一个内存地址和方法名字，方法里的内容并没有存。
15 #反序列化只要有一个同名的方法就行，内容可以不一样，比如把上面代码的p方法里的内容改成天马行空的，一样可以调用。

View Code

pickle的dump,dumps和load,loads：

1 f = open(‘test‘,‘wb‘)
2 pickle.dump(info,f) 等价于 f.write(pickle.dumps(info))
3 
4 
5 
6 f = open(‘test‘,‘rb‘)
7 pickle.load(f)  等价于 pickle.loads(f.read())

View Code

json是可以dump多次的，在python2.X里也可以load多次，但是在python3.X里允许dump多次但是只能load一次，这是有好处的，不然还得根据顺序一次次的dump。

json虽然可以dump多次，但是最好不要这样，最好是每个文件只dump一次，如果需要再dump就重新dump到另一个文件。像虚拟机的快照一样，你可以每天创建一个快照，快照都是独立的文件，每天的快照之间没有关系。

2.软件目录结构规范

为什么要设计好目录结构?

"设计项目目录结构"，就和"代码编码风格"一样，属于个人风格问题。对于这种风格上的规范，一直都存在两种态度:

一类同学认为，这种个人风格问题"无关紧要"。理由是能让程序work就好，风格问题根本不是问题。
另一类同学认为，规范化能更好的控制程序结构，让程序具有更高的可读性。

我是比较偏向于后者的，因为我是前一类同学思想行为下的直接受害者。我曾经维护过一个非常不好读的项目，其实现的逻辑并不复杂，但是却耗费了我非常长的时间去理解它想表达的意思。从此我个人对于提高项目可读性、可维护性的要求就很高了。"项目目录结构"其实也是属于"可读性和可维护性"的范畴，我们设计一个层次清晰的目录结构，就是为了达到以下两点:

可读性高: 不熟悉这个项目的代码的人，一眼就能看懂目录结构，知道程序启动脚本是哪个，测试目录在哪儿，配置文件在哪儿等等。从而非常快速的了解这个项目。
可维护性高: 定义好组织规则后，维护者就能很明确地知道，新增的哪个文件和代码应该放在什么目录之下。这个好处是，随着时间的推移，代码/配置的规模增加，项目结构不会混乱，仍然能够组织良好。

所以，我认为，保持一个层次清晰的目录结构是有必要的。更何况组织一个良好的工程目录，其实是一件很简单的事儿。

目录组织方式

关于如何组织一个较好的Python工程目录结构，已经有一些得到了共识的目录结构。在Stackoverflow的这个问题上，能看到大家对Python目录结构的讨论。

这里面说的已经很好了，我也不打算重新造轮子列举各种不同的方式，这里面我说一下我的理解和体会。

假设你的项目名为foo, 我比较建议的最方便快捷目录结构这样就足够了:

Foo/
|-- bin/
|   |-- foo
|
|-- foo/
|   |-- tests/
|   |   |-- __init__.py
|   |   |-- test_main.py
|   |
|   |-- __init__.py
|   |-- main.py
|
|-- docs/
|   |-- conf.py
|   |-- abc.rst
|
|-- setup.py
|-- requirements.txt
|-- README

简要解释一下:

bin/: 存放项目的一些可执行文件，当然你可以起名script/之类的也行。
foo/: 存放项目的所有源代码。(1) 源代码中的所有模块、包都应该放在此目录。不要置于顶层目录。(2) 其子目录tests/存放单元测试代码； (3) 程序的入口最好命名为main.py。
docs/: 存放一些文档。
setup.py: 安装、部署、打包的脚本。
requirements.txt: 存放软件依赖的外部Python包列表。
README: 项目说明文件。

除此之外，有一些方案给出了更加多的内容。比如LICENSE.txt,ChangeLog.txt文件等，我没有列在这里，因为这些东西主要是项目开源的时候需要用到。如果你想写一个开源软件，目录该如何组织，可以参考这篇文章。

下面，再简单讲一下我对这些目录的理解和个人要求吧。

关于README的内容

这个我觉得是每个项目都应该有的一个文件，目的是能简要描述该项目的信息，让读者快速了解这个项目。

它需要说明以下几个事项:

软件定位，软件的基本功能。
运行代码的方法: 安装环境、启动命令等。
简要的使用说明。
代码目录结构说明，更详细点可以说明软件的基本原理。
常见问题说明。

我觉得有以上几点是比较好的一个README。在软件开发初期，由于开发过程中以上内容可能不明确或者发生变化，并不是一定要在一开始就将所有信息都补全。但是在项目完结的时候，是需要撰写这样的一个文档的。

可以参考Redis源码中Readme的写法，这里面简洁但是清晰的描述了Redis功能和源码结构。

关于requirements.txt和setup.py

setup.py

一般来说，用setup.py来管理代码的打包、安装、部署问题。业界标准的写法是用Python流行的打包工具setuptools来管理这些事情。这种方式普遍应用于开源项目中。不过这里的核心思想不是用标准化的工具来解决这些问题，而是说，一个项目一定要有一个安装部署工具，能快速便捷的在一台新机器上将环境装好、代码部署好和将程序运行起来。

这个我是踩过坑的。

我刚开始接触Python写项目的时候，安装环境、部署代码、运行程序这个过程全是手动完成，遇到过以下问题:

安装环境时经常忘了最近又添加了一个新的Python包，结果一到线上运行，程序就出错了。
Python包的版本依赖问题，有时候我们程序中使用的是一个版本的Python包，但是官方的已经是最新的包了，通过手动安装就可能装错了。
如果依赖的包很多的话，一个一个安装这些依赖是很费时的事情。
新同学开始写项目的时候，将程序跑起来非常麻烦，因为可能经常忘了要怎么安装各种依赖。

setup.py可以将这些事情自动化起来，提高效率、减少出错的概率。"复杂的东西自动化，能自动化的东西一定要自动化。"是一个非常好的习惯。

setuptools的文档比较庞大，刚接触的话，可能不太好找到切入点。学习技术的方式就是看他人是怎么用的，可以参考一下Python的一个Web框架，flask是如何写的: setup.py

当然，简单点自己写个安装脚本（deploy.sh）替代setup.py也未尝不可。

requirements.txt

这个文件存在的目的是:

方便开发者维护软件的包依赖。将开发过程中新增的包添加进这个列表中，避免在setup.py安装依赖时漏掉软件包。
方便读者明确项目使用了哪些Python包。

这个文件的格式是每一行包含一个包依赖的说明，通常是flask>=0.10这种格式，要求是这个格式能被pip识别，这样就可以简单的通过 pip install -r requirements.txt来把所有Python包依赖都装好了。具体格式说明：点这里。

关于配置文件的使用方法

注意，在上面的目录结构中，没有将`conf.py`放在源码目录下，而是放在`docs/`目录下。

很多项目对配置文件的使用做法是:

配置文件写在一个或多个python文件中，比如此处的conf.py。
项目中哪个模块用到这个配置文件就直接通过import conf这种形式来在代码中使用配置。

这种做法我不太赞同:

这让单元测试变得困难（因为模块内部依赖了外部配置）
另一方面配置文件作为用户控制程序的接口，应当可以由用户自由指定该文件的路径。
程序组件可复用性太差，因为这种贯穿所有模块的代码硬编码方式，使得大部分模块都依赖conf.py这个文件。

所以，我认为配置的使用，更好的方式是，

模块的配置都是可以灵活配置的，不受外部配置文件的影响。
程序的配置也是可以灵活控制的。

能够佐证这个思想的是，用过nginx和mysql的同学都知道，nginx、mysql这些程序都可以自由的指定用户配置。

所以，不应当在代码中直接import conf来使用配置文件。上面目录结构中的conf.py，是给出的一个配置样例，不是在写死在程序中直接引用的配置文件。可以通过给main.py启动参数指定配置路径的方式来让程序读取配置内容。当然，这里的conf.py你可以换个类似的名字，比如settings.py。或者你也可以使用其他格式的内容来编写配置文件，比如settings.yaml之类的。

3.导入非环境变量里的自定义的包

print(__file__) ，这个返回的是当前.py文件的相对路径，在IDE里程序运行结果显示的是绝对路径，其实是相对路径，可以在终端上运行脚本就能看到真实的结果。

print(os.path.abspath(__file__))，这个返回当前.py文件的绝对路径。

print(os.path.dirname(os.path.abspath(__file__)))，这个返回当前.py文件的父目录。

print(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))，这个返回当前.py文件的父目录的父目录。

然后定义变量，BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))，这个BASE_DIR就是这个项目的根目录，然后将这个根目录添加到环境变量，

sys.path.append(BASE_DIR)，然后各子目录之间就能互相调用了。

这样做的目的是，将项目根目录添加到环境变量，就不会导致程序在别人电脑上无法运行，绝对路径是肯定不能用的。

---恢复内容结束---

0816 1459

标签：

原文地址：http://www.cnblogs.com/fuckily/p/5792351.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

0816 1459

为什么要设计好目录结构?

目录组织方式

关于README的内容

关于requirements.txt和setup.py

setup.py

requirements.txt

关于配置文件的使用方法

注意，在上面的目录结构中，没有将conf.py放在源码目录下，而是放在docs/目录下。

注意，在上面的目录结构中，没有将`conf.py`放在源码目录下，而是放在`docs/`目录下。