Python 核心技术与实战 --02 字典和集合

时间：2019-12-24 12:03:26 阅读：89 评论：0 收藏：0 [点我收藏+]

什么是字典？
字典是一系列由键(key) 和值(value) 配对组成的元素集合，在python3.7+ ，字典被确定为有序（注意在3.6 中，字典有序是一个implementation detail, 在3.7 才正式成为语言特性），而在3.6 无法100% 保证有序性，而在3.6 之前是无序的，其长度大小可变，元素可以任意地删减和改变。

相比于列表和元组，字典的性能更优，特别是相对于查找/添加/删除的操作，字典都能在常数时间复杂度内完成。

而集合和字典基本相同，唯一的区别，就是集合没有键和值的配对，是一系列无序的/唯一的元素组合。

首先我们来看字典和集合的创建，通常有以下几种方式

d1={‘name‘:‘jason‘,‘age‘:20}

d2=dict({‘name‘:‘jason‘,‘age‘:20})

d3=dict([(‘name‘,‘jason‘),(‘age‘,20)])

d4=dict(name=‘jason‘,age=20)

s1={1,2,3}

s2=set([1,2,3])

python 中字典和集合，无论是键还是值，都可以是混合类型。比如下面这个例子，我创建了一个元素为1，’hello‘,5.0 的集合

元素访问问题。字典访问可以直接索引键，如果不存在就抛出异常。

d ={‘name‘:jason‘,‘age‘:20}
d.get(‘name‘)
d.get(‘location‘,‘null‘)
如果不存在就返回 ‘null‘ 默认值

集合

集合本质上是一个哈希表，和列表不一样。所以集合不支持索引操作。

想要判断一个元素在不在字典或集合内，我们可以用value in dict/set 来判断。

s={1,2,3}
1 in s
True

10 in s
False

d = {‘name‘:‘jason‘,‘age‘:20}
‘name‘ in d
True

‘location‘ in d
False

增加/删除/更新操作

d={‘name‘:‘jason‘,‘age‘:20}
d[‘gender‘]=‘male‘
d[‘dob‘]=‘1999-02-01‘
d.pop(‘dob‘)

s={1,2,3}
s.add(4)
s.remove(4)

集合的pop() 操作是删除集合中最后一个元素，可是集合本身是无序的所以你无法知道会删除哪个元素，这个操作谨慎使用

实际应用中，很多情况下，我们需要对字典或集合进行排序，比如，取出值最大的50对。

对于字典，我们通常会根据键或者值，进行升序或降序排序：

d={"a‘:1,‘c‘:3,‘d‘:4}
sorted_by_key = sorted(d.items(),key=lambda x:x[0])
sorted_by_value = sorted(d.items(),key=lambda x:x[1])

字典和集合的性能

字典和集合是进行过高度性能优化的数据结构，特别是对于查找/添加/和删除操作。那接下来，我们就来看看，它们在具体的场景下的性能表现，以及与列表等其他数据结构进行对比

比如某电商企业的后台，存储了每件产品的ID/名称/和价格。现在的需求是，给定某件商品的ID，我们要求找出其价格

如果我们用列表来存储这些数据结构，并进行查找，相应代码如下

def find_product_price(products,product_id):
      for id,price in products:
             if id == product_id:
                   return price
       return None

products=[(143121312,100),
                (23121312,30),
                 (32421312,150)]

假设列表中有n个元素，而查找的过程要遍历列表，那么时间复杂度为O(n). 即使我们先对列表进行排序，然后再使用二分查找，我们也需要O(logn) 的时间复杂度，更何况，列表的排序还需要O(nlogn)的时间。

但如果使用字典来存储这些数据，那么查找就会非常便捷高效，只需要O(1) 的时间复杂度就可以完成。原因很简单，刚刚提到过的，字典的内部组成是一张哈希表，你可以直接通过键的哈希值，找到其对应的值。

类似的，现在需求变成，要找出这些商品有多少种不同的价格。我们还用同样的方法来比较一下。

如果还是选择用列表，对应的代码如下，其中，A和B是两层循环。同样假设原始列表有n个元素，那么最差的情况下，需要O(n^2)的时间复杂度。

def find_unique_price_using_list(products):
      unique_price_list =[]
      for _,price in products:
          if price not in unique_price_list:
                  unique_price_list.append(price)
      return len(unique_price_list)

但如果我们选择使用集合这个数据结构，由于集合是高度优化的哈希表，里面的元素不能重复，并且其添加和查找操作只需要O(1)的复杂度，那么，总的时间复杂度就只是O(n)

def find_unique_price_using_set(products):
      unique_price_set =set()
      for _,price in products:
                  unique_price_set.add(price)
      return len(unique_price_set)

字典和集合的工作原理:

字典集合内部的数据结构都是一张哈希表。

对于字典而言，这张表存储了哈希值(hash)/键/值这三个元素。

而对于集合来说，区别就是哈希表内没有键值的配对，只有单一的元素。

老版本的哈希表结构:

哈希值(hash)     键(key)          值(value)
---------------------------------------------
hash0                key0             value0
---------------------------------------------
hash1                key1             value1
---------------------------------------------
hash2                key2             value2
-------------------------------------------

不难想象，随着哈希表的扩张，它会变得越来越稀疏。举个例子，比如我有这样一个字典:

{‘name‘:‘mike‘,‘dob‘:‘1991-01-01‘,‘‘gender‘:‘male‘}

那么它会存储为类似下面的形式:

entries=[
[‘--‘,‘--‘,‘--‘],
[-230273521,‘dob‘,‘1999-01-01‘],
[‘--‘,‘--‘,‘--‘],
[‘--‘,‘--‘,‘--‘],
[‘1231236123‘,‘name‘,‘mike‘],
[‘--‘,‘--‘,‘--‘],
[9371539127‘,‘gender‘,‘male‘]
]

这样的设计结构非常浪费存储空间。为了提高内存的利用率，现在的哈希表除了字典本身的结构，会把索引和哈希值/键/值单独分开，也就是下面的这样新的结构

Indices
--------------------------------------------------------------------------
None| index| None| None| index|None|index|....
-------------------------------------------------------------------------

Entries
--------------------
hash0 key0 value0
-----------------------
hash1  key1  value1
------------------------
hash2   key2   value2

Python 核心技术与实战 --02 字典和集合

标签：str 重复问问题高效价格 tail jason 访问问题组合

原文地址：https://www.cnblogs.com/qifei-liu/p/12090331.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行