作为世界先进的图数据库,Neo4j成为了时下许多互联网公司的首选。Neo4j是基于java开发的开源图数据库,也是一种NoSQL数据库。Neo4j在保证对数据关系的良好刻画的同时,还支持传统关系型数据的ACID特性,并且在存储效率,集群支持以及失效备援等等方面都有着不错的表现。近来因为实验室的项目的关系,对Neo4j有了一定的了解。同时,我也对其设计思想和架构都产生了很大的兴趣,所以写下这篇博客,帮助大家更好地了解这一数据库,也分享一下以及的认识。
设计理念
Neo4j的设计动机是为了更好地同时也更高效地描述实体之间的关系。在现实生活中,每一个实体都于周围的其他实体有着千丝万缕的关系,这些关系里面所存储的信息甚至要大于身体本身的属性。然后传统的关系型数据库更注重刻画实体内部的属性,实体与实体之间的关系通常都是利用外键来实现。所以在求解关系的时候通常需要join操作,而join操作通常又是耗时的。互联网尤其是移动互联网的爆发式增长本来就使得传统关系型数据库不堪重负,再加上诸如社交网络等应用对于关系的高需求,可以说关系型数据库已经是毫无优势。而图数据库作为重点描述数据之间关系的数据库应运而生,成为了NoSQL中非常重要的一部分。而Neo4j正是图数据库中最为优秀的之一
Neo4j数据库只有两种类型的数据:
- 节点Node:节点类似于E-R图种的实体(entity),每个实体可以有0到多个属性,这些属性以key-value对的形式存在,并且对属性没有类别要求,也无需提前定义。另外,还允许给每个节点打上标签,以区别不同类型的节点。
- 关系Relationship: 关系类似于E-R图种的关系(relationship),一个关系有一个起始节点和一个终止节点构成。另外和node一样,关系也可以有多个属性已经标签
其具体的结构如下图:而一个实际的图数据库例子就如下图所示的这样:
正是基于这样的设计理念,Neo4j有了以下这些特性:
- 关系在创建的时候就已经实现了,因而在查询关系的时候是一个O(1)的操作
- 所有的关系在Neo4j中都是同等重要的
- 提供了图的深度优先搜索、广度优先搜索、最短路径、简单路径已经Dijkstra等等算法
Neo4j的存储结构
现在让我们来看看数据在Neo4j中是如何存储的,首先是节点Node的格式: Node:in_use(byte)+next_rel_id(int)+next_prop_id(int)
,每一位的具体意义如下:
- in_use:1表示该节点被使用,0表示被删除
- next_rel_id(int):该节点下一个关系id
- next_prop_id(int):该节点下一个属性的id
Relation格式: in_use+first_node+second_node+rel_type+first_prev_rel_id+first_next_rel_id+second_prev_rel_id+second_next_rel_id+next_prop_id
- in_use,next_prop_id:同上
- first_node:当前关系的起始节点
- second_node:当前关系的终止节点
- rel_type:关系类型
- first_prev_rel_id & first_next_rel_id:起始节点的前一个和后一个关系id
- second_prev_rel_id & second_next_rel_id:终止节点的前一个和后一个关系id
相信看了存数结构之后,大家知道为什么Neo4j在查询节点关系的时候会如此之快了,因为每一个节点有哪些关系都是直接存在该节点的定义域内的,直接访问就行了,根本不需要再去查找另外一张表。
下面举一个图的遍历的例子:
- 从节点1开始,宽度优先遍历,其存储结构为:01 00000002 ffffffff
- 其下一个关系id是2,访问关系2:01 00000001 00000004 00000000 ffffffff 00000001 ffffffff ffffffff ffffffff 得出node 1 -> node 4,同时下个关系是1
- 关系1: 01 00000001 00000003 00000000 00000002 00000000 00000003 ffffffff ffffffff node1 -> node 3,node3 有其他关系,所以将node3存入队列,同时访问关系0
- 关系0:01 00000001 00000002 00000000 00000001 ffffffff ffffffff ffffffff ffffffff node1 -> node2,访问完成node1的所有关系,从队列中退出node3
- 用于上文相同的方法访问node3
- 最后结果如下:
(1)–[KNOWS,2]–>(4) (1)–[KNOWS,1]–>(3) (1)–[KNOWS,0]–>(2) (1)–[KNOWS,1]–>(3)–[KNOWS,5]–>(7) (1)–[KNOWS,1]–>(3)–[KNOWS,4]–>(6) (1)–[KNOWS,1]–>(3)–[KNOWS,3]–>(5)
Neo4j与关系型数据库的区别
其实通过上述的讲解,相信大家都对neo4j与RDBMS(Relational Database Management System)的区别有了一定的认识,现在再用下面的表格来重新整理一下:
Neo4j | RDBMS |
允许对数据的简单且多样的管理 | 高度结构化的数据 |
数据添加和定义灵活,不受数据类型和数量的限制,无需提前定义 | 表格schema需预定义,修改和添加数据结构和类型复杂,对数据有严格的限制 |
常数时间的关系查询操作 | 关系查询操作耗时 |
提出全新的查询语言cypher,查询语句更加简单 | 查询语句更为复杂,尤其涉及到join或union操作时 |
最后再以下面两张图来展示一下两者在查询关系时的区别:RDBMSNeo4j
关于Neo4j具体的安装和使用,不是文章的重点,如果想要真正上手用Neo4j,可以到Neo4j官网上面有很多资料