人工智能领域常用的开源框架和库（含机器学习/深度学习/强化学习/知识图谱/图神经网络）

时间：2020-05-14 09:12:36 阅读：158 评论：0 收藏：0 [点我收藏+]

标签：keras facebook The 涵盖 nic 大学分析 java语言分布

【说在前面】本人博客新手一枚，象牙塔的老白，职业场的小白。以下内容仅为个人见解，欢迎批评指正，不喜勿喷！[认真看图][认真看图]

【补充说明】本文主要讨论人工智能领域中常用的支持 Python 编程语言的开源框架和库，因此全面性肯定有限！

一、机器学习常用的开源框架和库

1. Scikit-learn

作为专门面向机器学习的 Python 开源框架，Scikit-learn 内部实现了多种机器学习算法，容易安装和使用，样例丰富。

2. Mahout

在大数据分布式框架 Hadoop 下使用，包含了机器学习中常用的算法（含推荐算法）。

3. MLlib / spark.ml

在大数据分布式框架 Spark 下使用，同样包含了机器学习中常用的算法，可采用 Java / Sacala / Python / R 语言作为编程语言。

4. 其他

例如针对计算机视觉的 SimpleCV、针对自然语言处理的 NLTK 等，这里不再拓展。

二、深度学习常用的开源框架和库

1. TensorFlow

由 Google Brain 团队开发，能够实现各种深度神经网络的搭建。为初学者和专家提供了各种 API，以便对桌面、移动终端、Web和云进行开发。但是，计算图必须构建为静态图，这让很多计算变得难以实现，尤其是序列预测中经常使用的 beam search。

2. Keras

由 Python 编写的高级神经网络 API，相当于 Tensorflow、Theano、 CNTK 的上层接口。强调极简主义，降低了编程和阅读别人代码时的理解开销，目前封装有全连接网络、CNN、RNN 和 LSTM 等算法。但是，封装得太高级，细节很难修改，无法直接使用多 GPU。

3. PyTorch

由 Facebook 团队基于 Torch 开发的深度学习框架。与 TensorFlow 不同的是，PyTorch 是基于动态图的，目前也非常火热。

4. Caffe

在 TensorFlow 出现之前，一直是深度学习领域 Github star 最多的项目。Caffe 的优势在于容易上手（网络结构都是以配置文件形式定义，不需要用代码设计网络）、训练速度快（组件模块化，可以方便的拓展到新的模型和学习任务上）。但是，Caffe 不好安装，且最开始设计时的目标只针对于图像，因此对 CNN 的支持非常好（例如 AlexNet、VGG、Inception 等），但是对 RNN、LSTM 等的支持不是特别充分。

5. 其他

例如百度提出的深度学习框架 PaddlePaddle、华为最新开源的深度学习框架 MindSpore 等，这里不再拓展。

三、强化学习常用的开源框架和库

1. OpenAI Gym

提供了非常多的虚拟环境，具体强化学习算法的代码需要自己来写，可以很好验证强化学习算法，众多强化学习环境都为其提供接口。

2. OpenAI Baseline

基于 Tensorflow 和 OpenAI Gym 开发的，封装了许多强化学习算法（例如 DQN / PPO / TRPO / DDPG 等）。但是，代码规范性不好。

3. RLlib

支持 TensorFlow 和 PyTorch，可通过简单的 Python API 使用，目前附带了许多流行的RL算法。

4. Horizon

Facebook基于 PyTorch、Caffe 和 Spark 构建的强化学习框架，是首个使用应用强化学习在大规模生产环境中优化系统的端到端开源平台。

5. 天授：最近了解的，应该比较新吧

清华大学人工智能研究院自研的深度强化学习算法平台，支持 TensorFlow 和 PyTorch。可以完整支持 PG、DQN、DDQN、A2C、DDPG、PPO、TD3、SAC 等主流强化学习算法。对比既有主流强化学习平台，大佬给出了天授的性能对比图：

技术图片

未来大佬团队将从三个维度拓展“天授”平台，算法层面将更加全面支持地支持主流强化学习算法（包括 model-based RL, imitation learning 等），任务层面将进一步支持包括 Atari、VizDoom 等复杂任务，性能层面将进一步提升平台在模型性能、训练速度、鲁棒性等方面的核心指标，更好的为学术界服务。

6. 其他

例如知乎有人提到的 tf-agents（与工业紧密连接）、tensorlayer、百度 PaddlePaddle 发布的 PARL 等，这里不再拓展。

四、图神经网络常用的开源框架和库

1. 四大图神经网络框架

deep graph library (DGL)：支持 pytorch、tensorflow
pytorch geometric (PyG)：基于 pytorch
ant graph machine learning system：蚂蚁金服团队推出的大规模图机器学习系统
tf_geometric：借鉴 pytorch geometric，创建了 tensorflow 版本

2. CogDL ：最近了解的，应该比较新吧

清华大学知识工程研究室推出了一个大规模图表示学习工具包 CogDL，可以让研究者和开发者更加方便地训练和对比用于节点分类、链路预测以及其他图任务的基准或定制模型。该工具包采用 PyTorch 实现，集成了Deepwalk、LINE、node2vec、GraRep、NetMF、NetSMF、ProNE 等非图神经网络和GCN、GAT、GraphSage、DrGCN、NSGCN、GraphSGAN 等图神经网络模型基准模型的实现。

与其他图表示学习工具包相比，CogDL 具有以下特点：

稀疏性：在具有数千万节点的大规模网络上实现快速网络嵌入。
任意性：能够处理属性化、多路和异构等不同图结构的网络。
并行处理：在多个 GPU 上实现不同种子和模型的并行训练并自动输出结果表格。
可扩展性：轻松添加新的数据集、模型和任务并在所有现有的模型/数据集上测试。

3. Graph-Learn（原 AliGraph ）：一个工业级的图神经网络平台

阿里巴巴提出的 AliGraph 涵盖了从原始图数据到 GNN 应用的整体链路。根据阿里巴巴的介绍：

系统层面：

数据种类：支持同构图、异构图、属性图，有向图、无向图，可方便与任意分布式文件系统对接。
数据规模：支持千亿级边、十亿级顶点的超大规模图（原始存储TB级）。
算子种类：支持几十种可与深度学习相结合的图查询、采样算子，支持向量检索，支持算子按需自定义。
性能指标：支持分钟级超大规模图构建，毫秒级多跳异构图采样，毫秒级大规模向量检索。
用户接口：纯 Python 接口，与 TensorFlow 构成一体化 IDE，开发成本相比一般TF模型无异。

算法层面：

已支持业界主流的 Graph Embedding 算法，包括：DeepWalk、Node2Vec、GraphSAGE、GATNE等。

4. 其他

图神经网络研究者和工业界在 Github 上开源了很多算法的具体实现及其框架，包括GCN、GAT、Graph Nets框架等，这里不再拓展。

五、知识图谱常用的开源框架和库

1. 开源的知识库

主要包括WikiData、DBPedia、WordNet、YAGO、ConceptGraph、BabelNet、CN-DBPeidia、OpenKG 等，这里不再拓展。

2. 开源的构建工具

斯坦福大学医学院生物信息研究中心提出的Protege是基于Java语言开发的本体编辑和知识获取软件。Protege提供本体概念类、关系、属性和实例的构建，不基于具体的本体描述语言，因此用户可以在概念层次上构建领域本体模型。除了Protege，还有其他应用于知识图谱构建的开源软件，而且完整的知识图谱构建还包括知识的存储、知识融合等。我想后续单独写一个专题来介绍知识图谱的构建问题，这里不再拓展。