最近项目需要改写jupyter notebook的内核,由于内功不够,英语过差,读文档真的是心痛,然后各种搜索找到了一篇不错的讲解。
转自:http://blog.just4fun.site/jupyter-notebook-architecture.html
在jupyter主页上,官方有对其做个简要说明:
The Jupyter Notebook is based on a set of open standards for interactive computing. Think HTML and CSS for interactive computing on the web. These open standards can be leveraged by third party developers to build customized applications with embedded interactive computing.
jupyter notebook基于若干开放标准,可以将其视为三个部分:
- Notebook Document Format : 基于JSON的开放文档格式,完整地记录用户的会话(sessions)和代码、说明性的文本、方程以及富文本输出
- Interactive Computing Protocol: 该协议用于连接Notebook和内核,基于JSON数据、ZMQ以及WebSockets
- The Kernel: 使用特定编程语言实际跑代码的地方,并将输出返回给用户。内核也返回tab键补全信息
架构图
上边提到的三个部分直接的关系如下
于是我们可以回答what happens when这类经典问题,当我们点击运行print("hello world")
时发生了什么
从上图我们可以看出发生了这样一些事:用户在浏览器里写代码,点击运行后,代码从浏览器发送给Web服务器(tornado),接着从Web服务器发送消息到Kernel(python)执行代码,在Kernel中执行代码产生的输出/错误会被发送给Web服务器,接着发往给浏览器,用户于是看到输出,这个过程说起来很绕,实际执行飞快无比
如果你对jupyter的生态有兴趣,那么下边这张架构图,能让你看出各个项目直接的关系,如果你只关心jupyter notebook,它也给出了更为细致的信息
如果你对通信过程很感兴趣,这一看下这张图(消息的传输用到了 ZeroMQ):
如果你对ZeroMQ有兴趣,可以看我之前的笔记消息队列中间件学习笔记
从途中我们可以看到主要利用了ZeroMQ的Publisher-Subscriber模式来做通信
回到我的项目上
对上边what happens when
的回答稍作修改,我们就能得到一个改良版的blocklu4pi的架构,而且这类架构几乎适用于任何的web IDE类型的项目。blockly正在流行,这套架构之后大有用武之地
修改后的通信流程为: 用户在浏览器里拖拽blockly积木块生成代码,点击运行后,代码从浏览器发送给Web服务器(tornado),接着从Web服务器发送消息到Kernel(python)执行代码,在Kernel中执行代码产生的输出/错误会被发送给Web服务器,接着发往给浏览器,用户于是看到输出
上述两个流程的区别仅在于产生代码的方式不同而已,jupyter是用户手写,而blockly是用积木生成,余下过程一!模!一!样!
交互式探索
为了对通信和调用过程有更细致的了解,我们可以在notebook里进行交互式探索, REPL优雅之处在于让我们方便地做实验与探索未知
这篇文章给了我们一个思路来观察Kernel是如何接收、运行和返回消息:
用户代码和Kernel在同一进程中执行,因此我们可以通过一些特殊的代码研究Kernel是如何接收、运行并返回消息的
作者接下来演示了如何通过
gc, threading, traceback, inspect查看了Kernel是如何接收和发送消息,以及如何运行用户代码的
非常有意思的一篇分析,不过因为时间过去较久,架构有些调整,所以我这边给出最新的交互数据
我的版本为
jupyter 4.3.0
ipython 5.2.2
notebook 4.4.1
下边是实验数据
Kernel中的Socket对象
通过gc模块的get_objects()遍历进程中所有的对象
mport gc
def get_objects(class_name):
return [o for o in gc.get_objects() if type(o).__name__ == class_name]
kapp = get_objects("IPKernelApp")[0] #<ipykernel.kernelapp.IPKernelApp at 0x108a22d10>
kapp.shell_socket, kapp.iopub_socket # (<zmq.sugar.socket.Socket at 0x108a8d328>, <ipykernel.iostream.BackgroundSocket at 0x108aa3850>)
IPKernelApp对象的shell_socket和iopub_socket分别用于接收命令和广播代码执行输出,对应于架构图部分表示通信过程的图中绿色和红色端口
在Notebook中执行用户输入的print
时,会经由iopub_socket将输出的内容传送给Web服务器,最终在Notebook界面中显示
我们知道python中,print语句实际上会调用sys.stdout完成输出工作
那么Kernel中的sys.stdout是什么对象
import sys
print sys.stdout #<ipykernel.iostream.OutStream object at 0x108a9cfd0>
print sys.stdout.pub_thread # <ipykernel.iostream.IOPubThread at 0x108aa32d0>
前头说到iopub_socket用于广播代码的输出,可以推测sys.stdout是一个对kapp.iopub_socket进行包装的OutStream对象(sys.stdout经由kapp.iopub_socket广播出来)
我们可以发现sys.stderr
和sys.stdout
是同个对象(内存地址完全相同)
Kernel中的线程
通过threading.enumerate()可以获得当前进程中的所有线程
import threading
threading.enumerate()
‘‘‘
[<_MainThread(MainThread, started 140736413283264)>,
<Thread(Thread-2, started daemon 123145475149824)>,
<HistorySavingThread(IPythonHistorySavingThread, started 123145485709312)>,
<Heartbeat(Thread-3, started daemon 123145479356416)>,
<ParentPollerUnix(Thread-1, started daemon 123145489915904)>]
‘‘‘
各个线程的功能为:
- 主线程(MainThread)接收来自前端的命令,执行用户代码,并输出代码的执行结果。
- HistorySaving线程用户将用户输入的历史保存到Sqlite数据库中
- Heartbeat线程用于定时向前端发送消息,用于检测心跳
- ParentPollerUnix线程,监视父进程,如果父进程退出,则保证Kernel进程也退出
用户代码的执行
通过在用户代码中执行traceback.print_stack()输出整个执行堆栈
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/runpy.py", line 162, in _run_module_as_main
"__main__", fname, loader, pkg_name)
File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/runpy.py", line 72, in _run_code
exec code in run_globals
File "/Users/wwj/env/lib/python2.7/site-packages/ipykernel/__main__.py", line 3, in <module>
app.launch_new_instance()
File "/Users/wwj/env/lib/python2.7/site-packages/traitlets/config/application.py", line 658, in launch_instance
app.start()
File "/Users/wwj/env/lib/python2.7/site-packages/ipykernel/kernelapp.py", line 474, in start
ioloop.IOLoop.instance().start()
File "/Users/wwj/env/lib/python2.7/site-packages/zmq/eventloop/ioloop.py", line 177, in start
super(ZMQIOLoop, self).start()
File "/Users/wwj/env/lib/python2.7/site-packages/tornado/ioloop.py", line 887, in start
handler_func(fd_obj, events)
File "/Users/wwj/env/lib/python2.7/site-packages/tornado/stack_context.py", line 275, in null_wrapper
return fn(*args, **kwargs)
File "/Users/wwj/env/lib/python2.7/site-packages/zmq/eventloop/zmqstream.py", line 440, in _handle_events
self._handle_recv()
File "/Users/wwj/env/lib/python2.7/site-packages/zmq/eventloop/zmqstream.py", line 472, in _handle_recv
self._run_callback(callback, msg)
File "/Users/wwj/env/lib/python2.7/site-packages/zmq/eventloop/zmqstream.py", line 414, in _run_callback
callback(*args, **kwargs)
File "/Users/wwj/env/lib/python2.7/site-packages/tornado/stack_context.py", line 275, in null_wrapper
return fn(*args, **kwargs)
File "/Users/wwj/env/lib/python2.7/site-packages/ipykernel/kernelbase.py", line 276, in dispatcher
return self.dispatch_shell(stream, msg)
File "/Users/wwj/env/lib/python2.7/site-packages/ipykernel/kernelbase.py", line 228, in dispatch_shell
handler(stream, idents, msg)
File "/Users/wwj/env/lib/python2.7/site-packages/ipykernel/kernelbase.py", line 390, in execute_request
user_expressions, allow_stdin)
File "/Users/wwj/env/lib/python2.7/site-packages/ipykernel/ipkernel.py", line 196, in do_execute
res = shell.run_cell(code, store_history=store_history, silent