NUMA

时间：2017-01-03 11:53:44 阅读：244 评论：0 收藏：0 [点我收藏+]

标签：png attach tail orm margin mod pad 控制 mapped

参考链接：http://blog.csdn.net/longxibendi/article/details/44625703

NUMA简介

这部分将简要介绍下NUMA架构的成因和具体原理，已经了解的读者可以直接跳到第二节。

为什么要有NUMA

在NUMA架构出现前，CPU欢快的朝着频率越来越高的方向发展。受到物理极限的挑战，又转为核数越来越多的方向发展。如果每个core的工作性质都是share-nothing（类似于map-reduce的node节点的作业属性），那么也许就不会有NUMA。由于所有CPU Core都是通过共享一个北桥来读取内存，随着核数如何的发展，北桥在响应时间上的性能瓶颈越来越明显。于是，聪明的硬件设计师们，先到了把内存控制器（原本北桥中读取内存的部分）也做个拆分，平分到了每个die上。于是NUMA就出现了！

NUMA是什么

NUMA中，虽然内存直接attach在CPU上，但是由于内存被平均分配在了各个die上。只有当CPU访问自身直接attach内存对应的物理地址时，才会有较短的响应时间（后称Local Access）。而如果需要访问其他CPU attach的内存的数据时，就需要通过inter-connect通道访问，响应时间就相比之前变慢了（后称Remote Access）。所以NUMA（Non-Uniform Memory Access）就此得名。

技术分享

我们需要为NUMA做什么

假设你是Linux教父Linus，对于NUMA架构你会做哪些优化？下面这点是显而易见的：

既然CPU只有在Local-Access时响应时间才能有保障，那么我们就尽量把该CPU所要的数据集中在他local的内存中就OK啦~

没错，事实上Linux识别到NUMA架构后，默认的内存分配方案就是：优先尝试在请求线程当前所处的CPU的Local内存上分配空间。如果local内存不足，优先淘汰local内存中无用的Page（Inactive，Unmapped）。
那么，问题来了。。。

大神解释的非常详尽，有兴趣的读者可以直接看原文。博主这里做一个简单的总结：

CPU规模因摩尔定律指数级发展，而总线发展缓慢，导致多核CPU通过一条总线共享内存成为瓶颈
于是NUMA出现了，CPU平均划分为若干个Chip（不多于4个），每个Chip有自己的内存控制器及内存插槽
CPU访问自己Chip上所插的内存时速度快，而访问其他CPU所关联的内存（下文称Remote Access）的速度相较慢三倍左右
于是Linux内核默认使用CPU亲和的内存分配策略，使内存页尽可能的和调用线程处在同一个Core/Chip中
由于内存页没有动态调整策略，使得大部分内存页都集中在CPU 0上
又因为Reclaim默认策略优先淘汰/Swap本Chip上的内存，使得大量有用内存被换出
当被换出页被访问时问题就以数据库响应时间飙高甚至阻塞的形式出现了

技术分享

1. NUMA的几个概念（Node，socket，core，thread）

参考链接 http://blog.csdn.net/ustc_dylan/article/details/45667227

对于socket，core和thread会有不少文章介绍，这里简单说一下，具体参见下图：

技术分享

一句话总结：socket就是主板上的CPU插槽; Core就是socket里独立的一组程序执行的硬件单元，比如寄存器，计算单元等; Thread：就是超线程hyperthread的概念，逻辑的执行单元，独立的执行上下文，但是共享core内的寄存器和计算单元。

NUMA体系结构中多了Node的概念，这个概念其实是用来解决core的分组的问题，具体参见下图来理解（图中的OS CPU可以理解thread，那么core就没有在图中画出），从图中可以看出每个Socket里有两个node，共有4个socket，每个socket 2个node，每个node中有8个thread，总共4（Socket）× 2（Node）× 8 （4core × 2 Thread） = 64个thread。

另外每个node有自己的内部CPU，总线和内存，同时还可以访问其他node内的内存，NUMA的最大的优势就是可以方便的增加CPU的数量，因为Node内有自己内部总线，所以增加CPU数量可以通过增加Node的数目来实现，如果单纯的增加CPU的数量，会对总线造成很大的压力，所以UMA结构不可能支持很多的核。

根据上面提到的，由于每个node内部有自己的CPU总线和内存，所以如果一个虚拟机的vCPU跨不同的Node的话，就会导致一个node中的CPU去访问另外一个node中的内存的情况，这就导致内存访问延迟的增加。在有些特殊场景下，比如NFV环境中，对性能有比较高的要求，就非常需要同一个虚拟机的vCPU尽量被分配到同一个Node中的pCPU上.

    dylan@hp3000:~$ lscpu   
    Architecture:          x86_64  
    CPU op-mode(s):        32-bit, 64-bit  
    Byte Order:            Little Endian  
    CPU(s):                48                              //共有48个逻辑CPU（threads）  
    On-line CPU(s) list:   0-47  
    Thread(s) per core:    2                               //每个core有2个threads  
    Core(s) per socket:    6                               //每个socket有6个cores  
    Socket(s):             4                               //共有4个sockets  
    NUMA node(s):          4                               //共有4个NUMA nodes  
    Vendor ID:             GenuineIntel  
    CPU family:            6  
    Model:                 45  
    Stepping:              7  
    CPU MHz:               1200.000  
    BogoMIPS:              4790.83  
    Virtualization:        VT-x  
    L1d cache:             32K                            //L1 data cache 32k  
    L1i cache:             32K                            //L1 instruction cache 32k  （牛x机器表现，冯诺依曼+哈弗体系结构）  
    L2 cache:              256K  
    L3 cache:              15360K  
    NUMA node0 CPU(s):     0-5,24-29        
    NUMA node1 CPU(s):     6-11,30-35  
    NUMA node2 CPU(s):     12-17,36-41  
    NUMA node3 CPU(s):     18-23,42-47

可以看出当前机器有4个sockets，每个sockets包含1个numa node，每个numa node中有6个cores，每个cores包含2个thread，所以总的threads数量=4（sockets）×1（node）×6（cores）×2（threads）=48

null

附件列表

NUMA

标签：png attach tail orm margin mod pad 控制 mapped

原文地址：http://www.cnblogs.com/yml435/p/6244048.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行