MySQL备份与恢复-mydumper

时间：2018-12-29 21:08:57 阅读：314 评论：0 收藏：0 [点我收藏+]

上一片博文中，我们说明了mysqldump的备份与恢复。因为mysqldump是单线程导出，单线程恢复的，因此备份与恢复的时间比较长！

首先来安装mydumper：

下载源码：https://github.com/maxbube/mydumper

安装：

１解压
unzip mydumper-master
2:安装依赖包
yum install glib2-devel mysql-devel zlib-devel pcre-devel zlib gcc-c++ gcc cmake -y
3：编译安装
cd mydumper-master
cmake  .
make
make install
[root@test3 mydumper-master]# make install
[ 62%] Built target mydumper
[100%] Built target myloader
Install the project...
-- Install configuration: ""
-- Installing: /usr/local/bin/mydumper
-- Removed runtime path from "/usr/local/bin/mydumper"
-- Installing: /usr/local/bin/myloader
-- Removed runtime path from "/usr/local/bin/myloader"

博文参考地址： http://www.ywnds.com/?p=7267

mydumper&myloader是用于对MySQL数据库进行多线程备份和恢复的开源 (GNU GPLv3)工具。开发人员主要来自MySQL、Facebook和SkySQL公司，目前由Percona公司开发和维护，是Percona Remote DBA项目的重要组成部分，包含在Percona XtraDB Cluster中。

mydumper的特点：

1：C语言写的，轻量级。

2：多线程备份，执行速度比mysqldump快N倍，并支持行级chunk备份。

3：事务性和非事务性表一致的快照（适用于0.2.2以上版本）。

4：快速的文件压缩。

5：支持导出binlog。

6：多线程恢复（适用于0.2.1以上版本）。

7：以守护进程的工作方式，定时快照和连续二进制日志（适用于0.5.0以上版本）。

8：支持从库备份时记录主库的position，且不需要关闭slave sql线程（mysqldump需要关闭sql线程）；并且支持同时记录主从position（mysqldump不支持）。

9：开源 (GNU GPLv3)。

多线程导出原理：

mydumper原理与mysqldump原理类似，最大的区别是引入了多线程备份，每个备份线程备份一部分表，当然并发粒度可以到行级，达到多线程备份的目的。这里要解决最大一个问题是，如何保证备份的一致性，其实关键还是在于FTWRL。对于非Innodb表，在释放锁之前，需要将表备份完成。对于Innodb表，需要确保多个线程都能拿到一致性位点，这个动作同样要在持有全局锁期间完成，因为此时数据库没有读写，可以保证位点一致。所以基本流程如下：先备份no-innodb表数据在备份innodb数据。

在MySQL 5.7版本中，官方发布了一种新的备份工具mysqlpump，也是多线程的，其实现方式给人耳目一新的感觉，但遗憾的是其仍为表级别的并行且不支持position点的记录。而mydumper能够实现记录级别的并行备份，其备份框架由主线程和多个工作线程组成，备份流程可见下图：

技术分享图片

主线程负责建立数据一致性备份点、初始化工作线程和为工作线程推送备份任务：

对备份实例加读锁，阻塞写操作以建立一致性数据备份快照点，记录备份点BinLog信息；
创建工作线程，初始化备份任务队列，并向队列中推送数据库元数据（schema）、非InnoDB表和InnoDB表的备份任务；

工作线程负责将备份任务队列中的任务按顺序取出并完成备份：

分别建立与备份实例连接，将session的事务级别设置为repeatable-read，用于实现可重复读；
在主线程仍持有全局读锁时开启事务进行快照读，这样保证了读到的一致性数据与主线程相同，实现了备份数据的一致性；
按序从备份任务队列中取出备份任务，工作线程先进行MyISAM等非InnoDB表备份，再完成InnoDB表备份；这样可以在完成非InnoDB表备份通知后主线程释放读锁，尽可能减小对备份实例业务的影响；

mydumper的记录级备份由主线程负责任务拆分，由多个工作线程完成。主线程通过将表数据拆分为多个chunk，每个chunk作为一个备份任务。表数据拆分方式如下所述：mydumper优先选择主键索引的第一列作为chunk划分字段，若不存在主键索引，则选择第一个唯一索引作为划分依据，若还不存在，则选择区分度（Cardinality）最高的任意索引。如果还是无法满足，则只能进行表级的并行备份。在确定了chunk划分字段后，先获取该字段的最大和最小值，再通过执行“explain select field from db.table”来估计该表的记录数，最后根据所设的每个任务（文件）记录数来将该表划分为多个chunk。如下图所示：

技术分享图片

以上描述可知，mydumper并不能保证记录级备份时，每个备份任务中的记录数是相同的。另外，目前记录级备份存在一个bug：所用索引字段为负数时主线程会进入死循环无法退出，导致备份失败。

与mysqldump另一个不同是， mydumper为每个备份任务建立至少一个备份文件。在0.9.1版本中，文件类型包括schema-create、schema、schema-post文件等表元数据文件分别用保存建数据库语句、建表语句（包括触发器）、函数/存储过程/事件定义语句等；数据文件可以根据用户设置为固定大小或固定记录数的文件。这样便以进行更细粒度的数据恢复和数据删除，比如可以在myloader的时候仅选择某几个数据库/表进行恢复。

网易对mydumper的改进

mydumper是一款优秀的备份工具，但也存在不足，包括多线程导出数据对实例业务的影响、逻辑备份方式对热点数据污染和持锁时对业务的阻塞等。网易RDS在mydumper实践中对其进行了多方面的优化。

多线程备份固然好，但在进行备份时往往数据库还在正常提供对外服务，多线程全表select数据会占用很大部分的系统IO能力，导致正常的业务IO性能下降，严重时甚至会使数据库连接爆掉。通过为mydumper增加负载自适应能力来最大限度缓解对线上业务影响：工作线程在每次数据导出前，都会首先观察实例的当前负载情况，举MySQL状态Thread_connected为例，其反映的是目前已连接到该实例的请求数，如果该数值大于设定的阈值，则本次导出操作会暂停，直到数值小于阈值才会恢复，这样就起到了根据实例业务负载情况，灵活调整用于数据导出的线程数来适应线上业务负载的作用。

逻辑备份的全表select不可避免会污染InnoDB Buffer Pool的热点数据，缓存的热点数据被换出，降低了命中率的同时增大了业务的IO量，在使用mydumper时应尽量减小对Buffer Pool的影响；通过调整Buffer Pool的热点算法，使得热点数据尽可能不被换出。修改innodb_old_blocks_time和innodb_old_blocks_pct，用于将全表select进入Buffer Pool放在其old sublist中，同时减小old sublist块在Buffer Pool中的比例，起到最小化污染的作用。

在进行数据备份时，由于MyISAM表是非事务的，为了得到一致性的数据，导出MyISAM表需要全程持有读锁。在通常的MySQL实例中，MyISAM表数据都是很少的，所以持锁时间很短，但若有实例存在大量的MyISAM表数据，那么就会因持锁时间过长对业务的数据更新和插入造成影响。通过为mydumper增加持锁超时时间来避免该问题，所在数据备份过程中，持锁时间超过所设置时间，则mydumper返回失败，通过将MyISAM表转化为InnoDB表后再开始导出。

此外，在对大数据量数据库进行备份时，往往需要耗费较长时间，如果能够实时了解备份进度，相信是一个很好的体验，为此，给mydumper增加了进度查询功能，能够查询mydumper所需执行的所有备份任务数、当前已经完成的备份任务数及每个备份任务所花费时间。

备份工具的使用：

$ mydumper  --help
Usage:
  mydumper [OPTION...] multi-threaded MySQL dumping
 
Help Options:
  -?, --help                  Show help options
 
Application Options:
  -B, --database              #需要备份的数据库，一个数据库一条命令备份，要不就是备份所有数据库，包括mysql.
  -T, --tables-list           #需要备份的表，用逗号分隔.
  -o, --outputdir             #备份文件目录.
  -s, --statement-size        #生成插入语句的字节数，默认1000000，这个参数不能太小，不然会报Row bigger than statement_size for tools.t_serverinfo.
  -r, --rows                  #试图用行块来分割表，该参数关闭--chunk-filesize.
  -F, --chunk-filesize        #行块分割表的文件大小，单位是MB.
  -c, --compress              #压缩输出文件.
  -e, --build-empty-files     #即使表没有数据，也产生一个空文件.
  -x, --regex                 #正则表达式匹配，如‘db.table‘.
  -i, --ignore-engines        #忽略的存储引擎，用逗号分隔.
  -m, --no-schemas            #不导出表结构.
  -d, --no-data               #不导出表数据.
  -G, --triggers              #导出触发器.
  -E, --events                #导出事件.
  -R, --routines              #导出存储过程.
  -k, --no-locks              #不执行共享读锁,警告：这将导致不一致的备份.
  --less-locking              #减到最小的锁在innodb表上.
  -l, --long-query-guard      #设置长查询时间,默认60秒，超过该时间则会报错：There are queries in PROCESSLIST running longer than 60s, aborting dump.
  -K, --kill-long-queries     #kill掉长时间执行的查询，备份报错：Lock wait timeout exceeded; try restarting transaction.
  -D, --daemon                #启用守护进程模式.
  -I, --snapshot-interval     #dump快照间隔时间，默认60s，需要在daemon模式下.
  -L, --logfile               #使用日志文件，默认标准输出到终端.
  --tz-utc                    #备份的时候允许备份Timestamp，这样会导致不同时区的备份还原会出问题，默认关闭，参数：--skip-tz-utc to disable.
  --skip-tz-utc               
  --use-savepoints            #使用保存点记录元数据的锁信息，需要SUPER权限.
  --success-on-1146           #Not increment error count and Warning instead of Critical in case of table doesn‘t exist.
  --lock-all-tables           #锁全表，代替FLUSH TABLE WITH READ LOCK.
  -U, --updated-since         #Use Update_time to dump only tables updated in the last U days.
  --trx-consistency-only      #Transactional consistency only.
  -h, --host                  #The host to connect to.
  -u, --user                  #Username with privileges to run the dump.
  -p, --password              #User password.
  -P, --port                  #TCP/IP port to connect to.
  -S, --socket                #UNIX domain socket file to use for connection.
  -t, --threads               #备份执行的线程数,默认4个线程.
  -C, --compress-protocol     #在mysql连接上使用压缩协议.
  -V, --version               #Show the program version and exit.
  -v, --verbose               #更多输出, 0 = silent, 1 = errors, 2 = warnings, 3 = info, default 2.

mydumper参数说明

myloader --help
Usage:
  myloader [OPTION...] multi-threaded MySQL loader
 
Help Options:
  -?, --help                        Show help options
 
Application Options:
  -d, --directory                   #备份文件所在的目录.
  -q, --queries-per-transaction     #每个事务的query数量, 默认1000.
  -o, --overwrite-tables            #如果表存在则先删除，使用该参数，需要备份时候要备份表结构，不然还原会找不到表.
  -B, --database                    #指定需要还原的数据库.
  -s, --source-db                   #还原的数据库.
  -e, --enable-binlog               #启用二进制日志恢复数据.
  -h, --host                        #The host to connect to.
  -u, --user                        #Username with privileges to run the dump.
  -p, --password                    #User password.
  -P, --port                        #TCP/IP port to connect to.
  -S, --socket                      #UNIX domain socket file to use for connection.
  -t, --threads                     #使用的线程数量，默认4.
  -C, --compress-protocol           #连接上使用压缩协议.
  -V, --version                     #Show the program version and exit.
  -v, --verbose                     #更多输出, 0 = silent, 1 = errors, 2 = warnings, 3 = info, default 2.

myloader参数说明

备份实例如下：

[root@test3 ~]# mydumper -u root -p 123456 -B employees -c -t 5 -l 300 -s 10000000 -o backup

#备份的库时MySQL官方给出的测试库，员工库大概有30万条数据，备份确实蛮快的。

因为之前已经开启了general log日志，因此我们来看一下general的记录！

2018-11-28T07:40:24.379010Z       38 Connect    root@localhost on employees using Socket
2018-11-28T07:40:24.379281Z       38 Query    SET SESSION wait_timeout = 2147483
2018-11-28T07:40:24.379403Z       38 Query    SET SESSION net_write_timeout = 2147483
2018-11-28T07:40:24.379513Z       38 Query    SHOW PROCESSLIST
2018-11-28T07:40:24.379718Z       38 Query    FLUSH TABLES WITH READ LOCK
2018-11-28T07:40:24.380340Z       38 Query    START TRANSACTION /*!40108 WITH CONSISTENT SNAPSHOT */
2018-11-28T07:40:24.380460Z       38 Query    /*!40101 SET NAMES binary*/
2018-11-28T07:40:24.380529Z       38 Query    SHOW MASTER STATUS
2018-11-28T07:40:24.380647Z       38 Query    SHOW SLAVE STATUS
2018-11-28T07:40:24.381204Z       39 Connect    root@localhost on  using Socket
2018-11-28T07:40:24.381289Z       39 Query    SET SESSION wait_timeout = 2147483
2018-11-28T07:40:24.381376Z       39 Query    SET SESSION TRANSACTION ISOLATION LEVEL REPEATABLE READ
2018-11-28T07:40:24.381417Z       39 Query    START TRANSACTION /*!40108 WITH CONSISTENT SNAPSHOT */
2018-11-28T07:40:24.381484Z       39 Query    /*!40103 SET TIME_ZONE=‘+00:00‘ */
2018-11-28T07:40:24.381568Z       39 Query    /*!40101 SET NAMES binary*/
2018-11-28T07:40:24.381956Z       40 Connect    root@localhost on  using Socket
2018-11-28T07:40:24.382055Z       40 Query    SET SESSION wait_timeout = 2147483
2018-11-28T07:40:24.382122Z       40 Query    SET SESSION TRANSACTION ISOLATION LEVEL REPEATABLE READ
2018-11-28T07:40:24.382161Z       40 Query    START TRANSACTION /*!40108 WITH CONSISTENT SNAPSHOT */
2018-11-28T07:40:24.382213Z       40 Query    /*!40103 SET TIME_ZONE=‘+00:00‘ */
2018-11-28T07:40:24.382263Z       40 Query    /*!40101 SET NAMES binary*/
2018-11-28T07:40:24.382864Z       41 Connect    root@localhost on  using Socket
2018-11-28T07:40:24.382948Z       41 Query    SET SESSION wait_timeout = 2147483
2018-11-28T07:40:24.383001Z       41 Query    SET SESSION TRANSACTION ISOLATION LEVEL REPEATABLE READ
2018-11-28T07:40:24.383049Z       41 Query    START TRANSACTION /*!40108 WITH CONSISTENT SNAPSHOT */
2018-11-28T07:40:24.383102Z       41 Query    /*!40103 SET TIME_ZONE=‘+00:00‘ */
2018-11-28T07:40:24.383163Z       41 Query    /*!40101 SET NAMES binary*/
2018-11-28T07:40:24.383607Z       42 Connect    root@localhost on  using Socket
2018-11-28T07:40:24.383682Z       42 Query    SET SESSION wait_timeout = 2147483
2018-11-28T07:40:24.383750Z       42 Query    SET SESSION TRANSACTION ISOLATION LEVEL REPEATABLE READ
2018-11-28T07:40:24.383810Z       42 Query    START TRANSACTION /*!40108 WITH CONSISTENT SNAPSHOT */
2018-11-28T07:40:24.383871Z       42 Query    /*!40103 SET TIME_ZONE=‘+00:00‘ */
2018-11-28T07:40:24.383932Z       42 Query    /*!40101 SET NAMES binary*/
2018-11-28T07:40:24.384357Z       43 Connect    root@localhost on  using Socket
2018-11-28T07:40:24.384431Z       43 Query    SET SESSION wait_timeout = 2147483
2018-11-28T07:40:24.384502Z       43 Query    SET SESSION TRANSACTION ISOLATION LEVEL REPEATABLE READ
2018-11-28T07:40:24.384563Z       43 Query    START TRANSACTION /*!40108 WITH CONSISTENT SNAPSHOT */
2018-11-28T07:40:24.384625Z       43 Query    /*!40103 SET TIME_ZONE=‘+00:00‘ */
2018-11-28T07:40:24.384691Z       43 Query    /*!40101 SET NAMES binary*/
2018-11-28T07:40:24.384823Z       38 Init DB    employees
2018-11-28T07:40:24.384887Z       38 Query    SHOW TABLE STATUS
2018-11-28T07:40:24.387205Z       38 Query    SHOW CREATE DATABASE `employees`
2018-11-28T07:40:24.387556Z       38 Query    UNLOCK TABLES /* FTWRL */
2018-11-28T07:40:24.387601Z       38 Quit    
2018-11-28T07:40:24.387668Z       41 Query    select COLUMN_NAME from information_schema.COLUMNS where TABLE_SCHEMA=‘employees‘ and TABLE_NAME=‘departments‘ and extra like ‘%GENERATED%‘
2018-11-28T07:40:24.388306Z       41 Query    SELECT /*!40001 SQL_NO_CACHE */ * FROM `employees`.`departments`
2018-11-28T07:40:24.388730Z       40 Query    select COLUMN_NAME from information_schema.COLUMNS where TABLE_SCHEMA=‘employees‘ and TABLE_NAME=‘dept_manager‘ and extra like ‘%GENERATED%‘
2018-11-28T07:40:24.389322Z       39 Query    select COLUMN_NAME from information_schema.COLUMNS where TABLE_SCHEMA=‘employees‘ and TABLE_NAME=‘dept_emp‘ and extra like ‘%GENERATED%‘
2018-11-28T07:40:24.389691Z       40 Query    SELECT /*!40001 SQL_NO_CACHE */ * FROM `employees`.`dept_manager`
2018-11-28T07:40:24.389902Z       41 Query    select COLUMN_NAME from information_schema.COLUMNS where TABLE_SCHEMA=‘employees‘ and TABLE_NAME=‘test1‘ and extra like ‘%GENERATED%‘
2018-11-28T07:40:24.390335Z       39 Query    SELECT /*!40001 SQL_NO_CACHE */ * FROM `employees`.`dept_emp`
2018-11-28T07:40:24.390442Z       43 Query    select COLUMN_NAME from information_schema.COLUMNS where TABLE_SCHEMA=‘employees‘ and TABLE_NAME=‘employees‘ and extra like ‘%GENERATED%‘
2018-11-28T07:40:24.392348Z       41 Query    SELECT /*!40001 SQL_NO_CACHE */ * FROM `employees`.`test1`
2018-11-28T07:40:24.392785Z       41 Query    select COLUMN_NAME from information_schema.COLUMNS where TABLE_SCHEMA=‘employees‘ and TABLE_NAME=‘test3‘ and extra like ‘%GENERATED%‘
2018-11-28T07:40:24.393125Z       41 Query    SELECT /*!40001 SQL_NO_CACHE */ * FROM `employees`.`test3`
2018-11-28T07:40:24.392740Z       43 Query    SELECT /*!40001 SQL_NO_CACHE */ * FROM `employees`.`employees`
2018-11-28T07:40:24.393450Z       41 Query    select COLUMN_NAME from information_schema.COLUMNS where TABLE_SCHEMA=‘employees‘ and TABLE_NAME=‘titles‘ and extra like ‘%GENERATED%‘
2018-11-28T07:40:24.393871Z       42 Query    select COLUMN_NAME from information_schema.COLUMNS where TABLE_SCHEMA=‘employees‘ and TABLE_NAME=‘salaries‘ and extra like ‘%GENERATED%‘
2018-11-28T07:40:24.393926Z       40 Query    select COLUMN_NAME from information_schema.COLUMNS where TABLE_SCHEMA=‘employees‘ and TABLE_NAME=‘test2‘ and extra like ‘%GENERATED%‘
2018-11-28T07:40:24.394142Z       41 Query    SELECT /*!40001 SQL_NO_CACHE */ * FROM `employees`.`titles`
2018-11-28T07:40:24.394276Z       42 Query    SELECT /*!40001 SQL_NO_CACHE */ * FROM `employees`.`salaries`
2018-11-28T07:40:24.395416Z       40 Query    SELECT /*!40001 SQL_NO_CACHE */ * FROM `employees`.`test2`
2018-11-28T07:40:24.395663Z       40 Query    SHOW CREATE TABLE `employees`.`departments`
2018-11-28T07:40:24.395918Z       40 Query    SHOW CREATE TABLE `employees`.`dept_emp`
2018-11-28T07:40:24.396169Z       40 Query    SHOW CREATE TABLE `employees`.`dept_manager`
2018-11-28T07:40:24.396391Z       40 Query    SHOW CREATE TABLE `employees`.`employees`
2018-11-28T07:40:24.396621Z       40 Query    SHOW CREATE TABLE `employees`.`salaries`
2018-11-28T07:40:24.396874Z       40 Query    SHOW CREATE TABLE `employees`.`test1`
2018-11-28T07:40:24.397103Z       40 Query    SHOW CREATE TABLE `employees`.`test2`
2018-11-28T07:40:24.397314Z       40 Query    SHOW CREATE TABLE `employees`.`test3`
2018-11-28T07:40:24.397518Z       40 Query    SHOW CREATE TABLE `employees`.`titles`
2018-11-28T07:40:24.397700Z       40 Init DB    employees
2018-11-28T07:40:24.400045Z       40 Query    SHOW FIELDS FROM `employees`.`current_dept_emp`
2018-11-28T07:40:24.400717Z       40 Query    SHOW CREATE VIEW `employees`.`current_dept_emp`
2018-11-28T07:40:24.404682Z       40 Init DB    employees
2018-11-28T07:40:24.405962Z       40 Query    SHOW FIELDS FROM `employees`.`dept_emp_latest_date`
2018-11-28T07:40:24.406279Z       40 Query    SHOW CREATE VIEW `employees`.`dept_emp_latest_date`
2018-11-28T07:40:24.406574Z       40 Quit    
2018-11-28T07:40:25.541960Z       39 Quit    
2018-11-28T07:40:26.073962Z       41 Quit    
2018-11-28T07:40:26.162078Z       43 Quit    
2018-11-28T07:40:34.942780Z       42 Quit

可以看到备份使用了5个线程！查看备份之后的备份文件如下：

[root@test3 ~]# cd backup/
[root@test3 backup]# ls
employees.current_dept_emp-schema.sql.gz           employees.dept_emp-schema.sql.gz      employees.salaries-schema.sql.gz  employees.titles-schema.sql.gz
employees.current_dept_emp-schema-view.sql.gz      employees.dept_emp.sql.gz             employees.salaries.sql.gz         employees.titles.sql.gz
employees.departments-schema.sql.gz                employees.dept_manager-schema.sql.gz  employees-schema-create.sql.gz    metadata
employees.departments.sql.gz                       employees.dept_manager.sql.gz         employees.test1-schema.sql.gz
employees.dept_emp_latest_date-schema.sql.gz       employees.employees-schema.sql.gz     employees.test2-schema.sql.gz
employees.dept_emp_latest_date-schema-view.sql.gz  employees.employees.sql.gz            employees.test3-schema.sql.gz

[root@test3 backup]# cat metadata             #查看元信息
Started dump at: 2018-11-28 15:50:18          #备份开始时间
SHOW MASTER STATUS:                           #备份时候，日志的位置
    Log: test3-bin.000001
    Pos: 21126
    GTID:                                    #因为没有开启gtid，因此gtid为空

Finished dump at: 2018-11-28 15:50:29        #备份结束时间

元数据信息：元数据记录备份开始和结束时间，以及master binlog position点（默认记录），如果在slave上备份默认会记录master binlog position及
slave binlog position点，并且不会关闭SQL线程，这个很友好，比mysqldump及mysqlpump都强。

mydumper把数据和表结构分开备份，并且把二进制日志备份出来单独放到一个文件中。

从上面的备份文件可以看到，每个表一个文件，表数据存在单独的文件中！

注意文件的命名规则：DB.TABLE.sql.gz 或者 DB.TABLE-schema.sql.gz

恢复的时候，也是多线程进行恢复的！

需要先创建恢复的数据库

MySQL备份与恢复-mydumper

标签：不一致初始化 mysql 5.7 解压表结构灵活轻量级数据一致性索引

原文地址：https://www.cnblogs.com/wxzhe/p/10032428.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行