Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
SlideShare a Scribd company logo
重点 目中期项 汇报
1
大数据 境下存 技 展环 储 术发 对
数据管理研究的影响
李战怀
西北工 大学业
算机学院计 2015.7.19
重点 目中期项 汇报
2
提 纲提 纲
引言
新型存 及存 的演化储 储层级
面向不同存 的数据管理架储层级 构
架 化 技 展的影构变 对 术发 响
总结
重点 目中期项 汇报
3
• 数据 理是推 算机技 展的核心技 之一处 动计 术发 术
• 作 数据 理的底 支 ,存 介 的更新和相 存 技为 处 层 撑 储 质 关 储
的 展是推 数据管理技 革和 展的主要 力术 发 动 术变 发 驱动
存 介 的 展推 数据管理技储 质 发 动 术
重点 目中期项 汇报
4
提 纲提 纲
引言
新型存 及存 的演化储 储层级
总结
面向不同存 的数据管理架储层级 构
架 化 技 展的影构变 对 术发 响
重点 目中期项 汇报
5
• 存 的演化传统 储设备 ( go away or on the stage )
纸带 -
1857
穿孔卡 -1884
HDD-1956/1973 ROM-1970s
软盘 -1971
Flash-1984光盘 -1978
RAM-1970s
存 器件的演化传统 储
重点 目中期项 汇报
6
新型存 器件的 展储 发
• 算机系 性能依 于计 统 赖
– 理器的数据 算能力处 计
– 存 次向 理器 数据的能力储层 处 传输
• 随着多  核、多 程技 的 展, 存 器件 成的众 线 术 发 传统 储 构
存 次面 的储层 临 存储墙 愈 重问题 发严
– 理 元(核)数的 与存 数据供 能力(容量)不匹配处 单 增长 储 应
– SRAMDRAM 的静 功耗 高态 过
– 路限制了存 容量的 加并引 更多的功耗纠错电 储 增 发
• 新型存 器件储 包括: 存、相 存 器、磁阻式存 、闪 变 储 储 电
阻式存 器、 阻器等等。具 一个共同特点:储 忆 备 非易失性
– 点:高存 密度、低静 功耗、 粒子及射 撞 生的优 储 态 对 线 击产 软错误
具有抵抗能力等
– 缺点: 写性能不 称、 写次数有限、可靠性不高等读 对 读
Graph from “ 基于新型非易失存 的存 ”储 储结构 , CCF 学会通讯 2014
重点 目中期项 汇报
7
• 存的工 化程度最高闪 业
– SSD ( solid state drive )
– 存芯片闪 + 控制器 +FTL ( WL, LBA-PBA, GC )
• ( NAND ) 存的特点闪
– 写不 称:写操作需通 加 方式读 对 过 压 对 cell 行 子填充进 电
– 写前擦除: 位更新、 擦除操作异 块
– 寿命有限: 擦除次数有限块
• SLC (约 10 万次擦写)
• MLC (小于 1 万次)
• TLC (小于 1000 次)
新型存 器件储 - 存闪
重点 目中期项 汇报
8
Spin-torque
MRAM
Phase change memory
Memristor
• PCM (Phase-change memory) :
相 ,工 化,最具潜力变 业
• FeRAM (Ferroelectric RAM) :铁
式,工 化,可 展性差电 业 扩
• MRAM (Magnetic RAM) :磁阻
式,工 化,可 展性差业 扩
– STT-RAM (Spin-torque transfer
Random Access Memory)
• RRAM (Resistive RAM) : 阻式电
, 室原型实验
• Memristor/Solid Electrolyte :忆
阻器,智能,具有学 能力习
新型存 器件储 - 其他
FeRAM
重点 目中期项 汇报
9
Comparison of Technologies
  DRAM PCM NAND  Flash
Page size
Page read latency
Page write latency
Write bandwidth
Erase latency
64B
20-50ns
20-50ns
GB/s∼
per die
N/A
64B
50ns∼
1 µs∼
50-100 MB/s
per die
N/A
4KB
25 µs∼
500 µs∼
5-40 MB/s
per die
2 ms∼
Endurance ∞ 106
− 108
104
− 105
Read energy
Write energy
Idle power
0.8 J/GB
1.2 J/GB
100 mW/GB∼
1 J/GB
6 J/GB
1 mW/GB∼
1.5 J/GB [28]
17.5 J/GB [28]
1–10 mW/GB
Density 1× 2 − 4× 4×
• Compared to NAND Flash, PCM is byte-addressable, has orders 
of magnitude lower latency and higher endurance.
Sources: [Doller’09] [Lee et al. ’09] [Qureshi et al.’09]
部分性能指 比标对 -I
重点 目中期项 汇报
10
Comparison of Technologies
  DRAM PCM NAND  Flash
Page size
Page read latency
Page write latency
Write bandwidth
Erase latency
64B
20-50ns
20-50ns
GB/s∼
per die
N/A
64B
50ns∼
1 µs∼
50-100 MB/s
per die
N/A
4KB
25 µs∼
500 µs∼
5-40 MB/s
per die
2 ms∼
Endurance ∞ 106
− 108
104
− 105
Read energy
Write energy
Idle power
0.8 J/GB
1.2 J/GB
100 mW/GB∼
1 J/GB
6 J/GB
1 mW/GB∼
1.5 J/GB [28]
17.5 J/GB [28]
1–10 mW/GB
Density 1× 2 − 4× 4×
• Compared to DRAM, PCM has better density and scalability; 
PCM has similar read latency but longer write latency
Sources: [Doller’09] [Lee et al. ’09] [Qureshi et al.’09]
部分性能指 比标对 -
II
重点 目中期项 汇报
11
新型存 器件储 - 写延读 迟 & 性价
比
• 需要思考和解决的问题
– 如何利用新型存 的特性来 化或者重新架 当前的存 次?储 优 构 储层
– 能否 合存 器件的特性以及存 次, 上 用(特 是结 储 储层 设计 层应 别
数据管理系 ) 避短统 实现扬长
重点 目中期项 汇报
12
提 纲提 纲
引言
新型存 及存储 储层级
总结
面向不同存 的数据管理架储层级 构
架 化 技 展的影构变 对 术发 响
重点 目中期项 汇报
13
• 数据 系 会涉及不同 次的存 器,特 是 支持库 统总 层 储 别 为
事 的务 ACID 属性,数据持久化是必 的,因此 于须 对 非
易失的存储存在需求。
• IO 始 是制 数据 性能的主要瓶 , 于支持可终 约 库 颈 对 高
速随机 写的存读 储存在需求。
• 数据 就是 了解决“大数据” ,因此不断增 的数库 为 问题 长
据 模规 对大容量的存储存在需求。
• 用廉价磁 列(集群)取代更大的磁 , 致数据盘阵 盘 导 库
系统对高可靠的存储存在需求。
• 不同的 写 模式,数据价 不同,使数据读 访问 值 库对多级
(混合)存储存在需求。
数据管理系 存 的内在要统对 储
求
重点 目中期项 汇报
14
• 数据 都是架 在目库 构 标存储层级( storage
hierarchy )上的
数据 架 与存库 构 储层级
算机 存 系 的基本要求:计 对 储 统
低延 、高容量、价格成本低迟
重点 目中期项 汇报
15
• 数据 都是架 在目库 构 标存储层级( storage
hierarchy )上的
• 依据主存 介 的不同,将数据 架 分储 质 库 构 为
– Disk-oriented
– Memory-oriented
– NVM-oriented
数据 架 与存库 构 储层级
重点 目中期项 汇报
16
• 的 系数据 都是架传统 关 库 构 two-tier 存储层级上的
– 低速、非易失、高容量的 HDD 作 主存 介为 储 质
– 高速、易失、低容量的 DRAM 作为 Cache
• 由于 disk 存 特性而引入的储 IO 延时是影 数据 性能响 库
的主要瓶 之一颈
• disk-oriented 数据管理系 普遍采用如:统 Buffer pool
或者 的并 控制,复杂 发 来 解缓 disk 致的导 IO 延迟
disk-oriented 架构
SRAM
DRAM
HDDHDD 主存 介储 质
cache
重点 目中期项 汇报
17
• [SIGMOD 08] : OLTP through the looking glass, and what we
found there
• 果 示,测试结 显 传统 disk-oriented 数据库只有约 12% 的 CPU 时间
用于 理事实际处 务,其它 都时间 “浪费”在 存池管理、并 控制缓 发
和基于日志的事 恢务 复等 助性辅 模 上块
disk-oriented 架构 - 缺陷
Ref “OLTP through the looking glass, and what we found there” SIGMOD 2008
从 系数据 生以来,由存传统关 库诞 储
致的架 性性能缺陷一直都存层级导 构
在。在小数据量的 用 境下尚能应 环 应
。但是大数据 境下,缺陷被放大,对 环
越来越 以 大数据 用的需求难 应对 应
重点 目中期项 汇报
18
• 内存 算中计 内存的地位与概念正在 生改发 变
– 地位:二 存 的级 储 cache  数据存 的主要 体储 载
内存 算中的“内计
存”
Memory First
Architecture
数据 :访问
API call
 Pointer
oriented
延 : 秒迟 纳 级
Disk First
Architecture
数据 :访问
API call
OS I/O
I/O
Controller
HDD
延 :微秒迟 级
重点 目中期项 汇报
19
• 随着内存成本的不断下降,通 内存来存 整个数据 成过 储 库
。为现实
• 消 数据 留磁 致的高昂代价,引 了一为 减 驻 盘导 发 类以内
存作 主存 介为 储 质的研究
• 并非新的研究话题
– 90 年代初就有研究:“ Implementation techniques for main
memory database systems” , 1984 , SIGOD Rec.
– 早期也有很多知名的 in-memory DB 系 ,如统
TimesTen 、 SolidDB 、 DataBlitz
– 的内存数据传统 库沿 了袭 System R 中的很多影 性能的特征响 ,
如 disk-based 日志、 等( 性能 生一定的影 )动态锁 对 产 响
memory-oriented 架构
HDD
SRAM
DRAM
重点 目中期项 汇报
20
memory-oriented 架构 -Anti-Caching
• 内存数据 的 :库 难题
– DB size > Memory Size
– 解决策略 1 : 加硬件内存容量;增
代价高昂
– 解决策略 2 :回退到传统 Disk-Oriented DB
放弃 性能的要求对
– 解决策略 3 : 用虚 内存(启 拟 page virtual
memory )
引 大量发 page faults ( 生大量产 HDD IO 和事 的 止)务 终
– 解决策略 4 :分布式 存缓
 式两层 DB 框架 致重 存 以及 用端的同 控制导 复 储 应 步
个角度思考:从存 次中数据使用的需换 储层
求(冷 程度热 )出发
重点 目中期项 汇报
21
memory-oriented 架构 -Anti-Caching
• “anti” 是 存 次保存数据的策略而言的。针对传统 储层
在传统 DB 系 中,统 disk 是主存 介 ,储 质 DRAM 是作
为 caching 存在。因此,一 数据可能会有多 拷份 份 贝
• 而 anti-caching 架 中,把构 DRAM 作 主存 介为 储 质,
而 Disk 用来存放仅 cold 数据。因此同一 数据在任何份
候, 有一 副本。时 仅 份
Anti-Caching: A New Approach to Database Management System Architecture, VLDB 2013
重点 目中期项 汇报
22
memory-oriented 架构 -Anti-Caching
• 图 (a)(b) 所示的架 中,数据均构 存在冗余。特 是(别 b )存在两
冗余。从某 程度上是一 浪 , 一致性管理 来不可份 种 种 费 给维护 带
避免的开销
• 特 于别对 图 (b) 而言,是一 解决磁 慢的架 化方法种 盘访问缓 构优
,即使用分布式 存缓 (如 Memcached )。除了图 (a) 架 面 的构 临
,其 要求 者在 用程序中嵌入 来问题 还 开发 应 逻辑 实现 DBMS 和
分布式 存的独立同 ( 用 合, 加了 用的 度)缓 步 应 耦 增 应 开发难 .
• Anti-Caching 是一种可扩展的不局限于内存容量的内存数据
库架构。其优于 Disk-Oriented DB 以及使用分布式缓存两层
架构 DB 。
重点 目中期项 汇报
23
NVM-oriented 架构
• 目前 DRAM 和 Flash 是半 体存 器技 的主流,但导 储 术
二者均面 算速度以及容量的挑临计 战
• 日立 (Hitachi) 、英特 、尔 IBM 、美光 (Mircon) 、海力
士 (Hynix) 等公司都在 相研 新一代半 体存 器技竞 发 导 储
,即术 新型非易失存 器(储 NVM/SCM )技术
• 新型介 可以 高速存取与非易失性,在未来可以作质 实现
内存替代为 DRAM ,也可以作 存 器替代 硬为 储 传统 盘
、 存。闪 内外存 一管理提供了可能性。为 统
• 思考:当新型存 (储 NVM/SCM )出 后,现 对 disk-
oriented 架 的构 DB 和 memory-oriented 架 的构 DB 有
什 影么 响 ?
重点 目中期项 汇报
24
NVM-oriented 架 —构 新存储层级
• 随着 NVM 的逐 成熟, 算机系 面 一个重大渐 计 统 临 课题
:如何将 NVM 融入当今的存 子系 (存 )储 统 储层级
• 的存 系 中,传统 储 统 不同存 次的数据交储层 换占据整
个 IO 的大部分开销
• 新型存 器件的非易失特性、良好的 展性,低能耗以储 扩
及 低的 延 于较 访问 迟对 存 (体系 )储层级 结构 造成了
巨大冲击
• 新型存 的特性也在改 的储 变传统 CPU 、系 、主统总线
存、 存 的架 平衡,需要系 者重新思考存辅 间 构 统设计
架 以最大化 用性能储 构 应
• 可以分 从别 寄存器、 存缓 、主存和外存不同 次研究如层
何引入新型存 器件储
重点 目中期项 汇报
25
 新的存 金字塔形成储
DRAM
HDD
SCM
HDD
SRAM
SCM
SRAM
DRAM
SCM
• 替 的单纯 换 问题
– 相比于 SRAM 、 DRAM 甚至是 HDD ,各 新型存 介 都未形种 储 质
成绝对优势
– 各 不同的存 介 存在不同的特有的性 (特 是各自物理种 储 质还 质 别
特性 致的 以改 的缺点,如 存的擦除写)导 难 变 闪
– 的替 某一 无法 最佳的性能单纯 换 层 实现
• 混合式融入策略与 成技构 术
– 每种 SCM 存 介 在 写性能、成本、功耗等方面有各自的储 质 读 优势
和不足
– 混合存 是 避短,充分 不同存 介 的 的一 可行储 扬长 发挥 储 质 长处 种
的解决方案
NVM-oriented 架 —构 新存储层级
重点 目中期项 汇报
26
混合存 体系储
• SRAM 面的混合技层 术
– 互补优势
• SRAM 的写延 低、写能耗低迟
• SCM ( STT-RAM )的容量大、静 功耗低态
– 混合技 思路术
• 按比例配比存 介 。常 比例:储 质 见 16:1~32:1 ( SST-RAM :
SRAM )
• 按数据的 特性分配数据的存放。写密集型数据放入访问
SRAM , 密集型数据放入读 STT-RAM 。有基于硬件(控制器)
和 件( 器) 分配方式软 编译 两种
DRAM
HDD
SCM
SRAM
重点 目中期项 汇报
27
• DRAM 面的混合技层 术
– 互补优势
• DRAM 的写延 低、写能耗低、耐写性高迟
• SCM ( PCM )的存 密度高、静 功耗低、储 态
非易失
HDD
SRAM
DRAM+
SCM
– 混合技 思路术
• PCM 和 DRAM 性混合:无主次, 性 址。线 线 编
• PCM 主存为 +DRAM 存:借助为缓 DRAM 存写操作 少缓 减 PCM 的
写次数
• 效果: 1G-DRAM+32G-PCM~ 延 、容量相当访问 迟 32GDRAM~
70% 功耗 ~ 使用寿命增长 300%
混合存 体系储
重点 目中期项 汇报
28
• HDD 面的混合技层 术
– 互补优势
• HDD 的廉价、高容量
• SCM ( NAND FLASH )的随机 写能力、并读
写能力发读
– 混合技 思路术
• HDD 作为 SDD 的写 存:合并随机写 批量 序写到缓 为 顺 SSD (不适
合写密集 用)应
• PCM+NAND Flash : 密集置入读 Flash ,写密集置入 PCM
SRAM
DRAM
SCM+
HDD
混合存 体系储
重点 目中期项 汇报
29
NVM-oriented 架构 -NVM 模 器拟
A Prolegomenon on OLTP Database Systems for Non-Volatile Memory, ADMS@VLDB 2014
• 数据 采用新存 的用例库 储层级
– NVM-only
– NVM+DRAM
• NVM 模 器拟 :如何系 的统级
估面向评 NVM 的 件是一个软
因 目前尚缺乏正式 布难题 为 发
的硬件 品。需要使用合 的产 适
NVM 硬件模 器拟
– 模 器利用拟 DRAM 模拟 NVM ,
并提供 主要 接口两种 访问
– NUMA interface (内存方式)
– PMFS interface (文件方式)
System Software for Persistent Memory , EuroSys 2014
量 的兼容轻 级
POSIX 的文件读
写的 方式,访问
可具名,且支持
面向字 的节 访问
方式
似内存申 的类 请
方式,无需测试
系 做任何更改统
即可 行测试运
重点 目中期项 汇报
30
NVM-oriented 架构 -NVM-only
A Prolegomenon on OLTP Database Systems for Non-Volatile Memory, ADMS@VLDB 2014
• 问题: memory-oriented 和 disk-oriented 数据 架库 构
能否直接 用应 新的存 得收益?储层级获
• m-o system ( H-store )
– 利用 NUMA 接口 的访问 NVM 模 内存作拟
主存 介 ;而利用为 储 质 PMFS 接口 的访问
NVM 模 磁 保存日志则 拟 盘
– 问题: disk-oriented 日志没有考逻辑 虑
NVM 的非易失特性。已 在经 NVM 上完成
持久化的事 需要被重新 行。务 执
• d-o system ( mysql+innoDB )
– 利用 NUMA 接口 的访问 NVM 模 内存用拟
于 冲池;而利用缓 PMFS 接口 的访问
NVM 模 磁 作 主存 介则 拟 盘 为 储 质
– 问题:用于防止 partial page write 错误
的 doublewrite 机制,在 NVM 行 境执 环
下是不必要的
重点 目中期项 汇报
31
NVM-oriented 架构 -NVM+DRAM
A Prolegomenon on OLTP Database Systems for Non-Volatile Memory, ADMS@VLDB 2014
• 问题: memory-oriented 和 disk-oriented 数据 架库 构
能否直接 用应 新的存 得收益?储层级获
• 架 与 的这种 构 传统 two-tier 相似,只是
利用 NVM 替 了换 HDD 。
• 其最主要的瓶 依然是 了支持恢 机制颈 为 复
,将 DRAM 中的数据写入持久化存 介储
的 ,及 是使用(相比于质 开销 时 HDD )
非常快速的 NVM
“we conclude that neither system is ideally suited for NVM. Instead, a new
system is needed with principles of both disk-oriented and memory-oriented
systems and a lightweight recovery scheme designed to utilize the non-
volatile property of NVM”
“we envision that this new DBMS, dubbed N-Store”
-- 《 A Prolegomenon on OLTP Database Systems for Non-Volatile Memory 》
重点 目中期项 汇报
32
提 纲提 纲
引言
新型存 及存储 储层级
架 化 技 展的影构变 对 术发 响
总结
面向不同存 的数据管理架储层级 构
重点 目中期项 汇报
33
恢 技 的影对 复 术 响
• 存 介 的特性 于储 质 对 WAL 的 影 深刻设计 响
– Append only :基于 序写速度高于随机写特性顺
– In-place update :基于原位更新能力
– Batch write :基于 (块 block ) 理粒度处
• NVM 新型存 在特性上和 具有很大不同储 传统设备
– Byte-addressable 、非易失、 写性能差 小读 异
– 需要充分考 新特征,并 避短 面向虑 扬长 设计 NVM
的新日志策略
重点 目中期项 汇报
34
恢 技 的影对 复 术 响 -[ICDE 2011]
• :问题 的日志 中,传统 设计 了为 协调基于 的磁块 盘 I/O ,采用两层
日志设计策略,首先 存到缓 DRAM 上,再溢写到持久存 上,储设备
所以需要 冲管理和磁缓 盘 I/O 。因此,当一个事务触发日志 持记录
久化,它须等待 个日志这 记录之前的日志 填记录 满。 成这种设计 为
日志并 写发读 的主要瓶 。颈
• 方案:新的基于 SCM 的日志方法。数据 事库 务从 SCM 日志空 直间
接分配 用于写日志块 记 ,不用 存到录 缓 DRAM 再溢写到持久存储设
上,避免了 的 冲管理和低速磁备 复杂 缓 盘 I/O ,同 化了日志框时简
架,支持更好的并 度和延 。同 了有效的基于发 迟 时开发 SCM 的日志
管理和系 恢 算法。统 复
Ref : High Performance Database Logging using Storage Class Memory, ICDE,2011
重点 目中期项 汇报
35
恢 技 的影对 复 术 响 -[VLDB 2014]
• :问题 大 模并行硬件(规 multicore 、 multi-socket )越来越多的背
景下,集中式日志 致的 争导 竞 开销已 成经 为 DB 的主要性能瓶 。颈
NVM 的非易失性不但使 日志的传统 flush-before-commit 的 需设计
求不再必要,同 也使得分布式日志成 消除 基于时 为 传统 HDD 的日志
写瓶 的具有前景的策略读 颈
• 方案:利用 NVM 的字 存取、非易失性建立节 基于多核的分布式可扩
展的日志系统。 一个日志分配一个基于每 NVM 的 冲,一旦写日志缓
立即持久化。同 利用基于 的全局 序号,追踪同一事时 逻辑时钟 顺 务
在分布式日志中分散的 之 的依 系,最后利用被 式群记录 间 赖关 动 组
提交 保在 生系 故障 事 理的正 性。确 发 统 时 务处 确
Ref : Scalable Logging through Emerging NonVolatile Memory, VLDB 2014
重点 目中期项 汇报
36
恢 技 的影对 复 术 响 -[SOSP 2013]
• :问题 了为 适应 HDD 的 写特征, 的读 传统 WAL 被设计为 append-
only 和 write-only 。同 了最小化同 写代价,需要采取很多面时为 步
向磁 的如盘 批量写等 化技 ,也 加了 的 度。但是优 术 增 设计 复杂 NVM
的新 写特征使得一些 化技 不再必要,同 也 基于读 优 术 时 为设计 NVM
的面向 WAL 的回 算法提供了新的机遇复
• 方案: 合硬件技 ,利用可 的原子写操作(结 术 编辑 editable atomic
writes, EAW ),以一 可 展的方式支持事 隔 ,并 了一种 扩 务 离 设计
面向种 NVM 化的基于优 WAL 的恢 策略:复 MARS ( Modified
ARIES Redesigned for SSDs )。不但具有和 ARIES 一 的特性,同样
消除了面向时 HDD 的一些 衡。设计权
From ARIES to MARS transaction support for next-generation, solid-state drives, SOSP 2013
重点 目中期项 汇报
37
恢 技 的影对 复 术 响 - 比较
Algorithm SCM-based Longing NVM-based by distributed
logging
MARS
similarities 1. 都是 新型存 下的日志系 化方案应对 储设备 统优
2. 冲 都是缓 设备 PCM/SCM/NVM+ 主内存
3. 降低了多次 写磁读 盘 I/O 的次数
4. 都提出了 不同底 的系 崩 恢 方案针对 层设计 统 溃 复
 Differences
方案实现 底 通层 过 SCM 日志空间
数据 和结构 SCM 日志空
管理器 行 、 管间 进 块 锁
理和 档数据到其它持归
久设备
通过 GSN 在分布式日志
中定位唯一日志序列号
、事 分 到本地 点务 发 节
日志避免 程内存远 访问
,管理 点 少不必检查 减
要的数据 描。扫
通 硬件和 件同 支持,提过 软 时
供的 原子化写操作的支持,对
以及相 的原 , 化了关 语 简
ARIES 类日志的 度设计复杂
以及不必要的面向磁 的盘 开销
整体框架 件、集中式软 件、分布式软 硬 合、集中式软 结
恢 机制复 恢 系 需要知道复 统仅仅
SCM 日志空 的地址就间
可 取最新 点位置获 检查
,从而加 数据 行恢载 执
复
直接使用 面 的分区页 级
做 parallel redo, 事务
的分区做级 parallel
undo
利用内核驱动 (kernel driver)
恢 。在恢 , 会实现 复 复时 驱动
描所有扫 logger 的事 表务 构
建一个完整的事 状 景。务 态场
利用 WriteBack 和 Abort 命
令完成恢 操作复
• 几 方案的 比:种设计 对
重点 目中期项 汇报
38
事 技 的影对 务 术 响
• 的数据 系 架 主要基于上世传统 库 统 构 纪 70 年代的 算机计
硬件特点而 ,主要包括以下几个模 :设计 块
 Buffer Pool Manager (解决内存不足 )问题
 Concurrency Control Mechanism (解决磁 延 高 )盘 迟 问题
 Recovery Mechanism (利用持久化介 解决故障 )质 问题
• 些模 大多与事 理密切相 。而且 些机制所面这 块 务处 关 这
的 行 境都是对 执 环 disk-oriented 的。因此,在 NVM 时
代(包括内存 算),上述技 都面 新的机遇与挑计 术 临 战
重点 目中期项 汇报
39
事 技 的影对 务 术 响 - 分布式事务
• 基于内存的 H-store
– 用存 程模 事储过 拟 务。把所有事 都 存 程的一系列操作。可务 转为 储过 减
少 用与数据 之 多次信息交互 生的延 。并且 事 事前 化提应 库 间 产 迟 为 务 优
供了可能性
– 只提供基于分区的 程单线 ,消除了与典型多 程 境中的 定和 有线 环 锁 闩锁
的 ,保 事 求按 序 行关 开销 证 务请 顺 执
– 采取在一个分区中 程 序 行事 的策略单线 顺 执 务 , 于 分区事 具有高对 单 务
可 展性非和高吞吐量; 于跨分区的分布式事 亦可支持,但事 并扩 对 务 务
性 低,因此吞吐量 低。适用于上 用容易分区的 景。发 较 较 层应 业务场
Client
Application
Database Cluster
Transaction
Result
Procedure Name
Input Parameters
重点 目中期项 汇报
40
• 问题:在传统 RDBMS 中, MVCC 机制下 的更新操作会 生记录 产 较
高的索引 代价。 索引 的主要来源:维护 维护 开销 低效的磁盘 I/O 以
及索引与多版本 物理存 位置的记录 储 高度 合耦 系。因此索引数量关
和 索性能、 存在检 维护开销 tradeoff
• 方案:通 利用低延 的过 迟 SCM 引入一个 接 ,改 了在混合存间 层 变 储
次中的数据 。利用 接 解 了多版本 在物理表示与层 结构 该间 层 耦 记录
表示之 的 系。当 更新 ,除了建立在更新属性上的索逻辑 间 关 记录 时
引需要 及磁涉 盘 IO 外,其他属性上的索引都只会 及低延 的涉 迟 SCM
I/O
Ref : Making updates disk-I/O friendly using SSDs, VLDB 2013
事 技 的影对 务 术 响 - 并 控制发
重点 目中期项 汇报
41
核心算法的影对 响
• 系数据 中的部分核心算法在新型存 境下无法传统关 库 储环
到最 ,达 优 如 B+ 、树 Hash 接连 等,因 很多算法及相为
化技 主要关优 术 针对 HDD 的 写特性而 。读 设计
• 在 PCM 主存的存 架为 储 构下, PCM-friendly 的主存算法
的技 指 不 有:低 算 度、好的术 标 仅 计 复杂 cpu cahce 性能
、 能, 有节 还 最小化 PCM 写需求
重点 目中期项 汇报
42
核心算法的影对 响 -[CIDR 2011]
• 问题:基于 DRAM 的传统 B+ 的插入 除操作代价不高树 删
, 在 点分裂和合并 ,代价 高。但是仅 节 时 较 在 PCM 主为
存的 境下环 , B+
的任何插入 除的相 代价都 高,树 删 对 较
因 在有序 点中 行插入为 节 执  除操作都会 生大量删 产
PCM 写操作
• 方案: unsorted 化 - 叶子 点无序化,非叶子 点有序节 节
化
Ref : Rethinking Database Algorithms for Phase Change Memory, CIDR
:图 PCM 主存为 的三 典型存 架 形式种 储 构组织
Unsorted node
Unsorted node with bitmap
重点 目中期项 汇报
43
核心算法的影对 响 -[CIDR 2011]
• 问题: 于 哈希 接对 简单 连
 在下述情况下 Hash 接存在 多的连 较 cache misses 问题
– Build + hash table >> CPU cache
– Record size is small ( 系的大小一定)关
 基于 Cache Partitioning 的哈希 接连
– 在 分 段存在大量不利于划 阶 PCM 的写操作
• 方案:
– 虚 分拟划
– 虚 分 行 接对 拟划 对进 连
– 既保持了好的 cpu cache 命中率,同 少了写操作时减
Ref : Rethinking Database Algorithms for Phase Change Memory, CIDR
重点 目中期项 汇报
44
• “ 用 算移 代替数据移计 动 动”是大数据 代数据密集型 用的一时 应
个 化原 , 言之将 算推向数据可以最大程度的 本设计优 则 换 计 实现
地化, 少数据在不同存 以及网 的移减 储层级 络间 动开销
• 三星研究人 了一 :“员设计 种 smart SSD” 。其 了实现 的简单 计
算与存 的整合储 。在存 器件中嵌入了 算能力,使得直接将操储 计
作下 到压 smart SSD 行 理成 了可能。进 处 为
• 在原型 中,可以实验 将数据 的 系 算,如 与聚集等库 简单关 运 选择
, 成编译 SSD 的固件, 著提升了系 性能,并 了 能。是显 统 实现 节
一 件 合 化的新思路种软 结 优
数据管理与存 的 合储 耦 —功能下推 [SIGMOD]
Query processing on smart SSDs: opportunities and challenges, SIGMOD 2013
重点 目中期项 汇报
45
• “Buckets effect”  明,最 品的性能,不 是说 终产 仅仅
件本身,而是取决于 硬件中最薄弱的一个软 软 环节
– 硬件 (存 、网 、 理器)设备 储 络 处
– 操作系统
– 用(数据 )应 库
• 件和硬件的深度 合才可能 来最大的性能提升。“软 结 带
一体机”的 硬件高度配合可以使硬件 个性能都能被软 每
件充分利用。特 是软 别 存 和数据 的配合尤 重要储 库 为
。
ORACLE ExaData IBM PureData
数据管理与存 的 合储 耦 —定制化:一体机
重点 目中期项 汇报
46
提 纲提 纲
引言
新型存 及存储 储层级
总结
面向不同存 的数据管理架储层级 构
架 化 技 展的影构变 对 术发 响
重点 目中期项 汇报
47
总结
• 近年来硬件的 展是 著的,其不但可能使 有的架发 显 现 构
原 失效,同 了更充分的利用新硬件的特点,设计 则 时为
也促 了架 的重新 。进 构 设计
• 于商 而言,速度不是可 而是必 。而且 希对 业 选项 选项 总
望容量越来越大、速度越来越快,价格越来越低
• 根据新型 用和硬件 境全新 的数据 系 比 旧应 环 设计 库 统 对
数据 行改 要具有更多的库进 进 优势
• 副作用就是 件 与硬件的高度耦合,系 者软 设计 统设计 总
是希望系 是统 *- independent ,但是在 著的提速需显
求下,很多 策略需要被权衡, 牲某些 而 得设计 牺 选项 获
大的速度提升是可以被接受的。极
• 要充分 注未来关 PCM(SCM)-only 架 相 的 件技构对 关 软
以及术 DBMS 技 来的影响。术带
重点 目中期项 汇报
48
lizhh@nwpu.edu.cn
Thank You

More Related Content

李战怀 大数据环境下数据存储与管理的研究

  • 1. 重点 目中期项 汇报 1 大数据 境下存 技 展环 储 术发 对 数据管理研究的影响 李战怀 西北工 大学业 算机学院计 2015.7.19
  • 2. 重点 目中期项 汇报 2 提 纲提 纲 引言 新型存 及存 的演化储 储层级 面向不同存 的数据管理架储层级 构 架 化 技 展的影构变 对 术发 响 总结
  • 3. 重点 目中期项 汇报 3 • 数据 理是推 算机技 展的核心技 之一处 动计 术发 术 • 作 数据 理的底 支 ,存 介 的更新和相 存 技为 处 层 撑 储 质 关 储 的 展是推 数据管理技 革和 展的主要 力术 发 动 术变 发 驱动 存 介 的 展推 数据管理技储 质 发 动 术
  • 4. 重点 目中期项 汇报 4 提 纲提 纲 引言 新型存 及存 的演化储 储层级 总结 面向不同存 的数据管理架储层级 构 架 化 技 展的影构变 对 术发 响
  • 5. 重点 目中期项 汇报 5 • 存 的演化传统 储设备 ( go away or on the stage ) 纸带 - 1857 穿孔卡 -1884 HDD-1956/1973 ROM-1970s 软盘 -1971 Flash-1984光盘 -1978 RAM-1970s 存 器件的演化传统 储
  • 6. 重点 目中期项 汇报 6 新型存 器件的 展储 发 • 算机系 性能依 于计 统 赖 – 理器的数据 算能力处 计 – 存 次向 理器 数据的能力储层 处 传输 • 随着多 核、多 程技 的 展, 存 器件 成的众 线 术 发 传统 储 构 存 次面 的储层 临 存储墙 愈 重问题 发严 – 理 元(核)数的 与存 数据供 能力(容量)不匹配处 单 增长 储 应 – SRAMDRAM 的静 功耗 高态 过 – 路限制了存 容量的 加并引 更多的功耗纠错电 储 增 发 • 新型存 器件储 包括: 存、相 存 器、磁阻式存 、闪 变 储 储 电 阻式存 器、 阻器等等。具 一个共同特点:储 忆 备 非易失性 – 点:高存 密度、低静 功耗、 粒子及射 撞 生的优 储 态 对 线 击产 软错误 具有抵抗能力等 – 缺点: 写性能不 称、 写次数有限、可靠性不高等读 对 读 Graph from “ 基于新型非易失存 的存 ”储 储结构 , CCF 学会通讯 2014
  • 7. 重点 目中期项 汇报 7 • 存的工 化程度最高闪 业 – SSD ( solid state drive ) – 存芯片闪 + 控制器 +FTL ( WL, LBA-PBA, GC ) • ( NAND ) 存的特点闪 – 写不 称:写操作需通 加 方式读 对 过 压 对 cell 行 子填充进 电 – 写前擦除: 位更新、 擦除操作异 块 – 寿命有限: 擦除次数有限块 • SLC (约 10 万次擦写) • MLC (小于 1 万次) • TLC (小于 1000 次) 新型存 器件储 - 存闪
  • 8. 重点 目中期项 汇报 8 Spin-torque MRAM Phase change memory Memristor • PCM (Phase-change memory) : 相 ,工 化,最具潜力变 业 • FeRAM (Ferroelectric RAM) :铁 式,工 化,可 展性差电 业 扩 • MRAM (Magnetic RAM) :磁阻 式,工 化,可 展性差业 扩 – STT-RAM (Spin-torque transfer Random Access Memory) • RRAM (Resistive RAM) : 阻式电 , 室原型实验 • Memristor/Solid Electrolyte :忆 阻器,智能,具有学 能力习 新型存 器件储 - 其他 FeRAM
  • 9. 重点 目中期项 汇报 9 Comparison of Technologies   DRAM PCM NAND  Flash Page size Page read latency Page write latency Write bandwidth Erase latency 64B 20-50ns 20-50ns GB/s∼ per die N/A 64B 50ns∼ 1 µs∼ 50-100 MB/s per die N/A 4KB 25 µs∼ 500 µs∼ 5-40 MB/s per die 2 ms∼ Endurance ∞ 106 − 108 104 − 105 Read energy Write energy Idle power 0.8 J/GB 1.2 J/GB 100 mW/GB∼ 1 J/GB 6 J/GB 1 mW/GB∼ 1.5 J/GB [28] 17.5 J/GB [28] 1–10 mW/GB Density 1× 2 − 4× 4× • Compared to NAND Flash, PCM is byte-addressable, has orders  of magnitude lower latency and higher endurance. Sources: [Doller’09] [Lee et al. ’09] [Qureshi et al.’09] 部分性能指 比标对 -I
  • 10. 重点 目中期项 汇报 10 Comparison of Technologies   DRAM PCM NAND  Flash Page size Page read latency Page write latency Write bandwidth Erase latency 64B 20-50ns 20-50ns GB/s∼ per die N/A 64B 50ns∼ 1 µs∼ 50-100 MB/s per die N/A 4KB 25 µs∼ 500 µs∼ 5-40 MB/s per die 2 ms∼ Endurance ∞ 106 − 108 104 − 105 Read energy Write energy Idle power 0.8 J/GB 1.2 J/GB 100 mW/GB∼ 1 J/GB 6 J/GB 1 mW/GB∼ 1.5 J/GB [28] 17.5 J/GB [28] 1–10 mW/GB Density 1× 2 − 4× 4× • Compared to DRAM, PCM has better density and scalability;  PCM has similar read latency but longer write latency Sources: [Doller’09] [Lee et al. ’09] [Qureshi et al.’09] 部分性能指 比标对 - II
  • 11. 重点 目中期项 汇报 11 新型存 器件储 - 写延读 迟 & 性价 比 • 需要思考和解决的问题 – 如何利用新型存 的特性来 化或者重新架 当前的存 次?储 优 构 储层 – 能否 合存 器件的特性以及存 次, 上 用(特 是结 储 储层 设计 层应 别 数据管理系 ) 避短统 实现扬长
  • 12. 重点 目中期项 汇报 12 提 纲提 纲 引言 新型存 及存储 储层级 总结 面向不同存 的数据管理架储层级 构 架 化 技 展的影构变 对 术发 响
  • 13. 重点 目中期项 汇报 13 • 数据 系 会涉及不同 次的存 器,特 是 支持库 统总 层 储 别 为 事 的务 ACID 属性,数据持久化是必 的,因此 于须 对 非 易失的存储存在需求。 • IO 始 是制 数据 性能的主要瓶 , 于支持可终 约 库 颈 对 高 速随机 写的存读 储存在需求。 • 数据 就是 了解决“大数据” ,因此不断增 的数库 为 问题 长 据 模规 对大容量的存储存在需求。 • 用廉价磁 列(集群)取代更大的磁 , 致数据盘阵 盘 导 库 系统对高可靠的存储存在需求。 • 不同的 写 模式,数据价 不同,使数据读 访问 值 库对多级 (混合)存储存在需求。 数据管理系 存 的内在要统对 储 求
  • 14. 重点 目中期项 汇报 14 • 数据 都是架 在目库 构 标存储层级( storage hierarchy )上的 数据 架 与存库 构 储层级 算机 存 系 的基本要求:计 对 储 统 低延 、高容量、价格成本低迟
  • 15. 重点 目中期项 汇报 15 • 数据 都是架 在目库 构 标存储层级( storage hierarchy )上的 • 依据主存 介 的不同,将数据 架 分储 质 库 构 为 – Disk-oriented – Memory-oriented – NVM-oriented 数据 架 与存库 构 储层级
  • 16. 重点 目中期项 汇报 16 • 的 系数据 都是架传统 关 库 构 two-tier 存储层级上的 – 低速、非易失、高容量的 HDD 作 主存 介为 储 质 – 高速、易失、低容量的 DRAM 作为 Cache • 由于 disk 存 特性而引入的储 IO 延时是影 数据 性能响 库 的主要瓶 之一颈 • disk-oriented 数据管理系 普遍采用如:统 Buffer pool 或者 的并 控制,复杂 发 来 解缓 disk 致的导 IO 延迟 disk-oriented 架构 SRAM DRAM HDDHDD 主存 介储 质 cache
  • 17. 重点 目中期项 汇报 17 • [SIGMOD 08] : OLTP through the looking glass, and what we found there • 果 示,测试结 显 传统 disk-oriented 数据库只有约 12% 的 CPU 时间 用于 理事实际处 务,其它 都时间 “浪费”在 存池管理、并 控制缓 发 和基于日志的事 恢务 复等 助性辅 模 上块 disk-oriented 架构 - 缺陷 Ref “OLTP through the looking glass, and what we found there” SIGMOD 2008 从 系数据 生以来,由存传统关 库诞 储 致的架 性性能缺陷一直都存层级导 构 在。在小数据量的 用 境下尚能应 环 应 。但是大数据 境下,缺陷被放大,对 环 越来越 以 大数据 用的需求难 应对 应
  • 18. 重点 目中期项 汇报 18 • 内存 算中计 内存的地位与概念正在 生改发 变 – 地位:二 存 的级 储 cache  数据存 的主要 体储 载 内存 算中的“内计 存” Memory First Architecture 数据 :访问 API call  Pointer oriented 延 : 秒迟 纳 级 Disk First Architecture 数据 :访问 API call OS I/O I/O Controller HDD 延 :微秒迟 级
  • 19. 重点 目中期项 汇报 19 • 随着内存成本的不断下降,通 内存来存 整个数据 成过 储 库 。为现实 • 消 数据 留磁 致的高昂代价,引 了一为 减 驻 盘导 发 类以内 存作 主存 介为 储 质的研究 • 并非新的研究话题 – 90 年代初就有研究:“ Implementation techniques for main memory database systems” , 1984 , SIGOD Rec. – 早期也有很多知名的 in-memory DB 系 ,如统 TimesTen 、 SolidDB 、 DataBlitz – 的内存数据传统 库沿 了袭 System R 中的很多影 性能的特征响 , 如 disk-based 日志、 等( 性能 生一定的影 )动态锁 对 产 响 memory-oriented 架构 HDD SRAM DRAM
  • 20. 重点 目中期项 汇报 20 memory-oriented 架构 -Anti-Caching • 内存数据 的 :库 难题 – DB size > Memory Size – 解决策略 1 : 加硬件内存容量;增 代价高昂 – 解决策略 2 :回退到传统 Disk-Oriented DB 放弃 性能的要求对 – 解决策略 3 : 用虚 内存(启 拟 page virtual memory ) 引 大量发 page faults ( 生大量产 HDD IO 和事 的 止)务 终 – 解决策略 4 :分布式 存缓  式两层 DB 框架 致重 存 以及 用端的同 控制导 复 储 应 步 个角度思考:从存 次中数据使用的需换 储层 求(冷 程度热 )出发
  • 21. 重点 目中期项 汇报 21 memory-oriented 架构 -Anti-Caching • “anti” 是 存 次保存数据的策略而言的。针对传统 储层 在传统 DB 系 中,统 disk 是主存 介 ,储 质 DRAM 是作 为 caching 存在。因此,一 数据可能会有多 拷份 份 贝 • 而 anti-caching 架 中,把构 DRAM 作 主存 介为 储 质, 而 Disk 用来存放仅 cold 数据。因此同一 数据在任何份 候, 有一 副本。时 仅 份 Anti-Caching: A New Approach to Database Management System Architecture, VLDB 2013
  • 22. 重点 目中期项 汇报 22 memory-oriented 架构 -Anti-Caching • 图 (a)(b) 所示的架 中,数据均构 存在冗余。特 是(别 b )存在两 冗余。从某 程度上是一 浪 , 一致性管理 来不可份 种 种 费 给维护 带 避免的开销 • 特 于别对 图 (b) 而言,是一 解决磁 慢的架 化方法种 盘访问缓 构优 ,即使用分布式 存缓 (如 Memcached )。除了图 (a) 架 面 的构 临 ,其 要求 者在 用程序中嵌入 来问题 还 开发 应 逻辑 实现 DBMS 和 分布式 存的独立同 ( 用 合, 加了 用的 度)缓 步 应 耦 增 应 开发难 . • Anti-Caching 是一种可扩展的不局限于内存容量的内存数据 库架构。其优于 Disk-Oriented DB 以及使用分布式缓存两层 架构 DB 。
  • 23. 重点 目中期项 汇报 23 NVM-oriented 架构 • 目前 DRAM 和 Flash 是半 体存 器技 的主流,但导 储 术 二者均面 算速度以及容量的挑临计 战 • 日立 (Hitachi) 、英特 、尔 IBM 、美光 (Mircon) 、海力 士 (Hynix) 等公司都在 相研 新一代半 体存 器技竞 发 导 储 ,即术 新型非易失存 器(储 NVM/SCM )技术 • 新型介 可以 高速存取与非易失性,在未来可以作质 实现 内存替代为 DRAM ,也可以作 存 器替代 硬为 储 传统 盘 、 存。闪 内外存 一管理提供了可能性。为 统 • 思考:当新型存 (储 NVM/SCM )出 后,现 对 disk- oriented 架 的构 DB 和 memory-oriented 架 的构 DB 有 什 影么 响 ?
  • 24. 重点 目中期项 汇报 24 NVM-oriented 架 —构 新存储层级 • 随着 NVM 的逐 成熟, 算机系 面 一个重大渐 计 统 临 课题 :如何将 NVM 融入当今的存 子系 (存 )储 统 储层级 • 的存 系 中,传统 储 统 不同存 次的数据交储层 换占据整 个 IO 的大部分开销 • 新型存 器件的非易失特性、良好的 展性,低能耗以储 扩 及 低的 延 于较 访问 迟对 存 (体系 )储层级 结构 造成了 巨大冲击 • 新型存 的特性也在改 的储 变传统 CPU 、系 、主统总线 存、 存 的架 平衡,需要系 者重新思考存辅 间 构 统设计 架 以最大化 用性能储 构 应 • 可以分 从别 寄存器、 存缓 、主存和外存不同 次研究如层 何引入新型存 器件储
  • 25. 重点 目中期项 汇报 25  新的存 金字塔形成储 DRAM HDD SCM HDD SRAM SCM SRAM DRAM SCM • 替 的单纯 换 问题 – 相比于 SRAM 、 DRAM 甚至是 HDD ,各 新型存 介 都未形种 储 质 成绝对优势 – 各 不同的存 介 存在不同的特有的性 (特 是各自物理种 储 质还 质 别 特性 致的 以改 的缺点,如 存的擦除写)导 难 变 闪 – 的替 某一 无法 最佳的性能单纯 换 层 实现 • 混合式融入策略与 成技构 术 – 每种 SCM 存 介 在 写性能、成本、功耗等方面有各自的储 质 读 优势 和不足 – 混合存 是 避短,充分 不同存 介 的 的一 可行储 扬长 发挥 储 质 长处 种 的解决方案 NVM-oriented 架 —构 新存储层级
  • 26. 重点 目中期项 汇报 26 混合存 体系储 • SRAM 面的混合技层 术 – 互补优势 • SRAM 的写延 低、写能耗低迟 • SCM ( STT-RAM )的容量大、静 功耗低态 – 混合技 思路术 • 按比例配比存 介 。常 比例:储 质 见 16:1~32:1 ( SST-RAM : SRAM ) • 按数据的 特性分配数据的存放。写密集型数据放入访问 SRAM , 密集型数据放入读 STT-RAM 。有基于硬件(控制器) 和 件( 器) 分配方式软 编译 两种 DRAM HDD SCM SRAM
  • 27. 重点 目中期项 汇报 27 • DRAM 面的混合技层 术 – 互补优势 • DRAM 的写延 低、写能耗低、耐写性高迟 • SCM ( PCM )的存 密度高、静 功耗低、储 态 非易失 HDD SRAM DRAM+ SCM – 混合技 思路术 • PCM 和 DRAM 性混合:无主次, 性 址。线 线 编 • PCM 主存为 +DRAM 存:借助为缓 DRAM 存写操作 少缓 减 PCM 的 写次数 • 效果: 1G-DRAM+32G-PCM~ 延 、容量相当访问 迟 32GDRAM~ 70% 功耗 ~ 使用寿命增长 300% 混合存 体系储
  • 28. 重点 目中期项 汇报 28 • HDD 面的混合技层 术 – 互补优势 • HDD 的廉价、高容量 • SCM ( NAND FLASH )的随机 写能力、并读 写能力发读 – 混合技 思路术 • HDD 作为 SDD 的写 存:合并随机写 批量 序写到缓 为 顺 SSD (不适 合写密集 用)应 • PCM+NAND Flash : 密集置入读 Flash ,写密集置入 PCM SRAM DRAM SCM+ HDD 混合存 体系储
  • 29. 重点 目中期项 汇报 29 NVM-oriented 架构 -NVM 模 器拟 A Prolegomenon on OLTP Database Systems for Non-Volatile Memory, ADMS@VLDB 2014 • 数据 采用新存 的用例库 储层级 – NVM-only – NVM+DRAM • NVM 模 器拟 :如何系 的统级 估面向评 NVM 的 件是一个软 因 目前尚缺乏正式 布难题 为 发 的硬件 品。需要使用合 的产 适 NVM 硬件模 器拟 – 模 器利用拟 DRAM 模拟 NVM , 并提供 主要 接口两种 访问 – NUMA interface (内存方式) – PMFS interface (文件方式) System Software for Persistent Memory , EuroSys 2014 量 的兼容轻 级 POSIX 的文件读 写的 方式,访问 可具名,且支持 面向字 的节 访问 方式 似内存申 的类 请 方式,无需测试 系 做任何更改统 即可 行测试运
  • 30. 重点 目中期项 汇报 30 NVM-oriented 架构 -NVM-only A Prolegomenon on OLTP Database Systems for Non-Volatile Memory, ADMS@VLDB 2014 • 问题: memory-oriented 和 disk-oriented 数据 架库 构 能否直接 用应 新的存 得收益?储层级获 • m-o system ( H-store ) – 利用 NUMA 接口 的访问 NVM 模 内存作拟 主存 介 ;而利用为 储 质 PMFS 接口 的访问 NVM 模 磁 保存日志则 拟 盘 – 问题: disk-oriented 日志没有考逻辑 虑 NVM 的非易失特性。已 在经 NVM 上完成 持久化的事 需要被重新 行。务 执 • d-o system ( mysql+innoDB ) – 利用 NUMA 接口 的访问 NVM 模 内存用拟 于 冲池;而利用缓 PMFS 接口 的访问 NVM 模 磁 作 主存 介则 拟 盘 为 储 质 – 问题:用于防止 partial page write 错误 的 doublewrite 机制,在 NVM 行 境执 环 下是不必要的
  • 31. 重点 目中期项 汇报 31 NVM-oriented 架构 -NVM+DRAM A Prolegomenon on OLTP Database Systems for Non-Volatile Memory, ADMS@VLDB 2014 • 问题: memory-oriented 和 disk-oriented 数据 架库 构 能否直接 用应 新的存 得收益?储层级获 • 架 与 的这种 构 传统 two-tier 相似,只是 利用 NVM 替 了换 HDD 。 • 其最主要的瓶 依然是 了支持恢 机制颈 为 复 ,将 DRAM 中的数据写入持久化存 介储 的 ,及 是使用(相比于质 开销 时 HDD ) 非常快速的 NVM “we conclude that neither system is ideally suited for NVM. Instead, a new system is needed with principles of both disk-oriented and memory-oriented systems and a lightweight recovery scheme designed to utilize the non- volatile property of NVM” “we envision that this new DBMS, dubbed N-Store” -- 《 A Prolegomenon on OLTP Database Systems for Non-Volatile Memory 》
  • 32. 重点 目中期项 汇报 32 提 纲提 纲 引言 新型存 及存储 储层级 架 化 技 展的影构变 对 术发 响 总结 面向不同存 的数据管理架储层级 构
  • 33. 重点 目中期项 汇报 33 恢 技 的影对 复 术 响 • 存 介 的特性 于储 质 对 WAL 的 影 深刻设计 响 – Append only :基于 序写速度高于随机写特性顺 – In-place update :基于原位更新能力 – Batch write :基于 (块 block ) 理粒度处 • NVM 新型存 在特性上和 具有很大不同储 传统设备 – Byte-addressable 、非易失、 写性能差 小读 异 – 需要充分考 新特征,并 避短 面向虑 扬长 设计 NVM 的新日志策略
  • 34. 重点 目中期项 汇报 34 恢 技 的影对 复 术 响 -[ICDE 2011] • :问题 的日志 中,传统 设计 了为 协调基于 的磁块 盘 I/O ,采用两层 日志设计策略,首先 存到缓 DRAM 上,再溢写到持久存 上,储设备 所以需要 冲管理和磁缓 盘 I/O 。因此,当一个事务触发日志 持记录 久化,它须等待 个日志这 记录之前的日志 填记录 满。 成这种设计 为 日志并 写发读 的主要瓶 。颈 • 方案:新的基于 SCM 的日志方法。数据 事库 务从 SCM 日志空 直间 接分配 用于写日志块 记 ,不用 存到录 缓 DRAM 再溢写到持久存储设 上,避免了 的 冲管理和低速磁备 复杂 缓 盘 I/O ,同 化了日志框时简 架,支持更好的并 度和延 。同 了有效的基于发 迟 时开发 SCM 的日志 管理和系 恢 算法。统 复 Ref : High Performance Database Logging using Storage Class Memory, ICDE,2011
  • 35. 重点 目中期项 汇报 35 恢 技 的影对 复 术 响 -[VLDB 2014] • :问题 大 模并行硬件(规 multicore 、 multi-socket )越来越多的背 景下,集中式日志 致的 争导 竞 开销已 成经 为 DB 的主要性能瓶 。颈 NVM 的非易失性不但使 日志的传统 flush-before-commit 的 需设计 求不再必要,同 也使得分布式日志成 消除 基于时 为 传统 HDD 的日志 写瓶 的具有前景的策略读 颈 • 方案:利用 NVM 的字 存取、非易失性建立节 基于多核的分布式可扩 展的日志系统。 一个日志分配一个基于每 NVM 的 冲,一旦写日志缓 立即持久化。同 利用基于 的全局 序号,追踪同一事时 逻辑时钟 顺 务 在分布式日志中分散的 之 的依 系,最后利用被 式群记录 间 赖关 动 组 提交 保在 生系 故障 事 理的正 性。确 发 统 时 务处 确 Ref : Scalable Logging through Emerging NonVolatile Memory, VLDB 2014
  • 36. 重点 目中期项 汇报 36 恢 技 的影对 复 术 响 -[SOSP 2013] • :问题 了为 适应 HDD 的 写特征, 的读 传统 WAL 被设计为 append- only 和 write-only 。同 了最小化同 写代价,需要采取很多面时为 步 向磁 的如盘 批量写等 化技 ,也 加了 的 度。但是优 术 增 设计 复杂 NVM 的新 写特征使得一些 化技 不再必要,同 也 基于读 优 术 时 为设计 NVM 的面向 WAL 的回 算法提供了新的机遇复 • 方案: 合硬件技 ,利用可 的原子写操作(结 术 编辑 editable atomic writes, EAW ),以一 可 展的方式支持事 隔 ,并 了一种 扩 务 离 设计 面向种 NVM 化的基于优 WAL 的恢 策略:复 MARS ( Modified ARIES Redesigned for SSDs )。不但具有和 ARIES 一 的特性,同样 消除了面向时 HDD 的一些 衡。设计权 From ARIES to MARS transaction support for next-generation, solid-state drives, SOSP 2013
  • 37. 重点 目中期项 汇报 37 恢 技 的影对 复 术 响 - 比较 Algorithm SCM-based Longing NVM-based by distributed logging MARS similarities 1. 都是 新型存 下的日志系 化方案应对 储设备 统优 2. 冲 都是缓 设备 PCM/SCM/NVM+ 主内存 3. 降低了多次 写磁读 盘 I/O 的次数 4. 都提出了 不同底 的系 崩 恢 方案针对 层设计 统 溃 复  Differences 方案实现 底 通层 过 SCM 日志空间 数据 和结构 SCM 日志空 管理器 行 、 管间 进 块 锁 理和 档数据到其它持归 久设备 通过 GSN 在分布式日志 中定位唯一日志序列号 、事 分 到本地 点务 发 节 日志避免 程内存远 访问 ,管理 点 少不必检查 减 要的数据 描。扫 通 硬件和 件同 支持,提过 软 时 供的 原子化写操作的支持,对 以及相 的原 , 化了关 语 简 ARIES 类日志的 度设计复杂 以及不必要的面向磁 的盘 开销 整体框架 件、集中式软 件、分布式软 硬 合、集中式软 结 恢 机制复 恢 系 需要知道复 统仅仅 SCM 日志空 的地址就间 可 取最新 点位置获 检查 ,从而加 数据 行恢载 执 复 直接使用 面 的分区页 级 做 parallel redo, 事务 的分区做级 parallel undo 利用内核驱动 (kernel driver) 恢 。在恢 , 会实现 复 复时 驱动 描所有扫 logger 的事 表务 构 建一个完整的事 状 景。务 态场 利用 WriteBack 和 Abort 命 令完成恢 操作复 • 几 方案的 比:种设计 对
  • 38. 重点 目中期项 汇报 38 事 技 的影对 务 术 响 • 的数据 系 架 主要基于上世传统 库 统 构 纪 70 年代的 算机计 硬件特点而 ,主要包括以下几个模 :设计 块  Buffer Pool Manager (解决内存不足 )问题  Concurrency Control Mechanism (解决磁 延 高 )盘 迟 问题  Recovery Mechanism (利用持久化介 解决故障 )质 问题 • 些模 大多与事 理密切相 。而且 些机制所面这 块 务处 关 这 的 行 境都是对 执 环 disk-oriented 的。因此,在 NVM 时 代(包括内存 算),上述技 都面 新的机遇与挑计 术 临 战
  • 39. 重点 目中期项 汇报 39 事 技 的影对 务 术 响 - 分布式事务 • 基于内存的 H-store – 用存 程模 事储过 拟 务。把所有事 都 存 程的一系列操作。可务 转为 储过 减 少 用与数据 之 多次信息交互 生的延 。并且 事 事前 化提应 库 间 产 迟 为 务 优 供了可能性 – 只提供基于分区的 程单线 ,消除了与典型多 程 境中的 定和 有线 环 锁 闩锁 的 ,保 事 求按 序 行关 开销 证 务请 顺 执 – 采取在一个分区中 程 序 行事 的策略单线 顺 执 务 , 于 分区事 具有高对 单 务 可 展性非和高吞吐量; 于跨分区的分布式事 亦可支持,但事 并扩 对 务 务 性 低,因此吞吐量 低。适用于上 用容易分区的 景。发 较 较 层应 业务场 Client Application Database Cluster Transaction Result Procedure Name Input Parameters
  • 40. 重点 目中期项 汇报 40 • 问题:在传统 RDBMS 中, MVCC 机制下 的更新操作会 生记录 产 较 高的索引 代价。 索引 的主要来源:维护 维护 开销 低效的磁盘 I/O 以 及索引与多版本 物理存 位置的记录 储 高度 合耦 系。因此索引数量关 和 索性能、 存在检 维护开销 tradeoff • 方案:通 利用低延 的过 迟 SCM 引入一个 接 ,改 了在混合存间 层 变 储 次中的数据 。利用 接 解 了多版本 在物理表示与层 结构 该间 层 耦 记录 表示之 的 系。当 更新 ,除了建立在更新属性上的索逻辑 间 关 记录 时 引需要 及磁涉 盘 IO 外,其他属性上的索引都只会 及低延 的涉 迟 SCM I/O Ref : Making updates disk-I/O friendly using SSDs, VLDB 2013 事 技 的影对 务 术 响 - 并 控制发
  • 41. 重点 目中期项 汇报 41 核心算法的影对 响 • 系数据 中的部分核心算法在新型存 境下无法传统关 库 储环 到最 ,达 优 如 B+ 、树 Hash 接连 等,因 很多算法及相为 化技 主要关优 术 针对 HDD 的 写特性而 。读 设计 • 在 PCM 主存的存 架为 储 构下, PCM-friendly 的主存算法 的技 指 不 有:低 算 度、好的术 标 仅 计 复杂 cpu cahce 性能 、 能, 有节 还 最小化 PCM 写需求
  • 42. 重点 目中期项 汇报 42 核心算法的影对 响 -[CIDR 2011] • 问题:基于 DRAM 的传统 B+ 的插入 除操作代价不高树 删 , 在 点分裂和合并 ,代价 高。但是仅 节 时 较 在 PCM 主为 存的 境下环 , B+ 的任何插入 除的相 代价都 高,树 删 对 较 因 在有序 点中 行插入为 节 执 除操作都会 生大量删 产 PCM 写操作 • 方案: unsorted 化 - 叶子 点无序化,非叶子 点有序节 节 化 Ref : Rethinking Database Algorithms for Phase Change Memory, CIDR :图 PCM 主存为 的三 典型存 架 形式种 储 构组织 Unsorted node Unsorted node with bitmap
  • 43. 重点 目中期项 汇报 43 核心算法的影对 响 -[CIDR 2011] • 问题: 于 哈希 接对 简单 连  在下述情况下 Hash 接存在 多的连 较 cache misses 问题 – Build + hash table >> CPU cache – Record size is small ( 系的大小一定)关  基于 Cache Partitioning 的哈希 接连 – 在 分 段存在大量不利于划 阶 PCM 的写操作 • 方案: – 虚 分拟划 – 虚 分 行 接对 拟划 对进 连 – 既保持了好的 cpu cache 命中率,同 少了写操作时减 Ref : Rethinking Database Algorithms for Phase Change Memory, CIDR
  • 44. 重点 目中期项 汇报 44 • “ 用 算移 代替数据移计 动 动”是大数据 代数据密集型 用的一时 应 个 化原 , 言之将 算推向数据可以最大程度的 本设计优 则 换 计 实现 地化, 少数据在不同存 以及网 的移减 储层级 络间 动开销 • 三星研究人 了一 :“员设计 种 smart SSD” 。其 了实现 的简单 计 算与存 的整合储 。在存 器件中嵌入了 算能力,使得直接将操储 计 作下 到压 smart SSD 行 理成 了可能。进 处 为 • 在原型 中,可以实验 将数据 的 系 算,如 与聚集等库 简单关 运 选择 , 成编译 SSD 的固件, 著提升了系 性能,并 了 能。是显 统 实现 节 一 件 合 化的新思路种软 结 优 数据管理与存 的 合储 耦 —功能下推 [SIGMOD] Query processing on smart SSDs: opportunities and challenges, SIGMOD 2013
  • 45. 重点 目中期项 汇报 45 • “Buckets effect”  明,最 品的性能,不 是说 终产 仅仅 件本身,而是取决于 硬件中最薄弱的一个软 软 环节 – 硬件 (存 、网 、 理器)设备 储 络 处 – 操作系统 – 用(数据 )应 库 • 件和硬件的深度 合才可能 来最大的性能提升。“软 结 带 一体机”的 硬件高度配合可以使硬件 个性能都能被软 每 件充分利用。特 是软 别 存 和数据 的配合尤 重要储 库 为 。 ORACLE ExaData IBM PureData 数据管理与存 的 合储 耦 —定制化:一体机
  • 46. 重点 目中期项 汇报 46 提 纲提 纲 引言 新型存 及存储 储层级 总结 面向不同存 的数据管理架储层级 构 架 化 技 展的影构变 对 术发 响
  • 47. 重点 目中期项 汇报 47 总结 • 近年来硬件的 展是 著的,其不但可能使 有的架发 显 现 构 原 失效,同 了更充分的利用新硬件的特点,设计 则 时为 也促 了架 的重新 。进 构 设计 • 于商 而言,速度不是可 而是必 。而且 希对 业 选项 选项 总 望容量越来越大、速度越来越快,价格越来越低 • 根据新型 用和硬件 境全新 的数据 系 比 旧应 环 设计 库 统 对 数据 行改 要具有更多的库进 进 优势 • 副作用就是 件 与硬件的高度耦合,系 者软 设计 统设计 总 是希望系 是统 *- independent ,但是在 著的提速需显 求下,很多 策略需要被权衡, 牲某些 而 得设计 牺 选项 获 大的速度提升是可以被接受的。极 • 要充分 注未来关 PCM(SCM)-only 架 相 的 件技构对 关 软 以及术 DBMS 技 来的影响。术带

Editor's Notes

  1. 交融: **-oriented DB; 商业一体机、典型学术系统
  2. 从存储设备发展的历史上来看,从最早的纸带、穿孔卡。到磁盘以及ROM,RAM 光盘乃至flash的发展 有些是相互替代,部分设备基本退出历史舞台。 还有些设备在系统的不同层次担当数据的存储介质。(非易失的磁盘作为数据保存载体,只读的ROM作为bios数据存储介质,RAM则成为运行时数据的存储单元) 但是总体来说,存储的发展如右边这个图所示,随着时间的推移价格都是在不断降低,部分设备会被完全替代而消失。 1、纸带:早在电子计算机被发明之前,穿孔纸带就有了应用。电报发明20年后的1857年,英国物理学家、发明家查尔斯·惠斯通爵士发明了用连续的穿孔纸带来记录莫尔斯电报码的方法。 2、 IBM公司对计算机的发展有很大贡献,它不仅倡导和推广了PC这一概念,还发明了很多具有划时代意义的存储产品。也许大家并不知道,真正让IBM发展成为跨国公司的产品既不是PC,也不是软盘和硬盘,而是穿孔卡片及自动制表机。1946年第一台电子计算机ENIAC诞生时,由于当时键盘和打印机还没有诞生,数据输入和输出全都仰仗于卡片打孔机和读卡机,所以IBM的业务自然地进入了计算机领域,并凭借雄厚的经济实力很快确立了在电脑硬件领域中的霸主地位。 3、1956年,IBM的IBM 350RAMAC是现代硬盘的雏形,它相当于两个冰箱的体积,不过其储存容量只有5MB。1973年IBM 3340问世,它拥有“温彻斯特”这个绰号,来源于他两个30MB的储存单元,恰是当时出名的“温彻斯特来福枪”的口径和填弹量。至此,硬盘的基本架构就被确立。 4、Read-Only Memory: 5、软盘 6、闪存-通过我们熟知的U盘走入人们的视野。,东芝公司的发明人舛冈富士雄首先提出了快速闪存存储器(此处简称闪存)的概念。闪存还被应用在计算机中的BIOS、PDA、数码相机、录音笔、手机、数字电视、游戏机等电子产品中。 7、荷兰飞利浦(Philips)公司的研究人员开始使用激光光束来进行记录和重放信息的研究。1972年,他们的研究获得了成功,1978年投放市场。最初的产品就是大家所熟知的激光视盘。历经发展:从cd-da\cd-rom\
  3. 存储墙:处理器的时钟频率和性能以超乎想象的速度增长;但是主存的访问速度(主要是DRAM)的增长却要缓慢的多;虽然Cache和预取能够对减少平均访存时间有所帮助,但仍然不能从根本上解决问题, 处理器和存储器之间的鸿沟越来越大,计算,存储,I/O的速度越来越不匹配,平衡体系结构的设计越来越困难。
  4. SSD是nvm/scm技术的一个具体应用呈现(将新型存储介质封装成固态盘进行使用). SSD 除了用于存储数据的闪存芯片外,还包含:闪存转换层(FTL)-软件层,实现逻辑页到物理页映射、磨损平衡控制、垃圾回收等,控制器。 NOR:可以替代ROM。把只读属性的映象文件,如启动引导程序blob、内核、系统文件存放在NOR Flash中, NAND [nænd]:可以替代HDD。而把一些读写类的文件,如用户应用程序等存放在NAND Flash 中 NAND Flash的数据是以bit的方式保存在memory cell,这些cell以8个或者16个为单位,连成bit line,形成所谓的byte(x8)/word(x16),这就是NAND Device的位宽。这些Line会再组成Page,通常是528Byte/page或者264Word/page。 然后,每32个page形成一个Block,Block是NAND Flash中最大的操作单元,擦除就是按照block为单位完成的,而编程/读取是按照page为单位完成的。 NAND闪存还可以细分为:SLC\MLC\TLC SLC单级晶胞(Single-Level Cell ,即1bit/cell)一般来说,一个cell中只能存储一个bit。 如果是2个就是MLC 多级晶胞(Multi-Level Cell,即2bit/cell), 如果是3个TLC(Trinary-Level Cell)。 SLC 速度快、寿命长、昂贵。 TLC 速度慢、寿命短、便宜。 MLC介于两者之间。 =============================================== 所以,按照这样的组织方式可以形成所谓的三类地址:-Block Address-Page Address-Column Address http://blog.sina.com.cn/s/blog_700884280100mztj.html flash 从结构上大体可以分为AND、NAND、NOR 和DiNOR 等几种. NOR和NAND最常见。这两种结构性能上的异同如下:(1) NOR 的读速度比NAND 稍快一些。(2) NAND 的写入速度比NOR 快很多。(3) NAND 的擦除速度远比NOR 快。(所以 2,3决定了NOR适合做ROM)(4) NAND 的擦除单元更小,相应的擦除电路也更加简单。(5) NAND 闪存中每个块的最大擦写次数量是万次,而NOR 的擦写次数是十万次 http://www.metsky.com/archives/372.html FTL:http://hi.baidu.com/alan_ding/item/7895367e324d5e3ed7a89c70 http://storage.it168.com/a2011/1122/1277/000001277064_4.shtml
  5. 目前有很多种新型存储介质,这些介质都是分别基于完全不同的技术,但是它们的都符合SCM所提出的的一些性能特征。 PCM 是基于材料电阻经历加热周期的变化 F-RAM是固态存储器,通过分子内的原子位置来储存数据。 MRAM则是以磁性单元为基础。 RRAM 根据施加在金属氧化物(Metal Oxide)上的电压的不同,使材料的电阻在高阻态和低阻态间发生相应变化 忆阻器:忆阻器是一种有记忆功能的非线性电阻。 华裔的科学家蔡少棠提出70年代提出,仅在理论上证明可行性,08年HP在nature上发表论文,实现了原型。可用于人工智能。 忆阻器的最有趣特征之一,是它可以记忆流经它的电荷数量。而且这种记忆不是1和0这么简单,它可以包括从1到0之间所有的“灰色”状态,这类似于人类大脑搜集、理解一系列事情的模式。 http://www.dostor.com/article/2008-09-01/1176296.shtml http://storage.chinabyte.com/190/12571690.shtml RRAM http://news.mydrivers.com/1/271/271692.htm 最近有突破。网站有好的参考图片 忆阻器:http://baike.baidu.com/link?url=dUdhr8qDcA2XgOhRGFm3RlIvBlXafxgR3JruI8de7sw2gFjIv30LodxfmvOygBCWShAB0k1kijus6j0m2C8Daa
  6. 这个表对比了 DRAM \PCM 和 闪存 的一些性能指标。 以PCM为主,因为从目前来看,PCM是最可能大规模产业化并取代DRAM和闪存的新型存储器件 主要分四个主要部分:读写性能、耐久性(使用寿命)、能耗(绿色存储很关注这个指标,特别是对于大型数据中心)、密度(也就是容量) 我们先来看看pcm和nand flash的对比关系。 us 微秒 ns 纳秒=1000微秒 显著优势: 字节可寻址。 读写速度高出几个数量级。因为信息存储在位可变性的存储中。 仅需0和1的转换,没有写前擦除。 而且寿命相对较长,解决了闪存耐写能力不足的问题。可靠性更高。 能耗也全面降低,更符合绿色存储的需求。
  7. 因此,我们将不同存储介质放到这样一个时间坐标轴上来观看他们的读写性能的话, 就更加清晰。 在读性能上,PCM逼近DRAM, 在写性能上,相对而言PCM也是优秀的 另外一个,我们从性价比的坐标图上来分析,这些存储介质,也会发现,以PCM为代表的存储未来是取代flash的最可能的存储设备
  8. 因此,数据管理系统,特别是数据库需要感知存储,主要反应在架构设计对于存储层级的考虑。
  9. 缓存池:因为传统的数据库系统内存比较小而无法存储整个数据库系统,所以数据库系统用缓存池模块在内存中缓存一些磁盘块数据,并设计各种缓存算法来提高缓存命中率。每个数据库查询操作首先查询所要操作的数据是否在缓存池中,如果命中就从缓存池中取出数据,否则就从磁盘中读取,同时需要设计缓存池的缓存置换策略 。 并发控制:当一个线程执行的事务尝试访问的数据在磁盘中的时候,此线程处于等待磁盘读的阻塞状态。为了提高系统CPU等资源的利用率,数据库系统使用并发控制方法来同时执行无冲突的多个事务,因此执行线程在等待某个事务磁盘操作的时候,可以执行别的不冲突的事务。最常用的并发控制方法是基于锁的并发控制方法,例如System R项目提出的两阶段加锁协议,此外还有乐观的并发控制方法和基于多版本的并发控制方法等。
  10. 浪费:打引号,表明,在这种存储架构下,这些辅助性模块开销虽然很高,但是时必须的。 上图是跑TPC-C benchmark得出不同数据库部分的性能图标,左侧为指令的百分比,右侧为CPU cycle(即CPU执行时间)的百分比。白色部分为真正有用的数据处理,剩下的都是传统数据库不可或缺的部分,但是消耗了大量的资源。由上图所示,缓存管理和锁,门闩和日志都是传统关系型数据库实际较大的开销。
  11. 在传统的数据管理体系中,内存是作为二级存储(典型的就是所谓的磁盘)的cache。 因为内存是非常稀缺的资源,所以在内存中的数据 1)一是app code,实际上也就是常驻内存的数据管理系统运行实例。 2)还有一部分当前处理所需的数据,这些数据都是从磁盘上载入的。 当内存不足时,需要根据替换策略将部分数据换出到磁盘上。 我们再看右边的图,在内存计算环境下,假设内存资源相对充裕,需要处理的工作集可以全部载入内存进行处理, 因此,在这种模式下,磁盘只担任数据的持久化备份、容错恢复、历史数据处理等职责。 在这两种不同的模式下,数据的访问模式也存在很大的差别。 在磁盘为主的架构下,数据访问需要通过OS的IO管理、传递到设备的IO控制器、最终访问磁盘。 而在内存为主的架构下,数据的访问变成了面向指针的算法和控制。 因此,在内存计算的环境下,内存的地位发生了很大的变化,已经成为了数据的主要载体。
  12. 在anti-caching机制下,DBMS负责所需数据的读写(即从内存中将冷数据evicted到磁盘上,以及从磁盘上读回被evicted的数据)。 类似的工作还可以利用OS的虚拟内存管理机制来完成(基于page的数据换入换出)。 但是,在主存数据库环境下,相比于基于Page的OS虚拟内存管理机制,anti-caching有更多的优势 1、细粒度的数据导出(evicted)机制:tuple-level的,而不是page-level的 2、非阻塞的evicted数据的载入:Page Fault发生时,OS会阻塞整个程序(process)。对某些数据库而言,意味着所有事务被阻塞 而anti-caching仅取消访问evicted数据的事务,其他事务仍然可以继续执行。
  13. 寄存器、缓存跳出数据库能访问和操作的层次了,所以,在数据库的背景下,我们主要讨论内存和外存层次
  14. PM: Persistent Memory (也就是我们所说的 NVM )
  15. 寄存器、缓存跳出数据库能访问和操作的层次了,所以,我们只讨论内存和外存层次
  16. 图(b) anti-caching的吞吐量随着skew降低而下降是因为,cache的命中率下降。而mysql上升是因为并发冲突降低。 对于图(c),性能较差的原因在于wirte-heavy下,因为更新操作而导致的写日志占据了大量时间。 CMU正在研究n-store。
  17. 这里架构变化既包括存储架构,也包括数据库架构
  18. Anti-Caching: A New Approach to)