假设B树存储的是索引的键,以及键所对应的内容的硬盘上存储地址。
那么问题来了。
1.索引往往都是很大的,往往都存在硬盘上。本人不可能一次性都读取出来。然后在内存中来进行查找比对,然后再到硬盘对应的位置把数据取出来。这样本人还用B树来构建索引干鸟。那数据库索引是怎么工作的呢?
2.基于问题1。假设B树不但存储了索引的键,还有对应内容的地址,他还存储了他的孩子节点的地址。那么我们可以每次只读取一个节点,然后进行比较。假如没找到,则根据条件跳到下一个节点继续查找。这样没问题,但是这个索引文件我们怎么样构造?一个个节点的地址怎么样生成?又怎么样通过程序根据这些地址去获取到数据?最后又怎么样将一个个节点的内容保存起来生成一个索引文件?
简单的来说,本人就是想本人构建一个非常微型的数据库。关于数据库索引的文章非常多,也有很多结合了硬盘来说。但都非常不全面,没有说到具体怎么去在硬盘上构建索引,以及利用索引在硬盘上进行查找。希望大家帮忙解答下本人心中的疑问,本人非常苦恼这个问题。
有学习材料更好。语言最好是C++或C#的。
那么问题来了。
1.索引往往都是很大的,往往都存在硬盘上。本人不可能一次性都读取出来。然后在内存中来进行查找比对,然后再到硬盘对应的位置把数据取出来。这样本人还用B树来构建索引干鸟。那数据库索引是怎么工作的呢?
2.基于问题1。假设B树不但存储了索引的键,还有对应内容的地址,他还存储了他的孩子节点的地址。那么我们可以每次只读取一个节点,然后进行比较。假如没找到,则根据条件跳到下一个节点继续查找。这样没问题,但是这个索引文件我们怎么样构造?一个个节点的地址怎么样生成?又怎么样通过程序根据这些地址去获取到数据?最后又怎么样将一个个节点的内容保存起来生成一个索引文件?
简单的来说,本人就是想本人构建一个非常微型的数据库。关于数据库索引的文章非常多,也有很多结合了硬盘来说。但都非常不全面,没有说到具体怎么去在硬盘上构建索引,以及利用索引在硬盘上进行查找。希望大家帮忙解答下本人心中的疑问,本人非常苦恼这个问题。
有学习材料更好。语言最好是C++或C#的。
解决方案
50
1. 索引即可能全都读取到内存,也可能不全部读取到内存,不同数据库系统的实现有所不同。
索引并不大,所以把单个索引一次性地读入内存也是可以的。例如一个数据表可能有100M 空间,其索引可能只占用200K。除非你是把一条记录里边几乎全部字段都组合起来作为索引键,否则怎么可能索引跟数据的大小相似呢?
假设数据库有100个表、200个索引,不必一次把全部索引都读入内存,用到哪一个再读哪一个。相似地,你也可以在读取索引时仅仅读取其顶层对象在内存中创建映射,而将下一级的节点使用一个自定义的 Lazy 机制对象(也就是说比普通对象来说,多一个判断能否“有值”的功能和一个“加载”功能),需要扩展哪一个节点时才读取某个节点的下一层节点。
从性能上说,读取整个(单个的)索引到内存里是性能和功能很好的平衡。动态加载节点则有可能过于谨慎。
索引并不大,所以把单个索引一次性地读入内存也是可以的。例如一个数据表可能有100M 空间,其索引可能只占用200K。除非你是把一条记录里边几乎全部字段都组合起来作为索引键,否则怎么可能索引跟数据的大小相似呢?
假设数据库有100个表、200个索引,不必一次把全部索引都读入内存,用到哪一个再读哪一个。相似地,你也可以在读取索引时仅仅读取其顶层对象在内存中创建映射,而将下一级的节点使用一个自定义的 Lazy 机制对象(也就是说比普通对象来说,多一个判断能否“有值”的功能和一个“加载”功能),需要扩展哪一个节点时才读取某个节点的下一层节点。
从性能上说,读取整个(单个的)索引到内存里是性能和功能很好的平衡。动态加载节点则有可能过于谨慎。
50
2. 这个问题,在任何一本关于数据库原理的教科书上都有。注意本人说的是“数据库原理”,而许多人学过的可能只是简单应用(也就是职业教育的入门教程,而非针对从事研发工作的人的教程)。
你找一个数据库原理方面的书,它会告诉你通用的关系数据库系统怎么样设计本人的虚拟数据块(书上可能翻译为“虚拟磁盘块”),数据块列表(使用中的、空闲的),例如每块1M大小。
一个文件内部,可以包括多个虚拟数据块。每一块都有一个指针链接到下一块。同时文件头部可以有几十字节固定区域,用来定义诸如“链表1、链表2、链表3、链表4的起始偏移”,以及“最大链表长度、多少分钟压缩合并一次空闲”等等全局设置。
每一数据块中保存多条记录,因此每一个记录的“地址”其实就是“文件内磁盘块地址+磁盘块内数据数组下标”。
当数据被创建时,可以插入“某个正在使用的”磁盘块的空闲空间中(同时原因是块内空闲空间的),假如没有则从空闲磁盘块列表上取下一个磁盘块使用,假如还没有则动态扩大文件(例如1M空间)来分配一个磁盘块使用。
当数据删除时,它可以挪动磁盘块内的空间(使得空闲部分集中到尾部)。假如数据原来是磁盘块中唯一一个,则磁盘块变为空闲。假如数据不是原来磁盘块中唯一一条数据,则磁盘块在“使用中的磁盘块”的链表的位置可能原因是空闲增大而向前移动。
所以,一个普通的可随机读写的文件,囊括了数据库系统全部数据。而并不需要分成许多文件。
数据的“所在数据块编号”不一定是绝对对应于文件中的偏移地址,完全可以在数据库系统初始化时一次性扫描全部数据块,在内存中创建字典数据结构。假如说单个索引可以不一次性读入内存,但是这个数据块编号跟数据块的文件偏移地址的对应关系,则一定要一次性读入内存的。
你找一个数据库原理方面的书,它会告诉你通用的关系数据库系统怎么样设计本人的虚拟数据块(书上可能翻译为“虚拟磁盘块”),数据块列表(使用中的、空闲的),例如每块1M大小。
一个文件内部,可以包括多个虚拟数据块。每一块都有一个指针链接到下一块。同时文件头部可以有几十字节固定区域,用来定义诸如“链表1、链表2、链表3、链表4的起始偏移”,以及“最大链表长度、多少分钟压缩合并一次空闲”等等全局设置。
每一数据块中保存多条记录,因此每一个记录的“地址”其实就是“文件内磁盘块地址+磁盘块内数据数组下标”。
当数据被创建时,可以插入“某个正在使用的”磁盘块的空闲空间中(同时原因是块内空闲空间的),假如没有则从空闲磁盘块列表上取下一个磁盘块使用,假如还没有则动态扩大文件(例如1M空间)来分配一个磁盘块使用。
当数据删除时,它可以挪动磁盘块内的空间(使得空闲部分集中到尾部)。假如数据原来是磁盘块中唯一一个,则磁盘块变为空闲。假如数据不是原来磁盘块中唯一一条数据,则磁盘块在“使用中的磁盘块”的链表的位置可能原因是空闲增大而向前移动。
所以,一个普通的可随机读写的文件,囊括了数据库系统全部数据。而并不需要分成许多文件。
数据的“所在数据块编号”不一定是绝对对应于文件中的偏移地址,完全可以在数据库系统初始化时一次性扫描全部数据块,在内存中创建字典数据结构。假如说单个索引可以不一次性读入内存,但是这个数据块编号跟数据块的文件偏移地址的对应关系,则一定要一次性读入内存的。
20
事实上,假如你是开发一个“微型”的数据库,那么你完全可以在运行时、系统初始化时才临时创建索引,在系统关闭之前将索引序列化到磁盘(例如文件头部的“链表4”来记录顺序记录序列化了得索引数组的起始地址)。假设关闭之前若没有正确保存索引,则下次初始化启动时则重建索引,否则就读取上次保存的值在内存中反序列化。对索引可以稍微简单粗暴地处理。
80
文件在硬盘中是以族为单位存储的,所以你在组织树节点数据时最好不要超过族的规模
这样读取时就是最快的
这样读取时就是最快的