分布式数据库系统通常使用较小的计算机系统,每台计算机可单独放在一个地方,每台计算机中都可能有DBMS的一份完整拷贝副本,或者部分拷贝副本,并具有自己局部的数据库, 通过网络互相连接共同组成一个完整的、全局的逻辑上集中、物理上分布的大型数据库。
分布式并行数据库通过并行使用多个CPU和磁盘来将诸如装载数据、建立索引、执行查询等操作并行化以提升性能的数据库系统。其中更重要的关键词是并行。
在组成大规模计算机集群的时候,通常有两种特性要考虑:并行和分布式。并行强调多节点同时执行,共同解决一个大问题,通常在严格的高性能网络环境中,有严格的执行要求和反馈时限。或者通过良好的分发极致,分布式并行处理不同的任务,从而达到数据处理高性能的需求。
因为并行数据库的技术特点是为了某类需求设计的,因此它有自己的适用环境。它采用关系理论非常适合结构化数据。非结构化或者某些半结构化数据,当然也可以在其中存和取,但是实际上有很多更好的解决方案可以选择。
并行数据库目前的主要问题来自于它的设计目的,因为要实现完美的并行,因此它大多被设计为计算和存储紧密耦合,这样计算可以控制每行数据的存储位置和每个数据块的存储格式,这样对大型的任务而言提供了很好的性能。
分布式数据库核心的理念可以用下面一句话来概括:
“积少成多”让多个“小”的能力协同、汇聚成“大”的能力来解决大问题,是引跑分布式数据库更核心的设计理念。分布式数据库的基本思想是将原来集中式数据库中的数据以及处理能力,分散存储到多个通过网络连接的数据存储节点上,以获取更大的存储容量和更高的并发访问量。
并行数据库主要由执行引擎、存储引擎和管理功能模块组成。 在这里我简单介绍几种常见的多节点数据库架构,有些甚至可以看做是分布式数据库的变种,分布式数据库和我们平时经常提到的数据库集群有些相似的地方,但是不能把它们混淆。
正在努力创建中,请耐心等待。。