数据库系统概论第1章–绪论,如有错误烦请指正。
第一章 绪论
1.1 数据库系统概述
1.1.1 四个基本概念
- 数据:是数据库中存储的基本对象
- 定义:描述事物的符号记录
- 特点:数据与其语义是不可分的
- 数据库(DB):是长期存储在计算机内、有组织的、可共享的大量数据的集合
- 基本特征:
- 数据按一定的数据模型组织、描述和储存
- 可为各种用户共享
- 冗余度较小
- 数据独立性较高
- 易扩展
- 基本特征:
- 数据库管理系统(DBMS):
- 什么是DBMS:
- 位于用户与操作系统之间的一层数据管理软件
- 是基础软件,是一个大型复杂的软件系统
- DBMS的用途
- 科学地组织和存储数、高效地获取和维护数据
- 什么是DBMS:
- 数据库系统
- 什么是?:在计算机系统中引入数据库后的系统构成
- 组成:数据库、DBMS、应用系统、数据库管理员
1.1.2 数据管理技术的产生和发展
- 什么是数据管理
- 对数据进行分类、组织、编码、存储、检索和维护
- 是数据处理的中心问题
- 数据管理技术的发展过程
- 人工管理阶段(20世纪49年代中–50年代中)
- 文件系统阶段(20世纪50年代末–60年代中)
- 数据库系统阶段(20世纪60年代末–现在)
- 数据管理技术的发展动力
- 应用需求的推动
- 计算机硬件的发展
- 计算机软件的发展
文件系统记录内有结构,整体无结构(因文件是独立的),数据只能是定长的,数据的最小存取单位是记录。
1.1.3 数据库系统的特点
- 数据结构化
- 整体数据的结构化是数据库的主要特征之一
- 整体结构化,不再仅针对某个应用,而是面向全组织,不仅数据内部结构化,整体也是结构化的,数据之间具有联系
- 数据可以变长,最小存取单位是数据项。
- 数据的共享性高,冗余度低,易扩充
- 数据独立性高
- 物理独立性
- 逻辑独立性
- 数据独立性由DBMS的二级映像功能来保证的
- 数据由DBMS统一管理和控制
- 数据的安全性保护
- 数据的完整性检查
- 并发控制
- 数据库恢复
1.2 数据模型
1.2.1 两大类数据模型
- 概念模型(信息模型),按用户的观点来对数据和信息建模,用于数据库设计。
- 逻辑模型(数据模型)和物理模型
- 逻辑模型主要包括网状模型、层次模型、关系模型、面向对象模型,用于DBMS实现
- 物理模型是对最底层的抽象
1.2.2 数据模型的组成要素
- 数据结构
- 定义:描述数据库的组成对象,以及对象之间的联系
- 数据结构是对系统静态特性的描述
- 数据操作
- 数据操作类型:查询、更新(插入、删除、修改)
- 数据操作是对系统动态特性的描述
- 完整性约束条件
- 在关系模型中,任何关系必须满足实体完整性和参照完整性两个条件。
1.2.3 概念模型
- 用途
- 用于信息世界的建模,是现实世界到机器世界的一个中间层次,是数据库设计人员和用户之间进行交流的语言
- 常用E-R图表示
- 实体性:用矩形表示,框内写明实体名
- 属性:用椭圆形表示,并用无向边将其与相应的实体连接起来
- 联系:用菱形表示,框内写明联系名,用无向边分别与有关实体连接起来,同时在无向边旁标上联系的类型(1:1、1:n、m:n)
- 联系的属性:联系本身也是一种实体型,也可以有属性
1.2.4 最常用的数据模型
- 非关系模型
- 层次模型
- 网状模型
- 关系模型
- 面向对象模型
- 对象关系模型
1.2.5 层次模型
层次模型是数据库系统中最早出现的数据模型,典型代表是IBM公司的IMS(Information Management System)数据库管理系统。
层次模型用树形结构来表示各类实体以及实体间的联系。
- 满足下面两个条件的基本层次联系的集合为层次模型:
- 有且只有一个结点没有双亲结点,这个结点称为根节点。
- 根以外的其他结点有且只有一个双亲结点。
- 几个术语:
- 根结点、双亲结点、兄弟结点、叶结点
- 特点:
- 结点的双亲是唯一的
- 只能直接处理一对多的实体联系
- 每个记录类型可以定义一个排序字段,也称为码字段
- 任何记录值只有按其路径查看时,才能显出它的全部意义
- 没有一个子女记录值能够脱离双亲记录值而独立存在
- 多对多联系在层次模型中的表示
- 将多对多联系分解成一对多联系
- 方法:冗余结点法、虚拟结点法
- 完整性约束条件
- 无相应的双亲结点值就不能插入子女结点值
- 如果删除双亲结点值,则相应的子女结点值也被同时删除
- 更新操作时,应更新所有相应记录,以保证数据的一致性
- 存储结构
- 邻接法:按照层次树前序遍历的顺序把所有记录值依次邻接存放,即通过物理空间的位置相邻来实现层次顺序
- 链接法:用指针来反映数据之间的层次联系
- 子女-兄弟链接法:每个记录两个指针,分别指向最左边的子女和最近的兄弟
- 层次序列链接法:按树的前序遍历顺序链接各记录值
- 优缺点
- 优点
- 层次模型的数据结构比较简单清晰
- 查询效率高,性能优于关系模型,不低于网状模型
- 层次数据模型提供了良好的完整性支持
- 缺点
- 多对多联系表示不自然
- 对插入和删除操作的限制多,应用程序的编写比较复杂
- 查询子女结点必须通过双亲结点
- 由于结构严密,层次命令趋于程序化
- 优点
1.2.6 网状模型
网状数据库系统采用网状模型作为数据的组织方式,典型代表时DBTG系统,亦称CODASYL系统,是70年代有DBTG提出的一个系统方案,奠定了数据库系统的基本概念、方法和技术。
- 满足下面两个条件的基本层次联系的集合
- 允许一个以上的结点无双亲
- 一个结点可以有多于一个的双亲
- 网状模型与层次模型的区别
- 网状模型允许多个结点没有双亲结点
- 网状模型允许结点有多于一个的双亲
- 网状模型允许两个结点之间有多种联系(复合联系)
- 网状模型可以更直接地去描述现实世界
- 层次模型实际上是网状模型的一个特例
- 多对多联系在网状模型中的表示:将多对多联系直接分解成一对多联系
- 网状数据模型的操纵与完整性约束
- 码:唯一标识记录的数据项的集合
- 一个联系中双亲记录与子女记录之间是一对多联系
- 支持双亲记录和子女记录之间某些约束条件
- 存储结构:单向链接、双向链接、环状链接、向首链接
- 优点:
- 能够更为直接地描述现实世界,如一个结点可以有多个双亲
- 具有良好的性能,存取效率较高
- 缺点:
- 结构比较复杂,而且随着应用环境的扩大,数据库的结构就变得越来越复杂,不利于最终用户掌握
- DDL、DML语言复杂,用户不容易使用
1.2.7 关系模型
关系数据库系统采用关系模型作为数据的组织方式,1970年美国IBM公司首次提出了数据库系统的关系模型,计算机厂商新推出的数据库管理系统几乎都支持关系模型。
在用户观点下,关系模型中数据的逻辑结构是一张二维表。
数据结构
- 关系:一个关系对应通常说的一张表
- 元组:表中的一行即为一个元组
- 属性:表中的一列即为一个属性,给每一个属性起一个名称即属性名
- 主码:表中的某个属性组,它可以唯一确定一个元组
- 域:属性的取值范围
- 分量:元组中的一个属性值
- 关系模式:对关系的描述
关系名(属性1,属性2,……,属性n)
关系必须是规范化的,满足一定的规范条件
- 最基本的规范条件:关系的每一个分量必须是一个不可分的数据项,不允许表中还有表。
关系的完整性约束条件
- 实体完整性
- 参照完整性
- 用户定义的完整性
优点:
- 建立在严格的数学概念的基础上
- 概念单一
- 实体和各类联系都用关系来表示
- 对数据的检索结果也是关系
- 关系模型的存取路径对用户透明
- 具体更高的数据独立性,更好的安全保密性
- 简化了程序员的工作和数据库开发建立的工作
缺点:
- 存取路径对用户透明导致查询效率往往不如非关系数据模型
- 为提高性能,必须对用户的查询请求进行优化增加了开发DBMS的难度
1.3 数据库系统结构
从数据库管理系统角度看,通常采用三级模式结构,是数据库内部的系统结构
从数据库最终用户角度看,数据库系统的结构分为:单用户结构、主从式结构、分布式结构、客户/服务器、浏览器/应用服务器/数据库服务器多层结构等
1.3.1 数据库系统的三级模式结构
- 模式(也成逻辑模式)
- 数据库中全体数据的逻辑结构和特征的描述
- 所有用户的公共数据视图,综合了所有用户的需求
- 一个数据库只有一个模式
- 是数据库系统模式结构的中间层
- 外模式
- 数据库用户使用的局部数据的逻辑结构和特征的描述
- 数据库用户的数据视图,是与某一应用有关的数据的逻辑表示
- 介于模式与应用之间
- 一个数据库可以有多个外模式
- 用途:
- 保证数据库安全性的一个有力措施
- 每个用户只能看见和访问所对应的外模式中的数据
- 内模式
- 是数据物理结构和存储方式的描述
- 是数据在数据库内部的表示方式
- 一个数据库只有一个内模式
1.3.2 数据库的二级映像功能与数据独立性
- 三级模式是对数据的三个抽象级别
- 二级映像在DBMS内部实现这三个抽象层次的联系和转换
- 外模式/模式映像
- 模式/内模式映像
- 外模式/模式映像
- 模式描述的是数据的全局逻辑结构,外模式描述的是数据的局部逻辑结构
- 每一个外模式,数据库系统都有一个外模式/模式映像
- 保证数据的逻辑独立性
- 当模式改变时,数据库管理员修改有关的外模式/模式映像,使外模式保持不变
- 应用程序是依据数据的外模式编写的,从而应用程序不必修改,保证了数据与程序的逻辑独立性,简称数据的逻辑独立性。
- 模式/内模式映像
- 模式/内模式映像定义了数据全局逻辑结构与存储结构之间的对应关系。
- 数据库中模式/内模式映像是唯一的
- 该映像描述通常包含在模式描述中
- 保证数据的物理独立性
- 当数据库的存储结构改变了,数据库管理员修改模式/内模式映像,使模式保持不变
- 应用程序不受影响。保证了数据与程序的物理独立性,简称数据的物理独立性。
1.4 数据库的组成
- 数据库
- 数据库管理系统(及其开发工具)
- 应用系统
- 数据库管理员