Oracle-实例恢复

实例恢复(crash recover)

定义

当数据库突然崩溃，而没有来得及将buffer cache中的脏数据刷写入数据文件中，实例崩溃的同时正在运行的事务被突然中断，事务处于中间状态，这样导致数据库是不一致的状态。

当企图打开一个处于不一致状态的数据库时，smon进程自动会进行实例恢复。SCN号作为不一致状态的评判标准依据。

干净关闭数据库或使用alter system checkpoint命令时，都会将SCN的值写入到4个位置上。两两比较，若任意一个不相等都会进行实例恢复。

system change number(SCN)记录位置

控制文件
- system checkpoint SCN
- datafile checkpoint SCN
- stop SCN
数据文件头

查询SCN号

--system checkpoint SCN 查询
select checkpoint_change# from v$database;
--datafile checkpoint SCN查询
select name,checkpoint_change# from v$datafile;

--stop SCN查询
select name,last_change# from v$datafile;

-- datafile header SCN
select name,checkpoint_change#  from v$datafile_header;

检查点(checkpoint)

检查点是数据库的一个事件，用于减少崩溃恢复时间。

由后台进程触发，触发时ckpt进程通知dbwn进程将数据缓冲区的脏数据写入到数据文件。ckpt进程同时负责更新数据文件的头部信息及控制文件上的检查点信息

触发检查点条件

实例恢复发生的时间

在open阶段触发实例恢复。

alter database open;

此时，检查控制文件，数据文件，判断是否需要进行实例恢复。

实例恢复的过程

前滚->检查->回滚

前滚(Rolling forward)

应用redo数据（数据块修改）直到关闭前为止，重演已修改的数据，保证数据不丢失。

SMON 实例恢复时，会从控制文件中找到每3秒触发的增量检查点，检查点队列的第一个脏数据块检查点所对应的RBA地址，于是，smon进程到联机文件中找到该检查点RBA地址，然后从该位置开始往下应用，应用所有的redo 条目到ON DISK RBA(检查点队列的最后一个RBA) 就是联机日志文件的最后一条redo。从而buffer cache 里又恢复了实例崩溃那个时间的状态。这个过程叫前滚

打开数据库

前滚完毕后，smon进程立即打开数据库。

回滚(Rolling back)

将undo段中所有未提交的数据回滚，保持数据一致。回滚是在打开数据库之后进行的。

实例恢复所需要的时间

实例恢复所需的时间指的是将数据文件由其最后一个检查点返回到控制文件中记录的最新SCN所需的时间。可以通过设置MTTR（Mean Time To Recovery）目标（以秒为单位）并通过重做日志组的大小可控制这个时间。

FAST_START_MTTR_TARGET