UNIX环境编程学习笔记(3)——文件I/O之内核 I/O 数据结构
2017-08-31 16:00
435 查看
内核使用三种数据结构表示打开的文件,分别是文件描述符表、文件表和 V 节点表。
(1) 每个进程在进程表中都有一个记录项,记录项中包含有一张打开文件描述符表,每个描述符占用一项。与每个文件描述符相关联的是:
(a) 文件描述符标志。
(b) 指向一个文件表项的指针。
(2) 内核为所有打开文件维持一张文件表。每个文件表项包含:
(a) 文件状态标志(读、写、添写、同步和非阻塞等)。
(b) 当前文件偏移量。
(c) 指向该文件 V 节点表项的指针。
(3) 每个打开文件(或设备)都有一个 v 节点(v-node)结构。v 节点包含了文件类型和对此文件进行各种操作的函数的指针。v 节点还包含了从磁盘读取的 i 节点(i-node)的信息,i 节点信息包含了文件的所有者、文件长度、文件所在的设备、指向文件的实际数据块在磁盘上的所在位置的指针等。
图 1 显示了一个进程的三张表之间的关系。该进程有两个不同的打开文件,一个文件打开为标准输入(文件描述符为 0),另一个打开为标准输出(文件描述符为 1)。
图 1: 一个进程打开两个文件的内核数据结构
图 2 给出了两个进程打开同一个文件的内核数据结构。假定第一个进程在文件描述符 3 上打开该文件,而另一个进程在文件描述符 4 上打开该文件。打开该文件的每个进程都得到一个文件表项,但对一个给定的文件只有一个 v 节点表项。
图 2: 两个进程打开同一个文件的内核数据结构
了解这些内核数据结构之后,就能够很容易地理解下面的内容,
• 每个进程都有自己的对打开文件的当前偏移量。
• 在完成每个 write 后,在文件表项中的当前文件偏移量即增加所写的字节数。如果这使当前文件偏移量超过了当前文件长度,则在 i 节点表项中的当前文件长度被设置为当前文件偏移量。
• 若一个文件用 lseek 定位到文件当前的尾端,则文件表项中的当前文件偏移量被设置为 i 节点表项中的当前文件长度。(这与O_APPEND标志打开文件是不同的。使用 lseek 定位到文件尾端处后,下次调用write 写数据不一定是写在改文件的真正尾端,因为 lseek 和 write 两个不是原子操作,中间可以有另一个进程已使文件长度变长了。)
考虑下面带程序片段,
如果是单进程,则上述的程序片段能够正常地将数据添加到文件末尾处。但是,如果是多个进程同时使用此方法将那个数据添加到同一个文件,则会出现问题。假定有两个进程 A 和 B 都对使用上述的程序片段对同一个文件执行添加操作,则其内核数据结构如图 2 所示。假定进程 A 调用了 lseek 将进程 A 的该文件当前偏移量设置为 1000字节(当前文件末尾处)。然后内核切换到进程 B 来执行,进程 B 执行 lseek 也将进程 B 的该文件当前偏移量也设置为 1000 字节(当前文件末尾处),然后进程 B 调用 write
写入 100 字节(此时文件长度变为 1100 字节)。然后,内核切换到进程 A 运行,进程 A 运行 write从其当前文件偏移量(1500 字节)处将数据写到文件中,于是便覆盖了进程 B 所写的数据。
出现该问题的原始的,lseek 定位和 write 写数据是顺序操作,不是一个原子操作,中间会被内核中断。UNIX 提供一个O_APPEND 选项来处理这种情况(见下面说明)。
• 如果用O_APPEND 标志打开了一个文件,则相应标志被设置到文件表项的文件状态标志中。每次对这种具有添写标志的文件执行写操作时,在文件表项中的当前文件偏移量首先被设置成 i 节点表项中的文件长度。这就使得每次写的数据都添加到文件的当前尾端处。
• lseek 函数只修改文件表项中的当前文件偏移量,没有进行任何 I/O操作。
(1) 每个进程在进程表中都有一个记录项,记录项中包含有一张打开文件描述符表,每个描述符占用一项。与每个文件描述符相关联的是:
(a) 文件描述符标志。
(b) 指向一个文件表项的指针。
(2) 内核为所有打开文件维持一张文件表。每个文件表项包含:
(a) 文件状态标志(读、写、添写、同步和非阻塞等)。
(b) 当前文件偏移量。
(c) 指向该文件 V 节点表项的指针。
(3) 每个打开文件(或设备)都有一个 v 节点(v-node)结构。v 节点包含了文件类型和对此文件进行各种操作的函数的指针。v 节点还包含了从磁盘读取的 i 节点(i-node)的信息,i 节点信息包含了文件的所有者、文件长度、文件所在的设备、指向文件的实际数据块在磁盘上的所在位置的指针等。
图 1 显示了一个进程的三张表之间的关系。该进程有两个不同的打开文件,一个文件打开为标准输入(文件描述符为 0),另一个打开为标准输出(文件描述符为 1)。
图 1: 一个进程打开两个文件的内核数据结构
图 2 给出了两个进程打开同一个文件的内核数据结构。假定第一个进程在文件描述符 3 上打开该文件,而另一个进程在文件描述符 4 上打开该文件。打开该文件的每个进程都得到一个文件表项,但对一个给定的文件只有一个 v 节点表项。
图 2: 两个进程打开同一个文件的内核数据结构
了解这些内核数据结构之后,就能够很容易地理解下面的内容,
• 每个进程都有自己的对打开文件的当前偏移量。
• 在完成每个 write 后,在文件表项中的当前文件偏移量即增加所写的字节数。如果这使当前文件偏移量超过了当前文件长度,则在 i 节点表项中的当前文件长度被设置为当前文件偏移量。
• 若一个文件用 lseek 定位到文件当前的尾端,则文件表项中的当前文件偏移量被设置为 i 节点表项中的当前文件长度。(这与O_APPEND标志打开文件是不同的。使用 lseek 定位到文件尾端处后,下次调用write 写数据不一定是写在改文件的真正尾端,因为 lseek 和 write 两个不是原子操作,中间可以有另一个进程已使文件长度变长了。)
考虑下面带程序片段,
if (lseek(fd, 0L, SEEK_END) < 0) { printf("lseek error"); } if (write(fd, buf, 100) < 100) { printf("write error"); }
如果是单进程,则上述的程序片段能够正常地将数据添加到文件末尾处。但是,如果是多个进程同时使用此方法将那个数据添加到同一个文件,则会出现问题。假定有两个进程 A 和 B 都对使用上述的程序片段对同一个文件执行添加操作,则其内核数据结构如图 2 所示。假定进程 A 调用了 lseek 将进程 A 的该文件当前偏移量设置为 1000字节(当前文件末尾处)。然后内核切换到进程 B 来执行,进程 B 执行 lseek 也将进程 B 的该文件当前偏移量也设置为 1000 字节(当前文件末尾处),然后进程 B 调用 write
写入 100 字节(此时文件长度变为 1100 字节)。然后,内核切换到进程 A 运行,进程 A 运行 write从其当前文件偏移量(1500 字节)处将数据写到文件中,于是便覆盖了进程 B 所写的数据。
出现该问题的原始的,lseek 定位和 write 写数据是顺序操作,不是一个原子操作,中间会被内核中断。UNIX 提供一个O_APPEND 选项来处理这种情况(见下面说明)。
• 如果用O_APPEND 标志打开了一个文件,则相应标志被设置到文件表项的文件状态标志中。每次对这种具有添写标志的文件执行写操作时,在文件表项中的当前文件偏移量首先被设置成 i 节点表项中的文件长度。这就使得每次写的数据都添加到文件的当前尾端处。
• lseek 函数只修改文件表项中的当前文件偏移量,没有进行任何 I/O操作。
相关文章推荐
- UNIX环境编程学习笔记(3)——文件I/O之内核 I/O 数据结构
- UNIX环境高级编程学习笔记(七)系统数据文件和信息
- UNIX环境编程学习笔记(9)——文件I/O之文件访问权限的屏蔽和更改
- UNIX环境高级编程学习之第六章系统数据文件和信息 用链表的形式读出一个服务器的远程用户登入登出信息
- UNIX环境编程学习笔记(6)——文件I/O之判断文件类型
- UNIX环境编程学习笔记(13)——文件I/O之标准I/O流
- UNIX环境高级编程学习之第六章系统数据文件和信息-取所有组名、GID
- UNIX环境编程学习笔记(12)——文件I/O之目录操作
- UNIX环境编程学习笔记(2)——文件I/O之不带缓冲的 I/O
- UNIX环境编程学习笔记—文件I/O之标准I/O流
- UNIX环境编程学习笔记(5)——文件I/O之fcntl函数访问已打开文件的性质
- Unix环境编程学习笔记------查看系统调用号文件
- UNIX环境编程学习笔记(13)——文件I/O之标准I/O流
- UNIX环境编程学习笔记(8)——文件I/O之校验当前登录用户对文件的访问权限
- UNIX环境编程学习笔记(4)——文件I/O之dup复制文件描述符
- UNIX环境高级编程学习之第六章系统数据文件和信息-GID To GroupName
- UNIX环境编程学习笔记(8)——文件I/O之校验当前登录用户对文件的访问权限
- UNIX环境编程学习笔记(4)——文件I/O之dup复制文件描述符
- UNIX环境编程学习笔记(14)——文件I/O之临时文件
- UNIX环境编程学习笔记(11)——文件I/O之文件时间以及 utime 函数