【Linux】探索文件I/O奥秘，解锁软硬链接与生成动静态库知识

1、C文件接口

1.1什么是当前路径？

1.2程序默认打开的文件流：

2、系统文件I/O

2.1.接口介绍：

2.1.1open：

参数讲解;

flags如何实现一个参数就可以有多个参数传参的效果？

open函数的返回值：

3.文件描述符fd

3.1 0 & 1 & 2

3.2进程怎么知道了打开哪些文件呢？

3.3文件描述符的分配规则&&利用规则实现重定向

fd的分配规则：

使用 dup2 系统调用

4.缓冲区问题

4.1c语言为什么要存在语言层面上的缓冲区？

4.2那什么时候开始刷新到系统当中的缓冲区呢？

4.3缓冲区在哪里呢？

4.4与fork函数的结合

5、关于磁盘等相关硬件知识

5.1、磁盘的机械构成

5.2、磁盘的物理存储

5.3、磁盘的逻辑存储

5.4文件系统

注意：

1、那我们的文件名在哪里呢？

2、重谈文件的增删改查：

6.软硬连接：

6.1、操作观察现象：

软连接：本质是一个文件，有独立的inode编辑

硬连接：本质不是一个独立的文件，因为它的inode编号和目标文件相同！编辑

6.2、软硬链接的原理

6.3、软硬链接的应用场景：

软链接：对应文件的删除

硬链接：

7、动静态库：

7.1基础认知

7.2为什么要有库：

7.3我们如何将目标文件进行打包形成一个库文件呢？

7.3.1生成静态库

7.3.2生成动态库

1、C文件接口

1.1什么是当前路径？

进程开始启动时，进程所在的路径默认就是当前路径

1.2程序默认打开的文件流：

stdin 标准输入，键盘设备
stdout 标准输出，显示器设备
stderr 标准错误，显示器设备

仔细观察发现，这三个流的类型都是FILE*, fopen返回值类型，文件指针，那什么是FILE类型呢？这是C标准库自己封装的一个结构体。

2、系统文件I/O

操作文件，除了C接口（当然，C++也有接口，其他语言也有），我们还可以采用系统接口来进行文件访问

为什么访问文件不仅仅有C语言上的文件接口，OS必须提供对应的访问文件的系统调用？

原因：

其实上述讲的C语言接口是OS系统调用函数的封装，系统调用函数封装了C语言接口，是为了可移植性和跨屏平台性！

2.1.接口介绍：

2.1.1open：

int open(const char *pathname, int flags);
int open(const char *pathname, int flags, mode_t mode);

参数讲解;

pathname: 要打开或创建的目标文件

flags: 打开文件时，可以传入多个参数选项，用下面的一个或者多个常量进行“或”运算，构成flags。

O_RDONLY: 只读打开
O_WRONLY: 只写打开
O_RDWR : 读，写打开

上面这三个常量，必须指定一个且只能指定一个

O_CREAT : 若文件不存在，则创建它。需要使用mode选项，来指明新文件的访问权限
O_APPEND: 追加写，不会将文件内容刷新，是进行内容的追加。

mode选项：

指明新文件的访问权限。

返回值：
成功：新打开的文件描述符
失败：-1

flags如何实现一个参数就可以有多个参数传参的效果？

我们通过flag标记位，看看哪个位上有1就输出哪一位，我们用位运算的方式来实现传多个参数的目的！

int fd1 = open("log1.txt", O_WRONLY|O_CREAT|O_TRUNC, 0666);

所以我们的flags就实现一个参数就可以有多个参数传参的效果！

注意点：

不要往文件里面书写'/0'，这样会造成乱码。我们要清楚'/0'本身并不是字符串内容的一部分，而是指明字符串结束的标志。

open 函数具体使用哪个，和具体应用场景相关，如目标文件不存在，需要open创建，则第三个参数表示创建文件的默认权限,否则，使用两个参数的open。

open函数的返回值：

open函数的返回值文件描述符到底是什么呢？

在认识返回值之前，先来认识一下两个概念: 系统调用和库函数

上面的 fopen fclose fread fwrite 都是C标准库当中的函数，我们称之为库函数（libc）。
而， open close read write lseek 都属于系统提供的接口，称之为系统调用接口
回忆一下我们讲操作系统概念时，画的一张图

系统调用接口和库函数的关系，一目了然。
所以，可以认为，f#系列的函数，都是对系统调用的封装，方便二次开发。

C语言的文件接口，本质就是封装了系统调用！

3.文件描述符fd

通过对open函数的学习，我们知道了文件描述符就是一个小整数

3.1 0 & 1 & 2

Linux进程默认情况下会有3个缺省打开的文件描述符，分别是标准输入0，标准输出1，标准错误2.
0,1,2对应的物理设备一般是：键盘，显示器，显示器

文件描述符的本质就是数组下标！

当我们打开文件时，操作系统在内存中要创建相应的数据结构来描述目标文件。于是就有了file结构体。表示一个已经打开的文件对象。而进程执行open系统调用，所以必须让进程和文件关联起来。

3.2进程怎么知道了打开哪些文件呢？

每个进程都有一个指针*files, 指向一张表files_struct,该表最重要的部分就是包涵一个指针数
组，每个元素都是一个指向打开文件的指针！所以，本质上，文件描述符就是该数组的下标。所以，只要拿着文件描述符，就可以找到对应的文件！

3.3文件描述符的分配规则&&利用规则实现重定向

fd的分配规则：

最小的没有被使用的数组下标，会分配给最新打开的文件

#include <stdio.h>
#include <sys/types.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <stdlib.h>
int main()
{
close(1);
int fd = open("myfile", O_WRONLY|O_CREAT, 00644);
if(fd < 0){
perror("open");
return 1;
}
printf("fd: %d\n", fd);
fflush(stdout);
close(fd);
exit(0);
}

此时，我们发现，本来应该输出到显示器上的内容，输出到了文件 myfile 当中，其中，fd＝1。这种现象叫做输出重定向。常见的重定向有:>, >>, <

使用 dup2 系统调用

#include <unistd.h>
int dup2(int oldfd, int newfd);

将旧的内容指向的指针指向了新，因此最后都只剩下old。

以后重定向只需要使用dup2函数即可。

直接完成重定向：

下图就是完成了输出重定向——>dup2(oldfd,1)

照常还是从0里面读数据，但是我们不从键盘上读了，我们从log.txt里面进行读取

4.缓冲区问题

4.1c语言为什么要存在语言层面上的缓冲区？

我们再调用fwrite的时候，有效减少我们调用系统中的write，我们要清楚调用系统调用是有成本的，时间和空间的成本，每次调用fwrite，我们可能把数据放在了语言层面的缓冲区，有效减少调用系统调用的次数，也是减少了系统拷贝的次数！本质就是用空间换时间，增加效率。

4.2那什么时候开始刷新到系统当中的缓冲区呢？

无刷新，无缓冲
行刷新——显示器，xxxxx\n，遇到换行符就会刷新
全缓冲，全部刷新——普通文件，缓冲区被写满，才会刷新
自己调用fflush函数强制刷新
进程退出的时候，要自动刷新

4.3缓冲区在哪里呢？

就在file*指向的结构体里面

每个文件都有一个缓冲区

4.4与fork函数的结合

为什么C语言层面的fwrite和fprintf写了两份，而write只写了一份？

fork之前就已经把3条消息打印出来了，如果向显示器进行打印，刷新方案就是行

write是直接将内容输入到了系统内部的缓冲区当中，而C语言调用的fwrite是将内容放在了语言层面的缓冲区。C语言层面的缓冲区是在FILE里面的。一旦利用write将内容放在了系统内部，那么就跟进程没有关系了

fwrite函数重定向到了普通文件，那么刷新策略就会变成全刷新，而write是输出到显示器上的，因此就是行刷新！

重定向之后，对test.txt刷新策略，缓冲区刷新策略立即变成了全缓冲，因为不会把缓冲区填满，所以在调用fork函数的时候，内容还在缓冲区当中。所以只有在进程结束的时候才会刷新缓冲区，缓冲区内保存的是进程的数据，——父进程的数据，对缓冲区进行写时拷贝，父进程有一份，子进程也有一份，所以最后才会输出两次

write函数因为是行刷新，在fork之前就已经刷新缓冲区了，就不存在将缓冲区的内容写时拷贝到子进程的情况

5、关于磁盘等相关硬件知识

系统中是不是所有的文件都被打开了呢？大部分文件都是没有被打开的。如果没有被打开的文在哪里保存呢？

答：在磁盘、SSD当中保存，那么OS要不要管理一下磁盘上的文件呢？一定要，那现在的问题就是如何让OS快速定位一个文件！

5.1、磁盘的机械构成

5.2、磁盘的物理存储

每个磁盘是由一个一个小的同心圆也就是磁道组成的。

扇区：是磁盘IO的基本单位

如果我想访问磁盘中一个扇区：通过磁头进行定位到具体的磁道/柱面（cylinder），然后确定使用哪一个磁头（head），最后再确定哪一个扇区（sector）。这就是我们的CHS定位法！

那么任何文件，不就是多个扇区承载的数据！

5.3、磁盘的逻辑存储

我们其实可以把磁盘的存储当成线性结构来看待（磁带当中的长线条）。

因此我们对磁盘的管理，就变成了对数组的增删改查！

我们可以采用分治的思想，将很大的内存分成多个小块，我们对每一个小块内存的管理模式可以逐个采用到其他小块，这样我们就能根据分治的思想管理更大的内存！

5.4文件系统

比如说我们将800个GB分成多个小块内存，分成10个GB，那么我们如何管理这10个GB内存的空间呢？

磁盘是典型的块设备，硬盘分区被划分为一个个的block。一个block的大小是由格式化的时候确定的，并且不可以更改。

Linux磁盘文件特性：文件 = 内容 + 属性。

内容和属性分开存储，文件名不属于文件属性！系统中，标识一个文件，用的不直接是文件名，而是inode！

Block Group：ext2文件系统会根据分区的大小划分为数个Block Group。而每个Block Group都有着相同的结构组成。将一个大的内存分成多个小块。
超级块（Super Block）：存放文件系统本身的结构信息。记录的信息主要有：bolck 和 inode的总量，未使用的block和inode的数量，一个block和inode的大小，最近一次挂载的时间，最近一次写入数据的时间，最近一次检验磁盘的时间等其他文件系统的相关信息。Super Block的信息被破坏，可以说整个文件系统结构就被破坏了！（最重要！）
块位图（Block Bitmap）：Block Bitmap中记录着Data Block中哪个数据块已经被占用，哪个数据块没有被占用
inode位图（inode Bitmap）：每个bit表示一个inode是否空闲可用。
i节点表(inode table):存放文件属性。如文件大小，所有者，最近修改时间等
数据区（data block）：存放文件内容