Linux——进程与线程

在这里插入图片描述

进程与线程

前言
一、Linux线程概念
- 线程的优点
- 线程的缺点
- 线程异常
- 线程用途
二、Linux进程VS线程
- 进程和线程
三、Linux线程控制
- 创建线程
- 线程ID及进程地址空间布局
- 线程终止
- 线程等待
- 分离线程
四、习题巩固
- 请简述什么是LWP
- 请简述LWP与pthread_create创建的线程之间的关系
- 简述轻量级进程ID与进程ID之间的区别
总结

前言

让我们来学习Linux中又一大重要知识点吧！
大家先来认识一下吧！
Linux线程，也称为轻量级进程（LWP），是操作系统进行调度的基本单位，用于在进程内部执行不同的代码路径，实现并发执行。与进程相比，线程具有更小的执行粒度，更低的调度成本，并且可以共享进程的资源，如内存空间、文件描述符等。

一、Linux线程概念

什么是线程？

在一个程序里的一个执行路线就叫做线程（thread）。
更准确的定义是：线程是“一个进程内部的控制序列”
. 一切进程至少都有一个执行线程
. 线程在进程内部运行，本质是在进程地址空间内运行
. 在Linux系统中，在CPU眼中，看到的PCB都要比传统的进程更加轻量化
. 透过进程虚拟地址空间，可以看到进程的大部分资源，将进程资源合理分配给每个执行流，就形成了线程执行流

在这里插入图片描述

线程的优点

创建一个新线程的代价要比创建一个新进程小得多
与进程之间的切换相比，线程之间的切换需要操作系统做的工作要少很多
线程占用的资源要比进程少很多
能充分利用多处理器的可并行数量
在等待慢速I/O操作结束的同时，程序可执行其他的计算任务
计算密集型应用，为了能在多处理器系统上运行，将计算分解到多个线程中实现
I/O密集型应用，为了提高性能，将I/O操作重叠。线程可以同时等待不同的I/O操作。

线程的缺点

性能损失
一个很少被外部事件阻塞的计算密集型线程往往无法与共它线程共享同一个处理器。如果计算密集型
线程的数量比可用的处理器多，那么可能会有较大的性能损失，这里的性能损失指的是增加了额外的
同步和调度开销，而可用的资源不变。
健壮性降低
编写多线程需要更全面更深入的考虑，在一个多线程程序里，因时间分配上的细微偏差或者因共享了
不该共享的变量而造成不良影响的可能性是很大的，换句话说线程之间是缺乏保护的。
缺乏访问控制
进程是访问控制的基本粒度，在一个线程中调用某些OS函数会对整个进程造成影响。
编程难度提高
编写与调试一个多线程程序比单线程程序困难得多

线程异常

单个线程如果出现除零，野指针问题导致线程崩溃，进程也会随着崩溃
线程是进程的执行分支，线程出异常，就类似进程出异常，进而触发信号机制，终止进程，进程终止，该进程内的所有线程也就随即退出

线程用途

合理的使用多线程，能提高CPU密集型程序的执行效率
合理的使用多线程，能提高IO密集型程序的用户体验（如生活中我们一边写代码一边下载开发工具，就是多线程运行的一种表现）

二、Linux进程VS线程

线程是比进程更轻量化的一种执行流，线程是在进程内部执行的一种执行流

进程和线程的关系
在这里插入图片描述

进程和线程

进程是资源分配的基本单位
线程是调度的基本单位
线程共享进程数据，但也拥有自己的一部分数据:

. 线程ID
. 一组寄存器
. 栈 . errno
. 信号屏蔽字
. 调度优先级

进程的多个线程共享同一地址空间,因此Text Segment、Data Segment都是共享的,如果定义一个函数,在各线程中都可以调用,如果定义一个全局变量,在各线程中都可以访问到,除此之外,各线程还共享以下进程资源和环境:

. 文件描述符表
. 每种信号的处理方式(SIG_ IGN、SIG_ DFL或者自定义的信号处理函数)
. 当前工作目录
. 用户id和组id

如何看待之前学习的单进程？具有一个线程执行流的进程
对于具有一个线程执行流的进程，我们可以将其视为单进程的一种特殊情况。在这种情况下，进程中的所有代码都是顺序执行的，没有并发和并行的概念。虽然这种执行方式在某些情况下可能足够用，但在面对复杂的业务逻辑和高并发场景时，可能会暴露出性能瓶颈和稳定性问题。

三、Linux线程控制

POSIX线程库

与线程有关的函数构成了一个完整的系列，绝大多数函数的名字都是以“pthread_”打头的
要使用这些函数库，要通过引入头文<pthread.h>
链接这些线程函数库时要使用编译器命令的“-lpthread”选项

创建线程

功能：创建一个新的线程
原型int pthread_create(pthread_t *thread, const pthread_attr_t *attr, void *
(*start_routine)(void*), void *arg);
参数thread:返回线程IDattr:设置线程的属性，attr为NULL表示使用默认属性start_routine:是个函数地址，线程启动后要执行的函数arg:传给线程启动函数的参数
返回值：成功返回0；失败返回错误码

错误检查:
传统的一些函数是，成功返回0，失败返回-1，并且对全局变量errno赋值以指示错误。
pthreads函数出错时不会设置全局变量errno（而大部分其他POSIX函数会这样做）。而是将错误代码通过返回值返回
pthreads同样也提供了线程内的errno变量，以支持其它使用errno的代码。对于pthreads函数的错误，
建议通过返回值业判定，因为读取返回值要比读取线程内的errno变量的开销更小

代码演示

#include <iostream>
#include <unistd.h>
#include <pthread.h>
#include <sys/types.h>
#include <unistd.h>int gcnt = 100;// 新线程
void *ThreadRoutine(void *arg)
{const char *threadname = (const char *)arg;while (true){std::cout << "I am a new thread: " << threadname << ", pid: " << getpid() << "gcnt: " << gcnt << " &gcnt: " << &gcnt << std::endl;gcnt--;sleep(1);}
}int main()
{// 已经有进程了pthread_t tid;pthread_create(&tid, nullptr, ThreadRoutine, (void *)"thread 1");// 主线程while (true){std::cout << "I am main thread"<< ", pid: " << getpid()  << "gcnt: " << gcnt << " &gcnt: " << &gcnt << std::endl;sleep(1);}return 0;
}

运行结果
在这里插入图片描述

线程ID及进程地址空间布局

pthread_ create函数会产生一个线程ID，存放在第一个参数指向的地址中。该线程ID和前面说的线程ID不是一回事。
前面讲的线程ID属于进程调度的范畴。因为线程是轻量级进程，是操作系统调度器的最小单位，所以需要一个数值来唯一表示该线程。
pthread_ create函数第一个参数指向一个虚拟内存单元，该内存单元的地址即为新创建线程的线程ID，属于NPTL线程库的范畴。线程库的后续操作，就是根据该线程ID来操作线程的。
线程库NPTL提供了pthread_ self函数，可以获得线程自身的ID：

pthread_t pthread_self(void);

pthread_t 到底是什么类型呢？取决于实现。对于Linux目前实现的NPTL实现而言，pthread_t类型的线程ID，本质就是一个进程地址空间上的一个地址。
在这里插入图片描述

线程终止

如果需要只终止某个线程而不终止整个进程,可以有三种方法:

1. 从线程函数return。这种方法对主线程不适用,从main函数return相当于调用exit。
2. 线程可以调用pthread_ exit终止自己。
3. 一个线程可以调用pthread_ cancel终止同一进程中的另一个线程。

pthread_exit函数

功能：线程终止
原型void pthread_exit(void *value_ptr);
参数value_ptr:value_ptr不要指向一个局部变量。
返回值：无返回值，跟进程一样，线程结束的时候无法返回到它的调用者（自身）

需要注意,pthread_exit或者return返回的指针所指向的内存单元必须是全局的或者是用malloc分配的,不能在线程函数的栈上分配,因为当其它线程得到这个返回指针时线程函数已经退出了。

pthread_cancel函数

功能：取消一个执行中的线程
原型int pthread_cancel(pthread_t thread);
参数thread:线程ID
返回值：成功返回0；失败返回错误码

线程等待

为什么需要线程等待？
已经退出的线程，其空间没有被释放，仍然在进程的地址空间内。
创建新的线程不会复用刚才退出线程的地址空间。

功能：等待线程结束
原型int pthread_join(pthread_t thread, void **value_ptr);
参数thread:线程IDvalue_ptr:它指向一个指针，后者指向线程的返回值
返回值：成功返回0；失败返回错误码

调用该函数的线程将挂起等待,直到id为thread的线程终止。thread线程以不同的方法终止,通过pthread_join得到的终止状态是不同的，总结如下:

如果thread线程通过return返回,value_ ptr所指向的单元里存放的是thread线程函数的返回值。
如果thread线程被别的线程调用pthread_ cancel异常终掉,value_ ptr所指向的单元里存放的是常数 PTHREAD_ CANCELED。
如果thread线程是自己调用pthread_exit终止的,value_ptr所指向的单元存放的是传给pthread_exit的参数。
如果对thread线程的终止状态不感兴趣,可以传NULL给value_ ptr参数。

在这里插入图片描述

分离线程

默认情况下，新创建的线程是joinable的，线程退出后，需要对其进行pthread_join操作，否则无法释放资源，从而造成系统泄漏。
如果不关心线程的返回值，join是一种负担，这个时候，我们可以告诉系统，当线程退出时，自动释放线程资源。

int pthread_detach(pthread_t thread);

可以是线程组内其他线程对目标线程进行分离，也可以是线程自己分离:

pthread_detach(pthread_self());

joinable和分离是冲突的，一个线程不能既是joinable又是分离的。

四、习题巩固

下述有关Linux进程和线程的描述，正确的有？[多选]

A.在linux 中，进程比线程安全的原因是进程之间不会共享数据
B.进程有独立的地址空间，线程没有单独的地址空间（同一进程内的线程共享进程的地址空间）
C.进程——资源分配的最小单位，线程——程序执行的最小单位
D.进程和线程都有单独的地址空间

答案：BC
解析：
A错误进程比线程安全的原因是每个进程有独立的虚拟地址空间，有自己独有的数据，具有独立性，不会数据共享这个太过宽泛与片面
D错误进程有独立的地址空间，但是同一个进程的线程之间共享同一个地址空间

进程和线程是操作系统中最基本的概念,下列有关描述错误的是（）

A.进程是程序的一次执行,而线程可以理解为程序中运行的一个片段
B.由于线程没有独立的地址空间,因此同一个进程的一组线程可以共享访问该进程大部分资源, 这些线程之间的通信也很高效
C.线程之间的通信简单(共享地址空间和页表信息，因此传参以及全局数据都可以实现通信),而不同进程之间的通信更为复杂,通常需要调用内核实现
D.线程有独立的虚拟地址空间,但是拥有的资源相对进程来说,只有运行所必须的栈, 寄存器等

答案：D
解析：
线程并没有独立的虚拟地址空间，只是在进程虚拟地址空间中拥有相对独立的一块空间

有关进程和线程的说法，错误的是（）[多选]

A.一个程序至少有一个进程，一个进程至少有一个线程
B.操作系统的最小调度单位是进程
C.线程自己不拥有系统资源
D.一个线程可以创建和撤销另一个线程

答案：AB
解析：
A错误程序是静态的，不涉及进程，进程是程序运行时的实体，是一次程序的运行
B错误操作系统的最小调度单位是线程
C正确进程是资源的分配单位，所以线程并不拥有系统资源，而是共享使用进程的资源，进程的资源由系统进行分配
D正确任何一个线程都可以创建或撤销另一个线程

关于多线程和多进程编程，下面描述正确的是（） [多选]

A.多进程里，子进程可复制父进程的所有堆和栈的数据；而线程会与同进程的其他线程共享数据，但拥有自己的栈空间
B.线程因为有自己的独立栈空间且共享数据，所有执行的开销相对较大，同时不利于资源管理和保护
C.线程的通信速度更快，切换更快，因为他们在同一地址空间内，且还共享了很多其他的进程资源，比如页表指针这些是不需要切换的
D.线程使用公共变量/内存时需要使用同步机制，因为他们在同一地址空间内
E.因多进程里，每个子进程有自己的地址空间，因此相互之间通信时，线程不如进程灵活和方便

答案：ACD
解析：
B 线程拥有自己的栈空间且共享数据没错，但是资源消耗更小，且便于进程内线程间的资源管理和保护，否则会造成栈混乱
E 进程因为每个都有独立的虚拟地址空间，因此通信麻烦，需要调用内核接口实现。而线程间共用同一个虚拟地址空间，通过全局变量以及传参就可实现通信，因此更加灵活方便

以下描述正确的有：

A.可以使用ps -l命令查看轻量级进程信息
B.可以使用ps -L命令查看轻量级进程信息
C.可以使用pthread_self接口获取轻量级进程ID
D.可以使用getpid接口接口获取轻量级进程ID

答案：B
解析：
A错误，B正确 ps命令用于查看进程信息，其中-L选项用于查看轻量级进程信息
C错误 pthread_self() 用于获取用户态线程的tid，而并非轻量级进程ID
D错误 getpid() 用于获取当前进程的id,而并非某个特定轻量级进程

以下描述正确的有：[多选]

A.pthread_create函数是一个库函数，代码当中如果使用该函数创建线程，则需要在编译的时候链接“libpthread.so”线程库
B.那个线程调用pthread_exit函数，那个线程就退出。俗称“谁调用谁退出”
C.在有多个线程的情况下，主线程调用pthread_cancel(pthread_self()), 则主线程状态为Z，其他线程正常运行
D.在有多个线程的情况下，主线程从main函数的return返回或者调用pthread_exit函数，则整个进程退出

答案：ABC
解析：
C：主线程调用pthread_cancel(pthread_self())函数来退出自己，则主线程对应的轻量级进程状态变更成为Z，其他线程不受影响，这是正确的（正常情况下我们也不会这么做…）
D：主线程调用pthread_exit只是退出主线程，并不会导致进程的退出

请简述什么是LWP

LWP是轻量级进程，在Linux下进程是资源分配的基本单位，线程是cpu调度的基本单位，而线程使用进程pcb描述实现，并且同一个进程中的所有pcb共用同一个虚拟地址空间，因此相较于传统进程更加的轻量化

请简述LWP与pthread_create创建的线程之间的关系

pthread_create是一个库函数，功能是在用户态创建一个用户线程，而这个线程的运行调度是基于一个轻量级进程实现的。
具体来说，当程序调用pthread_create函数时，它实际上是在请求操作系统创建一个新的线程。在Linux中，这个新线程的实现通常是通过LWP来完成的。也就是说，pthread_create创建的线程在内核层面实际上是一个LWP。