Linux 下 C/C++ 程序编译的过程

目录

  • 一、GCC 工具链
  • 二、编译过程
    • 1、预处理
    • 2、编译
    • 3、汇编
    • 4、链接


本文将介绍如何将 C/C++ 语言编写的程序转换成为处理器能够执行的二进制代码的过程,包括四个步骤:预处理(Preprocessing)编译(Compilation)汇编(Assembly)链接(Linking)。

在此之前,首先来看一下 GCC 工具链。

一、GCC 工具链

GCCGUN Compiler Collection 的简称,是 Linux 系统上常用的编译工具。GCC 工具链软件包括 GCCBinutils、C 运行库等。

  • GCC
    • GCCGNU C Compiler)是编译工具。本文所要介绍的将 C/C++ 语言编写的程序转换成为处理器能够执行的二进制代码的过程即由编译器完成。
  • Binutils
    • 一组二进制程序处理工具,包括:addr2linearobjcopyobjdumpasldlddreadelfsize等。这一组工具是开发和调试不可缺少的工具,分别简介如下:
      • addr2line:用来将程序地址转换成其所对应的程序源文件及所对应的代码行,也可以得到所对应的函数。该工具将帮助调试器在调试的过程中定位对应的源代码位置。
      • as:主要用于汇编,有关汇编的详细介绍请参见后文。
      • ld:主要用于链接,有关链接的详细介绍请参见后文。
      • ar:主要用于创建静态库。为了便于初学者理解,在此介绍动态库与静态库的概念:
        • 如果要将多个 .o 目标文件生成一个库文件,则存在两种类型的库,一种是静态库,另一种是动态库。
        • 在 windows 中静态库是以 .lib 为后缀的文件,共享库是以 .dll 为后缀的文件。
        • 在 Linux 中静态库是以 .a 为后缀的文件,共享库是以 .so 为后缀的文件。
        • 静态库和动态库的不同点在于代码被载入的时刻不同。静态库的代码在编译过程中已经被载入可执行程序,因此体积较大。共享库的代码是在可执行程序运行时才载入内存的,在编译过程中仅简单的引用,因此代码体积较小。在 Linux 系统中,可以用 ldd 命令查看一个可执行程序依赖的共享库。
        • 如果一个系统中存在多个需要同时运行的程序且这些程序之间存在共享库,那么采用动态库的形式将更节省内存。
      • ldd:可以用于查看一个可执行程序依赖的共享库。
      • objcopy:将一种对象文件翻译成另一种格式,譬如将 .bin 转换成 .elf、或者将 .elf 转换成 .bin 等。
      • objdump:主要的作用是反汇编。有关次命令的详细介绍,可以参考:Linux 下 objdump 命令的使用。
      • readelf:显示有关 ELF 文件的信息,可以参考前文:ELF 文件格式。
      • size:列出可执行文件每个部分的尺寸和总尺寸,代码段、数据段、总大小等,请参见后文了解使用 size 的具体使用实例。
  • C 运行库
    • C 语言标准主要由两部分组成:一部分描述 C 的语法,另一部分描述 C 标准库。
    • C 标准库定义了一组标准头文件,每个头文件中包含一些相关的函数、变量、类型声明和宏定义,譬如常见的 printf 函数便是一个 C 标准库函数,其原型定义在 stdio 头文件中。
    • C 语言标准仅仅定义了 C 标准库函数原型,并没有提供实现。
    • 因此,C 语言编译器通常需要一个 C 运行时库(C Run Time LibrayCRT)的支持。C 运行时库又常简称为 C 运行库。
    • 与 C 语言类似,C++ 也定义了自己的标准,同时提供相关支持库,称为 C++ 运行时库。

二、编译过程

示例程序:

// test.c
#include <stdio.h>
#include <stdlib.h>int add(int a,int  b)
{printf("Number are added together\n");return a + b;
}int main(void)
{int a,b;a = 3;b = 4;int ret = add(a,b);printf("Result:%u\n",ret);exit(0);
}

1、预处理

预处理的过程主要包括以下过程:

  • 将所有的 #define 删除,并且展开所有的宏定义,并且处理所有的条件预编译指令,比如 #if#ifdef#elif#else#endif 等。
  • 处理 #include 预编译指令,将被包含的文件插入到该预编译指令的位置。
  • 删除所有注释“//”和“/* */”。
  • 添加行号和文件标识,以便编译时产生调试用的行号及编译错误警告行号。
  • 保留所有的 #pragma 编译器指令,后续编译过程需要使用它们。

使用 GCC 进行预处理的命令如下:

$ gcc -E test.c -o test.i

下面是 test.i 文件的一部分内容:


正如前文所说,预处理过程删去了文件中的头文件,并将对应文件中的内容包含到当前文件中:

2、编译

编译过程就是对预处理完的文件进行一系列的词法分析,语法分析,语义分析及优化后生成相应的汇编代码。

  • 词法分析:将源码按照语法规则进行分割,识别出各个独立的单词(token),如变量名、关键字、运算符等,并生成词法单元(token)序列。
  • 语法分析:根据文法规则,分析词法单元序列的结构,构建抽象语法树(AST)。语法分析过程通常使用上下文无关文法和语法分析算法(如 LL 算法或 LR 算法)。
  • 语义分析:对抽象语法树进行静态语义检查,验证语法结构是否符合语言规范,包括类型检查、作用域检查、函数调用检查等。在这一阶段中,编译器会进行符号表的构建,并进行符号的引用和声明的匹配。
  • 中间代码生成:将抽象语法树转化为一种中间表示形式,包括三地址码、四元式、抽象指令集等。这种中间表示形式更加抽象,便于进行优化和目标代码生成。
  • 优化:对中间代码进行优化,以改进程序的运行效率和空间利用率。优化的方式包括常量折叠、循环优化、函数内联、代码复用等。
  • 目标代码生成:将优化后的中间代码转化为目标机器的机器代码。这一步根据目标机器的特点和指令集,将中间代码转化为目标机器能够执行的代码,包括指令的选择、寄存器分配、指令调度等。

更多详细的内容可以去了解编译原理。

使用 GCC 进行编译的命令如下:

$ gcc -S test.i -o test.s

上述命令生成的汇编程序 test.s 的代码片段如下所示,其全部为汇编代码。

3、汇编

汇编过程调用对汇编代码进行处理,生成处理器能识别的指令,保存在后缀为 .o 的目标文件中。由于每一个汇编语句几乎都对应一条处理器指令,因此,汇编相对于编译过程比较简单,通过调用 Binutils 中的汇编器 as 根据汇编指令和处理器指令的对照表一一翻译即可。当程序由多个源代码文件构成时,每个文件都要先完成汇编工作,生成 .o 目标文件后,才能进入下一步的链接工作。注意:目标文件已经是最终程序的某一部分了,但是在链接之前还不能执行。

  • 指令选择:根据目标机器的指令集架构和指令要求,将目标代码中的每个中间指令转化为目标机器的指令。指令选择的过程中会考虑目标机器的寻址模式、寄存器可用性等因素。
  • 寄存器分配:对于每个指令中需要使用到的寄存器,分配目标机器中可用的寄存器。寄存器分配算法可以根据寄存器的可用性、寄存器的生存周期等因素来进行。
  • 指令调度:根据目标机器的特性,对指令进行排序和调整,以最大程度地利用硬件资源,提高指令的并行度和执行效率。指令调度可以包括指令的重排、插入空闲周期、移动指令位置等操作。
  • 符号解析:解析目标代码中的符号引用,将其与实际的地址进行绑定。这一步通常需要用到链接器生成的重定位表,将符号引用转化为具体的地址。
  • 生成可执行文件:将经过汇编过程的目标代码生成可执行文件或者可执行的机器代码。这一步包括将目标代码写入文件中,并根据操作系统的格式要求进行文件头和相关信息的设置。

使用 GCC 进行汇编的命令如下:

$ gcc -c test.s -o test.o# 或者直接调用as进行汇编
$ as -c test.s -o test.o

可以看出,test.o 目标文件为 ELF 格式的可重定向文件。

ELF 文件可以参考 ELF 文件格式

4、链接

链接也分为静态链接和动态链接,其要点如下:

  • 静态链接是指在编译阶段直接把静态库加入到可执行文件中去,这样可执行文件会比较大。链接器将函数的代码从其所在地(不同的目标文件或静态链接库中)拷贝到最终的可执行程序中。为创建可执行文件,链接器必须要完成的主要任务是:
    • 符号解析(把目标文件中符号的定义和引用联系起来)
    • 重定位(把符号定义和内存地址对应起来然后修改所有对符号的引用)。
  • 动态链接则是指链接阶段仅仅只加入一些描述信息,而程序执行时再从系统中把相应动态库加载到内存中去。
    • 在 Linux 系统中,gcc 编译链接时的动态库搜索路径的顺序通常为:首先从 gcc 命令的参数 -L 指定的路径寻找;再从环境变量LIBRARY_PATH 指定的路径寻址;再从默认路径 /lib/usr/lib/usr/local/lib 寻找。
    • 在 Linux 系统中,执行二进制文件时的动态库搜索路径的顺序通常为:首先搜索编译目标代码时指定的动态库搜索路径;再从环境变量LD_LIBRARY_PATH 指定的路径寻址;再从配置文件 /etc/ld.so.conf 中指定的动态库搜索路径;再从默认路径 /lib/usr/lib 寻找。
    • 在 Linux 系统中,可以用 ldd 命令查看一个可执行程序依赖的共享库。

由于链接动态库和静态库的路径可能有重合,所以如果在路径中有同名的静态库文件和动态库文件,比如 libtest.alibtest.so,gcc 链接时默认优先选择动态库,会链接 libtest.so,如果要让 gcc 选择链接 libtest.a 则可以指定 gcc 选项 -static,该选项会强制使用静态库进行链接。以上面的程序为例:如果使用命令“gcc test.c -o test”则会使用动态库进行链接,生成的 ELF 可执行文件的大小(使用 Binutils 的 size 命令查看)和链接的动态库(使用 Binutils 的 ldd 命令查看)如下所示:

$ gcc test.c -o test
$ size test # 使用 size 查看大小
$ ldd test  # 可以看出该可执行文件链接了很多其他动态库,主要是Linux的glibc动态库

如果使用命令“gcc -static test.c -o test”则会使用静态库进行链接,生成的 ELF 可执行文件的大小(使用 Binutils 的 size 命令查看)和链接的动态库(使用 Binutils 的 ldd 命令查看)如下所示:

$ gcc -static test.c -o test
$ size test # 使用size查看大小
$ ldd test

链接器链接后生成的最终文件为 ELF 格式可执行文件,一个 ELF 可执行文件通常被链接为不同的段,常见的段如 .text.data.rodata.bss 等段。

可以看到,使用静态链接,最终生成的可执行文件的大小比使用动态链接的时候大了很多:

关于 text、data、bss 这些段的信息可以参考:单片机内存区域划分。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/421608.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qt_自定义信号

目录 1、自定义信号的规定 2、创建自定义信号 3、带参数的信号与槽 4、一个信号连接多个槽 5、信号与槽的断开 结语 前言&#xff1a; 虽然Qt已经内置了大量的信号&#xff0c;并且这些信号能够满足大部分的开发场景&#xff0c;但是Qt仍然允许开发者自定义信号&#…

ARMxy嵌入式边缘计算控制器支持Linux OS应用于AIOT

人工智能与物联网&#xff08;AIoT&#xff09;的融合正深刻改变着各个行业。而在这一变革中&#xff0c;ARMxy 嵌入式控制器以其卓越的性能和对 Linux OS 的支持&#xff0c;成为了 AIoT 应用的关键推动力量。 一、ARMxy 嵌入式控制器的优势 强大的处理能力 ARMxy 嵌入式控制…

浮毛危害人体健康?希喂、安德迈、有哈宠物空气净化器吸毛测评

养宠之前了解清楚相关的知识&#xff0c;这既是对宠物负责&#xff0c;也是对我们自己负责。宠物最让铲屎官头疼的就是毛发问题&#xff0c;大量脱落的毛发会带来繁重的清理任务&#xff0c;同时飘在空中浮毛还是潜藏在身边的健康”杀手“。浮毛微小、质量轻&#xff0c;容易随…

opencv之图像轮廓(三)--凸包

文章目录 前言获取凸包凸缺陷几何学测试测试轮廓是否是凸形的点到轮廓的距离 形状场景算法比较轮廓轮廓的特征值宽高比ExtentSolidity等效直径&#xff08;Equivalent Diameter&#xff09;方向掩模和像素点使用Numpy函数获取轮廓像素点使用OpenCV函数获取轮廓点 最大值和最小值…

VR 尺寸美学主观评价-解决方案-现场体验研讨会报名

棣拓科技VR创新解决方案助力尺寸美学所见即所得! 诚邀各位行业专家莅临指导交流 请扫描海报二维码踊跃报名&#xff0c;谢谢 中国上海 2024.10.25 亮点介绍 1、通过精湛渲染技术&#xff0c;最真实展现设计效果&#xff0c;并通过VR设备一比一比例进行展现。 2、设置相关设…

ctfshow-PHP反序列化

web254 源码 <?php/* # -*- coding: utf-8 -*- # Author: h1xa # Date: 2020-12-02 17:44:47 # Last Modified by: h1xa # Last Modified time: 2020-12-02 19:29:02 # email: h1xactfer.com # link: https://ctfer.com //mytime 2023-12-4 0:22 */ error_reporting(0)…

谈谈PCIe VID、DID、SSID、SSVID背后的智慧

PCIe Vendor ID 想了半天还是觉得从“ID是什么”这个问题开始比较好。那么ID是什么&#xff1f;ID就是身份。那身份又是什么&#xff1f;身份就是一个合理存在&#xff0c;用于区分不同个体。为什么叫“合理存在”呢&#xff1f;如果国家不给你发身份证&#xff0c;你就是黑户…

[笔记]电参数测量的现有方案

1.关键字&#xff1a; 电参数测量 Electrical Parameter Measurement 2.相关信息搜集 》》电参数测量仪是如何测量电压电流相位差的&#xff1f;对于变频器那种比较毛的波形&#xff0c;也能测量&#xff1f; 电参数测量仪测量电压电流相位差的方法主要依赖于其内部的高精度…

信号保存和处理

把上一篇回顾一下吧&#xff1a;共享内存区是最快的IPC形式。一旦这样的内存映射到共享它的进程的地址空间&#xff0c;这些进程间数据传递不再涉及到内核&#xff0c;进程不再通过执行进入内核的系统调用来传递彼此的数据 共享内存的数据结构&#xff1a; struct shmid_ds {…

Pycharm使用debug运行时,一直显示collecting data...,但是变量一直显示不出来,显示超时

一、问题&#xff1a; 二、解决办法 1.File—>Setting 2.Build---->Python Debugger 3.勾选Gevent compatible &#xff0c;然后Apply 三、解释Gevent compatible 1.在 PyCharm 中&#xff0c;Gevent compatible 通常与 gevent 库的兼容性设置有关。gevent 是一个基于协…

NC字典树的实现

系列文章目录 文章目录 系列文章目录前言 前言 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到网站&#xff0c;这篇文章男女通用&#xff0c;看懂了就去分享给你的码吧。 描述 字典树又称为…

Ubuntu系统修改静态IP

1.先查看一下我们的ip rootcaiji:~# ip a 2.查看此时的网卡配置文件 rootcaiji:~# cat /etc/netplan/00-installer-config.yaml # This is the network config written by subiquity network: ethernets: ens33: dhcp4: true version: 2 此时可以看出来dhcp…

SpringCloud Alibaba入门简介

1、诞生 2018.10.31&#xff0c;Spring Cloud Alibaba 正式入驻了 Spring Cloud 官方孵化器&#xff0c;并在 Maven 中央库发布了第一个版本。 2、是什么&#xff0c;去哪下 官网&#xff1a;Spring Cloud Alibaba官网_基于Springboot的微服务教程-阿里云-阿里云Spring Cloud …

【论文阅读笔记】Tackling the Generative Learning Trilemma with Denoising Diffusion GANs

【论文阅读笔记】Tackling the Generative Learning Trilemma with Denoising Diffusion GANs Introduction方法 使用传统GANS建模去噪分布理解模式覆盖率 Paper&#xff1a;https://arxiv.org/abs/2112.07804 Code&#xff1a;https://github.com/NVlabs/denoising-diffusion-…

Docker启动Mysql镜像报错问题?

docker中启动mysql镜像报错如下&#xff1a;ls: cannot access /docker-entrypoint-initdb.d/: Operation not permitted 百度上查到了很多解决方案&#xff0c;也咨询了很多大佬&#xff0c;加权限&#xff0c;改用户&#xff0c;均无果。最终在阿里巴巴上找到了解决方案&…

[论文笔记]ChatQA: Surpassing GPT-4 on Conversational QA and RAG

引言 今天来看一下上篇论文笔记中反复介绍的 ChatQA: Surpassing GPT-4 on Conversational QA and RAG。 为了简单&#xff0c;下文中以翻译的口吻记录&#xff0c;比如替换"作者"为"我们"。 我们介绍了 ChatQA&#xff0c;这是一个模型套件&#xff0c;一…

算法设计(一)

1.汉诺塔 介绍 汉诺塔&#xff08;Hanoi Tower&#xff09;:它描述了如何将一堆大小不同、穿在一根柱子上的盘子移动到另一根柱子上&#xff0c;同时满足以下规则&#xff1a; 每次只能移动一个盘子。 每个移动盘子时&#xff0c;大的盘子不能放在小的盘子上面。 可以使用一根…

curl和ping

curl获取页面内容&#xff0c;ping测试连通 curl和ping是两个在网络环境中常用的命令行工具&#xff0c;但它们的目的和应用场景有很大的不同。 curl 用途&#xff1a;curl是一个命令行工具&#xff0c;用于传输数据&#xff0c;支持多种协议&#xff0c;包括HTTP、HTTPS、FT…

1. 运动控制指令概要(omron 机器自动化控制器)

机器自动化控制器——第一章 运动控制指令概要 1-1 运动控制指令PLCopen运动控制用功能块运动控制指令概要▶ 运动控制指令的种类▶ 状态变化▶ 运动控制指令的启动和状态▶ 异常处理▶ 执行运动控制指令时输入变量的变更(指令重启)▶ 通过选择缓存模式执行指令多重启动▶ 通过…

【生成模型系列(初级)】嵌入(Embedding)方程——自然语言处理的数学灵魂【通俗理解】

【通俗理解】嵌入&#xff08;Embedding&#xff09;方程——自然语言处理的数学灵魂 关键词提炼 #嵌入方程 #自然语言处理 #词向量 #机器学习 #神经网络 #向量空间模型 #Siri #Google翻译 #AlexNet 第一节&#xff1a;嵌入方程的类比与核心概念【尽可能通俗】 嵌入方程可以…