3.水中看月

前言

这篇文章讲解套接字分配IP地址和端口号。这部分内容也相对有些枯燥，但并不难，而
且是学习后续那些有趣内容必备的基础知识（计算机网络基础）。

一、分配给套接字的IP地址与端口号

IP是InternetProtocol（网络协议）的简写，是为收发网络数据而分配给计算机的值。端口号
并非赋予计算机的值，而是为区分程序中创建的套接字而分配给套接字的序号。下面逐一讲解。

1.网络地址

为使计算机连接到网络并收发数据，必需向其分配IP地址。IP地址分为两类。
■ IPv4(Internet Protocolversion 4)4字节地址族
■ IPv6 (Internet Protocol version 6)16字节地址族
IPv4与IPv6的差别主要是表示IP地址所用的字节数，目前通用的地址族为IPv4。IPv6是为了
应对2010年前后IP地址耗尽的问题而提出的标准，即便如此，现在还是主要使用IPv4，IPv6的普
及将需要更长时间。
IPv4标准的4字节IP地址分为网络地址和主机（指计算机）地址，且分为A、B、C、D、E等
类型。下图展示了IPv4地址族，一般不会使用已被预约了的E类地址。
在这里插入图片描述
网络地址（网络ID）是为区分网络而设置的一部分IP地址。假设向WWW.SEMI.COM公司传
输数据，该公司内部构建了局域网，把所有计算机连接起来。因此，首先应向SEMI.COM网络传
输数据，也就是说，并非一开始就浏览所有4字节IP地址，进而找到目标主机；而是仅浏览4字节
IP地址的网络地址，先把数据传到SEMI.COM的网络。SEMI.COM网络（构成网络的路由器）接
收到数据后，浏览传输数据的主机地址（主机ID）并将数据传给目标计算机。图展示了数据
传输过程。
在这里插入图片描述

某主机向203.211.172.103和203.211.217.202传输数据，其中203.211.172和203.211.217为该网
络的网络地址（稍后将给出网络地址的区分方法）。所以，“向相应网络传输数据”实际上是向构
成网络的路由器（Router）或交换机（Switch）传递数据，由接收数据的路由器根据数据中的主
机地址向目标主机传递数据。

2.网络地址分类与主机地址边界

只需通过IP地址的第一个字节即可判断网络地址占用的字节数，因为我们根据IP地址的边界
区分网络地址：
■ A类地址的首字节范围：0~127
■ B类地址的首字节范围：128~191
■ C类地址的首字节范围：192~223
还有如下这种表述方式：
■ A类地址的首位以0开始
■ B类地址的前2位以10开始
■ C类地址的前3位以110开始
正因如此，通过套接字收发数据时，数据传到网络后即可轻松找到正确的主机。

2.用于区分套接字的端口号

IP用于区分计算机，只要有IP地址就能向目标主机传输数据，但仅凭这些无法传输给最终的
应用程序。假设大家欣赏视频的同时在网上冲浪，这时至少需要1个接收视频数据的套接字和1
个接收网页信息的套接字。问题在于如何区分二者。也就是，传输到计算机的网络数据是发给播
放器，还是发送给浏览器？让我们更准确地描述问题。假设开发了如下应用程序：
“我开发了收发数据的P2P程序，该程序用块单位分割1个文件，从多台计算机接收
数据。”
假设大家对P2P有一定了解，即便不清楚也无所谓。如上所述，若想接收多台计算机发来的
数据，则需要相应个数的套接字。那如何区分这些套接字呢？
计算机中一般配有NIC（Network Interface Card，网络接口卡）数据传输设备。通过NIC向计
算机内部传输数据时会用到IP。操作系统负责把传递到内部的数据适当分配给套接字，这时就要利用端口号。也就是说，通过NIC接收的数据内有端口号，操作系统正是参考此端口号把数据传输给相应端口的套接字。
端口号就是在同一操作系统内为区分不同套接字而设置的，因此无法将1个端口号分配给不
同套接字。另外，端口号由16位构成，可分配的端口号范围是0-65535。但0-1023是知名端口
(Well-knownPORT)，一般分配给特定应用程序，所以应当分配此范围之外的值。另外，虽然端
口号不能重复，但TCP套接字和UDP套接字不会共用端口号，所以允许重复。例如：如果某TCP
套接字使用9190号端口，则其他TCP套接字就无法使用该端口号，但UDP套接字可以使用。
总之，数据传输目标地址同时包含IP地址和端口号，只有这样，数据才会被传输到最终的目
的应用程序（应用程序套接字）。

二、地址信息表示

应用程序中使用的IP地址和端口号以结构体的形式给出了定义。将以IPv4为中心，围绕此结构体讨论目标地址的表示方法。

1.表示IPv4地址的结构体

■ 问题1：“采用哪一种地址族？”
■ 答案1：“基于IPv4的地址族。”

■ 问题2：“IP地址是多少？”
■ 答案2:“211.204.214.76。”

■ 问题3：“端口号是多少？”
■ 答案3：“2048。”

结构体定义为如下形态就能回答上述提问，此结构体将作为地址信息传递给bind函数。

struct sockaddr_in
{SA_famIly_t		sin_family;	// 地址族（Address Family）uint16_t		sin_port;	// 16 位TCP/UDP端口号struct in_addr	sin_addr;	// 32 位 IP 地址char	sin_zero[8];	// 不使用
}

该结构体中提到的另一个结构体in_addr定义如下，它用来存放32位IP地址。

struct in_addr
{In_addr_t	s_addr;	// 32位IPv4 地址
}

in_addr_t IP地址，声明为uint32_t

2.结构体sockaddr_in的成员分析

Ⅰ.sin_family

每种协议族适用的地址族均不同。比如，IPv4使用4字节地址族，IPv6使用16字节地址族。
可以参考表中保存sin_family地址信息。

地址族(Address Family) 含义
AF_INET IPv4网络协议中使用的地址族
AF_INET6 IPv6网络协议中使用的地址族
AF_LOCAL 本地通信中采用的UNIX协议的地址族

Ⅱ.sin_port

该成员保存16位端口号，重点在于，它以网络字节序保存（关于这一点稍后将给出详细说明)

Ⅲ.sin_addr

该成员保存32位IP地址信息，且也以网络字节序保存。为理解好该成员，应同时观察结构体
in_addr。但结构体in_addr声明为uint32_t，因此只需当作32位整数型即可。

Ⅳ.sin_zero

无特殊含义。只是为使结构体sockaddr_in的大小与sockaddr结构体保持一致而插人的成员。
必需填充为0，否则无法得到想要的结果。后面会另外讲解sockaddr。
从之前介绍的代码也可看出，sockaddrin结构体变量地址值将以如下方式传递给bind函数。
稍后将给出关于bind函数的详细说明，希望各位重点关注参数传递和类型转换部分的代码。

struct sockaddr_in serv_addr;
. . .
if(bind(serv_sock, (struct sockaddr * ) &serv_addr, sizeof(serv_addr)) == -1)
error_handling("bind() error");
. . .

此处重要的是第二个参数的传递。实际上，bind函数的第二个参数期望得到sockaddr结构体变量地址值，包括地址族、端口号、IP地址等。从下列代码也可看出，直接向sockaddr结构体填充这些信息会带来麻烦。

struct sockaddr
{sa_family_t	sin_family;	// 地址族（AddressFamily)char sa_data[14];	// 地址信息
}

此结构体成员sa_data保存的地址信息中需包含IP地址和端口号，剩余部分应填充0，这也是bind函数要求的。而这对于包含地址信息来讲非常麻烦，继而就有了新的结构体sockaddr_in。若按照之前的讲解填写sockaddr_in结构体，则将生成符合bind函数要求的字节流。最后转换为sockaddr型的结构体变量，再传递给bind函数即可。

三、网络字节序与地址变换

不同CPU中，4字节整数型值1在内存空间的保存方式是不同的。4字节整数型值1可用2进制
表示如下。
00000000 00000000 00000000 00000001
有些CPU以这种顺序保存到内存，另外一些CPU则以倒序保存。
00000001 00000000 00000000 00000000
若不考虑这些就收发数据则会发生问题，因为保存顺序的不同意味着对接收数据的解析顺序
也不同。

1.字节序(Order）与网络字节序

CPU向内存保存数据的方式有2种，这意味着CPU解析数据的方式也分为2种。
■ 大端序（BigEndian):高位字节存放到低位地址。
■ 小端序(LittleEndian):高位字节存放到高位地址(Intel, AMD) 。
（学过汇编的应该就知道了吧，没有学过的话就是按照地址排列方式不同分了两种方式）
在这里插入图片描述
代表CPU数据保存方式的主机字节序（Host Byte Order)在不同CPU中也各不相同。目前主流的
Intel系列CPU以小端序方式保存数据。接下来分析2台字节序不同的计算机之间数据传递过程中
可能出现的问题：

0x12和0x34构成的大端序系统值与0x34和0x12构成的小端序系统值相同。换言之，只有改变数据保存顺序才能被识别为同一值。图中，大端序系统传输数据0x1234时未考虑字节序问题，而直接以0x12、0x34的顺序发送。结果接收端以小端序方式保存数据，因此小端序接收的数据变成0x3412，而非0x1234。正因如此，在通过网络传输数据时约定统一方式，这种约定称为网络字节序(Network Byte Order)，非常简单——统一为大端序。
即，先把数据数组转化成大端序格式再进行网络传输。因此，所有计算机接收数据时应识别该数据是网络字节序格式，小端序系统传输数据时应转化为大端序排列方式。

2.字节序转换(Endian Conversions)

相信大家已经理解了为何要在填充sockadrin结构体前将数据转换成网络字节序。接下来介绍帮助转换字节序的函数。
■ unsigned short htons(unsigned short);
■ unsigned short ntohs(unsigned short);
■ unsigned long htonl(unsigned long);
■ unsined long ntohl(unsigned long);
通过函数名应该能掌握其功能，只需了解以下细节。
■ htons中的h代表主机(host)字节序。
■ htons中的n代表网络（network）字节序。
另外，s指的是short，l指的是long(Linux中long类型占用4个字节，这很关键)。因此，htons
是h、to、n、s的组合，也可以解释为“把short型数据从主机字节序转化为网络字节序”。
再举个例子，ntohs可以解释为“把short型数据从网络字节序转化为主机字节序”。
通常，以s作为后缀的函数中，s代表2个字节short，因此用于端口号转换；以1作为后缀的函
数中，1代表4个字节，因此用于IP地址转换。另外，有些读者可能有如下疑问：
“我的系统是大端序的，为sockaddr_in结构体变量赋值前就不需要转换字节序了
吧？”
这么说也不能算错。但我认为，有必要编写与大端序无关的统一代码。这样，即使在大端序系统中，最好也经过主机字节序转换为网络字节序的过程。当然，此时主机字节序与网络字节序相同，不会有任何变化。下面通过示例说明以上函数的调用过程。

// endian_conv.c
#include <stdio.h>
#include <arpa/inet.h>int main(int argc, char *argv[])
{unsigned short host_port=0x1234; // 6unsigned short net_port;unsigned long host_addr=0x12345678; // 8unsigned long net_addr;net_port=htons(host_port); // 11net_addr=htonl(host_addr); // 12printf("Host ordered port: %#x \n",host_port);printf("Network ordered port: %#x \n",net_port);printf("Host ordered address:%#lx \n",host_addr);printf("Network ordered address: %#lx \n",net_addr);return 0;
}

第6、8行：各保存2个字节、4个字节的数据。当然，若运行程序的CPU不同，则保存的字
节序也不同。
第11、12行：变量host_port和host_addr中的数据转化为网络字节序。若运行环境为小端
序CPU，则按改变之后的字节序保存。
在这里插入图片描述
这就是在小端序CPU中运行的结果。如果在大端序CPU中运行，则变量值不会改变。大部分
朋友都会得到类似的运行结果，因为Intel和AMD系列的CPU都采用小端序标准。
也许大家认为：“既然数据传输采用网络字节序，那在传输前应直接把数据转换成网络字节序，接收的数据也需要转换成主机字节序再保存。”如果数据收发过程中没有自动转换机制，那当然需要程序员手动转换。这光想想就让人觉得可怕，难道真要强求程序员做这些事情吗?实际上没必要，这个过程是自动的。除了向sockaddr_in结构体变量填充数据外，其他情况无需考虑字节序问题。

四、网络地址的初始化与分配

前面已讨论过网络字节序，接下来介绍以bind函数为代表的结构体的应用。

1.将字符串信息转换为网络字节序的整数型

sockaddr_in中保存地址信息的成员为32位整数型。因此，为了分配IP地址，需要将其表示为32位整数型数据。这对于只熟悉字符串信息的我们来说实非易事。各位可以尝试将IP地址201.211.214.36转换为4字节整数型数据。

对于IP地址的表示，我们熟悉的是点分十进制表示法（Dotted Decimal Notation)而非整数型数据表示法。幸运的是，有个函数会帮我们将字符串形式的IP地址转换成32位整数型数据。此函数在转换类型的同时进行网络字节序转换。

#include <arpa/inet.h>
in_addr_t inet_addr(const char * string);
// 成功时返回32位大端序整数型值，失败时返回 INADDR_NONE。

如果向该函数传递类似“211.214.107.99”的点分十进制格式的字符串，它会将其转换为32位整数型数据并返回。当然，该整数型值满足网络字节序。另外，该函数的返回值类型in_addr_t在内部声明为32位整数型。下面这个示例表示该函数的调用过程。

// inet_addr.c
#include <stdio.h>
#include <arpa/inet.h>
int main(int argc, char *argv[])
{char *addr1="1.2.3.4";char *addr2="1.2.3.256"; // 7unsigned long conv_addr=inet_addr(addr1);  // 9if(conv_addr==INADDR_NONE)printf("Error occured! \n");elseprintf("Network ordered integer addr: %#lx \n", conv_addr);conv_addr=inet_addr(addr2);// 15if(conv_addr==INADDR_NONE)printf("Error occureded \n");elseprintf("Network ordered integer addr: %#lx \n\n", conv_addr);return 0;
}

第7行：1个字节能表示的最大整数为255，也就是说，它是错误的IP地址。利用该错误地
址验证inet_addr函数的错误检测能力。
第9、15行：通过运行结果验证第9行的函数正常调用，而第15行的函数调用出现异常。
在这里插入图片描述
从运行结果可以看出，inet_addr函数不仅可以把IP地址转成32位整数型，而且可以检测无效的IP地址。另外，从输出结果可以验证确实转换为网络字节序。
inetaton函数与inetaddr函数在功能上完全相同，也将字符串形式IP地址转换为32位网络字节序整数并返回。只不过该函数利用了in_addr结构体，且其使用频率更高。

#IncLude <aRpA/Inet.h>
int inet_aton(const char * string, struct in_addr * addr);
// 成功时返回1（true），失败时返回0(false）。
// string 含有需转换的IP地址信息的字符串地址值。
// addr 将保存转换结果的in_addr结构体变量的地址值。

实际编程中若要调用inet_addr函数，需将转换后的IP地址信息代入sockaddr_in结构体中声明的in_addr结构体变量。而inet_aton函数则不需此过程。原因在于，若传递inaddr结构体变量地址值，函数会自动把结果填人该结构体变量。通过这个示例让大家了解inetaton函数调用过程。

// inet_aton.c
#include <stdio.h>
#include <stdlib.h>
#include <arpa/inet.h>
void error_handling(char *message);int main(int argc, char *argv[])
{char *addr="127.232.124.79";struct sockaddr_in addr_inet; // 9if(!inet_aton(addr, &addr_inet.sin_addr)) // 10error_handling("Conversion error");elseprintf("Network ordered integer addr:%#x \n",addr_inet.sin_addr.s_addr);return 0;
}void error_handling(char *message)
{fputs(message,stderr);fputc('\n', stderr);exit(1);
}

第9、11行：转换后的IP地址信息需保存到sockaddr_in的in_addr型变量才有意义。因此，inet_aton函数的第二个参数要求得到in_addr型的变量地址值。这就省去了手动保存IP地址信息的过程。
在这里插入图片描述
上述运行结果无关紧要，更重要的是大家要熟练掌握该函数的调用方法。最后再介绍一个与inet_aton函数正好相反的函数，此函数可以把网络字节序整数型IP地址转换成我们熟悉的字符串形式。

#include <arpa/inet.h>
char * inet_ntoa(struct in_addr adr);
// 成功时返回转换的字符串地址值，失败时返回-1。

该函数将通过参数传人的整数型IP地址转换为字符串格式并返回。但调用时需小心，返回值
类型为char指针。返回字符串地址意味着字符串已保存到内存空间，但该函数未向程序员要求分
配内存，而是在内部申请了内存并保存了字符串。也就是说，调用完该函数后，应立即将字符串
信息复制到其他内存空间。因为，若再次调用inetntoa函数，则有可能覆盖之前保存的字符串信
息。总之，再次调用inet_ntoa函数前返回的字符串地址值是有效的。若需要长期保存，则应将字
符串复制到其他内存空间。下面给出该函数调用示例：

// inet_ntoa.c
#include <stdio.h>
#include <string.h>
#include <arpa/inet.h>int main(int argc, char *argv[])
{struct sockaddr_in addr1, addr2;char *str_ptr;char str_arr[20];addr1.sin_addr.s_addr=htonl(0x1020304);addr2.sin_addr.s_addr=htonl(0x1010101);str_ptr=inet_ntoa(addr1.sin_addr); // 14strcpy(str_arr,str_ptr); // 15printf("Dotted-Decimal notation1: %s \n", str_ptr);inet_ntoa(addr2.sin_addr); // 18printf("Dotted-Decimal notation2: %s \n",str_ptr); // 19printf("Dotted-Decimal notation3: %s \n", str_arr); // 20return 0;
}

第14行：向inet_ntoa函数传递结构体变量addr1中的IP地址信息并调用该函数，返回字符
串形式的IP地址。
第15行：浏览并复制第14行中返回的IP地址信息。
第18、19行：再次调用inet_ntoa函数。由此得出，第14行中返回的地址已覆盖了新的IP
地址字符串，可通过第19行的输出结果进行验证。
第20行：第15行中复制了字符串，因此可以正确输出第14行中返回的IP地址字符串。
在这里插入图片描述

2.网络地址初始化

结合前面所学的内容，现在介绍套接字创建过程中常见的网络地址信息初始化方法。
struct sockaddr_in addr;
char * serv_ip = “211.217.168.13”; //声明IP地址字符串
char * serv_port = “9190”; //声明端口号字符串
memset(&addr, 0, sizeof(addr)); //结构体变量addr的所有成员初始化为0
addr.sin_family = AF_INET; //指定地址族
addr.sin_addr.s_addr = inet_addr(serv_ip); //基于字符串的IP地址初始化
addr.sin_port = htons(atoi(serv_port)); //基于字符串的端口号初始化
上述代码中，memset函数将每个字节初始化为同一值：第一个参数为结构体变量addr的地址值，即初始化对象为addr;第二个参数为0，因此初始化为0；最后一个参数中传人addr的长度，因此addr的所有字节均初始化为0。这么做是为了将sockaddrin结构体的成员sin_zero初始化为0。另外，最后一行代码调用的atoi函数把字符串类型的值转换成整数型。总之，上述代码利用字符串格式的IP地址和端口号初始化了sockaddrin结构体变量。
另外，代码中对IP地址和端口号进行了硬编码，这并非良策，因为运行环境改变就得更改代
码。因此，我们运行示例main函数时传人IP地址和端口号。

3.客户端地址信息初始化

上述网络地址信息初始化过程主要针对服务器端而非客户端。给套接字分配IP地址和端口号
主要是为下面这件事做准备：
“请把进入IP211.217.168.13、9190端口的数据传给我！”
反观客户端中连接请求如下：
“请连接到IP211.217.168.13、9190端口！”
请求方法不同意味着调用的函数也不同。服务器端的准备工作通过bind函数完成，而客户端则通过connect函数完成。因此，函数调用前需准备的地址值类型也不同。服务器端声明sockaddr_in结构体变量，将其初始化为赋予服务器端IP和套接字的端口号，然后调用bind函数；而客户端则声明sockaddrin结构体，并初始化为要与之连接的服务器端套接字的IP和端口号，然后调用connect函数。

4.INADDR_ANY

每次创建服务器端套接字都要输人IP地址会有些繁琐，此时可如下初始化地址信息。

struct sockaddr_in addr;
char * serv_port = “9190";
memset(&addr, 0, sizeof(addr));
addr.sin_family = AF_INET;
addr.sin_addr.s_addr = htonl(INADDR_ANY);
addr.sin_port = htons(atoi(serv_port));

与之前方式最大的区别在于，利用常数INADDR_ANY分配服务器端的IP地址。若采用这种
方式，则可自动获取运行服务器端的计算机IP地址，不必亲自输人。而且，若同一计算机中已分
配多个IP地址（多宿主（Multi-homed）计算机，一般路由器属于这一类），则只要端口号一致，
就可以从不同IP地址接收数据。因此，服务器端中优先考虑这种方式。而客户端中除非带有一部
分服务器端功能，否则不会采用。

5.第1章的hello_server.C、hello_client.c运行过程

第1章中执行以下命令以运行相当于服务器端的hello_server.c。
./hserver 9190
通过代码可知，向main函数传递的9190为端口号。通过此端口创建服务器端套接字并运行程
序，但未传递IP地址，因为可以通过INADDR_ANY指定IP地址。相信各位现在再去读代码会感
觉简单很多。
执行下列命令以运行相当于客户端的hello_client.c。与服务器端运行方式相比，最大的区别
是传递了IP地址信息。
./hclient 192.168.1.12 9190
192.168.1.12是回送地址（loopback address)，指的是计算机自身IP地址。在第1章的示例中，服
务器端和客户端在同一计算机中运行，因此，连接目标服务器端的地址为192.168.1.12。

6.向套接字分配网络地址

既然已讨论了sockaddrin结构体的初始化方法，接下来就把初始化的地址信息分配给套接字。bind函数负责这项操作。

#include <sys/socket.h>
int bind(int sockfd, struct sockaddr * myaddr, socklen_t addrlen);
// 成功时返回0，失败时返回-1。
// sockfd 要分配地址信息（IP地址和端口号）的套接字文件描述符。
// myaddr 存有地址信息的结构体变量地址值。
// addrlen 第二个结构体变量的长度。

如果此函数调用成功，则将第二个参数指定的地址信息分配给第一个参数中的相应套接字。下面给出服务器端常见套接字初始化过程。

int serv_sock;
struct sockaddr_in serv_addr;
char * serv_port = "9190";/*创建服务器端套接字（监听套接字）*/
serv_Sock = socket(PF_INET, SOCK_STREAM, 0);/*地址信息初始化*/
memset(&serv_addr, 0, sizeof(serv_addr));
serv_addr.sin_family = AF_INET;
serv_addr.sin_addr.s_addr = htonl(INADDR_ANY);
serv_addr.sin_port = htons(atoi(serv_port));/*分配地址信息 */
bind(serv_sock, (struct sockaddr * )&serv_addr, sizeof(serv_addr));