SQL语言函数详解

1. SQL内置函数概述

1.1 常见函数分类

SQL内置函数是数据库管理系统提供的一系列预定义函数，用于对数据进行各种操作和处理。根据功能和用途的不同，SQL内置函数可以分为以下几类：

字符串函数：用于对字符串进行操作，如CONCAT用于连接字符串，SUBSTRING用于提取子字符串，UPPER和LOWER用于转换字符串的大小写。这些函数在处理文本数据时非常有用，例如在数据清洗和格式化过程中。
数学函数：用于进行数学计算，如ABS返回绝对值，CEILING返回大于等于指定数字的最小整数，FLOOR返回小于等于指定数字的最大整数，ROUND用于四舍五入。这些函数在处理数值数据时非常方便，例如在计算财务数据或进行数据分析时。
日期和时间函数：用于处理日期和时间数据，如GETDATE返回当前日期和时间，DATEADD用于在日期上添加时间间隔，DATEDIFF用于计算两个日期之间的差异。这些函数在处理与时间相关的数据时非常关键，例如在日志分析或时间序列分析中。
聚合函数：用于对一组数据进行聚合操作，如SUM计算总和，AVG计算平均值，COUNT计算行数，MAX和MIN分别返回最大值和最小值。这些函数在数据分析和报告生成中非常重要，例如在统计销售数据或用户行为数据时。
转换函数：用于将数据从一种类型转换为另一种类型，如CAST和CONVERT。这些函数在数据类型不匹配或需要进行数据类型转换时非常有用，例如在将字符串转换为日期或数字时。

1.2 函数应用场景

SQL内置函数在各种数据库操作和数据处理场景中都有广泛的应用，以下是一些具体的应用场景：

数据清洗与预处理：在数据导入或处理过程中，使用字符串函数和数学函数对数据进行格式化和清理。例如，使用LTRIM和RTRIM去除字符串两端的空格，使用REPLACE替换错误的字符，使用ROUND对数值进行四舍五入。
数据分析与报告：在数据分析和报告生成中，聚合函数和日期函数被广泛应用。例如，使用SUM和AVG计算销售总额和平均销售额，使用DATEADD和DATEDIFF分析时间序列数据，计算不同时间段的销售增长或下降趋势。
数据查询与筛选：在数据查询过程中，使用字符串函数和数学函数对数据进行筛选和过滤。例如，使用CHARINDEX查找字符串中子字符串的位置，使用ABS对数值进行绝对值比较。
数据转换与格式化：在数据导出或展示时，使用转换函数对数据进行格式化。例如，使用CONVERT将日期格式化为特定的格式，使用CAST将数值转换为字符串以便在报告中显示。
性能优化与索引：在数据库性能优化中，合理使用函数可以提高查询效率。例如，避免在WHERE子句中使用函数，以确保索引能够被有效利用。

2. 字符串函数

2.1 CONCAT函数举例

CONCAT 函数用于将两个或多个字符串连接在一起，形成一个新的字符串。它在处理文本数据时非常有用，尤其是在需要将多个字段的值组合成一个完整的字符串时。

语法：
```
CONCAT(string1, string2, ..., stringN)
```
其中 string1, string2, …, stringN 是需要连接的字符串。
举例：
假设有一个员工表 employees，其中包含员工的 first_name 和 last_name 字段，现在需要将这两个字段组合成一个完整的姓名字段。
```
SELECT CONCAT(first_name, ' ', last_name) AS full_name
FROM employees;
```
如果表中有以下数据：

first_name last_name
John Doe
Jane Smith
查询结果将为：

full_name
John Doe
Jane Smith

first_name	last_name
John	Doe
Jane	Smith

full_name
John Doe
Jane Smith

2.2 UPPER函数举例

UPPER 函数用于将字符串中的所有字符转换为大写。这在数据处理中非常有用，尤其是在需要统一文本格式或进行不区分大小写的比较时。

语法：
```
UPPER(string)
```
其中 string 是需要转换为大写的字符串。
举例：
假设有一个产品表 products，其中包含产品名称 product_name 字段，现在需要将所有产品名称转换为大写。
```
SELECT UPPER(product_name) AS upper_product_name
FROM products;
```
如果表中有以下数据：

product_name
iPhone 14
Samsung Galaxy
查询结果将为：

upper_product_name
IPHONE 14
SAMSUNG GALAXY

product_name
iPhone 14
Samsung Galaxy

upper_product_name
IPHONE 14
SAMSUNG GALAXY

通过以上两个函数的举例，可以看出 CONCAT 和 UPPER 在处理字符串数据时的强大功能。它们可以灵活地组合和格式化字符串，满足各种数据处理需求。

3. 数学函数

3.1 ABS函数举例

ABS 函数用于返回一个数值的绝对值。无论输入值是正数、负数还是零，该函数都能返回其非负值。在处理数值数据时，尤其是涉及距离计算、误差分析或需要消除负号的场景中，ABS 函数非常实用。

语法：
```
ABS(numeric_expression)
```
其中 numeric_expression 是需要计算绝对值的数值表达式。
举例：
假设有一个订单表 orders，其中包含订单金额 amount 字段，现在需要计算每个订单金额的绝对值，以确保金额为正数。
```
SELECT order_id, ABS(amount) AS absolute_amount
FROM orders;
```
如果表中有以下数据：

order_id amount
1 -100
2 200
3 -150
查询结果将为：

order_id absolute_amount
1 100
2 200
3 150

order_id	amount
1	-100
2	200
3	-150

order_id	absolute_amount
1	100
2	200
3	150

3.2 ROUND函数举例

ROUND 函数用于将一个数值四舍五入到指定的小数位数。该函数在处理财务数据、科学计算或任何需要精确控制数值精度的场景中非常有用。

语法：
```
ROUND(numeric_expression, length, [function])
```
其中：
- numeric_expression 是需要四舍五入的数值表达式。
- length 是指定的小数位数，可以是正数、负数或零。
- function 是可选参数，用于指定四舍五入的模式。默认值为 0，表示标准四舍五入；其他值（如 1）表示截断。
举例：
假设有一个销售表 sales，其中包含销售额 revenue 字段，现在需要将销售额四舍五入到小数点后两位。
```
SELECT sale_id, ROUND(revenue, 2) AS rounded_revenue
FROM sales;
```
如果表中有以下数据：

sale_id revenue
1 123.456
2 78.9123
3 456.789
查询结果将为：

sale_id rounded_revenue
1 123.46
2 78.91
3 456.79

sale_id	revenue
1	123.456
2	78.9123
3	456.789

sale_id	rounded_revenue
1	123.46
2	78.91
3	456.79

通过以上两个函数的举例，可以看出 ABS 和 ROUND 在处理数值数据时的强大功能。它们可以灵活地处理各种数值问题，满足数据处理和分析中的精确需求。

4. 日期函数

4.1 GETDATE函数举例

GETDATE 函数用于返回当前的日期和时间。它在处理与时间相关的数据时非常关键，尤其是在需要记录数据的创建时间或更新时间的场景中。

语法：
```
GETDATE()
```
该函数不需要任何参数，直接返回当前的日期和时间。
举例：
假设有一个用户表 users，其中包含用户的基本信息，现在需要记录每个用户的注册时间。
```
INSERT INTO users (username, email, registration_date)
VALUES ('john_doe', 'john@example.com', GETDATE());
```
如果当前时间是 2025-03-04 14:30:00，则插入的记录将为：

username email registration_date
john_doe john@example.com 2025-03-04 14:30:00
另一个场景是查询当前时间与某个特定时间之间的差异。例如，假设有一个订单表 orders，其中包含订单的创建时间 created_at，现在需要计算每个订单的处理时间（假设处理时间为当前时间与创建时间的差值）。
```
SELECT order_id, created_at, DATEDIFF(minute, created_at, GETDATE()) AS processing_time_minutes
FROM orders;
```
如果表中有以下数据：

order_id created_at
1 2025-03-04 13:00:00
2 2025-03-04 14:00:00
查询结果将为：

order_id created_at processing_time_minutes
1 2025-03-04 13:00:00 90
2 2025-03-04 14:00:00 30

username	email	registration_date
john_doe	john@example.com	2025-03-04 14:30:00

order_id	created_at
1	2025-03-04 13:00:00
2	2025-03-04 14:00:00

order_id	created_at	processing_time_minutes
1	2025-03-04 13:00:00	90
2	2025-03-04 14:00:00	30

4.2 DATEDIFF函数举例

DATEDIFF 函数用于计算两个日期之间的差异。它可以指定差异的单位（如天、小时、分钟等），在处理时间序列数据或需要计算时间间隔的场景中非常有用。

语法：
```
DATEDIFF(datepart, startdate, enddate)
```
其中：
- datepart 是指定的日期部分，如 year、month、day、hour、minute 等。
- startdate 是起始日期。
- enddate 是结束日期。
举例：
假设有一个员工表 employees，其中包含员工的入职日期 hire_date，现在需要计算每个员工的在职天数。
```
SELECT employee_id, hire_date, DATEDIFF(day, hire_date, GETDATE()) AS days_employed
FROM employees;
```
如果表中有以下数据：

employee_id hire_date
1 2020-01-01
2 2022-06-15
查询结果将为：

employee_id hire_date days_employed
1 2020-01-01 1917
2 2022-06-15 1052
另一个场景是计算两个日期之间的月数差异。例如，假设有一个项目表 projects，其中包含项目的开始日期 start_date 和结束日期 end_date，现在需要计算每个项目的持续月数。
```
SELECT project_id, start_date, end_date, DATEDIFF(month, start_date, end_date) AS duration_months
FROM projects;
```
如果表中有以下数据：

project_id start_date end_date
1 2023-01-01 2024-12-31
2 2024-03-15 2025-03-14
查询结果将为：

project_id start_date end_date duration_months
1 2023-01-01 2024-12-31 24
2 2024-03-15 2025-03-14 12

employee_id	hire_date	days_employed
1	2020-01-01	1917
2	2022-06-15	1052

project_id	start_date	end_date
1	2023-01-01	2024-12-31
2	2024-03-15	2025-03-14

project_id	start_date	end_date	duration_months
1	2023-01-01	2024-12-31	24
2	2024-03-15	2025-03-14	12

通过以上两个函数的举例，可以看出 GETDATE 和 DATEDIFF 在处理日期和时间数据时的强大功能。它们可以灵活地获取当前时间并计算时间间隔，满足各种与时间相关的数据处理需求。

5. 自定义函数

5.1 自定义标量函数举例

自定义标量函数是 SQL 中一种非常灵活的工具，它能够返回单个标量值，如整数、字符串或日期等。这种函数在处理复杂的计算逻辑或重复使用的表达式时非常有用。以下是一个具体的自定义标量函数示例：

示例：计算员工的工龄

假设有一个员工表 employees，其中包含员工的入职日期 hire_date。现在需要创建一个自定义标量函数，用于计算每个员工的工龄（以年为单位）。

创建函数：

CREATE FUNCTION dbo.CalculateTenure(@hire_date DATE)
RETURNS INT
AS
BEGINDECLARE @tenure INT;SET @tenure = DATEDIFF(YEAR, @hire_date, GETDATE()) - CASE WHEN (MONTH(@hire_date) > MONTH(GETDATE())) OR (MONTH(@hire_date) = MONTH(GETDATE()) AND DAY(@hire_date) > DAY(GETDATE()))THEN 1 ELSE 0 END;RETURN @tenure;
END;

函数解释：
- DATEDIFF(YEAR, @hire_date, GETDATE()) 计算从入职日期到当前日期的年数差。
- CASE 语句用于调整计算结果，确保只有当入职日期在当前日期之前时，才计算为完整的年数。

调用函数：

SELECT employee_id, hire_date, dbo.CalculateTenure(hire_date) AS tenure_years
FROM employees;

示例数据：

employee_id hire_date
1 2020-01-01
2 2022-06-15
查询结果：

employee_id hire_date tenure_years
1 2020-01-01 5
2 2022-06-15 3

通过这个自定义标量函数，可以方便地计算每个员工的工龄，而无需在每次查询时重复编写复杂的日期计算逻辑。

5.2 自定义表值函数举例

自定义表值函数能够返回一个表结构的结果集，这在需要从多个表中提取数据并进行复杂查询时非常有用。以下是一个具体的自定义表值函数示例：

示例：获取员工及其直属上级的信息

假设有一个员工表 employees，其中包含员工的 employee_id、first_name、last_name 和 manager_id（直属上级的员工 ID）。现在需要创建一个自定义表值函数，用于获取每个员工及其直属上级的详细信息。

创建函数：

CREATE FUNCTION dbo.GetEmployeeAndManagerInfo(@employee_id INT)
RETURNS TABLE
AS
RETURN
(SELECT e.employee_id AS employee_id,e.first_name AS employee_first_name,e.last_name AS employee_last_name,m.employee_id AS manager_id,m.first_name AS manager_first_name,m.last_name AS manager_last_nameFROM employees eLEFT JOIN employees m ON e.manager_id = m.employee_idWHERE e.employee_id = @employee_id
);

函数解释：
- 该函数通过 LEFT JOIN 将员工表自身连接，获取每个员工及其直属上级的信息。
- WHERE 子句用于筛选指定的员工 ID。

调用函数：

SELECT * FROM dbo.GetEmployeeAndManagerInfo(1);

示例数据：

employee_id first_name last_name manager_id
1 John Doe 3
2 Jane Smith 3
3 Alice Johnson NULL
查询结果：

employee_id employee_first_name employee_last_name manager_id manager_first_name manager_last_name
1 John Doe 3 Alice Johnson

通过这个自定义表值函数，可以方便地获取每个员工及其直属上级的详细信息，而无需在每次查询时重复编写复杂的表连接逻辑。这种函数特别适用于需要频繁查询关联数据的场景。

6. 自定义函数调用方法

6.1 标量函数调用

标量函数是自定义函数的一种，它返回单个标量值，如整数、字符串或日期等。调用标量函数时，可以直接在 SQL 查询中使用函数名，并将参数传递给函数。以下是标量函数调用的具体步骤和示例：

调用语法

SELECT 函数名(参数1, 参数2, ..., 参数N) AS 列名
FROM 表名;

示例：调用计算工龄的标量函数

假设我们已经创建了一个名为 dbo.CalculateTenure 的标量函数，用于计算员工的工龄（以年为单位）。该函数的定义如下：

CREATE FUNCTION dbo.CalculateTenure(@hire_date DATE)
RETURNS INT
AS
BEGINDECLARE @tenure INT;SET @tenure = DATEDIFF(YEAR, @hire_date, GETDATE()) - CASE WHEN (MONTH(@hire_date) > MONTH(GETDATE())) OR (MONTH(@hire_date) = MONTH(GETDATE()) AND DAY(@hire_date) > DAY(GETDATE()))THEN 1 ELSE 0 END;RETURN @tenure;
END;

现在，我们可以通过以下方式调用该函数：

SELECT employee_id, hire_date, dbo.CalculateTenure(hire_date) AS tenure_years
FROM employees;

示例数据

employee_id	hire_date
1	2020-01-01
2	2022-06-15

查询结果

employee_id	hire_date	tenure_years
1	2020-01-01	5
2	2022-06-15	3

通过这种方式，标量函数可以方便地在查询中使用，避免了重复编写复杂的逻辑代码。

6.2 表值函数调用

表值函数是自定义函数的另一种类型，它返回一个表结构的结果集。调用表值函数时，需要使用 FROM 子句，并将函数名和参数作为数据源。以下是表值函数调用的具体步骤和示例：

调用语法

SELECT *
FROM 函数名(参数1, 参数2, ..., 参数N);

示例：调用获取员工及其直属上级信息的表值函数

假设我们已经创建了一个名为 dbo.GetEmployeeAndManagerInfo 的表值函数，用于获取每个员工及其直属上级的详细信息。该函数的定义如下：

CREATE FUNCTION dbo.GetEmployeeAndManagerInfo(@employee_id INT)
RETURNS TABLE
AS
RETURN
(SELECT e.employee_id AS employee_id,e.first_name AS employee_first_name,e.last_name AS employee_last_name,m.employee_id AS manager_id,m.first_name AS manager_first_name,m.last_name AS manager_last_nameFROM employees eLEFT JOIN employees m ON e.manager_id = m.employee_idWHERE e.employee_id = @employee_id
);

现在，我们可以通过以下方式调用该函数：

SELECT * FROM dbo.GetEmployeeAndManagerInfo(1);

示例数据

employee_id	first_name	last_name	manager_id
1	John	Doe	3
2	Jane	Smith	3
3	Alice	Johnson	NULL

查询结果

employee_id	employee_first_name	employee_last_name	manager_id	manager_first_name	manager_last_name
1	John	Doe	3	Alice	Johnson

通过这种方式，表值函数可以方便地在查询中使用，避免了重复编写复杂的表连接逻辑，特别适用于需要频繁查询关联数据的场景。

7. 自定义函数注意事项

7.1 参数定义规范

在定义自定义函数时，参数的定义至关重要，它直接影响函数的使用和性能。以下是一些关键的参数定义规范：

参数命名：参数名称应具有明确的语义，能够清晰地表达其用途。例如，使用 @employee_id 而不是模糊的 @param1。这有助于提高代码的可读性和可维护性。
参数类型：参数的数据类型必须明确指定，并且应选择合适的数据类型以确保数据的准确性和性能。例如，对于日期参数，应使用 DATE 或 DATETIME 类型，而不是 VARCHAR。这可以避免类型转换带来的性能开销和潜在的错误。
默认值：可以为参数设置默认值，这使得函数调用更加灵活。如果调用时未提供参数值，则使用默认值。例如：
```
CREATE FUNCTION dbo.CalculateDiscount(@price DECIMAL(10, 2) = 0, @discount_rate DECIMAL(5, 2) = 0.1)
RETURNS DECIMAL(10, 2)
AS
BEGINRETURN @price * @discount_rate;
END;
```
在此函数中，如果未提供 @price 或 @discount_rate，则会使用默认值 0 和 0.1。
参数数量：尽量减少参数的数量，过多的参数会使函数调用变得复杂且难以维护。如果需要传递多个相关参数，可以考虑使用表值参数或结构化类型。

7.2 返回值限制

自定义函数的返回值也受到一些限制，这些限制需要在设计函数时予以考虑：

标量函数返回值：
- 标量函数只能返回单个标量值，如整数、字符串或日期等。返回值的数据类型必须在 RETURNS 子句中明确指定。例如：
```
CREATE FUNCTION dbo.GetAge(@birthdate DATE)
RETURNS INT
AS
BEGINRETURN DATEDIFF(YEAR, @birthdate, GETDATE());
END;
```
- 返回值必须与 RETURNS 子句中指定的数据类型一致，否则会引发错误。
表值函数返回值：
- 表值函数返回一个表结构的结果集，其结构必须在 RETURNS 子句中明确定义。例如：
```
CREATE FUNCTION dbo.GetEmployeeDetails(@employee_id INT)
RETURNS TABLE
AS
RETURN
(SELECT employee_id, first_name, last_name, hire_dateFROM employeesWHERE employee_id = @employee_id
);
```
- 表值函数的返回表结构不能动态改变，必须在定义时固定。这意味着不能在函数体中动态添加或删除列。
性能考虑：
- 自定义函数的执行效率直接影响查询性能。尽量避免在函数中使用复杂的查询或大量的数据操作，尤其是对于标量函数，因为它们可能会被多次调用。
- 对于表值函数，如果返回的数据量较大，可能会对性能产生负面影响。在这种情况下，可以考虑使用存储过程或视图来替代。
递归调用限制：
- SQL Server 支持递归调用自定义函数，但递归调用的深度有限制。默认情况下，递归调用的深度限制为 100 级。如果需要更高的递归深度，可以通过设置配置选项来调整，但需谨慎使用，以避免无限递归导致系统资源耗尽。
- 例如，可以通过以下命令设置递归调用的最大深度：
```
DBCC SETMAXRECURSION (0); -- 0 表示无限制
```