matlab快速入门（2）-- 数据处理与可视化

MATLAB的数据处理

1. 数据导入与导出

(1) 从文件读取数据

Excel 文件：

data = readtable('data.xlsx');  % 读取为表格（Table）

CSV 文件：

data = readtable('data.csv');   % 自动处理表头和分隔符

文本文件：

data = load('data.txt');        % 数值数据直接加载为矩阵

(2) 导出数据到文件

保存为 Excel：
```
writetable(data, 'output.xlsx'); 
```
保存为 CSV：
```
writetable(data, 'output.csv');
```

2. 数据清洗与预处理

(1) 处理缺失值

1>查找缺失值：ismissing(data)

missingValues = ismissing(data);  % 返回逻辑矩阵标记缺失值（NaN 或空字符）

功能：检测 data（可以是数组、表格、时间表等）中的缺失值，生成一个与 data 维度相同的 逻辑矩阵（logical matrix）。
输出规则：
- missingValues 中 true（1）表示对应位置是缺失值。
- false（0）表示该位置数据正常。

支持的缺失值类型

数值型数据：NaN（Not a Number）。
时间型数据：NaT（Not a Time）。
字符串/字符数据：空字符串 ""（字符串数组）或 <missing>。
分类数据：<undefined>。
表格/时间表：自动识别各列的缺失值类型。

示例
假设 data 是一个表格：

ID	Age	Status
1	25	“Complete”
2	NaN	“”
3	30	“”

执行 missingValues = ismissing(data) 后，结果如下：

ID	Age	Status
0	0	0
0	1	1
0	0	1

2> 填充缺失值：fillmissing
代码作用

data.Age = fillmissing(data.Age, 'constant', mean(data.Age, 'omitnan'));  % 用均值填充

功能：将 data.Age 列中的缺失值（NaN）填充为该列的均值（忽略缺失值计算）。
参数解析：
1. data.Age：待填充的列（数值型向量）。
2. 'constant'：填充方式为“常量填充”，即用固定值替换缺失值。
3. mean(data.Age, 'omitnan')：计算 data.Age 列的均值时忽略 NaN 值。

关键步骤

计算均值：
```
avg = mean(data.Age, 'omitnan');  % 忽略 NaN 计算均值
```
- 假设 data.Age = [25, NaN, 30]，则 avg = (25 + 30)/2 = 27.5。
填充缺失值：
```
data.Age = fillmissing(data.Age, 'constant', avg);
```
- 原始数据：[25, NaN, 30] → 填充后：[25, 27.5, 30]。

其他填充方法

插值填充：fillmissing(data.Age, 'linear')（线性插值）。
邻近值填充：fillmissing(data.Age, 'previous')（用前一个有效值填充）。

注意事项

确保数据类型一致：
- fillmissing 的填充值必须与列的数据类型兼容（例如，数值列用数值填充，字符串列用字符串填充）。
处理全缺失列：
- 若某列全部为 NaN，mean(..., 'omitnan') 会返回 NaN，导致填充无效。需额外处理：
```
if all(isnan(data.Age))data.Age = zeros(size(data.Age));  % 用0填充全缺失列
end
```

分类变量处理：

分类数据（如 'Male', 'Female'）需用众数填充：

modeGender = mode(data.Gender, 'omitnan');
data.Gender = fillmissing(data.Gender, 'constant', modeGender);

完整示例
原始数据

Age
25
NaN
30

执行代码后

Age
25
27.5
30

总结

ismissing：精准定位数据中的缺失值，生成逻辑掩码。
fillmissing：灵活填充缺失值，支持均值、插值、邻近值等方法。
核心技巧：结合 ismissing 的检测结果，选择合适策略清洗数据，确保后续分析可靠性。

(2) 数据筛选

按条件筛选行：

highScores = data(data.Score > 90, :);  % 筛选 Score 列大于90的行

选择特定列：

selectedData = data(:, {'Name', 'Age'});  % 选择 Name 和 Age 列

(3) 数据转换

涵盖 类型转换 和 分类数据编码 的核心操作。

一、类型转换：`data.Age = double(data.Age);`

1. 作用与原理

目标：将 data.Age 列的数据类型转换为 双精度浮点数（double）。
适用场景：
- 原始数据可能是整数（int）、字符（char）或其他类型。
- 需要统一数值类型以确保计算精度（例如参与科学计算或统计分析）。

2. 示例说明

原始数据

假设 data.Age 原本是整数类型（int32）：

data = table([25; 30; 28], {'Male'; 'Female'; 'Male'}, 'VariableNames', {'Age', 'Gender'});
disp(class(data.Age));  % 输出 'int32'

原始数据

Age (double)	Gender
25	Male
30	Female
28	Male

转换代码

data.Age = double(data.Age);  % 转换为双精度浮点数
disp(class(data.Age));         % 输出 'double'

转换后数据

Age (double)	Gender
25.0	Male
30.0	Female
28.0	Male

3. 常见类型转换函数

函数	作用	示例
`double()`	转为双精度浮点数	`x = double(int32(5))` → `5.0`
`single()`	转为单精度浮点数	`x = single(3.14)`
`int32()`	转为32位整数	`x = int32(10.7)` → `10`
`string()`	转为字符串数组	`x = string(123)` → `"123"`
`cellstr()`	转为字符向量元胞数组	`x = cellstr("Text")` → `{'Text'}`

4. 注意事项

精度丢失：将浮点数转换为整数时，小数部分会被截断（非四舍五入）。
```
x = 3.9;
y = int32(x);  % y = 3
```

数据溢出：超出目标类型范围的转换会引发错误或产生意外值。

x = 500;
y = int8(x);   % int8 范围是 [-128, 127]，y = 127（溢出）

分类数据编码：data.Gender = categorical(data.Gender);

1. 作用与原理

目标：将字符或字符串数据转换为 分类变量（categorical）。
优势：
- 节省内存：分类变量内部存储为整数索引，而非重复的字符串。
- 高效操作：支持快速分组统计、排序、筛选。
- 语义清晰：保留原始标签，方便可视化与分析。

2. 示例说明

原始数据

假设 data.Gender 是字符串数组：

data.Gender = ["Male"; "Female"; "Male"; "Female"];
disp(class(data.Gender));  % 输出 'string'

注意：一定要转换为categorical类型的数据

转换代码

data.Gender = categorical(data.Gender);  % 转换为分类变量
disp(class(data.Gender));                % 输出 'categorical'
disp(categories(data.Gender));           % 输出 {'Female', 'Male'}

转换后数据

Gender (categorical)
Male
Female
Male
Female

3. 分类变量的核心操作

(1) 统计频数

counts = countcats(data.Gender);  % 输出 [2; 2]（Female:2, Male:2）

(2) 排序数据

sortedData = sortrows(data, 'Gender');  % 按分类顺序排序（默认字母顺序）

(3) 合并类别

% 将 'Male' 和 'Female' 合并为 'Other'
data.Gender = mergecats(data.Gender, {'Male', 'Female'}, 'Other');
disp(categories(data.Gender));  % 输出 {'Other'}

(4) 处理缺失值

% 添加缺失值并填充
data.Gender(2) = missing;        % 设置为 <undefined>
data.Gender = addcats(data.Gender, 'Unknown');  % 添加新类别
data.Gender(isundefined(data.Gender)) = 'Unknown';  % 填充缺失

4. 分类变量的优势对比

操作	字符串数组	分类变量
内存占用	高（存储所有字符）	低（存储整数索引）
分组统计速度	慢	快
支持自定义类别顺序	不支持	支持（有序分类）

三、综合应用场景

场景：数据预处理流程

% 步骤1：读取数据
data = readtable('survey_data.csv');% 步骤2：类型转换（Age列转为double）
data.Age = double(data.Age);% 步骤3：分类编码（Gender列转为分类变量）
data.Gender = categorical(data.Gender);% 步骤4：处理缺失值（用众数填充Gender）
modeGender = mode(data.Gender, 'omitnan');
data.Gender = fillmissing(data.Gender, 'constant', modeGender);% 步骤5：保存处理后的数据
writetable(data, 'cleaned_survey_data.csv');

四、注意事项

类型转换前检查数据：
- 确保转换后的类型适合后续分析（例如日期数据应转为 datetime）。
分类变量的顺序：
- 默认按字母顺序排列，可通过 'Ordinal', true 指定逻辑顺序。
缺失值处理：
- 分类变量中的缺失值显示为 <undefined>，需用 addcats 和 fillmissing 处理。

总结

类型转换：确保数据格式统一，满足计算需求。
分类编码：提升处理离散标签数据的效率和可读性。
核心函数：double(), categorical(), countcats(), mergecats()。

3. 数据分析与统计

一、聚合统计

1. 分组统计：`groupsummary`

功能：按指定分组变量对数据进行分组，并计算统计量（如均值、总和、标准差等）。

语法

groupStats = groupsummary(data, groupVars, method, dataVars)

data：输入表格（table）。
groupVars：分组变量（列名或列索引），支持单列或多列。
method：统计方法（如 'mean', 'sum', 'std'）。
dataVars：需要统计的数据列（列名或列索引）。

示例 1：按性别计算平均分

% 创建示例数据
data = table({'Male'; 'Female'; 'Male'; 'Female'}, [85; 92; 78; 88], 'VariableNames', {'Gender', 'Score'});% 按性别分组计算平均分
groupStats = groupsummary(data, 'Gender', 'mean', 'Score');

输出结果：

Gender	GroupCount	mean_Score
Female	2	90
Male	2	81.5

示例 2：多分组变量与多统计方法

% 按性别和部门分组，计算销售额的总和和均值
groupStats = groupsummary(data, {'Gender', 'Dept'}, {'sum', 'mean'}, 'Sales');

2. 交叉分析：`crosstab`

功能：生成交叉频数表，统计两个或多个分类变量的组合频数。

语法

[table, chi2, p] = crosstab(var1, var2, ...)

var1, var2：分类变量（向量或分类数组）。
table：交叉频数表。
chi2：卡方检验统计量。
p：p 值（检验变量独立性的显著性）。

示例：性别与部门的交叉分析

% 创建示例数据
gender = categorical({'Male'; 'Female'; 'Male'; 'Female'});
dept = categorical({'IT'; 'HR'; 'IT'; 'HR'});% 生成交叉表
[counts, ~, ~] = crosstab(gender, dept);
disp(counts);

输出：

	HR	IT
Female	2	0
Male	0	2

二、数值计算

1. 矩阵运算：`cov`（协方差矩阵）

功能：计算数据列之间的协方差矩阵，反映变量间的线性相关性。

语法

covMatrix = cov(data)

data：数值矩阵或表格中的数值列。
covMatrix：对称矩阵，对角线为方差，非对角线为协方差。

示例：计算协方差矩阵

% 提取表格中的数值列（第2到5列）
numericData = data{:, 2:5};% 计算协方差矩阵
covariance = cov(numericData);
disp(covariance);

协方差解读：

正值：变量同向变化。
负值：变量反向变化。
绝对值大小：表示相关性强度。

2. 自定义函数应用：`arrayfun`

功能：对数组的每个元素应用自定义函数，避免显式循环。

语法

output = arrayfun(func, array)

func：函数句柄（如 @(x) x + 5）。
array：输入数组。
output：与输入数组同维度的结果。

示例：所有分数加5

% 定义分数列
data.Score = [85; 92; 78; 88];% 对每个分数加5
data.AdjustedScore = arrayfun(@(x) x + 5, data.Score);

输出：

Score	AdjustedScore
85	90
92	97
78	83
88	93

对比向量化操作：

% 更高效的向量化写法
data.AdjustedScore = data.Score + 5;

三、综合应用场景

场景：销售数据分析

% 步骤1：读取数据
data = readtable('sales_data.csv');% 步骤2：按地区和产品类别分组，计算总销售额和平均利润
groupStats = groupsummary(data, {'Region', 'Product'}, {'sum', 'mean'}, {'Sales', 'Profit'});% 步骤3：生成地区和销售员的交叉表
[counts, ~, ~] = crosstab(data.Region, data.Salesperson);% 步骤4：计算销售额与利润的协方差
covMatrix = cov(data{:, {'Sales', 'Profit'}});% 步骤5：调整销售额（所有值乘以1.1）
data.AdjustedSales = arrayfun(@(x) x * 1.1, data.Sales);

四、注意事项

数据类型一致性：
- 聚合统计和交叉分析要求分组变量为分类变量或可离散化的数值。
- 协方差计算需确保输入为数值矩阵。
缺失值处理：
- groupsummary 默认忽略缺失值，但需提前确认数据完整性。
- crosstab 会将缺失值单独列为一类（<undefined>）。
性能优化：
- 优先使用向量化操作（如 data.Score + 5）替代 arrayfun，提升效率。
- 对大型数据，避免在循环中频繁操作表格，可转换为矩阵处理。

五、扩展函数推荐

函数	作用	示例
`grpstats`	分组统计（类似 `groupsummary`）	`grpstats(data, group, 'mean')`
`varfun`	对表格列应用函数	`varfun(@mean, data)`
`corrcoef`	计算相关系数矩阵	`corrcoef(data{:, 2:5})`
`pivot`	生成透视表	`pivot(data, Rows='Gender')`