灵魂拷问：读取 excel 测试数据真的慢吗？

📢专注于分享软件测试干货内容，欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正！
📢交流讨论：欢迎加入我们一起学习！
📢资源分享：耗时200+小时精选的「软件测试」资料包
📢 最困难的时候，也就是我们离成功不远的时候！

前言

在实现自动化测试的时候，我们经常会使用数据驱动。所以我们经常会把测试数据单独保存在一个特定格式的文件当中，然后通过读取文件去驱动自动化测试代码。

这篇文章会对比 Excel、CSV 和 YAML 三种主流的文件格式，看看它们哪个更好。

先来看用的最多的 Excel

Excel 是世界上使用最广泛的数据文件格式。使用 python 做自动化测试，可以用 openpyxl 这个第三方库操作 Excel。

经常有人说 Excel 的操作限制很多，写入和读取的速度很慢。真的是这样吗？

我们做个实验。创建一个空的 Excel 文件，然后插入 1000 条数据，看插入数据和读取这些数据会耗费多久的时间。


import openpyxldef test_insert_1000_lines_data():lines = 1000workbook = openpyxl.Workbook()worksheet = workbook.create_sheet('demo')for i in range(lines):data = (i, f'name{i}', f'http://www.example.com/{i}')worksheet.append(data)workbook.save('1000lines.xlsx')def test_read_1000_lines_data():workbook = openpyxl.load_workbook('1000lines.xlsx')worksheet = workbook['demo']for row in worksheet.values:pass

插入 1000 条数据会消耗多少时间呢？答案是 0.09 秒，速度并不慢。而读取这 1000 条测试数据消耗的时间，只需要 0.06 秒。

在这里插入图片描述
在一个项目当中，1000 个测试用例应该是比较合理的，所以在正常的测试场景下，使用 Excel 管理用例数据在读取效率上是合适的。

但是当数据变得越来越大的时候，Excel 的处理速度会越来越慢，读取数据消耗了 7 秒。这就意味着如果你有多个项目需要同时测试，Excel 的解析可能会对测试效率造成一定的影响。

再看 CSV 格式

不论是进行自动化测试还是进行数据分析，CSV 格式都更加合适。这种格式不像 Excel，要去处理表格的样式，它更专注于数据。

而且在 Python 语言当中，内置了 CSV 格式的处理模块，用法非常简单，没有太多额外的学习成本。


import csvdef test_insert_1000_lines_data():lines = 1000with open('1000lines.csv', 'w', newline='') as f:csv_writer = csv.writer(f)for i in range(lines):data = (i, f'name{i}', f'http://www.example.com/{i}')csv_writer.writerow(data)def test_read_1000_lines_data():with open('1000lines.csv', newline='') as f:csv_reader = csv.reader(f)for row in csv_reader:print(row)

分别对 1000 行、5 万行和 10 万行数据进行插入和读取操作，CSV 的速度都比 Excel 要快一个量级。

对于海量数据处理，CSV 比 Excel 要快很多，代码编写也更简单。

但是，使用 CSV 格式一定要注意对逗号的处理。

在 CSV 当中，每一行的数据默认是用逗号分割的，如果你有一个数据当中本身就包含了逗号，一定要记得把这个数据用双引号包裹。

而且，CSV 支持的数据格式非常有限，数据被读取出来后都被当成字符串，需要自己添加额外的解析操作。

id,17,18,“{‘name’: ‘yuz’, ‘age’: 11}”

最后，看看 YAML 表现怎么样？

YAML 的优点在于丰富的数据类型支持。无论是元组、字典、数字、布尔类型都能支持，并且被 python 语言轻松解析成对应的 python 数据类型。


import yamldef test_insert_1000_lines_data():lines = 1000with open('1000lines.yaml', 'w') as f:all_data = [{"id": i,"name": f"name{i}","data": {"username": "yuz", "passoword": 123456}}for i in range(lines)]yaml.safe_dump(all_data, f)def test_read_1000_lines_data():with open('1000lines.yaml',encoding='utf-8') as f:data = yaml.load(f, Loader=yaml.SafeLoader

在少量数据的解析上，YAML 会非常的方便。但是一旦数据增加到上万组，YAML 的解析速度会非常非常慢。当数据达到 10 万行的时候，读取速度竟然接近 1 分钟。

最近有越来越多的自动化测试人员使用 YAML 存储用例，一方面是看重了它支持的丰富的数据格式，另一方面可能是受了一些框架的影响。