【Excel对比工具】提升工作效率的神奇助手:基于PyQt5和Pandas的文件数据对比应用
相关资源文件已经打包成EXE文件,可双击直接运行程序,且文章末尾已附上相关源码,以供大家学习交流,博主主页还有更多Python相关程序案例,秉着开源精神的想法,望大家喜欢,点个关注不迷路!!!
在日常的数据处理与分析工作中,我们经常需要对比两个 Excel 文件中的数据。这种操作看似简单,但如果手动操作,不仅容易出错,而且非常耗时。今天,我们将深入探讨如何通过 Python 和 PyQt5 结合 pandas 库,快速实现一个高效、自动化的 Excel 数据对比工具。本文将详细介绍该工具的功能和使用方法,并探讨其潜在的扩展性。
1.概述
数据对比是数据处理中的一项基础工作,特别是在审计、报告、数据验证等任务中,通常需要确保两个数据源的内容一致。在实际的业务操作中,Excel 文件由于其简便易用、兼容性强,成为了大量数据存储的首选。然而,手动对比 Excel 文件往往繁琐且容易出现差错,尤其是在数据量较大的情况下。为了提升工作效率,本文基于 Python 中的 PyQt5 和 pandas 库,开发了一个简洁易用的 Excel 数据对比工具,能够高效地比较两个 Excel 文件中的数据差异。
1.1技术栈
- PyQt5:用于构建桌面 GUI(图形用户界面),提供友好的用户交互界面。
- pandas:处理 Excel 文件,进行数据对比。
- openpyxl:用来处理 Excel 文件的写入和样式设置,导出比较结果。
- QSS:通过自定义样式表美化界面,提升用户体验。
2.功能使用
2.1. 界面介绍
该工具的界面简单直观,包含以下主要部分:
- 文件选择:用户可以选择需要比较的两个 Excel 文件。
- Sheet 选择:加载 Excel 文件后,用户可以选择要比较的工作表。
- 列选择:用户选择要进行对比的列,可以灵活选择不同列的数据进行比对。
- 对比结果表格:展示对比结果,包括左侧数据、右侧数据、匹配状态和内容对比。若数据不匹配,相关行会高亮显示。
- 操作按钮:用户可以点击按钮执行对比操作、导出结果、重置界面和退出程序。
2. 2 文件加载与工作表选择
首先,用户通过点击“打开”按钮选择两个 Excel 文件。文件选择完成后,应用会自动读取并展示文件中的所有工作表名称,用户可以从下拉框中选择对应的工作表。
file_path, _ = QFileDialog.getOpenFileName(self, "选择 Excel 文件", "", "Excel 文件 (*.xlsx *.xls)")
- 列选择与数据对比
用户可以选择要对比的列。点击“开始对比”按钮后,应用会依照选择的列名对比两个工作表中的数据。如果两列数据一致,表格中会显示“✔”标记;若不一致,则显示“✘”标记,并高亮不匹配的行,详细展示差异内容。
left_value = str(df_left[left_col].iloc[i])
right_value = str(df_right[right_col].iloc[i])
match = "✔" if left_value == right_value else "✘"
- 导出结果
用户对比完成后,可以通过“导出结果”按钮将对比结果保存为新的 Excel 文件。保存时,程序会自动高亮不匹配的数据行,并将所有对比信息写入到新文件中,便于后续查看与分析。
ws.append([left_data, right_data, match_status, compare_info])
- 重置与退出功能
程序提供了“重置界面”按钮,用于清空当前选项和对比结果,方便用户重新开始操作。同时,“退出程序”按钮可以关闭应用。
代码实现
上述功能的实现主要依赖于 PyQt5 和 pandas 库。以下是部分关键代码片段:
文件加载与数据读取
def load_file(self, side):file_path, _ = QFileDialog.getOpenFileName(self, "选择 Excel 文件", "", "Excel 文件 (*.xlsx *.xls)")if not file_path:return# 选择文件后更新界面if side == "left":self.left_file = file_pathelse:self.right_file = file_path# 加载工作表名称try:sheets = pd.ExcelFile(file_path).sheet_namesif side == "left":self.left_sheet.addItems(sheets)else:self.right_sheet.addItems(sheets)except Exception as e:QMessageBox.warning(self, "错误", f"无法读取 Excel 文件: {e}")
数据对比与结果展示
def compare_data(self):left_col = self.left_column.currentText()right_col = self.right_column.currentText()# 读取数据df_left = pd.read_excel(self.left_file, sheet_name=self.left_sheet.currentText())df_right = pd.read_excel(self.right_file, sheet_name=self.right_sheet.currentText())# 对比并更新表格for i in range(min(len(df_left), len(df_right))):left_value = str(df_left[left_col].iloc[i])right_value = str(df_right[right_col].iloc[i])match = "✔" if left_value == right_value else "✘"row = self.table.rowCount()self.table.insertRow(row)# 填充表格self.table.setItem(row, 0, QTableWidgetItem(left_value))self.table.setItem(row, 1, QTableWidgetItem(right_value))self.table.setItem(row, 2, QTableWidgetItem(match))
导出结果到 Excel
def export_results(self):timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")file_path, _ = QFileDialog.getSaveFileName(self, "保存 Excel", f"对比结果_{timestamp}.xlsx", "Excel 文件 (*.xlsx)")if not file_path:return# 创建 Excel 文件并保存数据wb = openpyxl.Workbook()ws = wb.activews.append(["左侧数据", "右侧数据", "匹配状态", "内容对比"])for row in range(self.table.rowCount()):left_data = self.table.item(row, 0).text()right_data = self.table.item(row, 1).text()match_status = self.table.item(row, 2).text()compare_info = self.table.item(row, 3).text()ws.append([left_data, right_data, match_status, compare_info])if match_status == "✘":for col in range(1, 5):ws.cell(row=row+2, column=col).fill = red_fillwb.save(file_path)
3.效果展示:
4. 相关源码:
import sys
import pandas as pd
from PyQt5.QtWidgets import (QApplication, QWidget, QVBoxLayout, QHBoxLayout, QPushButton,QFileDialog, QTableWidget, QTableWidgetItem, QLabel, QComboBox, QMessageBox
)
from PyQt5.QtGui import QBrush, QColor
from datetime import datetime
import openpyxl
from openpyxl.styles import PatternFillclass ExcelComparator(QWidget):def __init__(self):super().__init__()self.initUI()
#def initUI(self):self.setWindowTitle("Excel 数据对比工具")self.setGeometry(100, 100, 900, 500)# 应用 QSS 美化界面self.setStyleSheet("""QWidget { background-color: #f4f4f4; }QPushButton { background-color: #0078D7; color: white; border-radius: 5px; padding: 8px; font-size: 14px;}QPushButton:hover { background-color: #005A9E; }QTableWidget { background-color: white; gridline-color: #CCC; }QLabel { font-size: 14px; }""")layout = QVBoxLayout()# 文件选择区file_layout = QHBoxLayout()self.left_label = QLabel("左侧文件:")self.right_label = QLabel("右侧文件:")self.left_btn = QPushButton("打开")self.right_btn = QPushButton("打开")self.left_btn.clicked.connect(lambda: self.load_file("left"))self.right_btn.clicked.connect(lambda: self.load_file("right"))file_layout.addWidget(self.left_label)file_layout.addWidget(self.left_btn)file_layout.addWidget(self.right_label)file_layout.addWidget(self.right_btn)# Sheet 选择区sheet_layout = QHBoxLayout()self.left_sheet = QComboBox()self.right_sheet = QComboBox()self.left_sheet.currentIndexChanged.connect(lambda: self.load_sheet("left"))self.right_sheet.currentIndexChanged.connect(lambda: self.load_sheet("right"))sheet_layout.addWidget(QLabel("左侧 Sheet:"))sheet_layout.addWidget(self.left_sheet)sheet_layout.addWidget(QLabel("右侧 Sheet:"))sheet_layout.addWidget(self.right_sheet)# 对比列选择column_layout = QHBoxLayout()self.left_column = QComboBox()self.right_column = QComboBox()column_layout.addWidget(QLabel("左侧对比列:"))column_layout.addWidget(self.left_column)column_layout.addWidget(QLabel("右侧对比列:"))column_layout.addWidget(self.right_column)# 结果表格self.table = QTableWidget()self.table.setColumnCount(4)self.table.setHorizontalHeaderLabels(["左侧数据", "右侧数据", "匹配状态", "内容对比"])# 操作按钮button_layout = QHBoxLayout()self.compare_btn = QPushButton("开始对比")self.export_btn = QPushButton("导出结果")self.reset_btn = QPushButton("重置界面")self.exit_btn = QPushButton("退出程序")self.compare_btn.clicked.connect(self.compare_data)self.export_btn.clicked.connect(self.export_results)self.reset_btn.clicked.connect(self.reset_ui)self.exit_btn.clicked.connect(self.close)button_layout.addWidget(self.compare_btn)button_layout.addWidget(self.export_btn)button_layout.addWidget(self.reset_btn)button_layout.addWidget(self.exit_btn)# 布局组合layout.addLayout(file_layout)layout.addLayout(sheet_layout)layout.addLayout(column_layout)layout.addWidget(self.table)layout.addLayout(button_layout)self.setLayout(layout)def load_file(self, side):file_path, _ = QFileDialog.getOpenFileName(self, "选择 Excel 文件", "", "Excel 文件 (*.xlsx *.xls)")if not file_path:returnif side == "left":self.left_label.setText(f"左侧文件: {file_path}")self.left_file = file_pathself.left_sheet.clear()else:self.right_label.setText(f"右侧文件: {file_path}")self.right_file = file_pathself.right_sheet.clear()try:sheets = pd.ExcelFile(file_path).sheet_namesif side == "left":self.left_sheet.addItems(sheets)else:self.right_sheet.addItems(sheets)except Exception as e:QMessageBox.warning(self, "错误", f"无法读取 Excel 文件: {e}")def load_sheet(self, side):if side == "left":file, sheet_combo, column_combo = self.left_file, self.left_sheet, self.left_columnelse:file, sheet_combo, column_combo = self.right_file, self.right_sheet, self.right_columnif not file or sheet_combo.currentText() == "":returntry:df = pd.read_excel(file, sheet_name=sheet_combo.currentText())df.columns = df.columns.map(str) # 确保列名是字符串column_combo.clear()column_combo.addItems(df.columns)except Exception as e:QMessageBox.warning(self, "错误", f"无法加载 Sheet 数据: {e}")def compare_data(self):left_col = self.left_column.currentText()right_col = self.right_column.currentText()if not left_col or not right_col:QMessageBox.warning(self, "错误", "请选择要对比的列!")returndf_left = pd.read_excel(self.left_file, sheet_name=self.left_sheet.currentText())df_right = pd.read_excel(self.right_file, sheet_name=self.right_sheet.currentText())df_left.columns = df_left.columns.map(str)df_right.columns = df_right.columns.map(str)self.table.setRowCount(0)for i in range(min(len(df_left), len(df_right))):left_value = str(df_left[left_col].iloc[i])right_value = str(df_right[right_col].iloc[i])match = "✔" if left_value == right_value else "✘"row = self.table.rowCount()self.table.insertRow(row)# 左侧数据列if not self.table.item(row, 0):self.table.setItem(row, 0, QTableWidgetItem(left_value))else:self.table.item(row, 0).setText(left_value)# 右侧数据列if not self.table.item(row, 1):self.table.setItem(row, 1, QTableWidgetItem(right_value))else:self.table.item(row, 1).setText(right_value)# 匹配状态列item_match = QTableWidgetItem(match)if not self.table.item(row, 2):self.table.setItem(row, 2, item_match)else:self.table.item(row, 2).setText(match)# 高亮不匹配的行if match == "✘":for col in range(4): # 增加第四列的信息对比内容列表if not self.table.item(row, col):self.table.setItem(row, col, QTableWidgetItem())self.table.item(row, col).setBackground(QBrush(QColor(255, 150, 150)))# 对比内容显示differences = f"左侧: {left_value} | 右侧: {right_value}"if not self.table.item(row, 3):self.table.setItem(row, 3, QTableWidgetItem(differences))else:self.table.item(row, 3).setText(differences)def export_results(self):timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")file_path, _ = QFileDialog.getSaveFileName(self, "保存 Excel", f"对比结果_{timestamp}.xlsx", "Excel 文件 (*.xlsx)")if not file_path:returnwb = openpyxl.Workbook()ws = wb.activews.append(["左侧数据", "右侧数据", "匹配状态", "内容对比"])red_fill = PatternFill(start_color="FF9999", end_color="FF9999", fill_type="solid")for row in range(self.table.rowCount()):left_data = self.table.item(row, 0).text()right_data = self.table.item(row, 1).text()match_status = self.table.item(row, 2).text()compare_info = self.table.item(row, 3).text()ws.append([left_data, right_data, match_status, compare_info])if match_status == "✘":for col in range(1, 5):ws.cell(row=row+2, column=col).fill = red_fillwb.save(file_path)def reset_ui(self):self.left_sheet.clear()self.right_sheet.clear()self.left_column.clear()self.right_column.clear()self.table.setRowCount(0)if __name__ == "__main__":app = QApplication(sys.argv)window = ExcelComparator()window.show()sys.exit(app.exec_())
5.总结:
通过 PyQt5 和 pandas,我们快速实现了一个 Excel 数据对比工具,能够高效地处理两个 Excel 文件的内容对比,并自动高亮显示差异。此外,用户可以方便地导出对比结果,以便后续的查看和分析。对于需要频繁进行数据比对的工作人员而言,这款工具无疑能够大幅度提高工作效率,减少人工错误。
在未来的版本中,可以考虑以下几点扩展:
- 多列对比:支持用户选择多个列进行对比。
- 性能优化:对于大数据量的 Excel 文件,可以优化读取和比较的速度。
- 自动化脚本:将此工具的功能封装为命令行工具,便于批量处理。
通过不断优化与扩展,我们能够将这款工具打造得更加完善,成为每位数据分析师和审计人员的得力助手。
以上就是本篇文章的完整内容。如果你有任何问题或建议,欢迎留言讨论。希望这篇文章能为你带来启发和帮助!