Text-to-SQL方法研究

有关Text-to-SQL实现细节，可以查阅我的另一篇文章text-to-sql将自然语言转换为数据库查询语句

1、面临的挑战

自然语言问题往往包含复杂的语言结构,如嵌套语句、倒装句和省略等,很难准确映射到SQL查询上。此外,自然语言本身就存在歧义,一个问题可能有多种解读。消除歧义需要深入的语言理解能力以及融入上下文和领域知识。
要生成正确的SQL查询,文本到SQL系统需要全面理解数据库模式,包括表名、列名以及表之间的关系。但不同领域的数据库模式差异很大。如何以一种能被文本到SQL模型有效利用的方式来表示和编码数据库模式信息是一个挑战。
一些SQL查询涉及罕见或复杂的操作,如嵌套子查询、外连接和等。这些操作在训练数据中出现频率低,给文本到SQL模型的准确生成带来挑战。

2、最新进展

针对这些挑战,整理将大语言模型应用于文本到SQL任务的最新进展:

最新的研究聚焦于如何进一步增强大语言模型在文本到SQL任务中的表现，可以有如下几个方面。

1.优化输入到大语言模型的提示,引导其更好地理解用户意图。这包括精心设计少样本示例、对输入进行归纳和分解等。
2.改进大语言模型生成SQL的推理过程。将复杂问题分解成步骤化的子问题,减少信息丢失,同时引入一致性检验避免逻辑谬误。
3.利用数据库反馈来提炼SQL。通过将生成的SQL在实际数据库中执行,获得准确性反馈,并将其再输入给语言模型修正SQL,形成闭环学习。

3、基于上下文学习的Text-to-SQL方法

基于上下文学习的Text-to-SQL方法利用大语言模型强大的少样本学习能力,通过设计提示prompt使模型直接生成SQL,而无需微调模型参数。可以将这类方法进一步细分为以下5类:

平凡提示

普通的平凡提示

平凡提示是指直接使用问题和数据库DDL作为提示,让语言模型直接生成SQL。

示例：

问题：新疆有几所小学

数据库DDL:

create table if not exists sch_school

(...

)

平凡的少样本提示

平凡的少样本提示则是在此基础上添加一些示例

问题1：山大附属小学各年级女生的平均年龄是多少？ SQL1：SELECT sch_student_class_semester.class_grade, AVG(DATEDIFF(CURDATE(), birthday) xxx

问题2：查询市中区实验小学每个年级的人数

SQL2：SELECT sc.class_grade, COUNT(sscs.student_id)\nfrom sch_class sc xxx

问题3：新疆有几所小学

数据库DDL:

create table if not exists sch_school

(...

)

2. 任务分解

任务分解方法通过将Text-to-SQL任务分解为多个子任务或步骤,降低任务复杂度。这就好比将一个复杂的数学题分解为多个简单的小问题。具体来说,分解方法可以分为子任务分解和子问题分解。子任务分解会将Text-to-SQL分解为模式连接(schema linking)、分类、SQL生成等子任务。而子问题分解则是将用户问题分解为多个子问题,然后分别生成对应的SQL子句再组合。

3. 提示优化

提示优化构造更高质量的少样本示例,从而提升模型性能。关键点：选择与当前问题更相似或更有代表性的示例作为提示,可以让模型更好地理解任务。

示例：DAIL-SQL，论文中先对问题中的领域特定词进行掩码,然后基于嵌入式欧氏距离对候选示例进行排序,同时还考虑了候选SQL的相似度,最终选择兼顾问题和SQL相似度的高质量示例。

4. 推理增强

推理增强方法旨在进一步提升模型在Text-to-SQL任务中的推理和逻辑能力。代表性的方法包括思维链(Chain-of-Thoughts)和最小优先(Least-to-Most)提示等。

思维链提示引导模型进行逐步推理,将推理过程外显化。

最小优先提示则是先将问题分解为子问题,然后逐步求解

5. 执行细化

执行细化方法利用SQL执行反馈来提升模型生成的准确性。其基本思路是:先让模型生成候选SQL,然后在数据库中执行,根据执行结果(如报错信息)来提示模型纠错和细化生成的SQL。

示例：DIN-SQL，论文中自我纠错模块就是让模型根据数据库反馈迭代优化生成的SQL。

6. 后处理

1）自纠错机制。如生成的sql让模型纠错，检查有无错误，如语法错误等