参考文献：

[Batcher68] Batcher K E. Sorting networks and their applications[C]//Proceedings of the April 30–May 2, 1968, spring joint computer conference. 1968: 307-314.
[SV11] Smart, N.P., Vercauteren, F.: Fully homomorphic SIMD operations. IACR Cryp

tology ePrint Archive 2011, 133 (2011)
[CKS13] Chatterjee A, Kaushal M, Sengupta I. Accelerating sorting of fully homomorphic encrypted data[C]//Progress in Cryptology–INDOCRYPT 2013: 14th International Conference on Cryptology in India, Mumbai, India, December 7-10, 2013. Proceedings 14. Springer International Publishing, 2013: 262-273.
[HS14] Halevi S, Shoup V. Algorithms in HElib[C]//Advances in Cryptology–CRYPTO 2014: 34th Annual Cryptology Conference, Santa Barbara, CA, USA, August 17-21, 2014, Proceedings, Part I 34. Springer Berlin Heidelberg, 2014: 554-571.
[EGNS15] Emmadi N, Gauravaram P, Narumanchi H, et al. Updates on sorting of fully homomorphic encrypted data[C]//2015 International Conference on Cloud Computing Research and Innovation (ICCCRI). IEEE, 2015: 19-24.
[CDSS15] Çetin G S, Doröz Y, Sunar B, et al. Depth optimized efficient homomorphic sorting[C]//Progress in Cryptology–LATINCRYPT 2015: 4th International Conference on Cryptology and Information Security in Latin America, Guadalajara, Mexico, August 23-26, 2015, Proceedings 4. Springer International Publishing, 2015: 61-80.
[Cha&Sen17] Chatterjee A, Sengupta I. Sorting of fully homomorphic encrypted cloud data: Can partitioning be effective?[J]. IEEE Transactions on Services Computing, 2017, 13(3): 545-558.
[Cet&Sun17] Çetin G S, Sunar B. Homomorphic rank sort using surrogate polynomials[C]//Progress in Cryptology–LATINCRYPT 2017: 5th International Conference on Cryptology and Information Security in Latin America, Havana, Cuba, September 20–22, 2017, Revised Selected Papers 5. Springer International Publishing, 2019: 311-326.
[CSS20] Cetin G S, Savaş E, Sunar B. Homomorphic sorting with better scalability[J]. IEEE Transactions on Parallel and Distributed Systems, 2020, 32(4): 760-771.
[IZ21] Iliashenko I, Zucca V. Faster homomorphic comparison operations for BGV and BFV[J]. Proceedings on Privacy Enhancing Technologies, 2021, 2021(3): 246-264.

文章目录

最初方案
- Swap Circuit
- Lazy Sort
- Sorting Network
深度最优化
- Comparison Matrix
- Direct Sort
- Greedy Sort
减少乘法数量
- Polynomial Rank Sort
- Frobenius Maps

最初方案

Swap Circuit

[CKS13] 给出了第一个同态排序方案。它基于明文空间是 $GF (2)$ 的 FHE 方案（full 版本，而非 level 版本），构建了 Swap 电路，然后用 Swap 电路搭建冒泡排序、插入排序。令 $a, b$ 是带符号整数，最高位是符号位；令 $\beta$ 表示 $MSB (a - b)$ ，于是 $\iff \beta=1$ 。按照从小到大顺序，交换电路为：
$\begin{aligned} tmp &:= \beta \cdot a + (1-\beta) \cdot b\\ b &:= (1-\beta) \cdot a + \beta \cdot b\\ a &:= tmp \end{aligned}$

[CKS13] 使用 De Morgan’s law 将 MUX 电路转化为了 XOR 和 AND 门，而非算术加法和算术乘法。正确性是因为加和的两项其中之一是全零比特串，不过直接用 AND 实现算术加法不是更好么？
$\beta \cdot a + (1-\beta) \cdot b = \overline{\overline{(\beta \cdot a)} \cdot \overline{(\bar\beta \cdot b)}}$

如图所示：

在这里插入图片描述

其实，计算机中有另一种交换电路，可以稍微减少的乘法门数量和乘法深度。
$\begin{aligned} a &:= a \oplus b\\ b &:= (\bar\beta \cdot a) \oplus b\\ a &:= a \oplus b \end{aligned}$

不过，开销占大头的还是计算 $\beta$ 的电路。提取 MSB 不一定需要算术减法电路，也可以直接实现布尔比较电路。对于 $l$ 比特整数乘法深度为 $O(\log l)$ ，比较电路为
$\begin{aligned} LT(a,b) &:= \sum_{i=1}^l \left((a_i<b_i)\prod_{j=i+1}^l(a_j=b_j)\right)\\ EQ(a,b) &:= \prod_{i=1}^l(a_i=b_i) \end{aligned}$

其中，单比特的比较运算可以被实现为 $(x<y):=y\cdot(x \oplus 1)$ 和 $(x=y):=x\oplus y\oplus 1$

Lazy Sort

因为 FHE 开销最大的部件是噪声控制（自举，Recrypt），所以应当删除不必要的操作，累积到一定程度的噪声之后，再执行 Recrypt 操作。另外 [CKS13] 观察到冒泡算法具有一定的容错能力（占比 $30\%$ 的错误比较结果，最终 $60\%$ 的元素位于正确的位置上），因此他们激进地删除了更多的 Recrypt 操作，得到近似有序的同态排序结果。

[CKS13] 提出将排序分为两阶段，

第一阶段，使用移除了适量 Recrypt 的冒泡排序，获得近似有序的排序结果
第二阶段，使用完全 Recrypt 的插入排序，[CKS13] 想当然地认为插排在近似有序数组上更加高效

但是！由于 FHE 最基本的 IND-CPA 安全性，我们无法区分是否发生了 Swap，因此插入排序的每一轮迭代都必须完全执行，并不会提前终止。确切的说：基于 Swap 的排序算法在同态运算下总是以最坏复杂度运行的 [EGNS15]。这包括：冒泡、插排、希尔、选择排序。

[Cha&Sen17] 讨论了基于 Partition 的排序算法，可以绕过上述限制。例如，快速排序的复杂度是依赖于分区质量的，每次递归过程的分区大小越均匀，那么平均复杂度就越接近 $\log n)$ ，并没有根据是否发生 Swap 来决定提前终止。但是，依然受到 IND-CPA 安全性的限制，枢轴的位置我们无法确定，因此不得不对 index 也加密，导致基于 Partition 的排序算法的效率比基于 Swap 的排序算法效率更低。

同时，[Cha&Sen17] 利用窗口技术，纠正了 [CKS13] 的错误：首先执行近似的冒泡排序，然后在小窗口（例如 $W = 2$ ）中执行完全的插入排序。由于减少了自举数量，速度提升了大约一倍。

Sorting Network

[Batcher68] 提出的 Sorting Network 是一种数据独立的高并行度排序电路，其复杂度固定为 $O(n \log^2 n)$ ，迭代层数 $O(\log^2 n)$ ，并行度 $O (n)$ 。[Batcher68] 提出了两种算法，我们默认长度 $n$ 是二的幂次。

双调排序（Bitonic Sort）：
- 双调序列，一个序列可以分为两个连续部分（首尾循环相接），一部分单调降（不增），另一部分单调升（不降）。
- Batcher定理，一个长度 $2 n$ 的双调序列 $a_1,\cdots,a_{2n}$ ，可以分为 MIN 序列 $\min(a_1,a_{n+1}),\cdots,\min(a_n,a_{2n})$ 和 MAX 序列 $\max(a_1,a_{n+1}),\cdots,\max(a_n,a_{2n})$ ，那么 MIN 序列和 MAX 序列都是双调序列，并且 MIN 序列中的最大值小于 MAX 序列中的最小值。
- Sort 过程：输入双调序列，根据 Batcher 定理划分 MIN 序列和 MAX 序列，然后对它们分别递归执行 Sort 过程，最终将会得到一个有序数组（升序、降序）。
- Merge 过程：输入任意序列，相邻元素两两合并，形成升调、降调交替的若干区间（相邻的区间组成了一个双调序列）。对这些双调序列调用 Sort 过程可以得到有序数组，我们仍构造出升调、降调交替的若干区间（区间大小翻倍）。迭代执行直到整个数组仅包含一个双调序列，再调用 Sort 过程得到有序数组。

在这里插入图片描述

奇偶归并排序（Odd-Even Merge Sort）：
- Sort 过程：输入任意序列 $a_0,\cdots,a_{2n-1}$ ，对于前半部分 $a_0,\cdots,a_{n-1}$ 和后半部分 $a_n,\cdots,a_{2n-1}$ 分别递归执行 Sort 过程，这得到了两个有序数组，最后调用 Merge 过程得到一个有序数组。
- Merge 过程：输入两个有序数组 $a_0,\cdots,a_{n-1}$ 和 $b_0,\cdots,b_{n-1}$ ，如果 $n = 1$ 则比较 $a_0 < b_0$ 获得一个长度 $2$ 的有序数组；否则重新分组为 EVEN 序列 $a_0,a_2,\cdots,a_{n-2},b_0,b_2,\cdots,b_{n-2}$ 和 ODD 序列 $a_1,a_3,\cdots,a_{n-1},b_1,b_3,\cdots,b_{n-1}$ ，两者的前半段和后半段也都是有序数组。对它们分别递归执行 Merge 过程，获得两个有序数组 $e_0,\cdots,e_{n-1}$ 和 $o_0,\cdots,o_{n-1}$ ，然后比较 $e_{i+1},o_i$ 并交换使得 $e_{i+1}>o_i$ ，那么序列 $e_0,o_0,e_1,o_1,\cdots,e_{n-1},o_{n-1}$ 就是一个有序数组。

在这里插入图片描述

[EGNS15] 观察到基于 Swap 的同态排序算法总是以最坏复杂度运行，或者说它的效率与输入数据无关。[EGNS15] 简单地用 FHE Swap 电路搭建出了 Bitonic Sort 和 Odd-Even Merge Sort 同态排序网络，计算复杂度固定为 $O(n \log^2 n)$ 。

深度最优化

Comparison Matrix

[CDSS] 使用了 LHE 而非 FHE 来实现同态排序，只要支持的 Level 级别够高，就可以完全忽略开销极高的 Recrypt 运算。由于 LHE 是以电路的形式执行的，排序算法需要先通过算术化消除条件分支，然后再通过循环展开得到无环的排序电路。但是 [EGNS15] 使用的 Sorting Network 迭代了 $O(\log^2 n)$ 层，每一层的 Swap 输入都依赖于上一层的 Swap 结果，所以同态乘法深度较高，直接用 LHE 实例化将导致极高的参数规模。

为了降低乘法深度，最直观的思路就是只进行深度为 $O (1)$ 的比较。输入密文 $X_0,\cdots,X_{N-1}$ ，预计算 comparison matrix，
$\begin{bmatrix} m_{0,0} & m_{0,1} & \cdots & m_{0,N-1}\\ m_{1,0} & m_{1,1} & \cdots & m_{1,N-1}\\ \vdots && \ddots\\ m_{N-1,0} & m_{N-1,1} & \cdots & m_{N-1,N-1}\\ \end{bmatrix}\\ m_{ij} := LT(X_i, X_j) = \left\{\begin{aligned} Enc(1), && x_i < x_j\\ Enc(0), && otherwise\\ \end{aligned}\right.$

这张表格在后续的 Sort 过程中可以被复用，消除后续的比较运算，从而降低乘法深度。对于 $l$ 比特的数据，布尔电路 $LT(\cdot)$ 的乘法深度为 $O(\log l)$

Direct Sort

矩阵 $M$ 第 $i$ 行的汉明重量，计数了比 $X_i$ 大的元素数量；矩阵 $M$ 第 $j$ 列的汉明重量，计数了比 $X_j$ 小的元素数量。于是，矩阵 $M$ 第 $j$ 列的汉明重量，恰好是从小到大排序时 $X_j$ 的正确次序！

我们利用 $O(\log N)$ 比特的 Wallace Tree 全加器（连续 $N$ 个数的加和，每三个数一组，计算出本位（XOR）和进位（AND），迭代 $O(\log_{3/2}N)$ 轮）计算汉明重量
$\sigma_j = \sum_{i \in [N]} m_{ij}$

然后利用 $O(\log N)$ 比特的 Equality Test 电路，将密文 $X_i$ 放置到正确的位置上
$Y_j := \sum_{i \in [N]} (\sigma_i=j)\cdot X_i$

不考虑预计算 $M$ ，Direct Sort 的乘法深度为 $O(\log_{3/2}N + \log\log N)$ ，乘法数量为 $O(N^2 \log N+N^2\log\log N)$

Greedy Sort

算术加法电路的乘法深度总是较高的，另一种确定 $X_i$ 位置的思路是： $X_i$ 的次序是 $t$ ，那么恰好有 $t$ 个数比它小，另外的 $N - t - 1$ 个数都比它大（注意等号细节）

我们把排序结果写作：
$Y_t := \sum_{i \in [N]} \theta_{t,i}X_i$

其中的 one-hot 系数通过穷举得到，它含有 $\choose t}$ 个单项，
$\theta_{t,i} := \sum_{k_1=0,k_1 \neq i}^{N-t}m_{k_1,i} \sum_{k_2=k_1+1,k_2 \neq i}^{N-t+1}m_{k_2,i} \cdots \sum_{k_t=k_{t-1}+1,k_t \neq i}^{N-1}m_{k_t,i} \prod_{j=0,j\neq i,j\neq k_i,\cdots,k_t}^{N-1} m_{ij}$

不考虑预计算 $M$ ，Greedy Sort 的乘法深度仅为 $O(\log N)$ ，但是乘法数量为 $O(N^2\cdot 2^N)$

减少乘法数量

Polynomial Rank Sort

虽然 Direct Sort 和 Greedy Sort 的乘法深度达到了最优，但是其乘法数量依然较多，尤其是 Greedy Sort 需要指数级的同态乘法。[Cet&Sun17] 把 Direct Sort 中的汉明重量的计算，从布尔算术加法电路，迁移到了多项式的幂指数上，于是待排序数据被可以自然地放置在正确位置。

输入数据 $\{a_0,\cdots,a_{N-1}\}$ ，假设 $a_i$ 的次序为 $r_i$ ，我们定义 rank polynomial $\rho_i(x):=x^{r_i}$ ，那么
$\begin{aligned} b(x) &= \sum_{i=1}^{N-1} a_i\rho_i(x)\\ &= \sum_{i=1}^{N-1}a_i x^{r_i} = \sum_{i=1}^{N-1}b_i x^{i} \end{aligned}$

那么系数向量 $b_0 \le b_1 \le \cdots \le b_{N-1}$ 就直接是有序的 $\{a_0,\cdots,a_{N-1}\}$ 啦！这么做对比于 Direct Sort 的好处是，不必再利用 Equality Test 去确定密文放置的位置，而是天然有序。

为了计算 $\rho_i(x)$ ，我们仿照 Direct Sort 的计算方式，

首先预计算 $\{a_0,\cdots,a_{N-1}\}$ 两两比较的单项式（对应于比较矩阵），每一对 $a_i,a_j,i<j$ 计算
$\rho_{ij}(x):=1, \rho_{ji}(x):=x \iff a_i < a_j\\ \rho_{ij}(x):=x, \rho_{ji}(x):=1 \iff a_i \ge a_j\\$
然后计算乘积（对应于汉明重量），
$\rho_i(x) := \prod_{i \neq j} \rho_{ij}(x) = x^{\sum_{i \neq j}(a_i\ge a_j)} = x^{r_i}$
最终计算出
$\sum_{i=1}^{N-1} a_i\rho_i(x)$

对于密文 $\{A_0,\cdots,A_{N-1}\}$ 下的同态计算，
$\begin{aligned} P_{ij} &:= \left(Enc(1)-LT(A_i,A_j)\right) + LT(A_i,A_j) \cdot Enc(x) \in \{Enc(1),Enc(x)\}\\ B &:= \sum_{i \in [N]} \left( A_i \cdot \prod_{j \neq i} P_{ij} \right) = Enc(\sum_{i \in [N]} a_i x^{r_i}) \end{aligned}$

然而，[Cet&Sun17] 的计算结果是单个多项式，其排序结果存储在了它的系数上。下面我们考虑如何提取出 $N$ 个有序密文，这是我自己想的，论文中没写。

Frobenius Maps

[SV11] 提出了 RLWE-FHE 的 SIMD 技术。给定素数 $p$ ，分园环 $GF(p)[x]/(\phi_m(x))$ ，次数 $m$ 与 $p$ 互素，令 $d$ 是满足 $m\mid p^d-1$ 的最小正整数，那么分园多项式可以在 $GF (p)$ 上分解为 $l=\phi(m)/d$ 个不同的 $d$ 次不可约多项式，
$\phi_m(x) = \prod_{i=1}^{l} F_i(x) \pmod p$

因为域上的多项式环是主理想环，其素理想都是极大理想。根据 CRT of Ring，理想 $F_i(x))$ 两两互素，且 $(\phi_m(x))$ 是它们的交理想，那么有
$GF(p)[x]/(\phi_m(x)) \cong GF(p)[x]/(F_1(x)) \times \cdots GF(p)[x]/(F_l(x)) \cong (GF(p^d))^l$

这包含了 $l$ 个槽，空间都同构于有限域 $GF(p^d)$ 。对于不同的槽，它们的唯一区别就是域扩张 $GF(p^d)/GF(p)$ 所使用的代数元不同。根据 $d$ 次本原单位根之间的关系，存在 $\in \mathbb Z_m^*$ 满足 $or d (g) = l$ ，其索引的环自同构：
$\kappa_g : x \mapsto x^g \pmod{\phi_m(x)}$

它可以实现槽变换， $\kappa_g(a(x)) \pmod{F_i(x)} = a(x) \pmod{F_j(x)}$

令 $GF (q)$ 是任意有限域，域扩张 $GF(q^N)/GF(q)$ 上的 Frobenius map 定义为
$\sigma: a \mapsto a^q$

可以证明：

$\sigma$ 是 $GF(q^N)$ 上的双射，并且 $\sigma^N=id$
$\sigma^i$ 是一个 $GF (q)$ - 域自同构
令 $x$ 是 $GF(q^N)/GF(q)$ 的扩张元，那么 $\sigma^i(x) = x^{q^i}$ 也都是扩张元
域扩张 $GF(q^N)/GF(q)$ 的迹： $Tr(a):=\sum_{i=0}^{N-1} \sigma^i(a)$
域扩张 $GF(q^N)/GF(q)$ 的范数： $Norm(a):=\prod_{i=0}^{N-1} \sigma^i(a)$

[HS14] 指出，同态 Frobenius map 的乘法深度为零（文中没有给出公式）。我推导了一下，假设 RLWE 密文是
$a(x)s(x)+\Delta m(x)+e(x)) \in \left(GF(p^d)\right)^2$

有限扩域 $GF(p^d)$ 上的 $GF (p)$ - 域自同构 $\sigma(x):=x^p$ ，因为 $\in GF(p^d)$ 并且 $\Delta \in GF(p)$ ，
$\sigma(ct) = (\sigma(a), \sigma(a)\sigma(s)+\Delta \sigma(m)+\sigma(e)) \in \left(GF(p^d)\right)^2$

所以 $\sigma(ct)$ 是在私钥 $\sigma(s)$ 下的明文 $\sigma(m)$ 的密文，我们只需再执行 $\sigma(s) \to s$ 的秘钥切换，就完成了同态 Frobenius map，它的代价与槽变换是相同的。

由于所有的线性映射 $GF(p^d) \to GF(p)$ ，恰好就是所有的迹 $L_\beta(a):=Tr(\beta a),\beta \in GF(p^d)$ 。所以，对于 [Cet&Sun17] 的排序结果 $B=Enc(\sum_i a_ix^{r_i})$ ，总是存在 $N$ 个元素 $\beta_i$ 索引了投影映射 $Tr(\beta_i B) = Enc(a_i)$ ，这就提取出了排序结果。

注意，对于 $l$ 比特的数据，每个密文 $A_i$ 包含了 $l$ 个 $GF(p^d)$ 上的常数多项式（二进制分解的各个比特）。电路 $LT(\cdot)$ 是布尔比较电路，输出是布尔值对应的 $GF(p^d)$ 上单个常数多项式。密文 $B=Enc(\sum_{i \in [N]} a_i x^{r_i})$ ，为了阻止数据溢出，最基本的要求是 $\ge N$ 。可以使用 SIMD 打包技术，将这些 $\times l$ 个常数多项式按位加密到 $l$ 个密文中，这额外要求 $\phi(m)/d \ge N$ 。

在这里插入图片描述

不考虑 $P_{ij}$ 的开销（这主要和 $LT(\cdot)$ 的不同实现有关，[IZ21] 给出了更高效的基于插值的比较算法），Polynomial Rank Sort 的乘法深度为 $O(\log N)$ ，乘法数量为 $O(N^2)$ ，并行度为 $O (N)$ 。对于 $l$ 比特数据，使用 SIMD 技术，先并行计算出 $P_i := \prod_{j \neq i} P_{ij}$ ，这需要 $O (N)$ 次同态乘法，乘法深度为 $O(\log N)$ ；然后并行计算出 $B:=\sum_{i \in [N]} A_iP_i$ ，这需要 $O (l)$ 次同态乘法，乘法深度为 $O (1)$ ；最后的同态 Frobenius map 不需要同态乘法。共计 $O (N + l)$ 次同态乘法，乘法深度 $O(\log N)$ 。