在 TTS(Text-to-Speech) 领域,RTF 通常指的是 Real-Time Factor,即“实时因子”。这是一个衡量 TTS 系统性能的重要指标,用来评估模型在语音生成过程中的效率。
什么是 Real-Time Factor (RTF)
RTF 表示生成语音所需的处理时间与语音时长的比值。其公式为:
R T F = T processing T audio RTF = \frac{T_{\text{processing}}}{T_{\text{audio}}} RTF=TaudioTprocessing
- T processing T_{\text{processing}} Tprocessing 是生成语音所花的时间
- T audio T_{\text{audio}} Taudio 是生成的语音时长
解释 RTF 值
- RTF < 1:实时或更快的生成。生成语音所需时间少于语音时长。比如 RTF = 0.5 意味着生成一分钟语音只需要 30 秒。
- RTF > 1:非实时。生成语音所需时间长于语音时长。比如 RTF = 2 意味着生成一分钟语音需要 2 分钟。
RTF 越低,意味着 TTS 系统生成语音的速度越快。实时因子低的 TTS 系统在需要实时响应的应用场景(如语音助手)中尤为关键。