全球首次：时序大模型突破十亿参数，华人团队 Time-MoE 预训练数据达 3000 亿个时间点

news2024-10-24 02:37636180

Time-MoE采用了全新的混合专家结构，以较低成本实现高精度预测。研发团队发布了Time-300B数据集，为时序分析提供了充足训练资源，为各行各业的时间序列预测任务带来了新解决方案。在当今以数据为主导的时代，时序预测已成为众多领域不可或缺的核心组成部分。但构建强大且高效的大规模时序预测模型始终是一项巨大挑战。此外，缺乏高质量大型公共时间序列数据库进一步加剧...

Time-MoE采用了全新的混合专家结构，以较低成本实现高精度预测。研发团队发布了Time-300B数据集，为时序分析提供了充足训练资源，为各行各业的时间序列预测任务带来了新解决方案。

在当今以数据为主导的时代，时序预测已成为众多领域不可或缺的核心组成部分。但构建强大且高效的大规模时序预测模型始终是一项巨大挑战。此外，缺乏高质量大型公共时间序列数据库进一步加剧了这一难题。

最近，来自全球多地的华人国际科研团队，包括普林斯顿大学和格里菲斯大学等，携手合作，首次提出了基于混合专家架构（MoE）的时间序列基础模型Time-MoE。这一创新将时间序列预训练大型模型参数扩展至十亿级别，在时序预测领域取得了重要突破。

论文链接：https://arxiv.org/ pdf/2409.16040

代码链接：https://github.com/ Time-MoE / Time-MoE

同时，团队精心整理了预训练数据集Time-300B，目前时序领域最大的公开数据集，为各类时序任务提供了前所未有的通用解决方案。这是时序领域首次采用如此大规模的预训练模型，标志着时序预测技术迈入新时代。

Time-MoE模型通过MoE架构独特优势，将模型参数成功扩展至24亿，不仅显著提升了预测精度，还在降低计算成本的同时超越了许多现有模型，全面达到了SOTA（最新技术水平）。

关键技术突破

1. 强大的混合专家架构：Time-MoE采用稀疏激活机制，在预测任务中仅激活部分网络节点，确保高预测精度的同时显著降低计算负担，解决了时序大模型推理阶段的计算瓶颈。

2. 灵活的预测范围：Time-MoE支持任意长度的输入和输出范围，能处理从短期到长期的各种时序预测任务，实现真正的全域时序预测。

3. 全球最大规模的开源时序数据集：团队开发了Time-300B数据集，覆盖9个领域的超过3000亿个时间点，为模型提供丰富多领域训练数据，确保在多种任务中的卓越泛化能力。

在相同激活参数条件下，Time-MoE显著超越现有时序基础模型。在相同的FLOPs下，其稀疏架构相对于密集模型表现出卓越精度优势。

模型框架

输入Token Embedding

Time-MoE使用逐点分词方法以确保时间序列信息完整性，增加模型处理不同长度序列的灵活性和适用性。SwiGLU激活函数对每个时间序列点进行嵌入，包括Feed-forward network（FFN）和Swish FFN，增强模型对多维输入的处理能力。

MoE Transformer模块

Time-MoE基于仅解码器Transformer，并结合了大规模语言模型的最新技术。在Transformer模块中，RMSNorm对每个子层输入进行归一化处理，提升训练稳定性。

同时，采用旋转位置编码代替绝对位置编码，使模型在处理可变序列长度时具备更好的外推能力。模型引入了稀疏激活的混合专家层代替标准Transformer模块中的FFN。

公式化概括如下：

其中Mixture代表混合专家层。单个时间序列数据点可以分配给一个或多个专家，通过选择部分专家网络处理特定时间点的输入，提高模型计算效率。

多分辨率预测

Time-MoE设计了多分辨率预测头，可以同时进行不同尺度的预测，突破了单一尺度预测的限制。

在训练时，不同分辨率头联合优化，在推理时，模型采用贪心算法，利用不同尺度输出组合任意预测长度。这种设计允许模型灵活预测不同范围，并在训练中综合多个预测尺度误差，显著提高预测准确性和鲁棒性。

实验效果

1. 零样本zero-shot预测

零样本预测有效检验时序基础模型泛化能力和通用性。实验显示，与现有时序基础模型相比，Time-MoE预测效果最佳，均方误差（MSE）降低约20%。

2. 全样本full-shot预测

在全样本预测中，预训练的Time-MoE会使用相应数据训练集微调。实验表明，与专门设计全样本预测时序模型相比，Time-MoE效果最佳，MSE降低约24%。体现了模型对不同领域数据适应性，以及预训练基础模型对下游任务帮助有效性。

3. 消融实验

文中进行了一系列消融实验以验证模型框架设计合理性。实验结果显示，Time-MoE设计提升模型精度有效，在不使用混合专家时，模型MSE明显退化。

4. Scalability分析

作者对模型规模效果进行了详细分析，左图实验显示，相较稠密模型，稀疏模型减少平均78%训练成本和39%推理成本。

右图结果显示，随数据量和模型参数增大，Time-MoE持续稳定性能提升，总能达到更小MSE和更好预测性能。此外，作者分析了训练精度的影响，使用bfloat16精度训练相较float32得到相似预测性能，但bfloat16模型训练速度提升12%，内存占用减少20%。

另外，bfloat16可与flash-attention（FA）无缝结合，进一步提升训练和推理速度。

总结

Time-MoE的成功标志着时序预测领域迈入全新时代，不仅性能全面超越现有模型，也为构建大规模、高效、通用时序预测基础模型设立可行范式。Time-MoE的发布不仅为学术界开拓新研究方向，也为工业界多时序应用场景注入巨大潜力，在能源管理、金融预测、电商销量、气象预报等关键领域，Time-MoE将成为强大工具。

团队成员相关论文：