全球首次：时序大模型突破十亿参数，华人团队 Time-MoE 预训练数据达 3000 亿个时间点

news2024-10-24 02:22433380

Time-MoE采用了独特的混合专家架构，通过降低计算成本实现高精度预测。研发团队发布了Time-300B数据集，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了全新的解决方案。随着数据驱动时代的到来，时序预测已经成为各领域必不可少的核心组成部分。建立一个强大性能和高效运算的大规模时序预测模型一直是一个巨大挑战。此外，由于高质量的大型公共时...

Time-MoE采用了独特的混合专家架构，通过降低计算成本实现高精度预测。研发团队发布了Time-300B数据集，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了全新的解决方案。

随着数据驱动时代的到来，时序预测已经成为各领域必不可少的核心组成部分。建立一个强大性能和高效运算的大规模时序预测模型一直是一个巨大挑战。此外，由于高质量的大型公共时间序列数据库匮乏，进一步加剧了这一难题。

最近，来自世界各地包括普林斯顿大学和格里菲斯大学在内的华人国际科研团队通力合作，创新提出了一种基于混合专家架构（MoE）的时间序列基础模型Time-MoE。通过将时间序列预训练大模型的参数规模推向十亿级别，该团队在时序预测领域取得了里程碑式的突破。

论文链接：https://arxiv.org/ pdf/2409.16040

代码链接：https://github.com/ Time-MoE / Time-MoE

与此同时，团队精心整理了预训练数据集Time-300B，这是目前时序领域最大的公开数据集，为各类时序任务提供了前所未有的通用解决方案。这是时序领域中首次采用如此大规模的预训练模型，标志着时序预测技术进入了全新时代。

Time-MoE模型通过MoE架构的独特优势将模型参数扩展至24亿，不仅显著提高了预测精度，还在降低计算成本的同时超越了许多现有模型，全面达到了SOTA（State of the Art）水平。

关键技术突破

1. 强大的混合专家架构：Time-MoE采用稀疏激活机制，在预测任务中仅激活部分网络节点，确保了高预测精度，同时显著降低了计算负担，完美解决了时序大模型在推理阶段的计算瓶颈。

2. 灵活的预测范围：Time-MoE支持任意长度的输入和输出范围，能够处理从短期到长期的各种时序预测任务，实现了真正的全域时序预测。

3. 全球最大规模的开源时序数据集：团队开发了Time-300B数据集，涵盖了9个领域超过3000亿个时间点，为模型提供了丰富的多领域训练数据，确保其在多种任务中具有卓越的泛化能力。

在相同的激活参数条件下，Time-MoE显著超越现有的时序基础模型。在相同的FLOPs下，其稀疏架构展现出相对于密集模型的卓越精度优势。

模型框架

输入Token Embedding

Time-MoE使用逐点分词方法以确保时间序列信息的完整性，提高了模型处理不同长度序列的灵活性与适用性，如①所示。在②中，SwiGLU激活函数对每个时间序列点进行嵌入，其中包括一个Feed-forward network (FFN)和一个Swish FFN，从而增强了模型对多维输入的处理能力：

MoE Transformer模块

Time-MoE基于decoder-only Transformer，并结合了大规模语言模型中的最新技术。Transformer模块中，RMSNorm对每个子层输入进行了归一化处理，提升了训练的稳定性。

同时，采用旋转位置编码代替绝对位置编码，使得模型在处理可变序列长度时表现出更好的外推能力。此外，模型引入了稀疏激活的混合专家层来替代标准Transformer模块中的FFN。

公式化概括如下：

其中Mixture代表混合专家层。如③所示，单个时间序列数据点可以分配给一个或多个专家。通过选择部分专家网络来处理特定时间点的输入，模型的计算效率得到了提高。

多分辨率预测

如④和⑤所示，Time-MoE设计了一种多分辨率预测头，可以同时进行不同尺度的预测，打破了单一尺度预测的局限。

在训练时，不同分辨率头会被联合优化。在推理时，模型采用贪心算法，利用不同尺度的输出组合成任意的预测长度。这种设计允许模型根据不同的预测范围进行灵活预测，并在训练过程中综合多个预测尺度的误差来优化模型的泛化能力，显著提升了预测的准确性和鲁棒性。

实验效果

1. 零样本zero-shot预测

零样本预测有效地检验了时序基础模型的泛化能力和通用性。实验表明，与现有的时序基础模型相比，Time-MoE获得了最佳的预测效果，均方误差（MSE）下降约20%。

2. 全样本full-shot预测

在全样本预测中，预训练的Time-MoE使用相应数据的训练集进行微调。实验表明，与专门为全样本预测设计的时序模型相比，Time-MoE仍能取得最佳效果，MSE下降约24%。这体现了模型对于不同领域数据的适应性，以及预训练基础模型对于下游任务的有效帮助。

3. 消融实验

文中进一步提供了一系列消融实验，验证了模型框架设计的合理性。实验表明，Time-MoE的设计有效地提高了模型精度。特别是，在不使用混合专家的情况下，模型的MSE会明显下降。

4. Scalability分析

作者详细分析了模型的可扩展性效果，如下图所示。左图的实验表明，与稠密模型相比，稀疏模型减少了平均78%的训练成本和39%的推理成本。

右图的结果表明，随着数据量和模型参数的增加，Time-MoE持续展现出稳定的性能提升，并与同尺度的稠密模型相比，始终能获得更小的MSE和更好的预测性能。

此外，作者还分析了训练精度的影响。与使用float32精度训练相比，使用bfloat16精度能获得类似的预测性能，但bfloat16模型训练速度提高了12%，内存占用减少了20%。

此外，bfloat16还能与flash-attention（FA）无缝结合，进一步提高训练和推理速度，分别提升了23%和19%。

总结

Time-MoE的成功标志着时序预测领域迈入了全新时代。不仅在性能上全面超越了现有模型，还为构建大规模、高效、通用的时序预测基础模型奠定了一个可行的范式。Time-MoE的发布开辟了学术界的全新研究方向，也为工业界的多种时序应用场景带来了巨大的潜力。在能源管理、金融预测、电商销量、气象预报等关键领域，Time-MoE将成为企业和研究机构不可或缺的强大工具。

团队成员相关论文：

[1] Foundation Models for Time Series Analysis: A Tutorial and Survey, KDD 2024.
https://arxiv.org/abs/2403.14735
[2] Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook, arXiv 2023
https://arxiv.org/abs/2310.10196
[3] Position: What Can Large Language Models Tell Us about Time Series Analysis, ICML 2024.
https://arxiv.org/abs/2402.02713
[4] Time-LLM: Time Series Forecasting by Reprogramming Large Language Models, ICLR 2024.
https://arxiv.org/abs/2310.01728
[5] TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting, ICLR 2024.
https://arxiv.org/abs/2405.14616
[6] iTransformer: Inverted Transformers Are Effective for Time Series Forecasting, ICLR 2024.
https://arxiv.org/abs/2310.06625
[7] TimeMixer++: A General Time Series Pattern Machine for Universal Predictive Analysis, arXiv 2024
https://arxiv.org/abs/2410.16032
[8] Towards Neural Scaling Laws for Time Series Foundation Models, arXiv 2024 https://www.arxiv.org/pdf/2410.12360
[9] Time-MMD: A New Multi-Domain Multimodal Dataset for Time Series Analysis, NeurIPS 2024.
https://arxiv.org/abs/2406.08627
[10] Time-FFM: Towards LM-Empowered Federated Foundation Model for Time Series Forecasting, NeurIPS 2024.
https://arxiv.org/abs/2405.14252