全球首次:时序大模型突破十亿参数,华人团队 Time-MoE 预训练数据达 3000 亿个时间点
Time-MoE采用创新混合专家架构,可实现高精度预测且计算成本低。同时,研发团队发布了Time-300B数据集,提供丰富训练资源,为不同领域的时间序列预测任务提供新解决方案。
在数据驱动时代,时序预测成为各领域核心。构建强大高效大规模时序预测模型一直是挑战,公共时间序列数据库匮乏加剧难题。
来自普林斯顿大学、格里菲斯大学等国际研究团队联手提出基于混合专家架构的Time-MoE时间序列基础模型,里程碑突破时序预测领域。
团队整理预训练数据集Time-300B,时序领域最大公开数据集,为时序任务提供通用解决方案。
Time-MoE模型参数扩展至24亿,提升预测精度、降低计算成本,达到SOTA水平。
关键技术突破
1. 强大混合专家架构:Time-MoE采用稀疏激活机制,在预测任务中激活部分网络节点,确保高预测精度、降低计算负担。
2. 灵活预测范围:Time-MoE支持任意长度输入输出范围,处理多种时序预测任务,实现全域时序预测。
3. 全球最大开源时序数据集:团队开发Time-300B,涵盖9个领域3000亿时间点,为模型提供多领域训练数据,确保卓越泛化能力。
在相同激活参数条件下,Time-MoE显著超越现有时序基础模型,在相同的FLOPs下,其稀疏架构卓越精度优势。
模型框架
输入Token Embedding
Time-MoE使用逐点分词确保时间序列信息完整性,增强模型多维输入处理能力。
MoE Transformer模块
Time-MoE基于decoder-only Transformer,结合大规模语言模型最新技术,提升训练稳定。
同时,使用旋转位置编码代替绝对位置编码增强可变序列长度外推能力。
公式化概括如下:
其中Mixture代表混合专家层,提高计算效率。
多分辨率预测
Time-MoE设计多分辨率预测头,同时进行不同尺度预测,突破单一尺度预测局限。
训练时不同分辨率头联合优化,在推理时利用不同尺度输出组合预测。
实验效果
1. 零样本预测
零样本预测检验时序模型泛化能力通用性。实验显示,Time-MoE预测效果最佳,MSE降低约20%。
2. 全样本预测
全样本预测中,Time-MoE使用训练集微调,MSE降低约24%。
3. 消融实验
实验验证Time-MoE设计有效,无混合专家情况模型MSE明显退化。
4. Scalability分析
模型规模化效果分析表明,稀疏模型减少训练成本39%、推理成本78%。
结果显示,Time-MoE持续性能提升,并总能达到更小MSE更好预测性能。
利用bfloat16精度训练相似预测性能,训练速度提升12%、内存减少20%。
bfloat16与flash-attention结合,训练推理速度提升23%和19%。
总结
Time-MoE成功标志时序预测迎来新时代,性能超越现有模型,构建大规模、高效、通用时序预测基础模型可行。Time-MoE发展学术产业多领域时序应用潜力。
团队成员相关论文:
[1] Foundation Models for Time Series Analysis: A Tutorial and Survey, KDD 2024.
https://arxiv.org/abs/2403.14735
[2] Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook, arXiv 2023
https://arxiv.org/abs/2310.10196
[3] Position: What Can Large Language Models Tell Us about Time Series Analysis, ICML 2024.
https://arxiv.org/abs/2402.02713
[4] Time-LLM: Time Series Forecasting by Reprogramming Large Language Models, ICLR 2024.
https://arxiv.org/abs/2310.01728
[5] TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting, ICLR 2024.
https://arxiv.org/abs/2405.14616
[6] iTransformer: Inverted Transformers Are Effective for Time Series Forecasting, ICLR 2024.
https://arxiv.org/abs/2310.06625
[7] TimeMixer++: A General Time Series Pattern Machine for Universal Predictive Analysis, arXiv 2024
https://arxiv.org/abs/2410.16032
[8] Towards Neural Scaling Laws for Time Series Foundation Models, arXiv 2024 https://www.arxiv.org/pdf/2410.12360
[9] Time-MMD: A New Multi-Domain Multimodal Dataset for Time Series Analysis, NeurIPS 2024.
https://arxiv.org/abs/2406.08627
[10] Time-FFM: Towards LM-Empowered Federated Foundation Model for Time Series Forecasting, NeurIPS 2024.
https://arxiv.org/abs/2405.14252
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。