全球首次:时序大模型突破十亿参数,华人团队 Time-MoE 预训练数据达 3000 亿个时间点
Time-MoE采用了全新的混合专家结构,以较低成本实现高精度预测。研发团队发布了Time-300B数据集,为时序分析提供了充足训练资源,为各行各业的时间序列预测任务带来了新解决方案。
在当今以数据为主导的时代,时序预测已成为众多领域不可或缺的核心组成部分。但构建强大且高效的大规模时序预测模型始终是一项巨大挑战。此外,缺乏高质量大型公共时间序列数据库进一步加剧了这一难题。
最近,来自全球多地的华人国际科研团队,包括普林斯顿大学和格里菲斯大学等,携手合作,首次提出了基于混合专家架构(MoE)的时间序列基础模型Time-MoE。这一创新将时间序列预训练大型模型参数扩展至十亿级别,在时序预测领域取得了重要突破。
同时,团队精心整理了预训练数据集Time-300B,目前时序领域最大的公开数据集,为各类时序任务提供了前所未有的通用解决方案。这是时序领域首次采用如此大规模的预训练模型,标志着时序预测技术迈入新时代。
Time-MoE模型通过MoE架构独特优势,将模型参数成功扩展至24亿,不仅显著提升了预测精度,还在降低计算成本的同时超越了许多现有模型,全面达到了SOTA(最新技术水平)。
关键技术突破
1. 强大的混合专家架构:Time-MoE采用稀疏激活机制,在预测任务中仅激活部分网络节点,确保高预测精度的同时显著降低计算负担,解决了时序大模型推理阶段的计算瓶颈。
2. 灵活的预测范围:Time-MoE支持任意长度的输入和输出范围,能处理从短期到长期的各种时序预测任务,实现真正的全域时序预测。
3. 全球最大规模的开源时序数据集:团队开发了Time-300B数据集,覆盖9个领域的超过3000亿个时间点,为模型提供丰富多领域训练数据,确保在多种任务中的卓越泛化能力。
在相同激活参数条件下,Time-MoE显著超越现有时序基础模型。在相同的FLOPs下,其稀疏架构相对于密集模型表现出卓越精度优势。
模型框架
输入Token Embedding
Time-MoE使用逐点分词方法以确保时间序列信息完整性,增加模型处理不同长度序列的灵活性和适用性。SwiGLU激活函数对每个时间序列点进行嵌入,包括Feed-forward network(FFN)和Swish FFN,增强模型对多维输入的处理能力。
MoE Transformer模块
Time-MoE基于仅解码器Transformer,并结合了大规模语言模型的最新技术。在Transformer模块中,RMSNorm对每个子层输入进行归一化处理,提升训练稳定性。
同时,采用旋转位置编码代替绝对位置编码,使模型在处理可变序列长度时具备更好的外推能力。模型引入了稀疏激活的混合专家层代替标准Transformer模块中的FFN。
公式化概括如下:
其中Mixture代表混合专家层。单个时间序列数据点可以分配给一个或多个专家,通过选择部分专家网络处理特定时间点的输入,提高模型计算效率。
多分辨率预测
Time-MoE设计了多分辨率预测头,可以同时进行不同尺度的预测,突破了单一尺度预测的限制。
在训练时,不同分辨率头联合优化,在推理时,模型采用贪心算法,利用不同尺度输出组合任意预测长度。这种设计允许模型灵活预测不同范围,并在训练中综合多个预测尺度误差,显著提高预测准确性和鲁棒性。
实验效果
1. 零样本zero-shot预测
零样本预测有效检验时序基础模型泛化能力和通用性。实验显示,与现有时序基础模型相比,Time-MoE预测效果最佳,均方误差(MSE)降低约20%。
2. 全样本full-shot预测
在全样本预测中,预训练的Time-MoE会使用相应数据训练集微调。实验表明,与专门设计全样本预测时序模型相比,Time-MoE效果最佳,MSE降低约24%。体现了模型对不同领域数据适应性,以及预训练基础模型对下游任务帮助有效性。
3. 消融实验
文中进行了一系列消融实验以验证模型框架设计合理性。实验结果显示,Time-MoE设计提升模型精度有效,在不使用混合专家时,模型MSE明显退化。
4. Scalability分析
作者对模型规模效果进行了详细分析,左图实验显示,相较稠密模型,稀疏模型减少平均78%训练成本和39%推理成本。
右图结果显示,随数据量和模型参数增大,Time-MoE持续稳定性能提升,总能达到更小MSE和更好预测性能。此外,作者分析了训练精度的影响,使用bfloat16精度训练相较float32得到相似预测性能,但bfloat16模型训练速度提升12%,内存占用减少20%。
另外,bfloat16可与flash-attention(FA)无缝结合,进一步提升训练和推理速度。
总结
Time-MoE的成功标志着时序预测领域迈入全新时代,不仅性能全面超越现有模型,也为构建大规模、高效、通用时序预测基础模型设立可行范式。Time-MoE的发布不仅为学术界开拓新研究方向,也为工业界多时序应用场景注入巨大潜力,在能源管理、金融预测、电商销量、气象预报等关键领域,Time-MoE将成为强大工具。
团队成员相关论文:
[1] Time Series Analysis的基本模型:教程与调研,KDD 2024。
https://arxiv.org/abs/2403.14735
[2] 时序和时空数据的大型模型:调研和展望,arXiv 2023。
https://arxiv.org/abs/2310.10196
[3] 位置:大型语言模型对时序分析的启示,ICML 2024。
https://arxiv.org/abs/2402.02713
[4] Time-LLM:通过重新编程大型语言模型进行时间序列预测,ICLR 2024。
https://arxiv.org/abs/2310.01728
[5] TimeMixer:用于时间序列预测的可分解多尺度混合,ICLR 2024。
https://arxiv.org/abs/2405.14616
[6] iTransformer:倒置Transformer有效用于时间序列预测,ICLR 2024。
https://arxiv.org/abs/2310.06625
[7] TimeMixer++:通用时间序列模式机器用于预测分析,arXiv 2024。
https://arxiv.org/abs/2410.16032
[8] 时序基础模型的神经缩放定律,arXiv 2024 https://www.arxiv.org/pdf/2410.12360
[9] Time-MMD:用于时序分析的新多域多模态数据集,NeurIPS 2024。
https://arxiv.org/abs/2406.08627
[10] Time-FFM:LM-Empowered联合基础模型用于时间序列预测,NeurIPS 2024。
https://arxiv.org/abs/2405.14252
广告声明:文内包含对外链接(如超链接、二维码、口令等),旨在传递更多信息,节省筛选时间,结果仅供参考。