首页news 正文
目录

全球首次:时序大模型突破十亿参数,华人团队 Time-MoE 预训练数据达 3000 亿个时间点

news2024-10-24 02:37635880
Time-MoE采用了全新的混合专家结构,以较低成本实现高精度预测。研发团队发布了Time-300B数据集,为时序分析提供了充足训练资源,为各行各业的时间序列预测任务带来了新解决方案。在当今以数据为主导的时代,时序预测已成为众多领域不可或缺的核心组成部分。但构建强大且高效的大规模时序预测模型始终是一项巨大挑战。此外,缺乏高质量大型公共时间序列数据库进一步加剧...

Time-MoE采用了全新的混合专家结构,以较低成本实现高精度预测。研发团队发布了Time-300B数据集,为时序分析提供了充足训练资源,为各行各业的时间序列预测任务带来了新解决方案。

在当今以数据为主导的时代,时序预测已成为众多领域不可或缺的核心组成部分。但构建强大且高效的大规模时序预测模型始终是一项巨大挑战。此外,缺乏高质量大型公共时间序列数据库进一步加剧了这一难题。

最近,来自全球多地的华人国际科研团队,包括普林斯顿大学和格里菲斯大学等,携手合作,首次提出了基于混合专家架构(MoE)的时间序列基础模型Time-MoE。这一创新将时间序列预训练大型模型参数扩展至十亿级别,在时序预测领域取得了重要突破。

论文链接:https://arxiv.org/ pdf/2409.16040
代码链接:https://github.com/ Time-MoE / Time-MoE

同时,团队精心整理了预训练数据集Time-300B,目前时序领域最大的公开数据集,为各类时序任务提供了前所未有的通用解决方案。这是时序领域首次采用如此大规模的预训练模型,标志着时序预测技术迈入新时代。

Time-MoE模型通过MoE架构独特优势,将模型参数成功扩展至24亿,不仅显著提升了预测精度,还在降低计算成本的同时超越了许多现有模型,全面达到了SOTA(最新技术水平)。

关键技术突破

1. 强大的混合专家架构:Time-MoE采用稀疏激活机制,在预测任务中仅激活部分网络节点,确保高预测精度的同时显著降低计算负担,解决了时序大模型推理阶段的计算瓶颈。

2. 灵活的预测范围:Time-MoE支持任意长度的输入和输出范围,能处理从短期到长期的各种时序预测任务,实现真正的全域时序预测。

3. 全球最大规模的开源时序数据集:团队开发了Time-300B数据集,覆盖9个领域的超过3000亿个时间点,为模型提供丰富多领域训练数据,确保在多种任务中的卓越泛化能力。

在相同激活参数条件下,Time-MoE显著超越现有时序基础模型。在相同的FLOPs下,其稀疏架构相对于密集模型表现出卓越精度优势。

模型框架

输入Token Embedding

Time-MoE使用逐点分词方法以确保时间序列信息完整性,增加模型处理不同长度序列的灵活性和适用性。SwiGLU激活函数对每个时间序列点进行嵌入,包括Feed-forward network(FFN)和Swish FFN,增强模型对多维输入的处理能力。

MoE Transformer模块

Time-MoE基于仅解码器Transformer,并结合了大规模语言模型的最新技术。在Transformer模块中,RMSNorm对每个子层输入进行归一化处理,提升训练稳定性。

同时,采用旋转位置编码代替绝对位置编码,使模型在处理可变序列长度时具备更好的外推能力。模型引入了稀疏激活的混合专家层代替标准Transformer模块中的FFN。

公式化概括如下:

其中Mixture代表混合专家层。单个时间序列数据点可以分配给一个或多个专家,通过选择部分专家网络处理特定时间点的输入,提高模型计算效率。

多分辨率预测

Time-MoE设计了多分辨率预测头,可以同时进行不同尺度的预测,突破了单一尺度预测的限制。

在训练时,不同分辨率头联合优化,在推理时,模型采用贪心算法,利用不同尺度输出组合任意预测长度。这种设计允许模型灵活预测不同范围,并在训练中综合多个预测尺度误差,显著提高预测准确性和鲁棒性。

实验效果

1. 零样本zero-shot预测

零样本预测有效检验时序基础模型泛化能力和通用性。实验显示,与现有时序基础模型相比,Time-MoE预测效果最佳,均方误差(MSE)降低约20%。

2. 全样本full-shot预测

在全样本预测中,预训练的Time-MoE会使用相应数据训练集微调。实验表明,与专门设计全样本预测时序模型相比,Time-MoE效果最佳,MSE降低约24%。体现了模型对不同领域数据适应性,以及预训练基础模型对下游任务帮助有效性。

3. 消融实验

文中进行了一系列消融实验以验证模型框架设计合理性。实验结果显示,Time-MoE设计提升模型精度有效,在不使用混合专家时,模型MSE明显退化。

4. Scalability分析

作者对模型规模效果进行了详细分析,左图实验显示,相较稠密模型,稀疏模型减少平均78%训练成本和39%推理成本。

右图结果显示,随数据量和模型参数增大,Time-MoE持续稳定性能提升,总能达到更小MSE和更好预测性能。此外,作者分析了训练精度的影响,使用bfloat16精度训练相较float32得到相似预测性能,但bfloat16模型训练速度提升12%,内存占用减少20%。

另外,bfloat16可与flash-attention(FA)无缝结合,进一步提升训练和推理速度。

总结

Time-MoE的成功标志着时序预测领域迈入全新时代,不仅性能全面超越现有模型,也为构建大规模、高效、通用时序预测基础模型设立可行范式。Time-MoE的发布不仅为学术界开拓新研究方向,也为工业界多时序应用场景注入巨大潜力,在能源管理、金融预测、电商销量、气象预报等关键领域,Time-MoE将成为强大工具。

团队成员相关论文:

  • [1] Time Series Analysis的基本模型:教程与调研,KDD 2024。

  • https://arxiv.org/abs/2403.14735

  • [2] 时序和时空数据的大型模型:调研和展望,arXiv 2023。

  • https://arxiv.org/abs/2310.10196

  • [3] 位置:大型语言模型对时序分析的启示,ICML 2024。

  • https://arxiv.org/abs/2402.02713

  • [4] Time-LLM:通过重新编程大型语言模型进行时间序列预测,ICLR 2024。

  • https://arxiv.org/abs/2310.01728

  • [5] TimeMixer:用于时间序列预测的可分解多尺度混合,ICLR 2024。

  • https://arxiv.org/abs/2405.14616

  • [6] iTransformer:倒置Transformer有效用于时间序列预测,ICLR 2024。

  • https://arxiv.org/abs/2310.06625

  • [7] TimeMixer++:通用时间序列模式机器用于预测分析,arXiv 2024。

  • https://arxiv.org/abs/2410.16032

  • [8] 时序基础模型的神经缩放定律,arXiv 2024 https://www.arxiv.org/pdf/2410.12360

  • [9] Time-MMD:用于时序分析的新多域多模态数据集,NeurIPS 2024。

  • https://arxiv.org/abs/2406.08627

  • [10] Time-FFM:LM-Empowered联合基础模型用于时间序列预测,NeurIPS 2024。

  • https://arxiv.org/abs/2405.14252

广告声明:文内包含对外链接(如超链接、二维码、口令等),旨在传递更多信息,节省筛选时间,结果仅供参考。

扫描二维码推送至手机访问。

本文转载自互联网,如有侵权,联系删除。

本文链接:https://xiezilouchuzuwang.cn/news/3348.html

您暂未设置收款码

请在主题配置——文章设置里上传

扫描二维码手机访问

文章目录