首页news 正文
目录

全球首次:时序大模型突破十亿参数,华人团队 Time-MoE 预训练数据达 3000 亿个时间点

news2024-10-25 00:00323920
Time-MoE采用创新混合专家架构,可实现高精度预测且计算成本低。同时,研发团队发布了Time-300B数据集,提供丰富训练资源,为不同领域的时间序列预测任务提供新解决方案。在数据驱动时代,时序预测成为各领域核心。构建强大高效大规模时序预测模型一直是挑战,公共时间序列数据库匮乏加剧难题。来自普林斯顿大学、格里菲斯大学等国际研究团队联手提出基于混合专家架构的...

Time-MoE采用创新混合专家架构,可实现高精度预测且计算成本低。同时,研发团队发布了Time-300B数据集,提供丰富训练资源,为不同领域的时间序列预测任务提供新解决方案。

在数据驱动时代,时序预测成为各领域核心。构建强大高效大规模时序预测模型一直是挑战,公共时间序列数据库匮乏加剧难题。

来自普林斯顿大学、格里菲斯大学等国际研究团队联手提出基于混合专家架构的Time-MoE时间序列基础模型,里程碑突破时序预测领域。

论文链接:https://arxiv.org/pdf/2409.16040
代码链接:https://github.com/Time-MoE/Time-MoE

团队整理预训练数据集Time-300B,时序领域最大公开数据集,为时序任务提供通用解决方案。

Time-MoE模型参数扩展至24亿,提升预测精度、降低计算成本,达到SOTA水平。

关键技术突破

1. 强大混合专家架构:Time-MoE采用稀疏激活机制,在预测任务中激活部分网络节点,确保高预测精度、降低计算负担。

2. 灵活预测范围:Time-MoE支持任意长度输入输出范围,处理多种时序预测任务,实现全域时序预测。

3. 全球最大开源时序数据集:团队开发Time-300B,涵盖9个领域3000亿时间点,为模型提供多领域训练数据,确保卓越泛化能力。

在相同激活参数条件下,Time-MoE显著超越现有时序基础模型,在相同的FLOPs下,其稀疏架构卓越精度优势。

模型框架

输入Token Embedding

Time-MoE使用逐点分词确保时间序列信息完整性,增强模型多维输入处理能力。

MoE Transformer模块

Time-MoE基于decoder-only Transformer,结合大规模语言模型最新技术,提升训练稳定。

同时,使用旋转位置编码代替绝对位置编码增强可变序列长度外推能力。

公式化概括如下:

其中Mixture代表混合专家层,提高计算效率。

多分辨率预测

Time-MoE设计多分辨率预测头,同时进行不同尺度预测,突破单一尺度预测局限。

训练时不同分辨率头联合优化,在推理时利用不同尺度输出组合预测。

实验效果

1. 零样本预测

零样本预测检验时序模型泛化能力通用性。实验显示,Time-MoE预测效果最佳,MSE降低约20%。

2. 全样本预测

全样本预测中,Time-MoE使用训练集微调,MSE降低约24%。

3. 消融实验

实验验证Time-MoE设计有效,无混合专家情况模型MSE明显退化。

4. Scalability分析

模型规模化效果分析表明,稀疏模型减少训练成本39%、推理成本78%。

结果显示,Time-MoE持续性能提升,并总能达到更小MSE更好预测性能。

利用bfloat16精度训练相似预测性能,训练速度提升12%、内存减少20%。

bfloat16与flash-attention结合,训练推理速度提升23%和19%。

总结

Time-MoE成功标志时序预测迎来新时代,性能超越现有模型,构建大规模、高效、通用时序预测基础模型可行。Time-MoE发展学术产业多领域时序应用潜力。

团队成员相关论文:

  • [1] Foundation Models for Time Series Analysis: A Tutorial and Survey, KDD 2024.

  • https://arxiv.org/abs/2403.14735

  • [2] Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook, arXiv 2023

  • https://arxiv.org/abs/2310.10196

  • [3] Position: What Can Large Language Models Tell Us about Time Series Analysis, ICML 2024.

  • https://arxiv.org/abs/2402.02713

  • [4] Time-LLM: Time Series Forecasting by Reprogramming Large Language Models, ICLR 2024.

  • https://arxiv.org/abs/2310.01728

  • [5] TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting, ICLR 2024.

  • https://arxiv.org/abs/2405.14616

  • [6] iTransformer: Inverted Transformers Are Effective for Time Series Forecasting, ICLR 2024.

  • https://arxiv.org/abs/2310.06625

  • [7] TimeMixer++: A General Time Series Pattern Machine for Universal Predictive Analysis, arXiv 2024

  • https://arxiv.org/abs/2410.16032

  • [8] Towards Neural Scaling Laws for Time Series Foundation Models, arXiv 2024 https://www.arxiv.org/pdf/2410.12360

  • [9] Time-MMD: A New Multi-Domain Multimodal Dataset for Time Series Analysis, NeurIPS 2024.

  • https://arxiv.org/abs/2406.08627

  • [10] Time-FFM: Towards LM-Empowered Federated Foundation Model for Time Series Forecasting, NeurIPS 2024.

  • https://arxiv.org/abs/2405.14252

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

标签IT号

扫描二维码推送至手机访问。

本文转载自互联网,如有侵权,联系删除。

本文链接:https://xiezilouchuzuwang.cn/news/3649.html

您暂未设置收款码

请在主题配置——文章设置里上传

扫描二维码手机访问

文章目录