全球首次：时序大模型突破十亿参数，华人团队 Time-MoE 预训练数据达 3000 亿个时间点

news2024-10-25 00:00324510

Time-MoE采用创新混合专家架构，可实现高精度预测且计算成本低。同时，研发团队发布了Time-300B数据集，提供丰富训练资源，为不同领域的时间序列预测任务提供新解决方案。在数据驱动时代，时序预测成为各领域核心。构建强大高效大规模时序预测模型一直是挑战，公共时间序列数据库匮乏加剧难题。来自普林斯顿大学、格里菲斯大学等国际研究团队联手提出基于混合专家架构的...

Time-MoE采用创新混合专家架构，可实现高精度预测且计算成本低。同时，研发团队发布了Time-300B数据集，提供丰富训练资源，为不同领域的时间序列预测任务提供新解决方案。

在数据驱动时代，时序预测成为各领域核心。构建强大高效大规模时序预测模型一直是挑战，公共时间序列数据库匮乏加剧难题。

来自普林斯顿大学、格里菲斯大学等国际研究团队联手提出基于混合专家架构的Time-MoE时间序列基础模型，里程碑突破时序预测领域。

论文链接：https://arxiv.org/pdf/2409.16040

代码链接：https://github.com/Time-MoE/Time-MoE

团队整理预训练数据集Time-300B，时序领域最大公开数据集，为时序任务提供通用解决方案。

Time-MoE模型参数扩展至24亿，提升预测精度、降低计算成本，达到SOTA水平。

关键技术突破

1. 强大混合专家架构：Time-MoE采用稀疏激活机制，在预测任务中激活部分网络节点，确保高预测精度、降低计算负担。

2. 灵活预测范围：Time-MoE支持任意长度输入输出范围，处理多种时序预测任务，实现全域时序预测。

3. 全球最大开源时序数据集：团队开发Time-300B，涵盖9个领域3000亿时间点，为模型提供多领域训练数据，确保卓越泛化能力。

在相同激活参数条件下，Time-MoE显著超越现有时序基础模型，在相同的FLOPs下，其稀疏架构卓越精度优势。

模型框架

输入Token Embedding

Time-MoE使用逐点分词确保时间序列信息完整性，增强模型多维输入处理能力。

MoE Transformer模块

Time-MoE基于decoder-only Transformer，结合大规模语言模型最新技术，提升训练稳定。

同时，使用旋转位置编码代替绝对位置编码增强可变序列长度外推能力。

公式化概括如下：

其中Mixture代表混合专家层，提高计算效率。

多分辨率预测

Time-MoE设计多分辨率预测头，同时进行不同尺度预测，突破单一尺度预测局限。

训练时不同分辨率头联合优化，在推理时利用不同尺度输出组合预测。

实验效果

1. 零样本预测

零样本预测检验时序模型泛化能力通用性。实验显示，Time-MoE预测效果最佳，MSE降低约20%。

2. 全样本预测

全样本预测中，Time-MoE使用训练集微调，MSE降低约24%。

3. 消融实验

实验验证Time-MoE设计有效，无混合专家情况模型MSE明显退化。

4. Scalability分析

模型规模化效果分析表明，稀疏模型减少训练成本39%、推理成本78%。

结果显示，Time-MoE持续性能提升，并总能达到更小MSE更好预测性能。

利用bfloat16精度训练相似预测性能，训练速度提升12%、内存减少20%。

bfloat16与flash-attention结合，训练推理速度提升23%和19%。

总结

Time-MoE成功标志时序预测迎来新时代，性能超越现有模型，构建大规模、高效、通用时序预测基础模型可行。Time-MoE发展学术产业多领域时序应用潜力。

团队成员相关论文：

[1] Foundation Models for Time Series Analysis: A Tutorial and Survey, KDD 2024.
https://arxiv.org/abs/2403.14735
[2] Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook, arXiv 2023
https://arxiv.org/abs/2310.10196
[3] Position: What Can Large Language Models Tell Us about Time Series Analysis, ICML 2024.
https://arxiv.org/abs/2402.02713
[4] Time-LLM: Time Series Forecasting by Reprogramming Large Language Models, ICLR 2024.
https://arxiv.org/abs/2310.01728
[5] TimeMixer: Decomposable Multiscale Mixing for Time Series Forecasting, ICLR 2024.
https://arxiv.org/abs/2405.14616
[6] iTransformer: Inverted Transformers Are Effective for Time Series Forecasting, ICLR 2024.
https://arxiv.org/abs/2310.06625
[7] TimeMixer++: A General Time Series Pattern Machine for Universal Predictive Analysis, arXiv 2024
https://arxiv.org/abs/2410.16032
[8] Towards Neural Scaling Laws for Time Series Foundation Models, arXiv 2024 https://www.arxiv.org/pdf/2410.12360
[9] Time-MMD: A New Multi-Domain Multimodal Dataset for Time Series Analysis, NeurIPS 2024.
https://arxiv.org/abs/2406.08627
[10] Time-FFM: Towards LM-Empowered Federated Foundation Model for Time Series Forecasting, NeurIPS 2024.
https://arxiv.org/abs/2405.14252

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

标签IT号

扫描二维码推送至手机访问。

本文转载自互联网，如有侵权，联系删除。

本文链接：https://xiezilouchuzuwang.cn/news/3649.html

上一篇：黄仁勋：我从不在乎市场份额，英伟达唯一目标是创造新市场

下一篇：微软开源 1.58bit 推理框架：千亿参数模型量化后单 CPU 可跑，速度每秒 5-7 个 token

您暂未设置收款码

请在主题配置——文章设置里上传

扫描二维码手机访问

文章目录

全球首次：时序大模型突破十亿参数，华人团队 Time-MoE 预训练数据达 3000 亿个时间点

关键技术突破

模型框架

实验效果

总结

“筑底：增长的象限” 2025观点年度论坛广州圆满闭幕

陈文博：我们必须向前迈进 | 恒隆地产致股东函（2024年报）

出租率与租约到期招商租赁REIT首份年报透露了什么

绿城67亿双城拿地国贸、建发、中海齐聚厦门首拍

《哪吒2》爆火后光线传媒12.2亿收购北京奥林NEO办公楼

仲量联行：2月香港中环甲厦空置率上升

最近发表

标签列表

您暂未设置收款码

全球首次：时序大模型突破十亿参数，华人团队 Time-MoE 预训练数据达 3000 亿个时间点

关键技术突破

模型框架

实验效果

总结

“筑底：增长的象限” 2025观点年度论坛广州圆满闭幕

陈文博：我们必须向前迈进 | 恒隆地产致股东函（2024年报）

出租率与租约到期 招商租赁REIT首份年报透露了什么

绿城67亿双城拿地 国贸、建发、中海齐聚厦门首拍

《哪吒2》爆火后 光线传媒12.2亿收购北京奥林NEO办公楼

仲量联行：2月香港中环甲厦空置率上升

最近发表

标签列表

您暂未设置收款码

出租率与租约到期招商租赁REIT首份年报透露了什么

绿城67亿双城拿地国贸、建发、中海齐聚厦门首拍

《哪吒2》爆火后光线传媒12.2亿收购北京奥林NEO办公楼