全球首次：时序大模型突破十亿参数，华人团队 Time-MoE 预训练数据达 3000 亿个时间点

news2024-10-25 00:03405010

Time-MoE采用了全新的混合专家结构，以较低的计算成本实现高精度预测。研发团队还发布了Time-300B数据集，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了新的解决方案。在当今以数据为驱动的时代，时序预测已成为众多领域不可或缺的核心组成。然而，构建一个兼具强大性能与高效运算的大规模时序预测模型始终是一个巨大的挑战。此外，高质量的大型...

Time-MoE采用了全新的混合专家结构，以较低的计算成本实现高精度预测。研发团队还发布了Time-300B数据集，为时序分析提供了丰富的训练资源，为各行各业的时间序列预测任务带来了新的解决方案。

在当今以数据为驱动的时代，时序预测已成为众多领域不可或缺的核心组成。然而，构建一个兼具强大性能与高效运算的大规模时序预测模型始终是一个巨大的挑战。此外，高质量的大型公共时间序列数据库的匮乏进一步加剧了这一难题。

近日，由来自普林斯顿大学、格里菲斯大学等全球多地的华人国际科研团队携手通力合作，创新性地提出了一种基于混合专家结构（Mixture of Experts, MoE）的时间序列基础模型Time-MoE，首次将时间序列预训练大模型的参数规模推向十亿级别，在时序预测领域实现了里程碑式的突破。

论文链接：https://arxiv.org/pdf/2409.16040

代码链接：https://github.com/Time-MoE/Time-MoE

与此同时，团队精心整理了预训练数据集Time-300B，这是目前时序领域最大的公开数据集，为各类时序任务提供了前所未有的通用解决方案。这是首次在时序领域中采用如此大规模的预训练模型，标志着时序预测技术迈入了一个全新的时代。

Time-MoE模型通过MoE结构的独特优势，将模型参数成功扩展至24亿，不仅显著提升了预测精度，还在降低计算成本的同时超越了众多现有模型，全面达到了SOTA（State of the Art）水平。

关键技术突破

1. 强大的混合专家架构：Time-MoE采用稀疏激活机制，在预测任务中仅激活部分网络节点，这不仅确保了高预测精度，还显著降低了计算负担，完美解决了时序大模型在推理阶段的计算瓶颈。

2. 灵活的预测范围：Time-MoE支持任意长度的输入和输出范围，能够处理从短期到长期的各种时序预测任务，实现了真正的全域时序预测。

3. 全球最大规模的开源时序数据集：团队开发了Time-300B数据集，涵盖9个领域的超过3000亿个时间点，为模型提供了丰富的多领域训练数据，确保其在多种任务中的卓越泛化能力。

在相同激活参数条件下，Time-MoE显著超越了现有的时序基础模型。在相同的FLOPs下，其稀疏架构展现出相较于密集模型的卓越精度优势。

模型框架

输入 Token Embedding

Time-MoE使用逐点分词方法以确保时间序列信息的完整性，提高了模型处理不同长度序列的灵活性与适用性，如模型框架图中①所示。在②中，SwiGLU激活函数对每个时间序列点进行嵌入，其中包括一个Feed-forward network (FFN)和一个Swish FFN，从而增强模型对多维输入的处理能力：

MoE Transformer 模块

Time-MoE基于decoder-only Transformer，并结合了大规模语言模型中的最新技术。Transformer模块里，RMSNorm对每个子层输入进行了归一化处理，从而提升了训练的稳定性。

同时，采用旋转位置编码代替绝对位置编码，使得模型在处理可变序列长度时具备更好的外推能力。此外，模型引入了稀疏激活的混合专家层来取代标准Transformer模块里的FFN。

公式化...

标签IT号

扫描二维码推送至手机访问。

本文转载自互联网，如有侵权，联系删除。

本文链接：https://xiezilouchuzuwang.cn/news/3658.html

上一篇：Excel 中 Sumifs 函数案例解决

下一篇：5G 时代，“超级上行”有多行？