新闻中心

如何突破Decoder性能瓶颈？英伟达专家揭秘

自从 “Attention is All You Need” 在2017年提出以来，Transformer已成为 NLP 领域中非常热门的深度学习网络架构。但是在推理部署阶段，其计算性能往往难以满足在线业务对于低延迟和高吞吐的要求。

在英伟达开源的FasterTransformer 1.0版本中，针对BERT中的 Transformer Encoder进行了优化和加速，经过高度优化之后，降低了用户使用transformer编码的时延。

在解决了Encoder性能问题之后，英伟达将重点放到了同样重要的Transformer Decoder推理上。

因此，英伟达推出了FasterTransformer 2.0版本，提供针对解码器进行高度优化的transformer layer。同时，还提供了优化过后的整个翻译流程，满足想要在翻译场景中大幅降低时延的用户们。