微软ai&research今天分享了有史以来最大的基于transformer架构的语言生成模型turing nlg(下文简称为t-nlg),并开源了一个名为deepspeed的深度学习库,以简化对大型模型的分布式培训。
基于transformer的架构,意味着该模型可以生成单词来完成开放式文本任务。除了完成未完成的句子外,它还可以生成对输入文档的问题和摘要的直接答案。
去年8月,英伟达曾宣布已训练世界上最大的基于transformer的语言模型,当时该模型使用了83亿个参数,比bert大24倍,比openai的gpt-2大5倍。
而此次微软所分享的模型,t-nlg的参数为170亿个,是英伟达的megatron(现在是第二大transformer模型)的两倍,其参数是openai的gpt-2的十倍。微软表示,t-nlg在各种语言建模基准上均优于最新技术,并在应用于许多实际任务(包括总结和问题解答)时表现出色。
不过,像google的meena一样,最初使用gpt-2,t-nlg最初只能在私人演示中共享。
微软ai研究应用科学家corby rosset在博客文章中写道:“除了通过汇总文档和电子邮件来节省用户时间之外,t-nlg还可以通过为作者提供写作帮助,并回答读者可能对文档提出的问题,由此来增强microsoft office套件的使用体验。”
具有transformer架构的语言生成模型可以预测下一个单词。它们可用于编写故事,以完整的句子生成答案以及总结文本。
微软表示,他们的目标是在任何情况下都能够像人类一样直接,准确,流畅地做出响应:以前,问题解答和摘要系统依赖于从文档中提取现有内容,这些内容可以作为备用答案或摘要,但它们通常看起来不自然或不连贯。使用t-nlg这样的自然语言生成模型,可以自然地总结或回答有关个人文档或电子邮件主题的问题。
来自ai领域的专家告诉venturebeat,2019年是nlp模型开创性的一年——使用transformer架构无疑是2019年最大的机器学习趋势之一,这导致了语言生成领域和glue基准测试领导者的进步,facebook的roberta、谷歌的xlnet和微软的mt-dnn都纷纷加入到各类基准测试榜首的争夺当中。
同样是在今天,微软还开源了一个名为deepspeed的深度学习库。该学习库已针对开发人员进行了优化,以提供低延迟、高吞吐量的推理。
deepspeed包含零冗余优化器(zero),用于大规模训练具有1亿个或更多参数的模型,微软过去曾用它训练t-nlg。
微软表示,deepspeed和zero使得他们能够降低模型并行度(从16降低到4),将每个节点的批处理大小增加四倍,并将训练时间减少了三分之二;deepspeed使用更少的gpu可以使大型模型的训练效率更高。
开发人员和机器学习从业人员都可以使用deepspeed和zero,因为培训大型网络(例如利用transformer架构的网络)可能会很昂贵,并且可能会遇到大规模问题。
另外,google的deepmind今天也发布了一种新的远程内存模型compressive transformer,以及一种针对书本级语言建模的新基准pg19。
雷锋网编译,via venturebeat
雷锋网雷锋网雷锋网