一千三百七十亿参数谷歌带来新语言模型LaMDA,将实现更安全更高质量对话

2022-03-26 11:18
海外星云 2022年4期
关键词:微调特异性合理性

如今,语言模型的能力越来越强,在各种任务中都发挥了很大的作用。其中,开放域对话可能是最难以完成的一类任务,需要做到能够就任何主题进行对话。

在对话任务中,除了生成人类认为合理、有趣且特定于上下文的响应之外,语言模型还须按照负责任的人工智能框架工作,以免生成无信息源证实的内容。

近日,谷歌在以《LaMDA:对话应用程序的语言模型》为题的一篇论文中介绍了语言模型LaMDA在安全、可靠和高质量的对话方面取得的最新进展。

据悉,LaMDA模型具有1370亿个参数,通过微调采用Transformer架构的专用对话神经语言模型而构建,可以利用外部知识源展开对话。

对于训练对话模型来说,定义目标和指标至关重要。LaMDA模型具有质量、安全和扎实性三个关键目标,每个目标有各自的衡量指标。

质量上,谷歌将其拆分为合理性、特异性和趣味性这三个方面。

其中,合理性是指模型在对话中作出有实际意义的回应,如回应中没有出现常识性错误;特异性是指模型在对话中针对特定的上下文来响应,而不是在常规情形下的通用響应;趣味性是指模型作出了富有洞察力和智慧的回应。

安全上,谷歌在开发和部署负责任的人工智能方面有很大的进步。为避免出现各种偏见以及可能对用户造成伤害的内容,其用一组可限制模型输出对话的安全目标来组成安全指标。

由于语言模型有时会输出貌似合理实际却与已知事实相悖的内容,谷歌对LaMDA模型的扎实性展开了研究。

扎实性是指在外部世界声明上能够获得权威外部信息来源支持的百分比。但是,在这些来源中建立的LaMDA模型也无法完全保证所生成响应的准确性,所以谷歌允许用户及外部系统来源的可靠性来判断响应有效与否。

此外,谷歌在论文介绍了LaMDA模型的预训练和微调阶段。

预训练阶段,谷歌做了一个包含1.56T词汇的数据集,并将该数据集中的词汇标记为2.81T Sentence Piecetoken ,接着通过GSPMD系统对LaMDA模型进行预训练。

据了解,谷歌将经过预训练的LaMDA模型用于其自然语言处理的研究中,包括程序合成、零样本学习和风格迁移等。

微调阶段,谷歌让LaMDA模型执行两类任务,一类是作出面向指定上下文自然语言回应的混合生成任务,另一类响应是否安全和高质量的分类任务,从而成为一个多任务模型。

对话时,LaMDA生成器会对面向的上下文生成几个候选回应, 然后LaMDA分类器预测每个候选回应的合理性、特异性和趣味性和安全分数,最后根据这两项数据的排名选出最佳回应。

人类可以通过现存的工具和知识库来明确事实,而语言模型仅能依靠其内部参数来得到讯息。

为此, 谷歌做了一个人类与LaMDA模型交流的数据集,并通过该数据集对LaMDA模型的生成器和分类器进行微调,让其在与对话期间调用外部信息检索系统,以提高回应的扎实性。

谷歌表示,“在对LaMDA模型进行评估后得出,其在每个维度和所有模型大小情况下都显著优于预先训练的模型。无论微调与否,合理性、特异性和趣味性等质量指标通常会随模型参数量而提升。而安全性虽然无法仅根据模型缩放变化,但可以通过微调来提升。”

此外,LaMDA模型的扎实性会因模型大小的增加而不断提升。造成的原因可能是,模型越大,其记住不常见知识的能力越强,且微调允许模型访问外部知识源,并将记住知识的负载转移到外部知识源。

不过,微调虽然缩小了语言模型与人类之间的差距,但该模型在安全性和扎实性上的水平依然弱于人类。

LaMDA模型的出现为完成开放域对话开辟了新的途径,同时表明了神经语言模型面临的关键挑战,如安全指标的使用和扎实性的提高,以及如何通过更大的模型和更清晰标记的数据来进行微调。

但是,这还是一项非常早期的工作,且具有很大的局限性。未来,谷歌将探索新的方法来进一步改进安全指标和LaMDA模型的扎实性,并与其人工智能原则保持一致。

猜你喜欢
微调特异性合理性
老年慢性非特异性腰痛综合康复治疗效果分析
药学管理对临床用药合理性的影响观察
乐海乐器“微调轴”研发成功
奇遇
关于用逐差法计算纸带加速度合理性的讨论
感染T细胞斑点试验在耐多药肺结核诊断中的应用价值
婴幼儿湿疹800例血清过敏原特异性IgE检测结果分析
浅析中国民族舞蹈的特异性与舞蹈生态
我国的民族优惠政策应往何处去?