《Nearest Neighbor Knowledge Distillation for Neural Machine Translation》
https://arxiv.org/pdf/2205.00479.pdf
简介
这是一篇2022年发表在NAACL的一篇机器翻译的论文,是针对21年提出的用kNN(k Nearest Neighbor) Search来decoding的机器翻译方法的改进,这篇论文简洁明了地介绍了kNN Search decoding的原理,并且针对kNN Search带来的庞大的decoding计算开销进行改进:用知识蒸馏的方式将KNN Search由decoding阶段提前到模型训练之前——提前训练一个以kNN为学习目标的教师模型、在训练过程中教师模型指导学生模型训练,使得最终的学生模型学习到kNN的知识,在decoding阶段按照常规的seq2seq解码方式正常进行,从而解决了基础论文的decoding就算开销大的问题。
Nearest Neighbor Machine Translation
先介绍一下核心的基础

本文总结了《Nearest Neighbor Knowledge Distillation for Neural Machine Translation》的论文,探讨如何通过kNN搜索改进神经机器翻译。研究中提出在训练阶段使用知识蒸馏,预先进行kNN Self-Search,构建教师模型来指导学生模型学习,从而在不增加解码计算成本的情况下提升翻译质量。
最低0.47元/天 解锁文章
1487

被折叠的 条评论
为什么被折叠?



