MMI

用于提升多样性的Maximum Mutual Information算法

Posted by OD on August 13, 2020

MMI:Maximum Mutual Information

1. 背景

​ 在传统的seq2seq领域,多样性问题一直是个令人困扰的问题,一个典型的例子就是bot领域,在回答的时候容易生成一些非常safe,grammatical的reply,比如“呵呵”,“I don’t know”之类,这些回答可以顺应人们的问题,但是基本没有太多实际的意义,试想,谁会使用一个问啥都说不知道的bot呢。

​ 针对这个问题,有很多相关的研究,比如模型派倾向于通过复杂精妙的模型来提升diversity,也有一些研究倾向于在损失函数领域作出有效调整,本篇论文便是损失函数领域的工作。

​ 尽管seq2seq有着需要专业领域知识少,可以端到端训练,可以学习到source sentence与target sentence之间的语义和句法信息等优势,不过,它也有只建模source->target的单向关系,而忽略了target->source的依赖关系的劣势,而反向依赖在phrase-based的模型上有着良好的表现,所以,如果可以为seq2seq模型加入这个信息,模型的能力应该会有比较好的提升。

​ 基于这样的想法,作者提出在seq2seq中引入双向关系,并通过最大化互信息来改善seq2seq的效果。

2. 互信息

​ 在概率论信息论中,两个随机变量互信息(mutual Information,简称MI)或转移信息(transinformation)是变量间相互依赖性的量度。不同于相关系数,互信息并不局限于实值随机变量,它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息是点间互信息(PMI)的期望值。互信息最常用的单位bit

​ 一般地,两个离散随机变量 XY 的互信息可以定义为:

​ 其中 p(x, y) 是 XY联合概率分布函数,而 p(x)p(y) 分别是 XY边缘概率分布函数。

​ 在连续随机变量的情形下,求和被替换成了二重定积分

​ 其中 p(x, y) 当前是 XY 的联合概率密度函数,而 p(x)p(y) 分别是 XY 的边缘概率密度函数。

​ 上面的公式不够直观,可以进行如下的化简: \(\begin{align}I(X;Y) &= \int_{Y}\int_{X}p(x,y)log(\frac{p(x,y)}{p(x)p(y)})dxdy\\&=\int_{Y}\int_{X}p(x.y)log(\frac{p(x,y)}{p(x)})dxdy-\int_{Y}\int_{X}p(x,y)log(p(y))dxdy\\&=\int_{Y}\int_{X}p(x)p(y|x)log(p(y|x))dxdy-\int_{Y}log(p(y))\int_{X}p(x,y)dxdy\\&=\int_{X}p(x)\int_{Y}p(y|x)log(p(y|x))dxdy-\int_{Y}p(y)log(p(y))dxdy\\&=H(Y)-H(Y|X)\end{align}\) ​ 直观上,互信息度量 XY 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 XY 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 XY 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 XY 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 XY 为相同随机变量时。)

3.流程

​ 论文主要通过3步来实现:

  1. 使用普通的seq2seq或者attention-seq2seq来分别训练$p(x y)$和$p(y x)$
  2. 通过$p(y x)$生成N-best 列表

    ​ 该列表通过beam search来生成,不过作者在实验中发现,标准的beam search算法生成的N-best 列表多样性欠佳,N个句子的主要区别就是标点符号或者一些小的形态变化,生成的word的重叠率很高。作者的解释是标准的beam search算法只探索了搜索空间的一小部分。

    ​ 为了解决这个问题,作者提出了一种针对beam search的改进:

    ​ 以上图为例,在生成token的时候使用标准的beam search,但是在选择的时候减去衰减系数$\gamma k$,具体做法是针对同一个token产生的后续序列,比如图中的he,对其score进行重排序,然后对一个预测的token减去其排序号,比如he预测的is排第一(即k=1),那么减去$\gamma k$为1,has同理。这样的话针对同一个token产生后续token,排在底部的token会被惩罚,这样的惩罚以后,其他的token产生的序列便可能浮上来,如“it is”,这便增加了N-best列表的多样性。

  3. 通过线性添加$p(x y)$来重排N-best 列表
    ​ 生成多样性的N-best列表以后,重点就是reranking工作了,即如何从这些候选sentence中选出最好的句子,这个选择过程通过混合$log (p(x y))$和$log(p(y x))$来实现,source的得分可以通过1中训练的$p(x y)$来计算。

    ​ 除了考虑$log(p(y|x))$,作者也考虑了$log(p(y))$,即在target这个单语语料库上训练出来的语言模型概率,此外,作者也考虑了将target的长度$L_{T}$加入loss中,最终整合成如下的打分函数,来对每个句子进行打分: \(score(y) = log p(y|x) + \lambda log p(x|y)+\gamma log p(y)+\eta L_{T}\) ​ 通过优化$\lambda$,$\gamma$,$\eta$来实现选句。