首页 > 强化学习 > 正文

irgan

标签:irgan


目录

SIGIR2017 满分论文:IRGAN | 每周一起读

IRGAN: A Minimax Game for Unifying Generative and Discriminative Information Retrieval Models

在现代信息检索领域一直是两大学派之争的局面。一方面,经典思维流派是假设在文档和信息需求(由查询可知)之间存在着一个独立的随机生成过程。另一方面,现代思维流派则充分利用机器学习的优势,将文档和搜索词联合考虑为特征,并从大量训练数据中预测其相关性或排序顺序标签。

本篇 SIGIR2017 的满分论文则首次提出将两方面流派的数据模型通过一种对抗训练的方式统一在一起,使得两方面的模型能够相互提高,最终使得检索到的文档更加精准。文章的实验分别在网络搜索、推荐系统以及问答系统三个应用场景中实现并验证了结果的有效性。

观点

观点1

IR 系统,从数据库中检索相似的信息,应对的是离散的数据,而 GAN 一般在连续情况下容易 work。常用的 SGD 在这里并不 work,作者采用 RL 的 policy gradient 作为替代。 IRGAN 将 generative retrieval model 和 discriminative retrieval model 分别作为 GAN 的 generator 和 discriminator(文章里对生成模型和判别模型的提法跟我们通常所说的刚好相反)。所以,IRGAN 训练的结果是两个 IR 系统!一个是生成模型,一个是判别模型! 作者开源了代码,做了一些实验实验:web search,item recommendation,question answering,实验结果表明,IRGAN 打败了多种 strong baselines,带来显著的性能提升。作者认为,这种性能提升得益于 GAN 的对抗训练机制。两类 IR 模型统一到 GAN 框架下,虽然它们的性能不同,但是跟没有采用对抗训练的模型相比,它们之中至少有一个能够得到显著的性能提升。

观点2

  1. 信息获取主要有两种模式:a. 预测给出的文档相关性;b. 给出文档对,判别他们之间的相关性;

  2. 判别模型:挖掘标注与非标注的数据中的信息,用于指导训练拟合文档内在相关性分布生成模型;

  3. 生成模型:生成判别模型难以判别的例子;

  4. 经典相关性模型着重于,如何从查询生成(相关)文档;独立模型,每个token是独立从相关文档档中生成;统计语言模型一般是从文档中生成查询元素;在词嵌模型中,词从其上下文中生成;在推荐系统中,也有类似的方法,从 item 的上下文中生成 item;

  5. 模型扩展到 pointwise, pairwise, listwise, 其中 pointwise 基于人的判断来衡量相关性,pairwise 主要是在所有文档对中找出最相关的文档对,listwise 着重于返回最合理的相关性排序;

  6. 观察到的正例和未观察到的正例之间会存在内在联系,生成器需要基于判别器的信息来快速推动这些未观察到的正例;

  7. 与 conditional GAN 有些相似;

  8. 生成模型提供了一种新的负采样方式;

  9. 使用 IR 的奖励机制,是在传统模型中不可获取的;

  10. 应用于:网页搜索在线排序(sf: LambdaRank, LambdaMART, RankNet)、item 推荐系统(cf matrix factorisation)、问答系统(退化成 IR 的评估)

观点3

  1. 不像传统的 GAN,用噪声信号作为输入做生成,然后判别,而是将 Query 做输入,直接利用 Generative 和 Discriminative IR Models 做 GAN;

  2. 将 RL 的 Policy Gradient 引入针对离散的输入变量;以上两个步骤使得 GAN 更具推广意义。


原创文章,转载请注明出处!
本文链接:http://hxhlwf.github.io/posts/rl-irgan.html
上篇: c++11新特性
下篇: parameter server详解

comment here..