概念

首先是题目的三个关键点 - multi-view:这个名词由于实验室见到的比较多比较熟悉,multi-view是指同一个物体可能有多个view,以常见的数据集3-sources Text为例子,对于相同的story有3个新闻出版社的news,每一个新闻出版社其实就是一个view,multi-view聚类就是要利用这三个views之间的一些信息对story进行聚类。 - multi-instance:这个名词也出现了相当长的时间,multi-instance是指在一些分类任务中,我们无法得到具体每一个数据点的标签,只能得到一个数据点bag的标签,最终要学习到每一个数据点的标签。下面这个例子,得到的标注数据只有一个个bag的标注数据,最终我们想要得到每一个元素的数据。 multi-instrance - multi-Label:这个意义就比较明显了,很多时候,同一个对象可能有多个类别标签,比如书《黑客与画家》既可以有计算机这个的标签又可以有lisp这个标签。

整篇论文的核心在于提出了MIMLmix模型并给出求解。Zhou老板之前就在multi-label和multi-instrance方向上发了很多论文,这一篇也是在之前的基础上考虑了multi-view和数据在不同view分布不均衡的情况的新方法。

定义问题

形式化定义这个multi-view multi-instrance multi-label这个问题如下:

给定标签集合\(\mathcal{Y} = \{y_l | l = ...L\}\),以及训练数据集\(\mathcal{D} = \{(X_n,Y_n)|n = 1...N\}\),其中\(X_n = \{x_{nvm}|v = 1...V, m=1...M_{nv}\}\)是指第v个view下的个instance的数据,\(Y_n = {y_{nl}| l = 1...L_n}\)是对应数据的标签集合。学习的目标是预测每一个没有标注的数据bag的标签。

生成过程

MIMLmix有如下的生成过程:

Generative Process

Generative Process

  • 对于每一个样本组\(X_n\)
    • 根据\(\theta^{'}_n \sim Dir(\alpha^{'})\)生成主题分布
    • 对于每一个样本组的标签
      • 现根据主题分布生成主题\(g \sim Multi(\theta^{’}_n)\)
      • 根据主题选择的分布中生成标签\(y \sim Multi(\beta_g^{''})\)
    • 根据样本组标签生成每一个样本标签的分布\(\theta_n \sim Dir(\eta \odot y_n + \varepsilon)\)
    • 对于每一个在view v中的样本\(x_{nvm}\)
      • 采样其样本主题 \(z_{nvm} \sim Multi(\theta_n)\)
      • 然后根据样本主题选择的分布生成观察到的值 \(x_{nvm} \sim p(x_{nvm}| z_{nvm} = y, \beta_v)\)

整体来看,模型分为两部分,左半部分是LDA的部分,用来生成每个example即\(X_n\)的标签,剩下一部分是multi-view的部分,用来对应每个\(x_n\)的标签。其中两个地方比较有意思。第一点是在从y向\(\theta\)转换的时候,采用的是通过\(\alpha_n = \eta \odot y_n + \varepsilon\)来生成参数,在训练的时候,令\(\varepsilon = 0\)以及\(y_{nl}\)在存在标签l在\(Y_n\)时为1,否则为0,在测试推断的时候,设\(\varepsilon\)为非零值,所有的\(y_n\)设为1。通过\(\eta\)来控制生成标签\(y_n\)对整个样本的主题分布\(\theta\)的影响。第二点是对于不同的数据集观察到的值可能是离散的,也有可能是连续的。 - 离散的情况下直接令 \[p(x|\beta_y) = \left( \begin{array}\leavevmode ||x||_1\\ x_1\ldots x_D \end{array}\right)\prod_{i=1}^D(\beta_{yi})^{x_i}\] 其实就是一般的多项分布,总个数是其中非零的元素即存在标签的个数,然后从里面选出标签的概率。

  • 连续的情况把超参取成\(\beta_{vy} = \{u_{vy}, \Sigma_{vy}\}\),采用高斯分布 \[p(x|\beta_y) = \frac{exp[-\frac{1}{2}(x - \mu_y)^T\Sigma_z^{-1}(x - \mu_y)]}{(2\pi)^{D/2}|\Sigma_y|^{\frac{1}{2}}}\]

NMF中的multi-view

之前看的概率图模型中虽然会有用到多个view的信息,如社区发现中同时使用链接和内容两个view的例子,虽然有这种例子,但是很多时候并没有明确指出来,之前见到的比较多的明确提出multi-view的是在NMF中。

以论文《multi-view clustering via joint nonnegative matrix factorization》中的目标函数为例:

\[\sum_{v=1}^{n_v}\|X^{(v)} - U^{(v)}(V^{(V)})^T\|_F^2 + \sum_{v=1}^{n_v}\lambda_v\|V^{(v)} - V^*\|\]

其实观察NMF的目标函数和生成模型,两者有很多相通的地方,NMF的multi-view首先将每个view分解为自己所处空间的基\(U\)和坐标\(V\),假设我们要求\(U\)归一化,那么\(U\)的每一列其实可以看做一个多项分布,那么坐标在这一列上的值其实就是分布的结果,而multi-view里面假设的不同view之间的联系在NMF的式子中体现在要极小化\(\|V^{(v)} - V^*\|\)这一项,其实就是假设每个view分布的结果与最终分布的结果应该尽可能的一致。

对应到概率图模型的生成过程中来看,每个view都有自己的\(z\),而生成\(z\)的分布\(\theta\)是由统一的\(L\)的情况来控制的(我们也可以通过参数来调整)。这样一看,两方的建模方式都挺有道理的。NMF的方式简洁,当然VC维更低,同时求解也更简单(这个是个人看法),概率图模型因为提供了更加详细的建模和更多可调的参数,VC维更高,但是也有更加细致建模的能力。

模型求解

常用的两大求解方法,变分推断、Gibbs Sampling,这里采用的是变分推断的方法。

整个模型其实可以看做两个LDA连在一起,而联系\(\theta\)与y之间也是确定关系,所以求解过程与LDA基本相同。唯一不同的地方在当x为连续值时,采用的是高斯分布,不过这只会影响到EM的M步对\(\mu\)\(\Sigma\)的更新,而且根据正太分布的假设,完全可以直接写出来结果。

在从标注数据训练出关于标签分布的参数后,在测试数据上,y的值由\(\phi^{'}\)的值采样获得,而\(\alpha\)的更新是由\(\beta^{'}\)\(\theta^{'}_{ny}\)更新。

面对view间不同的重要性

这个算法还有一个特点就是面对不同view之间的数据重要性不相同的时候有相应的应对策略。

引入随机变量\(l_v\)代表第V个view的每个样本组的样本的个数,并且服从分布\(l_v \sim Po(\lambda_v)\),然后假设不同的view之间的共有的样本个数为\(\lambda\),同时\(p(l_v | \lambda) \sim Multi(\rho), \rho = (\rho_1,...,\rho_V), \rho_v = \frac{\lambda_v}{\lambda}\)。由于\(w_v = \lambda \rho_v / \lambda_v = 1\),所以原式可以写成

\[p(z_n, X_n| \theta_n, \beta) = \prod_{vm} p(x_{nvm}, z_{nvm} | \theta_n, \beta)^{w_v}\]

通过改变\(w_v\)的值同时保证\(\sum_v w_v = 1\),就可以改变不同view的权值来改变影响力。而在变分推断的时候,把权值考虑进去就变成了

\[L_{[w_v]} = \sum_i w_v\{E_q[\log p(z_{vi}|\theta_n] - E_q [\log q(z_{vi}|\phi_{vi})] + E_q[\log p(x_{vi} | z_{vi}, \beta_{1:V})]\}\]

实验

(暂略)

总结

这篇论文模型上比较有意思的地方在用概率图解释了multi-view,两个嵌套的LDA的求解,针对离散和连续变量的优化,以及与不同view之间权值的设计的方法。

引用:

  1. Labeling Complicated Objects: Multi-View Multi-Instance Multi-Label Learning. (2014). Labeling Complicated Objects: Multi-View Multi-Instance Multi-Label Learning.

  2. Multi-View Clustering via Joint Nonnegative Matrix Factorization. (2013). Multi-View Clustering via Joint Nonnegative Matrix Factorization., 252–260. doi:10.1137/1.9781611972832.28

  3. 《PRML》




X