目录
使用rank_cost(paddle_v2的layers):
\[
\begin{align}\begin{aligned}C_{i,j} & = -\tilde{P_{ij}} * o_{i,j} + log(1 + e^{o_{i,j}})\\o_{i,j} & = o_i - o_j\\\tilde{P_{i,j}} & = \{0, 0.5, 1\} \ or \ \{0, 1\}\end{aligned}\end{align}
\]
\(C_{i,j}\)
是cross-entropy cost。\(\tilde{P_{i,j}}\)
是label。1是正序(左>右),0是逆序。\(o_i\)
和\(o_j\)
是左、右的输出,是1维的。weight的引入:参考Ranking with Ordered Weighted Pairwise Classification
文本采用word2vec获取标题向量,cos_sim计算 图文的相关性,然后用pairwise训练
目前简单抽取1k的图文配对(1k正+1k随机产出的负例),
之前都用title,现在改成单元内的bidword,pic的pair对。并且,引入rank_cost的weight参数。
把lstm改成nlpc的wordembedding。如果文本数据量少(短文本)的话,用这个其实就好了。不用接lstm。
把rank_cost换成regression_cost