captioning CNN处理图片并全连接得到一个包含图片信息的向量 将向量输入LSTM中生成h0,c0等 PS:只有一个LSTM,只是它在不同时刻的表示不同 最简单的方法可以只根据之前的h(t-1)等生成下一刻表示 表示到单词(softmax) 也可以在每个时刻加入图像的特征向量(加入什么、怎么加入都可以自定) 图片向量*矩阵=字典长度向量 (矩阵训练可得) LSTM参数从图像和GT句子训练可得(参数是矩阵,包含每个时刻)