您的位置：首页 > 其它

TensorFlow技术解析与实战 12 图像与语音的结合

2017-12-19 18:53 281 查看

实现人工智能要有3个要素：语法、语义和推理

语音和视觉是人工智能界非常关注的点，也就是说，在语言和视觉层面，通过语法（对语言来说是语法解析，对视觉来说是三维结构的解析）和语义（对语言来说是语义，对视觉来说是物体动作的含义）作为模型的输入训练数据，最终实现推理的能力，也就是把训练中学习到的能力应用到工作中去，从新的数据中推断出结论。

12.1 看图说话模型

输入一张图片，希望我们训练的看图说话模型能够根据图像给出描述图像内容的自然语言，讲出一个故事。这是一个很大的挑战，因为这需要在图像信息和文本信息这两种不同形式的信息之间进行“翻译”。

Tensorflow官方模型https://github.com/tensorflow/models/tree/master/im2txt

原理：采用编码器-解码器框架，先将图像编码成固定的中间矢量，然后解码成自然语言的描述。这里编码器采用的是Inception V3图像识别模型，解码器采用的是LSTM网络

{s0, s1, ..., sn-1}是字幕的词，{weS0, weS1, ..., weSn-1}是它们对应的词嵌入向量，LSTM的输出{p1, p2, ..., pn}是由句子中的下一个词生成的概率分布。{logP1(S1), logP2(S2), ... ,logPn(Sn)}是正确词在每一个步骤的对数似然，这几个值的总和取负数是我们模型的最小化目标。

Microsoft COCO Caption数据集http://mscoco.org/

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航