您的位置：首页 > 其它

论文阅读（三）：Text2Sign: Towards Sign Language Production using Neural Machine Translation and GAN-2

2020-01-12 15:38 399 查看

Abstract

我们提出了一种新的方法来自动手语生产使用最先进的神经机器翻译(NMT)和图像生成技术。我们的系统能够从口语句子中生成手语视频。与当前依赖于大量注释数据的方法相反，我们的方法需要最少的注释和框架级别的注释来进行培训。我们通过将任务分解为专门的子流程来实现这一点
我们首先利用编译码器网络将口语句子翻译成符号注释序列。然后找到注释和骨骼序列之间的数据映射。我们使用生成的姿态信息来调节生成模型，生成手语视频序列。

Related work

Conditional Image Generation:

semantic labels ->images use CNN [4]
image tags/feature embeddings ->images use PixelCNN,conditioned on a vector[28]
RNN
they all relay on rich semantic and spatially information

1.GAN
conditional GAN
DCGAN conditional GAN+constraints architecture （e.g 带步长卷积替换确定性空间池化）
the extending of DCGAN positional information+text description

2.VAEs
conditonal VAE

3.conbining GANs and VAEs
4. pose conditioned image generation:
input a image of people in arbitrary pose,and conbine it with a pose heat map,then use a network to refine the image

Neural Machine Translation

learn a statistical model

our methord:conditional image generation

translate spoken language to pose gloss,and define a mapping between glosses and pose sequences.

3 Text to Sign Language Translation

A text-to-gloss NMT network
a learned lookup table
poseconditioned sign generation network consisting of a VAE/GAN hybrid

3.1 Text to Gloss Translation

3.2 Gloss to Skeletal Pose Mapping

build a lookup-table ->
mapping between sign glosses and 2D skeletal pose sequences

openPose:extract skeletal joint coordinates from sign videos
每个关节被定义为图像中的一个像素点，其坐标为x和y

为了利用来自不同领域的多个数据集，我们执行以下规范化:
1.所有的骨骼都在颈部关节处与所选择的参考骨骼对齐

其中，Nre f和Nin是参考点和输入骨架的颈关节。SkelT是对齐后的翻译输入框架。
2.然后我们使用参考和输入骨架的肩-肩距离计算比例因子f:

其中Slre f和Srre f为参考骨架，Slin和Srin分别为输入骨架的左右肩关节
3.得到颈部骨架、对齐后骨架和比例因子f，计算

为了构建可以构成序列查询表的注释，我们使用注释对所有骨骼序列进行分组。
使用动态时间wraping，对每一个注释对齐所有骨架序列，然后将他们组合成一个有代表性的平均骨架序列。

其中i为光泽的样本序列数，Skelgloss为光泽的代表均值序列。

3.3 Pose-Conditioned Sign Generation Network

姿势-约束的手语生成网络是一个卷积图像编码器和一个GAN，
对于我们的系统，我们采用了[22]提出的设计规则，建立一个条件
DCGAN和卷积图像编码器E

我们的系统：image conv encoder +DCCGAN

E把手势者的基本姿态图像（无手势）转换为其潜在表示。
然后由生成器G根据提供给网络的骨骼姿态信息对其进行解码。
鉴别器D使用骨骼信息和基本姿态评估G的输出。

3.3.1 Image Encoder and Generator

在编码器中，输入图像经过五个卷积阶段，然后使用两个完全连接的层来获得图像的向量表示
骨架信息以128x128x10二进制热图的形式提供给网络。在每个卷积步骤和第一个完全连接层之前，将其调整大小并连接到输入图像。原始大小的热图经过一个完全连接的层，把得到的向量表示连接到输入图像的向量表示。将其输入作为解码器的生成器。

它使用上卷积和大小卷积来解码隐藏向量，然后利用嵌入的骨骼信息将其解码成图像。此外，跳过编码器和生成器之间的连接会鼓励它生成接近输入但具有所需空间差异的输出。

3.3.2 Discriminator

鉴别器接收生成图像或真实图像、骨架姿势heat map、基础姿势人像作为输入。

由于系统是在多个手语者上训练的，因此需要使用基本姿态图像来确定生成的图像是否与期望的手语者相似
骨骼信息用于评估生成的图像是否具有所需的关节配置

点赞
收藏
分享
文章举报

Monmoka 发布了28 篇原创文章 · 获赞 5 · 访问量 1422 私信关注

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航