您的位置：首页 > 大数据 > 人工智能

如何利用人工智能技术提高网文生产的运营效率？

2019-05-17 17:51 1436 查看

在杭州云栖小镇举办的2050@2019大会上，“第四范式先荐”召集了《新媒体结合人工智能后的裂变》主题新生论坛，来自阅文集团的陈炜于分享了如何利用人工智能，提高网文生产整个周期的运营效率。

以下是演讲实录：

演讲嘉宾简介：

陈炜于，阅文集团智能业务中心负责人，负责阅文集团的智能技术建设，包括推荐，搜索，用户画像，文本挖掘，内容风控等数据智能方向。曾在百度负责精准广告系统，用户画像系统，百度推荐，用户线下大数据，新零售等项目的研发工作。

今天非常开心来到这里向大家分享我们的工作内容和实践感悟。首先做一下自我介绍，我叫陈炜于，来自阅文集团，负责整体的智能业务版块。接下来我将先从网络文学的历史谈起。

网文的发展历史

其实从1994年中国进入互联网时代起，网文就已经开始发展了，那时候主要是在水木清华BBS上传播。1998年，痞子蔡的一本书出版，业内普遍认为这是中国网络文学发展的元年。

2002年，起点中文成立，它是阅文集团的前身。2008年，盛大文学成立，收购了起点中文网、红袖添香等小说网站。2013年腾讯文学成立，2015年整合盛大文学，成立了阅文集团。

2017年年底阅文集团在香港上市，作为行业领先的一个IP培育平台和数字阅读平台，我们旗下有多款阅读APP，包括起点读书APP和QQ阅读APP，同时我们拥有1000多万部作品储备，还有770万名创作者和数亿的用户。

接下来进入今天的主题，谈谈我们如何把人工智能和内容运营进行结合。

“网文内容生产和运营是一个漫长的周期，通过智能可以撬动周期，加快提速”

一篇网文从生产到最终体现出它的价值，会经过很多步骤。第一步，作家会去写一些主题的网文；第二步，我们平台方需要去审核网文的内容是否合规；第三步，如果内容合规，且判定这个网文是有优势的，我们会进行签约，再把内容输出给读者，然后作者可以获得一些收益。内容在电子阅读市场获得一些收益后，还可以作为IP授权改编成影视、动漫或者游戏作品，获得一些额外收益，这叫做内容增值。

从整体的内容生命周期来看，这其实是一个非常漫长的一个过程。举个例子，在内容消费阶段，一篇文章写出来到完结，可能需要经历一年到两年的时间，再到它孵化出来IP可能需要3～5年的时间，周期很长。我们是希望通过智能去撬动整体的一个周期，去加快整体周期的一些提速，进而能够更快的去形成一些内容的变现，这块我们统一叫做阅文的内容大脑。

智能内容生成：下面介绍一下我们阅文内容大脑具体如何赋能这五个阶段。第一块是在作者的内容生成阶段，阅文内容大脑可以帮助作者做一些辅助的内容工作，比如一些前文回顾，还可以帮助预测内容趋势，譬如最近现实主义的戏很火，内容大脑可以推出来最近可能会比较火的现实主义网文。比如《战狼》出来后军旅片比较火，那军旅相关的IP可能就会很吃香，可以把这些趋势反馈给作者，让作者来写一些军旅类型题材的网文。

智能内容审核：第二方面在内容审核阶段，我们可以帮助内容审核做一些智能的反黄反黑涉政的识别，以前每篇文章都需要经过人工来审核，代价是比较大的，通过智能的手段可以帮助内容审核的效率提升。

帮助编辑识别优质内容：另外在编辑内容的签约上，我们在内容识别的时候可以更高效地识别一些低质书。以前编辑与作者签约之前，必须把全文两三百章的内容看完，工作量太大了，编辑们每天可能只能看一部作品，这样效率比较低，我们帮编辑去做一些智能低质识别的工作，通过文章的标签识别我们可以判断该文哪些标签是现在比较热门的，哪些标签是现在没有的，帮助我们更好地去判断这篇文章的一些内容。

智能推荐：内容签约结束后，我们就会推送给读者，让读者进行内容消费，这里还会用到内容智能分发、推荐、搜索等等一些提高内容分发效率的手段。通过内容大脑更好地理解内容后，就可以帮助推荐做更精准的内容分发。其中包括像推荐理由、导语、内容匹配度以及标签展示、感知增强等方面的建设。

帮助IP上下游加速理解内容实现内容增值：最后一个在阅文是比较特殊的，就是IP的内容，我们现在不仅仅是做网文，还需要网文做更多价值的泛化，如果说网文的价值是1， IP的价值可能是100，要从1做到100，我们需要去挑选哪些内容是值得我们去投入的，哪些内容是在未来有很大市场空间的。通过阅文内容大脑可以通过内容理解，帮助IP的上下游更快速地了解一篇网文的具体内容，它的架构、世界观是否值得改编，它的背景是否是宏大，预期发展规模如何。这些工作以前是每个IP上下游把全本书都简单看一遍，但很多网文都有上千章的章节，整体的效率其实是极低的。

所以我们阅文内容大脑，都是为了赋能整个内容流转效率而服务的。

阅文内容大脑技术架构

接下来再讲一下我们阅文内容大脑的整体架构。首先通过我们的AGC数据和UGC数据,AGC数据就是作者生产的数据。第二个就是UGC数据，比如在每篇内容下面，会有很多的评论，还有一些书单，书单是一个PGC数据。我们把所有数据给进行整合，形成一个基础的信息库，这一步是把数据变成信息的一个过程。

有了信息后，我们再做一些知识挖掘，知识挖掘采用了自然语言处理，包括实体的识别，它是讲人的？讲地点的？讲事件的？还是讲一个物体的等等。第二个是三元组的提取，三元组就是主谓宾，比如某某战胜了某某、或者某某把某某打死了等等。然后结合我们自己的行业知识，我们行业有很多新的输入，包括角色的一些关系，整体事件的脉络，整体世界观架构的设计等等，这些知识结合起来，形成阅文自己的一个知识图谱。基于这些知识图谱，我们在上层做一个知识的表示，就是把挖掘完的知识通过可视化的手段展现出来，特别是展现给编辑读者，因为底层的知识是看不出太多含义的，但是通过一些可视化手段，就可以很好地理解这个知识是代表什么东西。

第四步就是知识的一个应用。知识在挖掘出来以后，会再次产生出一些应用，赋能到业务端的一些内容生产、分发、消费和增值上面。

整体的阅文大脑架构就是这样，今天我会重点介绍内容理解这一方面。因为只有真正做到内容理解，我们才能对整篇网文内容做更好地了解。

第一步其实是词粒度，就是如何把一篇文章归纳到一个标签，归纳到一个词，能够让读者很快知道这篇文章讲的是什么故事。举个简单例子，看爽文，爽文就是它这篇文章节奏非常快，看了很爽，读者能够通过这种标签化很快就可以get到这篇文章大概是什么类型。

另外一个是句粒度，通过标签粒度我们只能得到具体的一个信号点，但是通过句粒度，我们可以输出一些跟这篇文章相关的一些情况，能够更好地在语意上面进行一些聚焦。

第三步是考虑网文这个比较特殊的场景而形成的长文粒度，现在业内所有的理解是基于短文粒度的，比如说新闻资讯，但是长文粒度是最近才开始进行一些研究。长文粒度和短文有很大的不同。比如像2000章左右的网文，他需要去提取每一个事件的脉络，去提取整体网文的人物关系。

最后一个是机器上面的隐向量粒度，就是通过我们前面识别的一些结果，是人可理解的标签也好，兴趣点也好，关键句也好，让机器自动去理解计算，把每一篇文章投影到高维向量里面，得到一些隐含的向量知识，直接供机器使用。

内容理解中的词粒度

然后讲一下词粒度化，我们其实整体梳理了网文中一些词的表示，第一块就是最上层，最上层其实是一个分类。这个分类是业内已经约定俗成了的，经过很长时间积累得到的一些具体的分类。

中层是我们在建设的一些标签，这种标签是从我们自己权威的边际角度出发，用标签描述一些内容，包括像穿越、鉴宝、悬疑、吐槽、学霸，校花等等，都是我们整体标签体系中的一些标签关键词。

最下层的标签量还要更大，上层分类大概是百级别数量的一个分类，中层标签是千级别的数量。泛化到下层，是万级别的兴趣点向量。举个例子，诸葛亮、孔明、貂蝉，这些都是有可能出现的一些兴趣点。包括篮球、足球、羽毛球等。

所有这些标签化可以做相互的对应关系。比如像下层的标签孔明，貂蝉，可以映射到中层标签的某一个历史朝代，然后再映射到上层，比如说历史的一些小说等等，他们都有一些关联关系。

内容理解中的句粒度

接下来讲一讲句粒度，通过一些简单的物料，比如说AGC物料和书单的UGC物料，去生成一个推荐语。推荐展示只有一个小豆腐块的位置，如何把网文丰富的内容浓缩展示在豆腐块里，这是一个有些技术难度的任务。

现在展示一般都展示简介，只是通过简介大部分人是看不懂这篇文章到底是讲什么东西的，所以我们通过AGC和UGC的一些数据提取了一些推荐语，推荐与生成的话主要是从我们AGC或者UGC数据里面去抽取，把语义比较强、表达能力比较好的一些句子抽取出来。

第二个是通过智能生成，通过翻译的手段去关联，把语义相近的一些词翻译过来，形成一些新的句子。通过这两个步骤来形成一个网文的推荐语的候选。然后再在下面做一层筛选，比如根据点击率做排序，再进行一些精细化的优选。

内容理解中的长文结构

接下来讲讲我们对长文结构的理解，第一条线是对于人物线的理解，第二条线是对事件线的理解。事件线方面我们需要准备一些候选三元组，就是什么人在什么地点做了什么样的事情，或者是对某人干了什么样的事情。然后在上层会做一个角色的识别，以及实体的对齐，把角色识别出来，是人还是一个物体，这个人是不是主角，和其余人是什么关系等。

第二步，基于角色的识别去抽取他们之间的关系。每章每句都去挖掘它的事件，然后再归纳起来，最后全文形成一个整体的事件脉络。

事件脉络还会引入一些用户行为的数据，因为用户只有在关键情节才会花大时间去阅读。

内容理解—隐含向量

第四个是内容的隐含向量，向量就是每一个内容都有很多的属性，包括兴趣点、作者、标签的属性，他们之间都可以构成一个图，如果在图中随机游走的话，可以得到一条条复合序列。通过学习这些生成序列中的近邻关系，得到每个节点的隐语义向量表示。

今天的分享就到这里，谢谢。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航