您的位置:首页 > 运维架构 > 网站架构

世界最大色情网站Pornhub使用AI识别AV,鉴黄师要下岗了!

2017-10-20 00:00 1591 查看
总部位于加拿大的“Pornhub”是一个免费色情网站,在美国英国都有分公司,是世界三大色情网站之一。

他们根据访客在线时长,制作了一張“谁最持久”的世界地图。大部分的国家观看色情影片的时间在7~10分钟之间,包括美国、欧洲、澳大利亚等等,非洲国家时间偏长,大多超过11分钟。

最奇妙的是中国大陆,统计数据显示,大陆人平均观看色情影片时间最长,平均14分钟左右。




上图来自人民网

[b][b][b][b][b][b][b][b][b]▍[/b][/b][/b][/b][/b][/b][/b][/b][/b]Pornhub

前几天,成人色情网站Pornhub宣布,将基于面部识别技术来自动识别网站中的AV视频。在接下来的一年,该公司计划识别其视频库中所有500万个视频,并对视频进行高级分类:如场景(私人或公共场所)、女演员发色等。

新的AI系统让用户手动给视频打标签。下图显示了Pornhub的机器学习模型工作步骤:



1.从数千张图片中获得某色情明星的相关数据;

2.去除不正确的数据及模糊图像;
3.训练机器学习模型;
4.在包含数百万视频的视频库上训练模型;
5.使用反馈循环优化模型(回到第3步)。

每天访问量达8千万,上传10000个成人短片,给Pornhub造成巨大的工作压力。

Pornhub副总裁CoreyPrice说到开发该机器学习模型的初衷:“我们希望为粉丝们提供他们想要的东西,我们的新模型将能够为他们搜索到更准确的结果。”

[b][b][b][b][b][b][b][b][b]▍[/b][/b][/b][/b][/b][/b][/b][/b][/b]AI如何鉴黄

目前,尚在测试阶段的Pornhub模型一个月内只扫描了大约5万个视频。以这个速度,扫描整个网站将需要近十年的时间,但还有优化的空间。



目前,各视频及直播平台的大流量促进了对“鉴黄”的需求,但使用人力鉴黄的成本高昂,且性价比低。据了解,直播平台映客曾经聘用800多人进行7*24小时的内容审核,占用了7000平米的审核基地。但事实上,直播的违规比例仅占0.04%甚至更低。

相比之下,AI审核则大大节约了时间和资金。全球各大科技公司也在积极投入使用AI审核违规内容:

Facebook正在开发一项新的系统工具,可以在直播视频中对违规内容进行自动标记;雅虎也对外开源了一套深度学习神经网络,专门用于自动检测图片是否含有色情内容;

国内的腾讯、阿里、百度、网易等多家公司,都已开始布局AI鉴黄这一具有潜力的产业。

插一句:当年中科院计算所有一个组在做这方面的国家项目,黄色内容识别。人家都是去国外采购影片和轮子的东东回来做训练数据的......

随着人工标注的数据越来越多,鉴黄的手段也越加丰富。目前常见的识别方法有:

机器学习+MD5识别:构建数据训练一个机器学习模型,识别视频图像的特征+文件名文本特征+文件格式,大小等特征;

识别动作:图像识别人物行为一直是一个难点,因为特定图片/视频中的人物、场景复杂多变,目前的困难是训练数据不足。不过,Google在今天发布了一个AVA人类动作识别数据集,绝佳助攻。(请看小鸡今天推送的第三条);

数据识别:比如Facebook的点赞、评论数,直播产品的送礼数、在线人数。

[b][b][b][b][b][b][b][b][b]▍[/b][/b][/b][/b][/b][/b][/b][/b][/b]中国并不落后



百度云的解决方案

百度云利用业界领先的深度学习技术,判断一张图片的涉黄程度,分别给出色情、性感、正常三个置信度分值,用户可以根据业务需要利用置信度分值对违规图像进行自动过滤,及时避免产品涉黄风险,大幅降低审核人力成本。



视频审核:通过对视频、直播等多媒体抽帧检测,可以快速高效检测出不雅视频,快速杜绝产品涉黄风险

图片审核:可对用户上传的图片进行审核,避免用户上传色情等不雅图片,确保产品内容质量可控

另外,来自兰州大学的余伟也曾发布论文—《基于图上半监督学习的色情视频识别算法》
 
摘要
——

本文针对以往算法,在色情视频检测时不能准确提取出镜头内完整前景区域的问题,提出了一种基于图上半监督学习的色情视频识别算法。

该算法借助视频中帧与帧之间在时间上表现出的连续性,准确的提取出视频中完整的前景区域,再对前景区域进行肤色和隐私部位检测以对该视频做出识别。该算法能够有效地避免接近肤色背景的干扰,提高视频中不良内容检测的准确率。

本算法包括以下步骤:

首先,对视频进行镜头分割,获取镜头内的关键帧。将关键帧和它相邻的前后多帧图像进行帧间差分,对差分的多帧图像进行合并,提取出部分的运动前景区域。

然后,以提取的部分运动前景区域作为获取真实前景区域的先验信息,采用基于图上半监督学习算法(线性邻域传播)提取出完整的前景区域。

最后,建立肤色模型,分割出完整前景区域中的肤色区域,通过对肤色区域的色情内容检测识别出关键帧所属类别,借助关键帧的检测结果判断视频的类别。通过实验发现,该算法在不良视频检测中表现出较好的鲁棒性,检测准确率能够达到90%以上,能够有效的检测和阻断网络中传输的不良视频内容。





Paper:http://suo.im/4i4ZKt

 

[b][b]★推荐阅读[b]★[/b][/b][/b]
DeepMind发布千年以来最强围棋选手

MIT女教授使用AI检测早期乳腺癌准确率97%

拍人更美!谷歌工程师揭秘Pixel
2手机黑科技


华为新品手机发布会全程回顾

超级计算机图像识别率达人类医生水平

一文读懂语音识别史

打造百度AI大脑的80后科学家

斯坦福发布3D街景数据集

谷歌重磅发布43页Waymo无人车报告

长期招聘志愿者
加入「AI从业者社群」请备注个人信息
添加小鸡微信  liulailiuwang

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: