AI辅助,数据标注行业发展的新引擎丨曼孚科技
人工智能是研究如何通过机器来模拟人类认知能力的科学,目前人工智能应用最广泛的计算机视觉与语音交互依赖于监督学习下的深度学习方式,而监督学习下的深度学习算法训练则十分依赖人工标注数据。
相关数据显示,目前一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练,新功能的开发需要近万张标注图片训练,而定期优化算法也有上千张图片的需求。
这些海量训练数据集的背后是无数标注员共同努力的成果,正如著名科幻作家刘慈欣所言,“现在的人工智能,前面有多少智能后面就有多少人工。”
不过,随着人工智能落地进程的加快,这种过于依赖人力的方式也暴露出很多弊端。
首先,AI商业化对数据标注行业提出了新的要求,想要更加契合落地需求、解决垂直场景具体痛点,还需要海量且优质的标注数据做支撑,这在无形中增加了数据服务供应商的管理以及人力成本。
此外,数据需求量的提升对服务商的交付能力也提出了新的要求,容易造成项目延期等连锁反应。
为了解决这些问题,通过在数据标注以及质检的环节中应用AI辅助,进行人机协作,可以有效提高标注效率,充分发挥AI对于数据标注行业的反哺作用。
1.AI预标注
在语音转写类标注项目中,数据标注员需要仔细聆听每一个词语的发音,判断并转写其语义,这对于标注员的听写能力以及在长时间多任务下的专注力有着极高要求。
通过在此环节应用AI辅助,对语音数据进行语音识别、文字转写和自然语言理解的预处理操作,自动完成标注后,再由人工进行校对,不仅降低了标注难度还可以有效提高标注效率。
以曼孚科技语音标注工具为例,预标注技术加持下,标注工具会自动识别转写语音数据,标注员只需要在预标注的结果上略作修改即可,相比于传统转写操作,AI辅助可以成倍提高标注效率,实现更少的人力完成更多的项目。
2.AI质检
一个完整的标注流程,需要经历标注-审核-质检等多个流程,其中质检在标注的过程中发挥着查缺补漏、提高整体标注质量的关键性作用。
目前,数据质检主要以人工质检为主,通过抽查的方式发现标注数据集中的重复样本和不合格样本。然而,人工抽查的方式校验,在准确率和时效性方面都大有不足,很容易忽视错误样本,遍查的方式在成本上又难以接受。
通过在质检过程中引入AI辅助可以有效解决这些问题。相比于人力质检,机器质检无论是在效率还是执行力上都更具优势,且可以做到覆盖全部数据,有效发现各种问题,提高数据质量。
经过曼孚科技的实际测试,相比于传统的人力抽检,AI辅助质检平均可以提升5%以上的数据准确率。
目前,标注与质检是AI辅助应用效果最好的两个环节,未来在标注方案创立到交付的全工作流过程中,都可以引入AI辅助,充分发挥AI对于数据标注行业的反哺作用,实现效率与质量的双重提升。
- AI数据标注行业面临的5大发展困局丨曼孚科技
- 数据标注在AI教育领域中的具体应用丨曼孚科技
- 大数据24小时:人工智能国家队云从科技获25亿元发展资金,上海将打造过千亿AI重点产业
- 数据存储行业的未来发展方向和趋势
- 《2017中国大数据及AI人才发展报告》均薪38万,招聘猛增6倍
- 蚂蚁金服首席数据科学家漆远:AI发展,“群体智能”是关键
- 2016年我国能源行业大数据的发展现状及市场分析
- 吴恩达新演讲:AI正改变行业格局,公司的壁垒非算法而是数据
- [大数据行业应用发展前景分析] 阿里潘永花报告:大数据产业将成为新的煤和石油介绍
- 大数据行业,发展现状及前景分析!
- 阿里小Ai之父解析阿里大数据在新兴行业的应用
- 数据是企业和社会发展的重要动力,AI从边缘发展到主流,未来十年信息技术将带来巨大“红利” | 大咖周语录
- 数据标注在无人机领域中的具体应用丨曼孚科技
- 拂去了泡沫之后的大数据和AI现在发展得如何呢?
- 从数据标注师看AI技术深度应用
- AI产品经理之数据标注
- 数据标注,自动驾驶汽车的新“引擎”丨曼孚科技
- 20年度最扎心数据:AI薪资碾压全行业!但人才缺口超500万…企业:无人可用!
- 中国大数据行业发展趋势
- 从Hadoop Summit 2016看大数据行业与Hadoop的发展