您的位置:首页 > 大数据 > 人工智能

科技解放生产力之语音转换文字

2017-08-16 09:57 363 查看
语音转写,顾名思义就是把语音转换成文本

在实际的应用场景中,可以是讲演转文稿,可以是在IM工具交流,等等等等

可以说,这项技术的出现,极大的解放了生产力,提高了工作、沟通效率

今天这里拿出一个实例,大家一起看一看在这个应用场景中语音转文本所带来的便利

对于记者朋友来说,一场发布会后整理出文字稿件永远是第一主题

在以前,他需要在现场录制音频,回到单位后一句一句听写,纯人工转写,随后再一次形成报道

那么现在,他可以在现场直接调用服务,实时把语音转换为文字。回到办公室,他可以根据文稿直接形成报道

也或者他依旧用录音笔录制了现场的录音,在回办公室的路上,他把音频文件通过软件转换到了文本稿件,同样的,回到办公室,他只需要根据文稿形成报道

了解了这样的案例,今天要介绍的主角就可以闪亮登场了

IBM Watson!

你可能以为它只是一个简单的语音转文本的服务(接口),其实,它是一个标准的计算机认知系统!

让我们把时间退回到2011年,当时有这样一则报道

“2011年,Watson 在美国最受欢迎的智力问答电视节目《危险边缘》(Jeopardy)中亮相,一举打败了人类智力竞赛冠军。如今,Watson 已经发展为一个商业化、基于云的认知系统,应用到各行各业中,逐渐让我们的生活变得更美好。”

在这样强大的基础之上,今天我们需要用到的是它的语音识别服务Speech to Text

首先作为一般使用者,大家可能最基础的使用环境就是刚刚案例中提到的那样,那么,IBM团队已经为大家提供了一个免费的可以立即使用的web端语言转文本程序

https://speech-to-text-demo.mybluemix.net/(如果你那边打不开,请用力!用力!我是说攀高儿过墙你懂的)



首先,大家可以看到输入音频的方式可以有两种,一个是调用设备的麦克风现场录制,一个是上传一个音频文件

在这里需要注意都是,上传的文件支持格式为.wav, .flac, .opus,这里说一句题外话,我们建议大家把本地录制的音频转码为opus格式,因为在低码率情况下,opus格式的音质会更强,这意味着你可以把你的音频文件压制的更加小巧而不会过多的损失音质更不会为此降低了IBM Watson的识别能力

其次大家在抓图中可能已经注意到,有一个识别模式的下拉选项,当前显示为英语。那么除了英语,让我们来看一下它还支持什么语言



清晰、一目了然,高亮选选择的就是大家的母语,普通话

那么我们可以试一下刚刚提到的两种录入方式,其中之一是上传已经录制好的音频文件



其次我们还可以直接实时录制语言转换为文字



这个语音转文本的简单演示大概就是这样。当然,作为开发者,你一定不满足于上边的演示demo,你可以免费注册Bluemix服务,在该服务中内嵌了Speech to Text 服务,你能够轻松的通过强大的接口和完整的文档来构建自己的应用,把Speech to Text部署到你自己的应用场景中

API Reference

Documentation

Fork on GitHub

好了,让我们憧憬一下未来,更加便捷更加强大的服务在不断的出现,今天的梦想,明天的日常。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息