使用Olami SDK实现一个语音输入数字进行24点计算的iOS程序
2017-05-10 17:36
579 查看
前言
在目前的软件应用中,输入方式还是以文字输入方式为主,但是语音输入的方式目前应用的越来越广泛。这是一个利用 Olami SDK 编写的一个24点iOS程序,是通过语音进行输入。Olami SDK的介绍在下面这个网址
https://cn.olami.ai/wiki/?mp=sdk&content=sdk/ios/reference.html
在这个网址中详细的介绍了Olami SDK包含了那些函数和定义的委托。
App实现
下面就通过24点这个程序来介绍一下如何使用这个SDK。这个APP可在 https://github.com/lym-ay/OlamiRecognizerMath24 下载
去上面的网址下载Olami SDK.包括两个文件,其中的一个是Olami的静态函数库,一个是其头文件
第一步是初始化Olami的语音识别对象,并设置代理
olamiRecognizer= [[OlamiRecognizer alloc] init]; olamiRecognizer.delegate = self;
2.调用setAuthorization函数进行授权
[olamiRecognizer setAuthorization:@"d13bbcbef2a4460dbf19ced850eb5d83" api:@"asr" appSecret:@"3b08b349c0924a79869153bea334dd86" cusid:OLACUSID];
这个函数的参数的说明在OlamiRecognizer中有说明,也可以去在线API说明去查看
https://cn.olami.ai/wiki/?mp=sdk&content=sdk/ios/reference.html
有些参数必须去Olami的开发平台上注册才可以获的,网址是https://olami.ai,注册登陆以后创建应用才可以看到了
3.设置语系
[olamiRecognizer setLocalization:LANGUAGE_SIMPLIFIED_CHINESE];
在进行录音之前必须要先进行设置,否则会得不到结果。目前只支持简体中文(LANGUAGE_SIMPLIFIED_CHINESE)
4.开始录音
调用 start()接口开始进行录音
[olamiRecognizer start];
5.得到录音的文字和语义,并对其进行处理
通过调用stop()函数或者自动停止,都会获得录音的文字和对其进行的语义分析的结果
实现OlamiRecognizerDelegate onResult函数可以获得结果,其结果以一个json字符串的形式回调过来,对这个字符串进行解析,就可以获得想要的数字。例如对着话筒说”2345算24点”,得到的结果如下
{ "data": { "asr": { "result": "二 三 四 五 算 二 十 四 点", "speech_status": 0, "final": true, "status": 0 }, "nli": [ { "desc_obj": { "status": 0 }, "semantic": [ { "app": "math24", "input": "二三四五算二十四点", "slots": [ { "num_detail": { "recommend_value": "", "type": "number" }, "name": "number3", "value": "4" }, { "num_detail": { "recommend_value": "", "type": "number" }, "name": "number4", "value": "5" }, { "num_detail": { "recommend_value": "", "type": "number" }, "name": "number1", "value": "2" }, { "num_detail": { "recommend_value": "", "type": "number" }, "name": "number2", "value": "3" } ], "modifier": [ "play_calculate" ], "customer": "58df685e84ae11f0bb7b4893" } ], "type": "math24" } ] }, "status": "ok" }
这个是根据OSL语法描述语言定义的一套规则,返回的结果。这个结果的说明在 https://cn.olami.ai/wiki/?mp=api_nlu&content=api_nlu3.html 这个网址上有说明。
看到这里大家可能会有疑惑,APP怎么知道我说的是什么意思呢?这就涉及到了OSL语法描述语言,OLAMI 语法描述语言(OLAMI Syntax Language,简称:OSL)是 OLAMI 平台针对自然语言处理所发展出的独特语法标记语言,自然语言语义互动(Natural Language Interaction, 简称:NLI)管理系统采用 OSL 取代复杂的编码编程,使用简单、容易学习而且灵活有弹性。可以在这个网址查看详细的说明
https://cn.olami.ai/wiki/?mp=osl&content=osl1.html
在编写这个APP之前,会按照OSL的要求编写好一套语法,这套语法可以被Olami的服务器所理解,并进行语义分析然后给出结果,就是上面的json字符串。在Olami官网上有写好的一些领域的模块,可以直接使用。在 https://cn.olami.ai/wiki/?mp=nli&content=nli1.html 网址可以看到介绍如何使用以后的模块。这个24点就是利用已有的模块来编写代码的。
6.创建应用,设置和导入grammar
首先去olami的主页去登陆和注册。登陆以后转到这页面
在这个页面可以看到我的应用 math24,还可以查看key
当然这个页面必须创建应用以后才有,点击“创建新应用”,转到下面这个页面
填写 应用名称,应用描述,应用介绍以后,就可以创建了。回到上一个页面,就可以看到创建的应用了。
点击”进入NLI系统”就可以进入模块页面
在官网已经内置了很多领域的grammar.在模块页面大家点击“导入”按钮,查看已有领域的模块
选择一个要使用的,例如我要导入”math24”这个模块,先选择它,点击“导入” 按钮
然后进入 math24模块,就可以看到例句
但是这个时候还是不能使用,需要先进行发布。点击页面上方的”发布”按钮,进入发布页面
点击“发布”按钮
发布成功,现在就可以使用24模块了。
Olami还提供了测试grammar的功能,点击“测试”按钮,可以在页面进行测试,而不必要先开发APP
最后还要回到“我的应用”界面,点击”配置NLI模块”按钮,让自己创建的应用和模块关联起来
7.onResult 函数的说明
在整个程序中,最主要的一个函数就是onResult函数
- (void)onResult:(NSData *)result { NSError *error; __weak typeof(self) weakSelf = self; NSDictionary *dic = [NSJSONSerialization JSONObjectWithData:result options:NSJSONReadingMutableContainers error:&error]; if (error) { NSLog(@"error is %@",error.localizedDescription); }else{ NSString *jsonStr=[[NSString alloc]initWithData:result encoding:NSUTF8StringEncoding]; NSLog(@"jsonStr is %@",jsonStr); NSString *ok = [dic objectForKey:@"status"]; if ([ok isEqualToString:@"ok"]) { NSDictionary *dicData = [dic objectForKey:@"data"]; NSDictionary *asr = [dicData objectForKey:@"asr"]; if (asr) {//如果asr不为空,说明目前是语音输入 [weakSelf processASR:asr]; } NSDictionary *nli = [[dicData objectForKey:@"nli"] objectAtIndex:0]; NSDictionary *desc = [nli objectForKey:@"desc_obj"]; int status = [[desc objectForKey:@"status"] intValue]; if (status != 0) {// 0 说明状态正常,非零为状态不正常 NSString *result = [desc objectForKey:@"result"]; dispatch_async(dispatch_get_main_queue(), ^{ _resultTextView.text = result; }); }else{ NSDictionary *semantic = [[nli objectForKey:@"semantic"] objectAtIndex:0]; [weakSelf processSemantic:semantic]; } }else{ dispatch_async(dispatch_get_main_queue(), ^{ _resultTextView.text = @"请说出10以内的4个数"; }); } } }
这个函数就是对传过来的结果进行处理
在这个函数中,调用了三个函数,分别来处理josn格式中的三个比较重要的节点
- (void)processASR:(NSDictionary*)asrDic { NSString *result = [asrDic objectForKey:@"result"]; if (result.length == 0) { //如果结果为空,则弹出警告框 UIAlertController *alertController = [UIAlertController alertControllerWithTitle:@"没有接受到语音,请重新输入!" message:nil preferredStyle:UIAlertControllerStyleAlert]; [self presentViewController:alertController animated:YES completion:^{ dispatch_time_t time=dispatch_time(DISPATCH_TIME_NOW, 1*NSEC_PER_SEC); dispatch_after(time, dispatch_get_main_queue(), ^{ [alertController dismissViewControllerAnimated:YES completion:nil]; }); }]; }else{ dispatch_async(dispatch_get_main_queue(), ^{ NSString *str = [result stringByReplacingOccurrencesOfString:@" " withString:@""];//去掉字符中间的空格 _inputTextView.text = str; }); } }
这个用来处理ASR节点,获得语音识别的结果,如果没有结果,则弹出一个对话框进行提示。ASR识别的文字显示在第一个TextView中
- (void)processSemantic:(NSDictionary*)semanticDic { NSArray *slot = [semanticDic objectForKey:@"slots"]; [_slotValue removeAllObjects]; if (slot.count != 0) { for (NSDictionary *dic in slot) { NSString* val = [dic objectForKey:@"value"]; [_slotValue addObject:val]; } } NSArray *modify = [semanticDic objectForKey:@"modifier"]; if (modify.count != 0) { for (NSString *s in modify) { [self processModify:s]; } } }
这个用来处理Semantic节点,这个节点中包含了slot的值和modifier的值。OSL 语法描述语言中的 slot 可理解为语义中的变量,用于传递、提取信息,是代码处理的数据的来源。对于24点这个程序来说,就是进行计算的4的数的来源。关于slot的值可以参考 https://cn.olami.ai/wiki/?mp=osl&content=osl_slot.html,这里有详细说明。在24点程序中我们的要计算的数字就是从这里获得的。
- (void)processModify:(NSString*) str { if ([str isEqualToString:@"play_want"] || [str isEqualToString:@"play_want_ask"] || [str isEqualToString:@"needmore"] || [str isEqualToString:@"needmore_ask"]) {//要求用户输入值 dispatch_async(dispatch_get_main_queue(), ^{ _resultTextView.text = @"请说出10以内的4个数"; }); }else if ([str isEqualToString:@"rules"]){ dispatch_async(dispatch_get_main_queue(), ^{ _resultTextView.text = @"四个数字运算结果等于二十四"; }); }else if ([str isEqualToString:@"play_calculate"]){ NSString* str = [[Math24 shareInstance] calculate:_slotValue]; dispatch_async(dispatch_get_main_queue(), ^{ _resultTextView.text = str; }); }else if ([str isEqualToString:@"attention"]){ dispatch_async(dispatch_get_main_queue(), ^{ _resultTextView.text = @"四个数字必须是10以内的,不能超过10"; }); } }
这个用来处理语音和语义的结果。这个函数主要是处理json字符串中的modifier节点。modifier 语法描述规则是 OSL 语法描述语言中,除了 slot 以外的另一种内置的信息传递机制,一般用来表示语义目的,也可以理解为对于语义的一种注释方式,以便让应用程序的开发者得知 grammar 所代表的相应意图。详细说明参考
https://cn.olami.ai/wiki/?mp=osl&content=osl_regex.html#11,通过modifier,我们才能知道程序的意图是什么?例如是想发问,还是计算结果。
如上代码所示,在24点钟我们定义了7个modifier,根据字面意思大家也可以猜出来。这些都可以在OSL语法中自定义,然后通过Josn字符串获得,在程序中进行处理。这个是我们程序进行处理的一个判断机制。
下载资源
可以在csdn下载频道下载http://download.csdn.net/detail/dfman1978/9840447
github
https://github.com/lym-ay/OlamiRecognizerMath24
另外这里还有几篇使用Olami SDK开发程序的文章
这个是一个听书的程序
http://blog.csdn.net/ls0609/article/details/71519203
这个是一个关于天气的程序
http://blog.csdn.net/zhangxy0605/article/details/71601604
这是一个根据OLAMI平台开发的日历demo
http://blog.csdn.net/xinfinityx/article/details/72840977
相关文章推荐
- 使用Olami SDK实现一个语音输入数字进行24点计算的iOS程序
- 使用Olami sdk实现一个语音查询股票的iOS程序
- 使用Olami SDK 语音控制一个支持HomeKit的智能家居的iOS程序
- 使用Olami SDK 语音控制一个支持HomeKit的智能家居的iOS程序
- 编写一个程序,要求用户输入最多10个高尔夫成绩,并将其存储在一个数组中。 程序允许用户提早结束输入,并在一行上显示所有成绩,然后报告平均成绩。 请使用3个数组处理函数来分别进行输入、显示和计算
- 华为计算字符个数写出一个程序,接受一个有字母和数字以及空格组成的字符串,和一个字符,然后输出输入字符串中含有该字符的个数。不区分大小写。
- 通过编写递归函数,编写c程序从键盘中输入一个数字和计算符号,算出该数字的和或者是积
- 3.第三单元任务二实训:使用作业提交系统提交Java作业时 ,需要输入Java源代码文件名和自己的邮箱,提交前对Java文件名以及邮箱进行有效检查。编写程序实现对输入的Java源文件名以及邮箱有效性的
- 编写一个程序,定义一个职工类,输入3个职工的编号、姓名、工资和年龄, 类中的成员函数实现输入、输出,在主函数中定义对象,并计算输出3个职工的平均工资。
- java 编写程序实现从控制台接收一个 5 位以上的整数,使用数组来判断该数字 * 是否是回文数。(例如:789987,12344321是回文数)
- 使用c语言编写程序,从键盘上任意输入两个数字,并计算出两个数的最小公倍数
- 编写一个计算某个月份的天数程序,请用if-else条件语句实现。要求根据用户输入的月份,判断出月份所包含的天数。
- 使用递归实现DigitSum()函数,输入一个非负整数,返回组成它的数字之和
- 在进行C#编程时候,有的时候我们需要判断一个字符串是否是数字字符串,我们可以通过以下两种方法来实现。 【方法一】:使用 try{} catch{} 语句。 我们可以在try语句块中试图
- 汇编语言: 从键盘上输入一串字符(用回车键结束,使用 10 号功能调用。)放在 STRING 中,试 编制一个程序测试字符串中是否存在数字。如有,则把 CL 的第 5 位置 1,否则将该位置置 0。
- Java输入一个数字跟次数进行拼接方法(可计算结果),输出2+22+222+2222.........
- IOS中通过给NSString分类实现计算一个字符串中的阿拉伯数字出现的个数
- iOS UITextField、UITextView只限输入中文、英文、数字及实时限制字符个数的封装实现代码
- 输入一个整数数组,实现一个函数来调整该数组中数字的顺序,使得所有的奇数位于数组的前半部分,所有的偶数位于位于数组的后半部分,并保证奇数和奇数,偶数和偶数之间的相对位置不变。
- 对练习7进行修改,让它使用一个函数来返回计算值