基于百度AI的文字转语音助手(Unity版)开发进度
前段时间一直忙别的事儿去了,这个项目压了好久。
挖坑篇请见:( http://www.smartcrane.club/2018/09/11/TTS.html )
当时做了一个“极简版”的(其实是在百度API的Demo的基础上改了改而已),只有一个按钮,把语音合成和保存的功能都挤到一个函数里实现了。反正是自己用,也没那么讲究了,功能过的去就好了。
但是用着用着,问题就出来了,这玩意儿生成语音,必须得前一个语音读完,后一个语音才能开始弄,有时候做一段长一点的语音,光等他读完就得几分钟,我哪儿有这闲功夫啊;还有就是它语音保存的位置是它默认的资源文件夹中,文件名也是写死的,导致每次生成一个音频,都要翻好久的路径找到它,然后把它拷贝出来或者重命名,否则会被下一段语音覆盖,等等。
基于此,我重新设计了一下软件的布局,将“转为语音”功能拆分成两个小功能,试听和保存,前者仅播放语音,查看效果,后者仅保存音频,提高效率;添加了“选择文件夹”和“打开文件夹”两个按钮,用来自定义保存路径,以及便捷的打开文件存放路径。此外,还开放了一些语音合成的参数,如RDN,SPD,VOL,以及发音人等。
这是最初的设计图。
好的,回过头来,讲一讲最近的进度。
今天手头项目刚完结,一看时间下午也没多长时间了,索性把它拿出来完善完善。
这是我半个下午的成果,先看看实现了哪些功能:
- “试听”按钮点击之后,会合成并播放语音。有“合成中…”和“播放中…”两个状态,播放完毕之后才能再次点击。
- “生成音频”按钮点击之后,会合成并保存音频文件,音频文件命名为【Voice-时间戳】,避免了文件重名覆盖的情况。
- “打开文件夹”按钮点击之后,会打开文件所在的文件夹。
- 右侧文本区域,本来想做发音人选择的,后来发现其实没必要(一个下拉框就能解决的事情),不如就放软件日志吧,正好可以监测软件运行情况。
还有些功能暂时没做,比如那三个参数的设定(没错它是假的,现在存在的意义只是展示目前系统的参数是多少,修改无效),而且这个我也在考虑,如果没有修改必要的话或许下个版本就直接去掉得了;再比如选择文件夹按钮,目前我觉得优先级没那么高,如果功能真有必要的话,放下个版本里实现好了。
这就是我的这个项目的进展。(下次填坑又不知道什么时候了……)
这是软件exe的链接,有需要的话拿去玩一玩,提点意见哈。
链接:https://pan.baidu.com/s/189KWsVl2Ccxb28CD3YIxHQ 密码:8txg
阅读更多- Python基于百度AI的文字识别的示例
- 基于百度AI的文字识别-Python
- 【Unity游戏开发之十一】基于NGUI的表情图文混排解决方案
- 关于游戏开发,如何开发一款游戏(基于unity)
- javaCV开发详解之4:转流器实现(也可作为本地收流器、推流器,新增添加图片及文字水印,视频图像帧保存),实现rtsp/rtmp/本地文件转发到rtmp流媒体服务器(基于javaCV-FFMPEG)
- iOS开发之语音朗读文字
- Unity利用Sapi进行windows语音开发
- 语音识别开发---基于科大讯飞开放平台
- 有了开发板和平台资源,AI语音技能开发没有想象那么难
- iOS开发中的基于CAShapeLayer和贝塞尔曲线的圆形进度条动画
- iOS开发技巧(语音播报文字内容)
- 开源:百度、搜狗 文字合成语音(在线版)
- 基于科大讯飞语音云windows平台开发
- 【基于百度AI的人脸识别Python实现】
- (转)基于 WPF + Modern UI 的 公司OA小助手 开发总结
- [AI开发]centOS7.5上基于keras/tensorflow深度学习环境搭建
- mui中的本地语音转文字,而不用讯飞的,使用百度的。
- 《游戏设计、原型与开发——基于Unity与C#从构思到实现》学习笔记一
- 基于Kinect for Windows SDK beta开发语音命令,实现语音控制游戏