Python文字(汉字)转语音https://zhuanlan.zhihu.com/p/26726297
2017-08-16 16:50
645 查看
知乎第一篇文章,本来想写一篇简单的单进程单线程爬虫教程的,可是知乎上这样的文章已经有很多了,而且写的好的挺多,我就不添堵了。下次有空的话写一篇多线程请求的爬虫教程。
这是一篇简单的Python文字(汉字)转语音教程,当然对于其他语言工具在实现的方法上也是一样的 。
在自然语言处理上,文字、音频互转是一个很关键的技术点。对于语音转文字,这个个人实现较为困难,我们可以使用语音转文字的软件或借助各API(如科大讯飞等)进行移植开发。不过文字转语音就相对而言容易实现很多了。
简言之, 汉字转语音实现就分为两步,第一步将汉字转为拼音,第二步通过拼音调用相匹配的音频文件。下面是具体的开发实例教程。
开发环境:Windows
Python版本:3.x
外置模块准备:pygame(可直接在cmd命令行中pip install pygame安装)
汉字转拼音
我使用的是将汉字转为Unicode码,然后通过查询一个匹配文件(我使用的是unicode_pinyin.txt)获取该汉字的拼音,该文件中列有从4E00-9FA5标准汉字的Unicode编码所对应的拼音,外加一个落单的3007编码的“〇”。
文件如下:
<img src="https://oscdn.geek-share.com/Uploads/Images/Content/202006/02/3b3b44b43fda73def90eaf6f75ba174d.png" data-rawwidth="577" data-rawheight="533" class="origin_image zh-lightbox-thumb" width="577" data-original="https://pic3.zhimg.com/v2-aef3bc434445a3bdbef7a80215a51062_r.png">
文件链接:http://pan.baidu.com/s/1i51IJUP
密码:fge1
在大写拼音英文后的1,2,3,4,5分别表示一,二,三,四和轻声(注意到存在有多音字)
我们将其封装成一个函数,参数为一个全是汉字的字符串,返回是一个拼音字符串。(即chinese_to_pinyin("秋水共长天一色") 返回的是"QIU1 SHUI3 GONG4 CHANG2 TIAN1 YI1 SE4 ")
源码如下:
说明:将该文件与"unicode_pinyin.txt"文件放在同一目录下,代码比较简陋,因为主要给大家讲实现教学,所以没有对多音字进行处理(所以默认使用第一个使用频率最高的音)
拼音转语音
这一步也比较简单,我们根据拼音调用相对应的单个音的音频文件即可。单个音的音频文件可以自己录或找人录,渠道有很多哦。注意文件格式,最好是mp3或wav文件。
部分文件展示如下:
<img src="https://oscdn.geek-share.com/Uploads/Images/Content/202006/02/c7c93b829958558a76bdc41371a472e5.png" data-rawwidth="134" data-rawheight="323" class="content_image" width="134"> 我们将其置入一个voice文件夹下。准备工作就做好了。
我们将其置入一个voice文件夹下。准备工作就做好了。
我们同样将汉字转语音封装成一个make_voice函数,参数为一个汉字字符串,然后调用chinese_to_pinyin函数,返回值不重要,可为空,功能实现是调用音频文件发音。
源码如下:
我们展示一下这个教学版的最后完整的代码图(该文件名为"test.py"):
教程文件的文件树结构:
实现原理就是这样,同时也可以视一些具体情况做一些拓展,例如将阿拉伯数字转汉字读法(即1234006.15读作“一百二十三万四千零六点一五”,这个实现不难),还有将多音字问题攻破也是很棒的。
当然只要想法够丰富用pygame的音频功能也能实现很多有趣的功能(如播放器制作或电子音乐简单创作等)。
我的表演完了,谢谢大家。如果这篇文章对您有帮助的话,请在收藏的同时一赞支持。光收藏不点赞的你们的良心不会痛吗
这是一篇简单的Python文字(汉字)转语音教程,当然对于其他语言工具在实现的方法上也是一样的 。
在自然语言处理上,文字、音频互转是一个很关键的技术点。对于语音转文字,这个个人实现较为困难,我们可以使用语音转文字的软件或借助各API(如科大讯飞等)进行移植开发。不过文字转语音就相对而言容易实现很多了。
简言之, 汉字转语音实现就分为两步,第一步将汉字转为拼音,第二步通过拼音调用相匹配的音频文件。下面是具体的开发实例教程。
开发环境:Windows
Python版本:3.x
外置模块准备:pygame(可直接在cmd命令行中pip install pygame安装)
汉字转拼音
我使用的是将汉字转为Unicode码,然后通过查询一个匹配文件(我使用的是unicode_pinyin.txt)获取该汉字的拼音,该文件中列有从4E00-9FA5标准汉字的Unicode编码所对应的拼音,外加一个落单的3007编码的“〇”。
文件如下:
<img src="https://oscdn.geek-share.com/Uploads/Images/Content/202006/02/3b3b44b43fda73def90eaf6f75ba174d.png" data-rawwidth="577" data-rawheight="533" class="origin_image zh-lightbox-thumb" width="577" data-original="https://pic3.zhimg.com/v2-aef3bc434445a3bdbef7a80215a51062_r.png">
文件链接:http://pan.baidu.com/s/1i51IJUP
密码:fge1
在大写拼音英文后的1,2,3,4,5分别表示一,二,三,四和轻声(注意到存在有多音字)
我们将其封装成一个函数,参数为一个全是汉字的字符串,返回是一个拼音字符串。(即chinese_to_pinyin("秋水共长天一色") 返回的是"QIU1 SHUI3 GONG4 CHANG2 TIAN1 YI1 SE4 ")
源码如下:
def chinese_to_pinyin(x): y = '' dic = {} with open("unicode_pinyin.txt") as f: for i in f.readlines(): dic[i.split()[0]] = i.split()[1] for i in x: i = str(i.encode('unicode_escape'))[-5:-1].upper() try: y += dic[i] + ' ' except: y += 'XXXX ' #非法字符我们用XXXX代替 return y
说明:将该文件与"unicode_pinyin.txt"文件放在同一目录下,代码比较简陋,因为主要给大家讲实现教学,所以没有对多音字进行处理(所以默认使用第一个使用频率最高的音)
拼音转语音
这一步也比较简单,我们根据拼音调用相对应的单个音的音频文件即可。单个音的音频文件可以自己录或找人录,渠道有很多哦。注意文件格式,最好是mp3或wav文件。
部分文件展示如下:
<img src="https://oscdn.geek-share.com/Uploads/Images/Content/202006/02/c7c93b829958558a76bdc41371a472e5.png" data-rawwidth="134" data-rawheight="323" class="content_image" width="134"> 我们将其置入一个voice文件夹下。准备工作就做好了。
我们将其置入一个voice文件夹下。准备工作就做好了。
我们同样将汉字转语音封装成一个make_voice函数,参数为一个汉字字符串,然后调用chinese_to_pinyin函数,返回值不重要,可为空,功能实现是调用音频文件发音。
源码如下:
import pygame def make_voice(x): pygame.mixer.init() voi = chinese_to_pinyin(x).split() for i in voi: if i == 'XXXX': #处理'XXXX'的音,可将其忽略 continue pygame.mixer.music.load("voice/" + i + ".mp3") pygame.mixer.music.play() while pygame.mixer.music.get_busy() == True: pass return None
我们展示一下这个教学版的最后完整的代码图(该文件名为"test.py"):
import pygame def chinese_to_pinyin(x): y = '' dic = {} with open("unicode_pinyin.txt") as f: for i in f.readlines(): dic[i.split()[0]] = i.split()[1] for i in x: i = str(i.encode('unicode_escape'))[-5:-1].upper() try: y += dic[i] + ' ' except: y += 'XXXX ' return y def make_voice(x): pygame.mixer.init() voi = chinese_to_pinyin(x).split() for i in voi: if i == 'XXXX': continue pygame.mixer.music.load("voice/" + i + ".mp3") pygame.mixer.music.play() while pygame.mixer.music.get_busy() == True: pass return None while True: p = input("请输入文字:") make_vioce(p)
教程文件的文件树结构:
test.py unicode_pinyin.txt voice----A1.mp3 A2.mp3 A3.mp3 ...
实现原理就是这样,同时也可以视一些具体情况做一些拓展,例如将阿拉伯数字转汉字读法(即1234006.15读作“一百二十三万四千零六点一五”,这个实现不难),还有将多音字问题攻破也是很棒的。
当然只要想法够丰富用pygame的音频功能也能实现很多有趣的功能(如播放器制作或电子音乐简单创作等)。
我的表演完了,谢谢大家。如果这篇文章对您有帮助的话,请在收藏的同时一赞支持。光收藏不点赞的你们的良心不会痛吗
相关文章推荐
- 汉字转拼音 文字转语音tts(语音识别)
- python | gtts 将文字转化为语音内容
- Python输出汉字字库及将文字转换为图片的方法
- Python生成汉字字库文字,以及转换为文字图片
- Python 通过 百度 rest 进行 语音翻译成中文文字。
- Python输出汉字字库及将文字转换为图片的方法
- Python文字转换为语音
- 利用Python获得一段给定文字的宽度和高度
- 为了用python计算一个汉字的中心点,差点没绞尽脑汁活活累死
- 二、我的emacs配置--适用c/c++和python开发(https://github.com/pein0119/emacs.d)
- Python 利用pytesser模块识别图像文字
- TLS,SSL,HTTPS with Python
- Python在windows命令行下输出彩色文字
- python 汉字转拼音 实例
- Python调用基于https协议的WebService
- 语音合成技术,助你把文字变成声音
- https(ssl)连接之python实现
- Elementary Matrix Operations In Python https://github.com/vibrationtoolbox/vibration_toolbox
- 用python抓取数据及画图(用python处理文字数据)