您的位置:首页 > 编程语言

扬我国威,来自清华的开源项目火爆Github

2021-12-18 16:34 381 查看

前几天TJ君跟大家分享了几个有趣的Github项目(加密解密、食谱、新冠序列,各种有趣的开源项目Github上都有),其中呢,有不少是来自斯坦福大学的项目,当时TJ君就不由得想,什么时候能看到的项目都是我天朝名校,例如清华北大的出品呢?

没想到打脸是来的这么快,马上就有小伙伴跟TJ君推荐了一款由清华出品的开源项目,让TJ君和大家分享分享,话不多说,上菜!

万词王,就是清华大学最近在GitHub上开源的全球首个支持中文及跨语言查询的开源在线反向词典

是不是听上去特别高大上?

但肯定很多小伙伴自豪的同时脑海中浮现出一个问题,什么是反向词典?

TJ君简单跟大家解释下,一般我们常用的字典,是通过输入某个单词,来查找单词的含义,例如,你去查顶呱呱,解释就是最好:

那么如果你想表达最好的意思,却一下子忘记了顶呱呱的说法,这可怎么办呀?反向词典就是派这个用途,让你反向通过解释查到你想表达的词语!

清华大学的万词王就是利用之前其发布的论文中提到的多通道反向词典模型:Multi-channel Reverse Dictionary Model训练达到这个效果,很多人可能对此不以为然,但要知道医学上可是专门有个症状叫做 “舌尖现象”(tip-of-the-tongue,又称话到嘴边说不出来),反向词典正好可以解决这个问题。

尤其是对于现在的年轻人来说,电子设备的发展让大家接触传统书本、书写汉字的机会越来越少,往往有时候话到嘴边说不出来。

反向字典支持汉语、汉英、英汉、英语,四种不同的形式:

我们以中文为例来看下,比如TJ君想搜索一个跟妩媚有关的词汇,搜索结果是这样的:

看到这么多查询结果,首先TJ君的第一感觉就是觉得自己词汇的匮乏,同时万词王在搜索的结果上还允许用户进行字数、笔画、词性、拼音、词型、韵脚、相关性的进一步高级搜索,方便小伙伴找到最适合自己想表达意思的词语,不得不对清华的这个项目翘个大指拇点个赞。

万词王的数据基础取自中华新华字典数据库,也是在Github上开源的项目,包括了各种歇后语,成语,词语,汉字。确保了反向字典的正确性。

TJ君会一并分享给大家,包括前文提到的多通道反向词典模型论文,所以想学习的小伙伴,赶紧来和清华学子们一起切磋切磋吧:https://mp.weixin.qq.com/s/xfJAYz46hxm3mfXdocygJQ

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: