|
各位领导、各位同仁、与会的国内外朋友们,大家下午好!下面我谨代表世音通公司向各位来宾和领导汇报一下我们研究的成果。我汇报的题目是“构建语音平台,跨越信息障碍”。
何为信息障碍?不同的人有不同的理解,我们现在站在老百姓和大多数用户的角度有四种理解。第一种障碍是技术的障碍,简单的说就是不会打字、不会操作电脑。第二种是交流的障碍,就是互联网络的不同、语言的不同、文字和多媒体之间传输的不同。第三种障碍是使用的障碍,由于经济能力和使用条件的限制,目前可能有些人并不是每个人都有笔记本电脑,因此硬件的平台也限制了我们对电脑和对语音识别、对信息交流的障碍。第四个是残障者的障碍,比如说盲人可以听到,但是他看不到,聋哑人可以看到,却听不到。以上四种是比较常见的,对于这四种障碍,我们有四种相对来说便捷的解决方法,我们研发出世音通语音电脑系统,它易学易用,让人不用学电脑就可以很快地一日通、五日精。对于交流的障碍,我们有世音通互译系统。对于使用的障碍,我们有世音通手提电脑、手机操作电脑、最大限度的使用手机和电脑的功能。大家知道,现在信息交流的主要渠道是电脑互联网、电话通信网、广播电视网,就是我们常说的“三网”。
但是,对于残障人士却存在着这样和那样的障碍,盲人可以听到电话,可以听到广播电视,还可以通过语音合成软件听到互联网的信息。对于聋哑人,他们可以看到互联网的信息,但是却没有办法听到电视,更没有办法听到广播。对于这一点,残联的车主任非常焦虑,在他的倡导下,我们用很短的时间开发出一套聋哑人广播电视同步字幕系统,虽然只是一个雏形,但是我们仍然很欣慰,下面大概演示一下该系统的新闻版,这是两天前的新闻联播。
聋哑人不能听到电视的声音,通过我们的语音识别软件,聋哑人可以实时看到电视声音的字幕,这样对聋哑人来说,等于他也可以看电视了。
这个字幕是我们语音识别软件实时识别的,只要装上这套软件,聋哑人就可以通过眼睛看到了电视的字幕。目前我们做的是新闻版,因为电视有很多背景音乐,像广告和其他的口语,这个技术也在不断的研发过程中,我们有信心给聋哑人带来一套很方便的、能够看电视的系统。
上面是系统中的一个例子,如何克服系统中的种种障碍,是需要方方面面协同努力的一个系统工程。为了解决这个问题,多年来我们一直在进行语音识别技术的研究,在技术上我们提出了一个平台、两个终端的基本思路,就是构建三网合一的智能语音平台,通过三网合一的语音信息终端。所谓两个终端是指普通的电话和手机,而一个平台是指使用语音识别系统搭建的一个健全人和残障人公用的平台。该平台的原理是用户通过手机网,可以拨通自己的电脑,通过声控电脑登录互联网,也可以通过电脑连接互联网和电脑连接广播电视网,因此可以讲三网联合成为一个整体,形成了一个特殊的智能语音信息平台。通过这个平台,所有电脑、电话、手机、电信、家电等信息工具可以连接为一个互动的群体,对它们的操作可以变得简单而快捷。总之,可以使不同的人根据不同的需要使用相应的工具。中国的8亿用户都将成为一个平台和两个终端的潜在用户,而全世界的用户是更多的。
由此可见,语音识别技术和合成技术在克服信息障碍的问题中起着至关重要的作用,我们用快速录入和语音合成的办法,不但解决了盲人用电脑的问题,而且像刚才那个例子一样,我们也给聋哑人带来了方便。
而语音识别算法的好坏将直接影响着各方面的效果,也就是各方面实际应用的效果,因为语音识别技术的研究基本上和电脑的寿命一样长,但是为什么现在一直没普及,是因为有很多技术上的指标没有突破,只能停留在实验室。我们公司一直在从事语音识别技术的研发,98年推动了普通话版,经过几年的刻苦努力,增强版已经做完,方言版和免训练版就快与大家见面。新的专利也在不断的申请过程中。(图)这是一些专利的情况,我们从1996年就拿到了国家发明的专利,也拿到了国家的火炬计划。
我们就具体地对语音识别的一些指标进行演示。说它的硬件要求,我们的系统因为是国人开发的,当时的经济和硬件的条件,我们的系统开发的是从DOS2.0开始一级一级往上升级的,最初是在DOS2.0和IBM3的机器上的实验,当时能够达到30、40的连续输入,甚至可以达到98%,当时在国内国外就有领先的水平了。随着计算机的不断升级换代,我们在技术上可以人说多快、电脑能识别多快,这是一个相对快一点的例子。
责任编辑:
读者评论:
发表评论:
相关文章:
|