那么,手语的识别,尽管国际上包括国内我们做了十多年了,但是这项工作仍然是非常有挑战性的,或者这么讲,是在一个小范围内能够使用的工作,还需要大家坚持不懈的努力。我们希望再有3到5年,能够把手语识别真正地推向市场,使得他们能够获益。
差不多从1983年开始,这是第一个数据手套的专利。当时是用纤维做了传感器,能够识别70多个单词。那么,这是新南威尔士大学的作为手势输入设备,实现了95个手势词的识别,正确率达80%。在没有真正推广以前,手语的方言和我们正常语言的方言差不多,不出市不出省。现在随着手语方面的普及,标准的手语语言提高了很多。
像乔治华盛顿大学它也把手语分成了手形、方向、位置等等做到了100多个单词。
除了国外之外,国内也有一些像自动化所等等做一些数据手套,那么我们自己做手语做了十多年,我们现在做的手语识别是国际上词汇量最大的。所以,国际上所有做手语识别的文章,都是以我们的工作为基础的。除此之外,还有其他的机构也在做,包括清华等等。
但是手语视频很容易中断,所以我们很想像正常人一样可以工作,所以想到了把摄像机戴道头上,但是这是从头顶上看,但是我们看手语实际上是从对面看,所以实际上从对面看才是最佳的角度。
那么在应用上,实际上日本的日立在96年的时候,把日本手语的识别和合成结合起来,做过一个自动售票的查询系统。那么,这是已经有应用的。另外,IBM实际上在去年,我不知道IBM的同仁知道不知道,IBM07年自己做了一个SiSi的系统,但是现在没有中国的手语。但是我们做的手语系统,我们向1300多个手语学校发放。包括有一个光盘也是我们推荐的,是用来推广手语普通话的工作。
我们的手语大概有550个手势词,另外包括了30个手语的字母和声调,那么还有手语分成了象形和会议等等。那么,这是正常人,这是手语人员,我们希望把语音通过手语合成的方式,前面的工作我们并不做,我们主要是做手语合成。让残疾人可以理解正常人的表达,反过来残疾人通过手语可以被普通人理解,转化成语音和文字。
那么,中国人的手语在配合的位置、动作、手形、朝向已经可以表达,但是为什么有棉布表情?因为这可以提高我们识别率大概20%到30%。那么,做这样的工作,我们前后做了两件事情,第一个事情是数据手套,加了一个摇控器。第二个我们用视觉的办法来做。
整个的识别流程包括手语动作、摄取、快速配备文本。那么,这是一个数据的一段话的流程图,这一段话里面有121桢,所以可能是10的8次方,那么如何做可能是很大的挑战。另外一个是手语的长度,简单地说一个房子,就是这个手势。那么,坐井观天就是这个手势。所以,长度是不一样的。那么,针对长度不一样的情况,匹配是一个需要解决的问题。这里,我给大家看一段视频,这是一个手语的识别过程。这是最后识别出来以后,通过语音合成软件,这个合成软件不是我们做的。
除此之外,由于手语的手套价格昂贵,而且容易损坏,所以我们做了基于视觉的手语识别,这相当于我们从两个摄像机看,它至今形成了一个对应关系。那么,如果它是符合这个对应关系,我认为这是同一个动作,那么如果这样的话,特征的匹配是一个非常复杂的过程。这方面,我们已经做了差不多做的3年了。实际上,它本身的过程就是把一个三维的动作,通过两个机器做匹配的问题。
这里,给大家看一个整个识别跟踪的过程。大家可以看到,在识别的过程当中,我们除了手之外,为什么盯着脸?因为你的手语除了手之外,还包括你的脸,比如说这个手语的长度来讲,位置是一个关键的体系。那么手语的合成的主要方法一种是基于录象的方法,一种是基于动画合成的方法。那么录象的方法是单个词合成自然,但是如何过渡跳跃,这会有一定的问题,所以我们基于动画的方式来做。
那么我们机遇的动画的手语合成,将角色与动作分离,可以设计成熟的角色和动画的角色,孩子可能比较喜欢动画,那么可能大家比较喜欢成熟的角色。那么这个是我们设计,是随着电视上所带来的手语的普及,随着标准软件的普及,对后面会起到很大的作用。比如说同样的动作,因为很多的孩子喜欢这个动画的角色,我们换一个角色。而且,可以根据学习者的要求,我们可以把它调节快一点或者是慢一点,这样你可以看到更明确的细节。