9月10日消息,从人机交互中获取数据使得我们学习更有效,能够构建起更加智能的系统。目前,人工智能最有力的实现手段还是要基于数据,通过机器学习的方法得我们的机器更加智能化。
9月8日,华为诺亚方舟实验室首席科学家李航在中国软件开发者大会上针对如何通过人机交互的方式获取数据做了主题演讲。李航目前研究的方向是自然源处理信息检索信息挖掘。
李航表示,机器学习最重要的一个环节就是收集采集数据,高质量的大规模的数据能够帮助我们构建出一个非常智能化的系统。
李航称,一般来说,我们学习的时候假设要学习的模型有K个参数,参数个数一般表示模型复杂度,经验上至少模型参数数百倍训练样本才能够大概把模型学得比较好。所以现实当中,我们需要非常多的高质量的数据来帮助我们去构建智能化的系统。
有三种方式帮助我们采集数据,一种数据挖掘、一种众包、一种人机协同计算。
很多数据机器识别的难度很大,而对人来说却不过是几秒钟的事情。比如图片识别,如果大量工人帮助标注大量图片数据可以帮助我们很快地构建一个智能系统,往往以很小的代价就能达到我们的目的。
Luis VON Ahn提出了Human Computation的概念,即把人当成一个个计算机,人和机器计算机两者做各自擅长的东西,然后两者协同计算,互相取长补短,使得我们能够更好地完成很多任务,这是所谓人机协同计算的主要想法。
互联网的存在给人机交互带来了更多的可能。有些公司在网络上发起活动任务,邀请世界各地的网民来帮他们做一些数据识别的工作,还有一些公司把这种工作策划成游戏,提高网民的参与度。在演讲中,李航表示目前这种众包的方式采集数据在图片识别和搜索方面有很多的实践案例。
李航说,“如果我们很好地设计我们数据采集的方法,很好地设计我们机器学习的方法,我们能够很好地把这两者结合起来很好地构建我们的智能系统”。
如何保证数据质量非常高同时对我们又有用,需要有一个非常巧妙的设计满足这样的条件,李航表示,如何找到很多的用户能够帮助我们去做这种高质量的数据描述工作是目前正在探讨的话题。