您现在的位置:首页 封面 > 正文

AI语音 解放双手,解放思维

日期:2017-07-26 【 来源 : 新民周刊 】 阅读数:0
阅读提示:国内的智能家电还没有那么普及,消费者也还没有将一般家电更换为智能家电的刚需。这或许将让智能音箱在我国成为一个“伪痛点”“伪需求”。
记者|王 煜
 
      相比AI的其他领域,语言智能产业与产品的应用行业更显亲近和自然。手机、智能家居、育儿机器人等设备都离不开语音语言的交互应用,随着科技巨头们的资本涌入,语言智能成为争夺未来智能家居和高端信息服务市场的入口。
  在分析领域,机器通过对人类语言文本的学习、理解获取世界知识和常识,进而帮助人类完成复杂问题的求解和分析预测,提供更加人性化的知识服务,已是可以预期的未来。而就传统行业而言,语音技术的渗入对于普通大众来说是一件好事,它将给我们的生活带来实质性的改变。
  
智能音箱:物联网新入口
  
  说到AI语音识别和交互,你现在还只想到语音输入法或者Siri这样存在于手机里的App,那就太跟不上时代了。连苹果自己在不久前的WWDC大会上也发布了Siri的“实体化”产品Homepod,这正是一款智能音箱产品。
  问题来了:音箱能有多智能?实际上,智能音箱只是它外观的直观描述,它真正扮演的是智能家居的枢纽角色,是一个智能机器人管家。想象一下,有了智能音箱(假设它名字叫“小英”),以后你早上睁开眼睛的第一件事不是去拿手机看时间,而是随意对着空气喊一声:“小英,几点了?”从摆在桌角的智能音箱里马上传来自然的人声,告诉你现在的时间,并且问你“现在要起床吗?”得到肯定的答复后,小英自动打开了电动窗帘,让阳光照进房间,紧接着问了一句:“需要点音乐或者听段新闻帮助清醒吗?”你直接说出想听的音乐、新闻的名称或者关键词,很快音箱里就响起了你要听的东西。穿衣服的时间里,你想起有封邮件不知昨晚深夜是否已收到,“小英,给我查一下邮件。”一会儿,新邮件的标题就被读了出来……
  当然,这是一个理想的场景,但目前AI语音识别和交互技术的现实水平,离这也并不遥远了。国内外的智能音箱产品都已经做到在一个普通房间大小的空间范围内,灵敏地识别人声;并且在有一定的环境噪音存在时,语音的识别和交互也不会受到显著影响。
  相对于与手机做语音交互而言,智能音箱的进步就是解放了人的双手,让人机交互更加自然。正如阿里人工智能实验室负责人陈丽娟所说:“语言是人与人之间最主要的沟通方式,也应该是人与另外一种智能进行交流的主要方式。”
  因为具备语音交互能力的智能音箱有成为智能家居控制中心的能力,近两年国内外科技巨头纷纷推出自己的智能音箱产品,抢占物联网的重要入口。2014年11月,亚马逊先人一步推出智能音箱Echo占领市场;2016年5月,谷歌的Google Home亮相;微软等企业也不甘寂寞。进入2017年,中国的BAT也在加紧追赶,7月初,百度宣布收购美国语音交互技术公司KITT.AI;同一天阿里发布智能音箱“天猫精灵X1”;此前的6月底,腾讯发布了智能语音解决方案“小微”;更早的2015年,京东联合科大讯飞推出了“叮咚音箱”。 
  目前亚马逊仍以绝对优势领跑家用智能音箱市场,在全球家用智能音箱市场份额占比超过40%。但亚马逊在这个领域的成功远非率先推出几款硬件产品那么简单。实际上,在2014年推出Echo后不久,亚马逊就宣布将Alexa语音平台开放给第三方,不但包括智能家居软件开发人员,还包括智能家居硬件制造商。开放平台的策略给Alexa带来巨大的发展空间。据亚马逊公开的数据,Alexa在2014年最初发布时只有13个内嵌的技能,而目前兼容的应用已经超过1.5万个,它已成为诸多智能硬件产品的“标配”:华为的智能手机、LG的家庭机器人、惠而浦的洗衣机、福特的汽车等,都搭载了Alexa平台。Alexa成为了基于语音媒介的全新操作系统,这是其智能音箱产品可以成为智能家居中心的关键。
  伴随着智能家居市场的高速扩张,智能语音行业有望迎来爆发式增长。市场研究公司Tractica估计,到2021年将有4000万家庭使用基于语音的数字助手。调研机构Strategy Analytics指出,2016年全球智能音箱出货量为590万台,预计到2022年将增长10倍,市场规模达到55亿美元。
  尽管目前来看,各大开发商还无法通过智能语音应用程序直接获利,但从亚马逊公布的数据来看,智能音箱产品有助于引导用户消费需求,从而实现更多增值收入。
 
AI语音助力智能医疗
  
  在医院里,一位医生一边看X光片,一边对着手里的麦克风说:“核对患者及手术标记无误,麻醉成功后,清洁手术区域皮肤,给予静脉预防抗生素.....”语音实时转化成文字,自动输入进电脑里,记录在了患者的电子病历上,而且基本没有错别字,不需要修改。
  这是现实的场景。它发生在北京协和医院,智能语音病历录入系统的应用,让平均每个医生每天整理病例的时间从超过3小时,降低到了1小时。
  开发该医院语音技术的企业是“云知声”。当年进入这个领域时,Siri等各种语音助手很火,但该企业的负责人认为,“这类语音助手注定是个伪命题,一定不会成功。”在他们看来,AI并不是一个产品,而是一个赋能技术,是“万金油”,比如人脸识别和安防结合才是产品,如果AI没有应用场景,用户是无感的。“我们需要做的,是切入这一领域时,将语音助手和场景结合,使得它可以服务于各行各业。”
  在他们看来,医疗领域同样如此。2013年,医院信息化还是只有WIFI,那时候谈AI根本不可能。但今天,随着深度学习、大数据的积累,语音识别的准确率能做到97%-98%,即便是比较嘈杂的环境,也可以做到90%以上的识别,这样AI与医院信息化的结合,有了一个新的机会。
  根据国家卫计委规划信息司透露,医疗卫生信息化是国家信息化发展的重点,已纳入“十三五”国家网络安全和信息化建设重点,将实现集中突破。权威机构预测,未来几年,我国医疗信息化规模将持续增长,国内目前三级医院 1400 家,二级医院 8000 家,一级医院接近 1.4 万家;在理想状态下的 10 年后,三级医院每年至少拿出收入的 3% 用于信息化建设,二级和一级医院拿出 1.5% 进行信息化建设,届时医疗信息化的市场规模将超过 800 亿元。
  有应用场景,也有市场需求,这就可以理解为何许多AI公司都在布局医疗行业的语音技术。其中包括国内该领域的领头羊科大讯飞。
  其实科大讯飞很早之前就已开始试水医疗,2014年8月,他们针对语音技术在医疗方面的应用开展了研究,并在部分医院进行了试点,其产品是把语音记录自动转换为文字,生成电子病历,但一直未大规模使用。
  2015 年,科大讯飞开展三大医疗业务战略,其中就包括语音医疗解决方案。在这部分产品线上,科大讯飞的初衷是通过智能语音交互技术对医院临床业务进行流程再造,减轻医生的文书压力,提高医生工作效率。
  2016 年,科大讯飞智慧医疗业务的“云医声”手机应用在安徽省立医院正式投入使用。云医声不仅能够收集病人的资料,方便医生随时查阅,还能将医生说用自然语言说出的医嘱直接记录整理成电子文档,同时还可给医生精准推送医疗文献等数据。
  考虑到放射科、牙科医生、手术操作医师在工作或手术中无法用手来书写病历,科大讯飞还为医生特制了一款麦克风应对嘈杂的环境和远场识别,医生和患者交流的过程中,算法会自动过滤掉无用的信息,将有用的医疗语音数据自动转换成文字。
  这套解决方案还能将转换成的文字进行结构化处理,输出结构化电子病历。病例中包含有患者的病史、检查史、各项检查结果、身体指标,医生只需对电子病历内容进行简单修改确认,即可完成电子档保存。
  
拓展与挑战
  
  AI语音除了以上领域,还有不少可以应用的场景。 
  例如,在智能安全领域,AI企业跟国家网信办和公安部门进行合作,通过语音技术识别政治言论、暴力、恐怖和诈骗等有害信息。比如在诈骗电话中,声音的特征和规则都是固定的,通过语音检索技术,可以判断电话通话的声音是否为诈骗音。
  智能教育方面,AI企业可以提供语音测评服务,包括中小学生的古诗词诵读测评和英语测评,能够将学生的发音和韵律通过与标准音比对,来帮助其提升发音准确度。
  在泛娱乐行业中,比如在直播中,主播说一些特定关键词命令,通过语音识别就可以在平台上自动产生一些交互效果,从而增强娱乐性和用户黏性。这也通常和机器视觉技术一起使用,识别主播的特定动作和手势,产生动画特效。这套解决方案,直播平台、经纪公司和网红主播都可以使用。
  但是,AI语音也面临一些挑战。以当下正在风口的智能音箱为例,互联网专家、DCCI互联网研讨院院长刘兴亮分析,国内的智能家电还没有那么普及,消费者也还没有将一般家电更换为智能家电的刚需,大多数我国家庭对音箱的音质好坏、是否联网并没有强烈的要求。这或许将让智能音箱在我国成为一个“伪痛点”“伪需求”。
  分析人士也指出,在国外风生水起的智能音箱,在国内市场面临本土化的问题。首先,汉语因为方言差异等因素,语音识别和语义交互以及对话式交互技术比英语要复杂得多,远未成熟,设备提供的交互体验距离真正无障碍的人际交互还有距离,这将影响用户体验。
  其次,智能音箱的“核心价值”没有标准化,用户不知道究竟该为好的音质买单还是为智能买单;再者,国内企业缺乏像亚马逊、谷歌那样跨越多个垂直领域进行资源整合的能力;此外,类似亚马逊对Echo的补贴经营策略,对于要求利润的制造商来说很难实现。
  许多较为成功的国内AI企业负责人都认同的是,AI是一种非常基础的资源,对各个行业来说都是赋能的,企业把相对成熟的技术去引入相对成熟的领域,顺势而为,才能成功。AI作为底层技术,必须搭载服务和应用,考验的是资源整合能力。因此,只做音箱硬件,显然无法真正推广AI语音;但要做到亚马逊Alexa这样的整合程度,让大量的AI语音设备都愿意接入统一的平台,国内的BAT,乃至京东、喜马拉雅虽然都在尝试,但它们之间真的能互相打通,成为健康的生态平台吗?想一想这些巨头之间互掐的历史,就知道这有多么不容易。阻碍AI发展的,往往并不是技术本身。
 
精彩图文
俱乐部专区 / CLUB EVENT