三角兽科技获5000万元A轮融资,揭秘“聊天达人”是怎样炼成的

缅甸新普京 4

T+-
[三角兽科技创始人、董事长兼COO马宇驰:NLP的产业赋能与创新。]12月12日,由《商业周刊/中文版》主办,梅赛德斯-奔驰担当首席战略合作伙伴的The
Year
Ahead展望2020峰会在上海浦东陆家嘴国际金融中心丽思卡尔顿酒店举行。峰会为期两天,各界人士对全球局势、公司产业和未来趋势等热门议题进行了分享与讨论。峰会第二日,三角兽科技创始人、董事长兼COO马宇驰针对人工智能和与会嘉宾分享了自己的观点与见解。从2016年开始,人工智能因为AlphaGo下赢了围棋而火了起来。马宇驰表示,自己的公司确确实实是赶上了人工智能创业的风口。他打趣地表示,现在大家对于“人工智能”包括最近两年兴起的P2P和区块链的熟悉的程度仅次于父母朋友圈里的保健品。他认为,客观来说,这个行业的发展历程可以分为几个部分,包括计算智能、感知智能以及认知智能。而现在大家比较期待的是认知智能。马宇驰介绍,人工智能是一个特别大的范畴,比如大家听到过的语音行业、视觉行业和机器人,就可以用人的身体做对标:视觉行业相当于眼睛,语音行业相当于耳朵和嘴巴,美的收购的库卡机械臂,相当于身体。而自己所做的工作范畴相当于脑子,所以才叫认知智能。感知智能就是听到、看到,而认知智能指的是听懂、看懂。马宇驰表示,认知智能是从2016年之后开始特别被市面上关注和媒体报道的,也是被透支最严重的一个概念。“科技科幻化是我们这个领域遇到的一个小小的痛,因为我们自己做这个领域。《西部世界》中一个机器人能够像人一样,跟你聊天的这种事情,很负责任的说,在我们业内认为:未来十年、八年都不会出现。”马宇驰解释道,这是因为机器有伦理道德问题,不用太去考虑。而当前做的事情的核心是提升效率、降低成本以及提升用户体验这三件事。对此,马宇驰做出了一个形象的比喻:“机器的出现或者技术的迭代,是为了释放更大的能效、不是为了在某一天替代人。原来的马夫没有了,但是现在有司机、宇航员与开飞机的机长,本质上是一样的,都是驾驶工具的那个人。更好的工具只不过是提高了效能,但是本质上没有消灭这个行业。所以过分忧虑人工智能是没有必要的。你教机器1+1=2,但你不教它乘法,它永远也不会乘法运算。”马宇驰表示,人们不需要担心伦理道德,因为人工智能所有的东西都是人教的,里面所有的规则和自主学习都是人设定给它的。“马宇驰进一步解释了NLP:就是让机器听懂人话,并且有反馈,这个是三角兽的核心技术。“所有的人工智能公司都在谈‘技术赋能’,这就像我们是发电的,无论是核电还是水电,最终要用于一个领域,比如用于电冰箱或是洗衣机。所以最终要把技术落地场景,我们选择人机交互。”马宇驰介绍道,三角兽科技从2016年成立到明年的2月份正好4年的时间,18个月的时候已经完成了4轮融资。他认为,过往的融资经历只是证明自己的公司在阶段性有资格在这个领域占有一席之地。任何一家创业公司生命周期才是它的绝对影响力,任何一个行业都有3-5年的周期,有波峰波谷。“你连三年到五年都生存不下去,再厉害也没有用,因为你要切身经历至少一个行业的一个波峰波谷,才有机会成为场上仅存的几个玩家之一。任何一个市场,老大自己占了70%-75%的市场份额,所有的行业基本上都是这个样子。三角兽科技落地在三个地方:手机、IoT(物联网)以及儿童设备。目前手机已经接近3亿台,市场上暂时除了华为和小米(因为它们也在评测,需要一定的时间,测完之后再接入)所有的安卓手机智慧视屏、智能视屏技术都是三角兽提供的。马宇驰介绍,三角兽科技的技术力量在语义领域,最核心的三块是语义理解,开放域对话系统以及垂直领域任务型对话。开放域对话,简单来说就是聊天。开放域对话没有目的性,但是非常必要。日常生活中一大部分、百分之八九十的对话就是聊天、闲聊。垂直领域任务,在智能音箱上就是找音乐、找电影,订餐、订车、订票。“开放域没有目的性,垂直领域有明确的目的性、必须在一个单一领域聊。这么看来,开放领域其实是更难的。所以我们在这三个方向上,是相对领先的。”马宇驰说,三角兽科技是一家软件技术公司。“我们是一家‘软饭硬吃’的公司,坚持做软件,主要落在这三个部分:智慧识屏、对话交互平台以及其他(智能客服)。马宇驰介绍,智能硬件做的就是“智能”两个字。”一个东西摆在那儿,你不可能说它智能。“从小米的小爱同学出生开始,互联网中国的第一台电视小米电视,第一个智能助手小爱同学后面的开放对话接的就是我们服务器。大家可能看很多的音箱大同小异,但别人和我们的差距在于这些垂直领域的通用性。我们作为百度的金牌合作方已有两年了,这也证明了我们是这个技术、这个领域最好的公司,没有‘之一’。因为百度后面接的是我们的服务器。马宇驰表示,今天介绍的所有东西是为了让大家更好地理解一件事情:虽然大家对人工智能这件事情有很大的期待,但是路还很长,是一场马拉松式的赛跑。“那条路很远,因为我们对标的是‘脑’,我们是最难的一部分,也是想像空间最大的一部分。我们强调阶段性技术价值和阶段性落地,汽车刚发明的时候20公里没有价值吗?现在汽车能跑到400公里。重点是要有阶段性的价值。”“创业是由每一段百米冲刺组成一个马拉松式的赛跑。”马宇驰总结道,这不仅仅是对行业的判断,更重要的是对于一个创始人身体和脑力的检验。马宇驰分享了一个简单的数据:“我到现在为止今年飞了大概130次;高铁来回大约坐了接近50次。平均每一天见三到四拨人,每天大概说6-8小时的话,至少完整介绍我的公司2次。我们是一家已经拿了2亿元现金融资的公司,我们仍然在。我在外面的露出,保证了我们对投资人、对合作伙伴在一些事情上的影响力,这是创始人能够做的事情。所以无论大家觉得有多光鲜,我们到底有多惨只有我们自己知道。至于我们公司估值有多少亿,这个不重要,没有到上市那一天我们手里的只是纸而已。”“但我们这种人就是以此为乐,愿意干这个事情、承受这个痛苦。”马宇驰说。

“目前市面上人机交互的智能硬件,距离真正的自然交互依然有很长的一段路要走。”

缅甸新普京 1

在清华x-lab主办的人工智能研习社第五讲,三角兽的创始人、COO马宇驰如此描述当前的人机交互产品。

2017年3月1日,专注于自然语言处理技术的北京三角兽科技有限公司获得5000万元A轮融资,由博雍基金领投,恒生电子和索道资本跟投。

在同日举办的百度2017世界大会上,李彦宏的观点与马不谋而合:“我们现在看到很多智能音箱,虽然不需要按住,但是需要一个唤醒词,一般是四个字,这不符合人与人交互方式。我跟你说话的时候不需要拉你的手,也不需要每句话都叫你的名字,更不需要每次都叫四个字。”

三角兽公司成立于2016年2月,在成立阶段,三角兽科技曾获得洪泰基金和天善资本联合投资的1000万元天使轮融资。2016年9月,三角兽完成2000万元Pre-A轮融资,由君联资本领投,赛富亚洲跟投。

在清华的演讲中马宇驰表示,目前市面上人机交互的智能硬件,距离真正的交互还需要至少8-10年时间。各大发布会上自然交互,甚至有些可以接受访谈的机器人,一定有某些人工的介入,噱头颇多。

短短5个月之后,三角兽又获得了资本的认可。据了解,此轮融资主要用于市场和品牌推广,团队也计划进行一轮扩展。目前,三角兽团队共30余人,其中20余人为技术研发人员。

缅甸新普京 2

人类水准的聊天能力是如何做到的?

三角兽创始人兼COO马宇驰在清华x-lab人工智能研习社演讲(刘涵 摄)

三角兽的核心技术为自然语言处理、语义理解和自主学习,目前的盈利模式是通过开放域聊天和垂直领域的多轮对话等技术,为To
B类合作方提供应用服务。

缅甸新普京,而作为人机交互最重要的应用场景之一,搜索引擎与人类最自然的交互方式依然有很大不同。“比如我们如果要查今天的天气,到百度可以直接搜索“北京天气”,但跟人说话肯定不能这样,跟同学说“北京天气”,别人会以为这个人有病,要说今天出去穿羽绒服冷不冷这样的话,这部分叫自然语言处理。在之前的一次大会上有一个智能领域的科学家说语义是人工智能皇冠上最后一颗“明珠”,因为人工智能学会了语义才真正接近于人的思考方式和回应的方式。”马宇驰称。

虽然是一家To
B的公司,但团队此前开发了的一款名叫Trio的聊天机器人,可以让C端用户免费体验。记者发现这是一款不折不扣的解闷神器,在同Trio的对话中可以看出,如果不指出这是个机器人,一般人根本看不出任何端倪,整个对话过程毫不生硬。

那么人机对话这件事为什么难?深度学习等AI技术又能从中做些什么?在清华x-lab的人工智能研习社课程中,三角兽创始人兼CEO
王卓然博士在马宇驰之后解释了这些疑惑。

从技术上看,如此灵活的聊天其实来自于大数据的训练,技术人员完成了NLP技术、语义理解和自主学习等核心技术的底层构建后,团队还需要通过输入大量的聊天数据训练该系统,从而保证体验感。那么,三角兽训练需要的数据来自于哪里呢?

三角兽创始人兼CEO王卓然在清华x-lab人工智能研习社演讲演讲(刘涵 摄)

据三角兽CTO亓超透露,聊天机器人背后的数据都来自于互联网的公开对话数据,
例如BBS、社区等,经过数据挖掘和清洗等技术后形成了海量高质量聊天语料库,从而达到了“真人”水平的聊天水准。

缅甸新普京 3

如何做出技术壁垒?

以下为王卓然演讲,大数据文摘在不改变原意的前提下有删改:

目前,国内做NLP的公司不在少数,不少机器人公司的语义理解模块也选择自己研发,那三角兽如何做出技术壁垒呢?

人机对话这件事为什么难?

亓超表示,创始人和合伙人在NLP方向具有10余年的从业经验,并一致从事一线产品和学术研究,无论是NLP还是其他方向,都离不开对问题的分析和建模方面的能力,这些都是确立技术壁垒的基本要求。在技术壁垒形成后,公司会在产品、基础技术和学术研究上保持高速的成长和积累。

一些名词大家应该耳熟能详,像深度学习、增强学习、自然语言处理、信息检索、数据挖掘。最底层的技术模块,像决策过程、推荐系统、知识库、逻辑推理、分类等等,可以看到机器学习和自然语言处理几乎每一个模块都会用到,人机对话涉及到方方面面。人机对话这个大的领域其实是人工智能的下一代,叫做认知智能。认知智能就是人怎么去感知世界,怎么去理解世界,然后用机器去模拟它,去拟合它,再用一个接近人的方式来反馈给我们。所以它涉及的面太广了,只是单纯说人机对话这个子问题都可以另外定义出好多子问题。所以我们只是把这些基础的模块、基础的算法包装成我们内部通用的模块,像开放域的聊天检索式问答、深度问答、图文对话的引擎等等等等,然后我们对外输出的产品,有开放域聊天,有问答的引擎,问答引擎的意思就是客户把他的问题和答案灌进来,我自动支持基于问题库的问答,我们还有多轮对话的引擎,可以不依赖于领域。比如说找电影、找歌、找餐馆用的是同一套引擎,只是把不同的数据、本题库、知识结构导进去,让它支持一个领域的对话,我们还可以把它打包在一起,变成多域的对话系统。所以如果做人机对话,基本上自然语言处理、机器学习里所有的事都要融会贯通。

据了解,三角兽CEO王卓然是伦敦大学的博士后,创业前曾负责百度度秘中控决策系统。亓超是公司CTO,此前曾是微软小冰、百度度秘的技术创始人,是NLP和聊天方面的专家。COO马宇驰为连续创业者,拥有十年市场及公关方面的丰富经验。

人机对话的几大核心问题

相关服务

1)开放域聊天

融资通

平时我们和人说话有不同的场景用不同形式对话,或者说用不同的方式去思考,比如说开放域的聊天,没有目的、不是为了找到一个信息,或者说不是为了完成一个任务来去对话,而是朋友之间的寒喧、互相的问候,这种就叫开放域聊天。

费用面议

2)多轮对话

相关服务

这个更接近于人机的对话,和人与人的对话也有一定相似处。比如我们要找一个餐馆,我会问找五道口的餐厅,机器会问喜欢什么口味,我说川菜的,又问对环境有没有要求,我说有没有适合朋友聚餐有没有大的包房,这是机器多轮对话完成的。

备货融资

3)智能问答

¥参考元

智能问答这个概念比较好理解,这个技术也相对于另两个更久远一些,也更成熟一些,问答就是一问一答,我问你天空为什么是蓝的,你给我解释说什么空气的折射等等一些因素,我问兔子真的爱吃胡萝卜吗,你可以回答兔子都爱吃胡萝卜,但不是全部,这是人机对话不可或缺的一部分。

相关服务

这三部分之间是互相没有联系的,在目前的技术框架下,开放域聊天有开放域聊天的做法,垂直领域有垂直领域的做法,问答是问答的做法,做产品不能只做一个用户的问答或者一个聊天,这些东西要整合在一起,于是就出现了跨域的中控概念。以度秘平台为例来讲,这个平台既可以支持闲聊,也可以支持找电影,找歌,找餐馆,查快递,支持问答,甚至更多的技能,开窗、开灯等等,这是由单独一个服务模块来完成的。但是用户说出一句话之后,这句话到底应该归哪个模块去响应,这就是中控去做的一个事,其实就是根据你的上下文,根据你的每个域回复结果质量的情况综合算出用户这句话有哪一个服务区响应最好。

贸云贷-基于采购数据的融资

相关性是开放域聊天最重要的一个指标。我说一句话之后机器回了一句与我相关的话,不相关就没有办法再聊下去了。在这个基础之上,我们要注重几个点,一个是上下文的覆盖,人与人聊天是有上下文的,不是你说一句我说一句,每一句是单独割裂的,而今上下文的覆盖已经做得很好了,达到了40%的上下文覆盖,可以体验到40%的联系。

费用面议

深度学习等人工智能技术可以做什么?

思路网倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至tougao@siilu.com,我们将及时处理。本站文章仅作分享交流用途,作者观点不等同于思路网观点。用户与作者的任何交易与本站无关,请知悉。

我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。

上下文引入进来之后整个的数据会非常的稀疏,所以我们用了深度学习进行自然语言处理,最大的帮助就是可以把离散的词,离散的句子,离散的篇章等等表示成一个向量,这个向量在分布式的语义空间中就可以计算它的相似度、相关性等等这些指标。我们就用深度学习这个方法把上下文的整个信息都表示成了向量,再用向量检索向量的方式去找你说这句话的上下文、语义或者语境更相似的上下文,再用同样的方法检索获得侯选。

另一块是紧密情感,人和人聊天不可能是冰冷的你一句话我一句话中性的,肯定夹杂很多高兴、开心、伤感、鄙视的情绪等在网上的表情标签。把这个引入当中就会让聊天更生动有趣。这块我们做了一个尝试,我们通过这个数据兴起迭代的方法,用的还是很标准的CNN,只是我们数据加工、数据处理做了很多工作,能达到99%的准确率,用一句话去识别它对应的情绪,可能是开心、大笑等等,识别这个情绪能达到99%。

人机对话获取数据的来源都是互联网,互联网有一个问题,在互联网上人和人聊天的句子偏成人化,肯定不适合儿童。举个例子,我说床前明月光,这个机器人可能回应地下鞋两双,每个字也没有什么问题,也不涉及黄反,但整个句子的对儿童这么聊肯定不合适的。我们怎么在互联网这个语料上去过滤出一个儿童版本呢?首先用检索是不现实的,因为你不能保证每一句话、每一个字,只要有一句话或者一个字不适合这个产品就毁掉了。所以我们用了学术界比较火的端对端生成的聊天方式。它的训练语料是用成人语料,我们用能拿到的动画片的字模或者儿童书,用这个训练一个模型,用这个模型过滤成人语料,在这之后又训练端对端的模型,过滤完之后就可以认为不适合儿童的东西是小概率事件了,相当于我们写出了对儿童绝对安全的一版聊天。

我一直在研究垂直领域对话系统的泛化,什么叫泛化?在垂直领域对话很难获得,在网上抓数据的话也很难找到很贴切的人和人对话,或者人和任何东西对话,比如找电影,找餐馆这种数据很难获得。既然这么难获得,我们如果有这样的一个系统,用这个系统已经迭代学到很多东西之后,再把这个知识迁移到另一个领域。而且,问答跟人机对话完全不是一回事,问答更多是信息检索的过程,匹配用户的问题和库里的问题是不是同一个意思,然后反馈答案。

讲座后,现场听众与王卓然进行了对话。

缅甸新普京 4

清华x-lab人工智能研习社现场听众提问环节 刘涵 摄

提问:今天百度的大会发了一款RavenH,比较有趣的一点是有可以拆卸的触摸屏,发布者提到,现在市场上voice
only的方式不太符合自然习惯,那未来人机交互是单纯以语音为主还是多种结合起来的形式?

王卓然:人机交互这个形式,要分场景,最合适的场景当然是一个多模态交互,因为多模态交互是人机对话的下一个进阶的阶段,人机对话只考虑语音,如果是多模态的话,要考虑到屏幕、触控、图像识别、环境传感器、位置等等。所以要分场景,不能较真,人机对话多模式场景比纯机器交互要好,很多场景下不具备多模态交互能力,比如说在车载的时候有屏幕的引入可能会造成负担,对行车安全也有危害,纯语音交互才是更好的场景,所以不同的场景不同的应用。

提问:刚才听了您的介绍非常精彩,我有一个问题,现在大家做语音处理和语义处理分得比较开,事实上在人说话的过程中语言不仅包括声音,还包括像语调、语气等等,但是好像市面上没有看见有人做语调、语气这方面的东西,语义大部分处理的是文本,您怎么看待这个问题,语音、语调和语气角度有价值吗?如果有价值为什么大家都没做,做的话难点在哪里

王卓然:非常好的问题,从学术角度上来讲有非常大的价值,单纯看文本一句话可能有两个意思,我没吃饭,我没吃饭?一个是疑问句一个是陈述句,代表的意思就不一样了。但是为什么没做呢,道理很简单,还没成熟到那个程度,商业到产品落地还差太远,还没有达到非要为这个事做一款产品,或者没有这个事就做不了产品的程度。

提问:我想问之前谈商业模式的时候是做B2B、B2C,你们是永远做男人背后的“女人”呢?还是慢慢推出产品面对C端用户呢?

王卓然:对用户市场对我们非常有吸引力的,但是从公司发展角度来看,这个阶段尝试C端的代价太大了,而且我们团队结构也不是为2C准备的,所以在短期之内都不会做这方面的事情。

提问:刚才您讲给小孩训练一个模型,过滤到不合适的问答。想请您详细解释一下这种过滤方式。

王卓然:我们用故事书、字幕等等去训练了类似于语言模型的分类器。用这个东西去过滤网上成人聊天的每一句话,把不适合儿童的都滤掉,我们认为剩下的它的分布会跟字幕、故事书训练分布是相似的,词汇分布、表达形式等等会跟儿童的表达形式更相似一些。在这个基础之上我们再去训练这个模型。

提问:您刚才讲的人机交互的话多模态情况下最好,我不知道理解对不对。比如人在沟通的时候,除了刚才说的声音、语料,包括说话内容,实际有很多肢体语言,下一代的人机交互会不会把语音包括视觉整个结合起来,这样才叫下一代的方式?

王卓然:会的,人机对话在国外学术界火过一段时间,之后好多人机对话转向多模态研究。表情、肢体语言加上语言,包括物体识别所有都在一起做人机对话,背后的技术,现在引入多个环节,物体识别等等是多维度,这后面有决策过程。如果对这个感兴趣可以关注两个大学的研究,一个是CMU,他们有一个人机交互的实验室,人机对话做的也比较久,有很多人也做多模态的交互。另一个是爱丁堡赫瑞•瓦特,刚开始是做人机对话,后来他们转向多模态的交互了。

提问:刚才您说公司应用场景其中有一个是IoT,是智能终端。这个在终端上用的话,您认为都是联网的通过云的处理方式呢,还是说我也可以去本地去用。如果是云的话涉及到很多场景,包括并发性的问题,有没有考虑像有一些东西是现在有一个趋势,把很多的算法固化成硬件。

王卓然:语义这块负担不太重,都是B到T这个级别,不像图像传输非常重。固化到端我们有尝试,跟华为海思有合作,那是支持NLP的,端对端聊天生成,语义理解几个RN结构,因为图象涉及很多东西,比如说实时的加工,实时的渲染,实时的分析,实时性图像本身传输有问题的情况下。文本层面最大的考虑其实是隐私,不是你说的云的负担问题。

点击链接阅读原文:yq.aliyun.com/articles/257458

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章

网站地图xml地图