视频访谈: 孟嘉:明略数据在行业知识图谱产品上的探索与思考

02-08 06:15
14:11

个人简介 孟嘉,毕业于北京大学计算机系,领导或参与了多个大数据产品项目的架构设计和落地,擅长大数据系统架构,分布式图数据库与知识图谱相关技术。2014年底加入明略数据,主导研发了知识图谱数据库NEST和基于知识图谱的分析平台SCOPA,任技术中心总架构师和SCOPA产品线负责人。

AICon全球人工智能与机器学习技术大会是由极客邦科技InfoQ中国主办的技术盛会,大会为期2天,主要面向各行业对AI技术感兴趣的中高端技术人员。大会将重点关注人工智能的落地实践,与企业一起探寻AI的边界。在AICon上,你将会看到国内外知名企业的人工智能落地案例,也能与国内顶尖的人工智能专家探讨相关的技术实践,使企业可以根据最佳实践确定自己的选型方案,并提前预估相关的风险和收益,实现技术落地。

孟嘉: 我觉得用一句话来讲的话,知识图谱可以看作是人工智能的一个基础设施。大家都知道,这一轮人工智能的浪潮是由感知智能引起的,比如图片、声音这方面,因而深度学习有了爆发式增长;人工智能还有一个方向就是认知智能,包括因果分析、推理,就是帮助人去做决策的工作,这方面的工作利用知识图谱是很容易的,或者说这是知识图谱一个很好的应用场景,知识图谱主要是应用在这个方面。

孟嘉: 现在明略的知识图谱产品主要应用在公共安全、金融和工业方面。在应用上,其实我们不同于Open Domain或者说通用的知识图谱,我们还是加入了一些行业的特性,形成了行业大脑。知识图谱的技术栈非常长,难点也比较多,从知识图谱的构建,到知识图谱的关系挖掘,到存储和交互,每一点都有它的难点。我们在行业中遇到过一些问题,比如说我们在构建的时候去做一些实体消歧的事情,还有在存储的时候怎么把海量的数据存起来。现在明略这套解决方案依赖于大数据平台,也就是Hadoop生态系统,而明略本身也会做自己的Hadoop发行版。说到这个行业,我们更多的会有一些积累的过程。因为行业知识图谱的门槛可能更多的来自于行业里面的一些程序性知识,比如说专家的逻辑,或者说业务人员的思考。这些方式也是知识,我们的知识分为传统的陈述性知识和程序性知识,我们的知识图谱比较大的一个优势就是能够记录这种程序性知识。

孟嘉: SCOPA更偏向于基于知识图谱的分析工具,它的底层会应用到,我们刚才提到的蜂巢系统NEST,也就是我们的知识图谱数据库,还会应用到我们刚才提到的小明,以它作为一个统一的人工智能的入口。我们认为,企业之前的存储架构大多是基于BI或者数据仓库,将来一定会基于知识图谱,因为知识图谱更加适用于多元异构和海量数据的存储形式。我们都知道大数据有四个V,现在不管从数据库、数据种类,还是更新速度都非常到位了,但是其实最重要的一个Value还没有被深入挖掘出来,恰好知识图谱对这方面做了很好的补充。

孟嘉: 知识图谱数据库我们采用的是一个比较通用的混合性架构,里面不光有图数据库,图数据库只是我们用的很小的一部分,我们还整合了宽表、缓存,还有全文搜索的能力。在这种混合存储的基础之上,更重要的还有我们的计算引擎。我们会把这些复杂的基于规则的计算形成一个有向无环图,然后进行分布式计算。这种计算能力整合了我们刚才说到的图、事件和全文索引,这个计算引擎是我们比较核心的一个组件。以前传统的图数据库可能只能进行一些简单的计算,比如说最短路径等,但是基于我们这上面,就可以做一些复杂计算。我们的另一个技术特点是我们提供了一个自己的交互查询语言,叫做NQL,就是NEST Query Language,它的表达能力会更强,也为对接小明打下了基础。

孟嘉: 这个技术其实就是我们选用了不同的存储形式。我们的知识图谱扩充了传统知识图谱的实体和关系这种基础的数据模型,我们增加了事件。因为我们发现在行业里事件是一个非常重要的元素,它描述的是一个实体在一个空间点或者在一个时间点发生的一次事情,通过事件我们弥补了传统知识图谱对时空这个概念分析不足的问题。我们针对事件进行了一些特殊的存储优化,针对时空序列会做一些特殊的优化。我们还整合了宽表的能力,在企业级应用里面,知识图谱不太擅长做的一件事是聚合操作或者是统计操作,我们也通过混合存储使这个能力得到了一定的提升。另一个就是全文索引,全文索引是完全由明略自主研发的,没有用现成数据库里面的产品,而是基于ES或者Solr自己单做的一套,扩充了全文搜索的能力,最终把这些能力混合起来去适应不同行业的特点。

孟嘉: 对,这个是很重要的一点。更多的是我们不光是存储,计算也是很重要的一块。我们的数据库可以存储规则,或者说是存储一些程序性知识。我们的一个理念是,想把这些行业专家或者真正用户的思维、经验能够在我们的产品中有所沉淀和积累,同时通过技术帮助新的用户,把这些知识传承下去。

孟嘉: 小明做的事情最重要的是两块,一块就是实体识别,它要在一段自然语言里面找出关键要素;更重要的一个事情就是做意图判断,它需要理解这句话做的是什么事情。我们真正的业务系统里意图是很多的,企业级操作也有很多,这个是对小明最大的挑战。小明其实是一套独立的框架,如果是后面接的是我们的NEST,相当于就是去接了一个行业的知识图谱。接NEST的时候,因为NEST有这样一个能力,能够暴露它的Query Language,也就是程序化知识的入口,小明要做的事情也是将自然语言翻译成程序化知识,然后在NEST中查询,接下来NEST返回结果给小明,最终小明再返回给用户。

孟嘉: 我们在很多这种性能上都做了优化,比如说 Super Node还有边爆炸,以及一些高并发的情况,还有一个就是我们在批量导入数据的场景下也做了很大的优化。还有一个基础的优化就是取点的效率,我们针对用传统图数据库取点的问题,做了一个从串行到并行的优化,大概会有一个数量级的性能提升。

12. 小明和NEST数据库合起来是一套产品吗?

孟嘉: 对,他们现在都会应用到SCOPA里面。

孟嘉: SCOPA最主要的客户都来源于公共安全、金融和工业这三个行业,更多的是公共安全,我们在公共安全行业已经落地了挺多场景,反馈也还不错,这也是我作为SCOPA负责人非常自豪或者替团队非常自豪的一件事。我们做的事情可以真正用技术去推动一个行业,去做一些有意思的事情,去帮助我们的客户解决问题,比如说真正去帮助警察叔叔抓住坏人,这一刻还是有一定的自豪感,反馈也是不错的。

14. 请您谈一下未来知识图谱技术的发展和应用的趋势?

孟嘉: 我觉得知识图谱将来肯定还是,就像我们一开始说的,是人工智能基础库或者基础设施。知识图谱不是一个新的概念,但是这个不管是什么技术,只有真正地结合行业落地才能发挥它最大的价值,我们也是一直想致力于结合行业。从今天来参会的人就能看出来,这个技术的热度还是很高的,大家对这个技术的关注度也挺高的,我对这个技术方向还是非常有信心的。

孟嘉: 明略其实在整个知识图谱的全技术栈都有自己的产品布局,将来我们也会紧跟着人工智能这条线去真正帮助客户提高他们的效率,所以这块的产品布局,我们也有所考虑。其实小明也是我们从去年开始的一个新尝试,我们希望把CUI这种新的对话交互入口带给真正的企业级用户,可能对于2C的用户,大家已经非常熟悉这种交互了,比如Siri等,但是对于企业级用户,我们正在尝试利用我们的新技术帮助他们极大地提高效率。

原文链接:http://www.infoq.com/cn/interviews/interview-with-mengjia-talk-industry-knowledge-map-products?utm_source=tuicool&utm_medium=referral
标签: 人工智能 数据库
© 2014 TuiCode, Inc.