记知识图谱前沿技术课程(武汉大学站)

这周一(4月28日)参加了知识图谱前沿技术课程暨学术研讨会(武汉大学站)。本次研讨会邀请了很多著名学者和企业代表,结合知识图谱学界研究与业界应用的进展,系统地讲解知识图谱前沿技术及智能应用。

我之前对知识图谱了解甚少,但经过一整天的讲座学习,也接触到了知识图谱的理论知识和产业实际应用,感受到了其独特的魅力。在八场主题各异的讲座中,我认为复旦大学知识工场实验室的肖仰华教授所带来的《领域知识图谱落地实践中的问题与对策》既有对知识图谱技术的概述,也有足够的深度和思考空间。因此,我基于这场讲座的内容笔记,结合自己查找的其他资料做一个整理。

注:本文涉及的图片及资料均整理自肖仰华教授的讲座内容,版权归其所有。

知识图谱的概念

顾名思义,领域知识图谱(Domain-specific Knowledge Graph)即是特定领域的知识图谱。而知识图谱(Knowledge Graph)是以实体/概念为点、它们之间的语义关系为边的大规模语义网络

传统的知识工程需要专家构建,代价高昂,规模有限;并且知识边界易于突破,难以适应大数据时代开放应用到规模化需求。而知识图谱富含实体、概念、属性、关系等信息,使得机器理解和解释成为可能。最重要的是,知识图谱可以满足大规模开放应用。

尽管肖教授表示“知识图谱引领知识工程复兴”,他也同时提出了NoKG(Not only KG)一词,以表示解决问题的知识表示不只是知识图谱,因为知识图谱不好处理过程知识、决策知识等。

领域知识图谱(DKG)与 通用知识图谱(GKG)的关系与区别

两者在知识表示、获取与应用等方面有着显著的差异:

一个问题是,行业应用中的知识需求难以封闭于预设的领域知识边界内。因此,在做领域知识图谱时不可避免的需要通用知识图谱的支撑,为其提供高质量的事实和基本的领域纲要;反过来,领域知识图谱又对通用知识图谱有补充和完善。

知识表示方式

符号表示分布式表示是两种重要的知识表示方式。符号化表示的特点是可解释、可推理、面向人;分布式表示则难解释、难推理、面向机器,这是因为它是用数值表示的(和自然语言处理中的词嵌入有些类似)。

为何需要领域知识图谱?

  • 将零碎的数据整合为聚合的知识,助力挖掘数据价值
  • 将领域知识赋予机器,解放人类脑力,实现知识工作自动化
  • 领域知识的积累和沉淀是未来智能化的必经之路

DKG 中知识如何表示

  • 三元组(SPO)表示:<七里香,填词,方文山>
  • 时空语义扩展:从时间角度和空间角度进行表示
  • 跨媒体表示:文本、图片、视频

领域知识图谱构建的基本流程

领域知识图谱的评价指标

质量(准)、规模(全)、实时(新)

领域知识图谱的数据库选型

进行数据库选型时,一般要考虑操作复杂度(是否包含全局计算、多步遍历和复杂子图)和知识库规模(节点、关系、密度)。当规模极高、操作极复杂时,由于知识图谱先天适用于图表示,因此一般使用 Graph DB(图数据库)。其他情境下,也可以选用 NoSQL DB 或者 MySQL 等 Relational DB。

领域知识图谱的查询方式

进行 DKG 的查询时,一般有 SPARQL 和 SQL 语句两种选择。SQL 的优点是简单且普及性高,但是表达能力相对较弱;而 SPARQL 表达能力强、可推理,但是较为复杂、难以书写,并且执行复杂查询的代价高昂。

领域知识图谱如何应用?

  • 智慧搜索:精准理解搜索意图、复杂多元对象搜索、多粒度(篇章、段落、语句)搜索、跨媒体搜索;
  • 智能推荐:精确感知任务与场景;
  • 智能问答:更自然的对话式人机交互取代关键词搜索;
  • 智能解释:提高事实、关系、过程、结果的可解释性;
  • 决策分析:隐层关系发现、深层关系推理助力智能系统决策。

领域知识图谱落地有哪些最佳实践?

  • 应用引领:不要盲目建立知识图谱,否则易成“烂尾楼”
  • 避难就简:结构化 -> 半结构化 -> 非结构化,用最简单的开始实现
  • 避免从零开始:以通用图谱中的领域图谱作为种子
  • 跨领域迁移:从临近领域迁移

领域知识图谱还存在哪些挑战?

  • 如何增强知识图谱的语义表示能力?:知识图谱只能表达简单关联事件,对于时空语义、跨媒体语义支撑力度不够;
  • 如何实现稀疏样本下的图谱自动构建?:领域样本缺失现象严重,手工构建代价高昂;稀疏样本下的高质量自动化构建缺乏有效手段;
  • 如何深化基于领域知识图谱智能应用?:领域知识图谱在行业的深入应用中仍缺乏有效手段,特别是推荐、推理与解释。

结语

可以看到,本场讲座的内容真的非常详尽。在听完讲座后,我个人还是非常看好知识图谱的发展前景的。

如果想要进一步了解知识图谱,也可以看以下资料: