位置: IT常识 - 正文

NLP--知识图谱存储与图数据库总结【分析】(知识图谱ui)

编辑:rootadmin
NLP--知识图谱存储与图数据库总结【分析】 文章目录前言一、知识图谱1、数据模型2、数据库管理系统3、查询语言4、查询操作二、知识图谱存储方式1、关系型存储2、原生图存储三、基于关系的知识图谱存储管理1、三元组表2、水平表3、属性表4、垂直划分5、六重索引四、原生知识图谱存储管理1、Neo4j2、gStore3、分布式图数据库:JanusGraph4、OrientDB5、Cayley6、其他原生图数据库五、图数据库1、图数据库排名2、图数据库选型3、图数据库对比(1) NebulaGraph vs. Dgraph vs. HugeGraph(2) Neo4j vs NebulaGraph vs JanusGraph(3) Dgraph vs. HugeGraph vs. JanusGraph vs. NebulaGraph vs. Neo4j(4) 主要知识图谱数据库对比4、单个性能强图数据库(1) TuGraph(2) NebulaGraph总结参考链接前言

推荐整理分享NLP--知识图谱存储与图数据库总结【分析】(知识图谱ui),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:知识图谱属于nlp范畴吗,知识图谱 csdn,知识图谱schema,知识图谱schema,知识图谱embedding,知识图谱 csdn,知识图谱属于nlp范畴吗,知识图谱 nlp,内容如对您有帮助,希望把文章链接给更多的朋友!

知识图谱是一个大规模语义网,由实体,概念等节点和属性,关系,类型等边构成。 是许多三元组的集合。每一个三元组是由主语(subject),谓语(predicate),宾语(object)构成。 随着各个领域不断增长的知识图谱,知识图谱存储也吸引着很多人进行研究,本文将从知识图谱的数据模型、存储方式、基于关系/原生的知识图谱存储管理、数据库等几方面进行阐述。 【本文篇幅较长计9662字,阅读完大概需十分钟,若有想直接了解的内容,可直接点击目录】

一、知识图谱1、数据模型

知识图谱的两种主流数据模型(数据的结构、操作和约束):

RDF 图模型和属性图模型

数据模型特性数据模型特性RDF图模型属性图模型结构标准化程度 数学模型 表达力 边属性表达 概念层本体定义 串行化格式已由W3C制定了标准化的语法和语义 3-均匀有向标签超图 RDF图模型强于属性图模型 通过额外方法, 如“具体化” RDFS、OWL、 XML、JSON、N-Triples、Turtle等尚未形成工业标准 有向标签属性图 属性图模型弱于RDF图模型 内置支持 不支持 CSV操作查询代数SPARQL代数无查询语言SPARQLCypher、Gremlin、PGQL、G-CORE约束约束语言RDF Shapes约束语言(SHACL)无2、数据库管理系统

知识图谱数据模型的主流数据库管理系统:

RDF三元组库和原生图数据库

3、查询语言

知识图谱查询语言:

SPARQL、Cypher、Gremlin、PGQL 和 G-CORE

语法/语义/特性SPARQLCypherGremlinPGQLG-CORE图模式匹配查询语法CGPCGPCGP(无可选)1CGPCGP语义子图同态、包2无重复边、包2子图同态、包2子图同构3、包2子图同态、包2导航式查询语法RPQ超集(增加反向边和属性集上的否定)RPQ子集(*只能作用在单边)RPQ超集(增加通过表达式比较属性值)RPQ超集(增加比较路径上的顶点和边)RPQ超集(增加复杂路径表达式)语义任意路径、集合4无重复边5、包2任意路径6、包2最短路径7、包8最短路径9、包2分析型查询聚合函数聚合函数聚合函数、PageRank、PeerPressure聚类聚合函数聚合函数查询可组合性否是是否是数据更新语言DMLCRUD10CRUD无无CR数据定义语言DDL无有无无无实现系统Jena、RDF4J、gStore、Virtuoso等Neo4j、AgensGraph等TinkerTop等Oracle PGX无

注:1. Gremlin不显式支持可选(optional)操作, 但可以通过其他语法特性等价模拟.2.可通过DISTINCT关键字支持集合语义.3. PGQL默认的图模式匹配查询语义是子图同构, 可使用ALL关键字改为子图同态.4. SPARQL中只有当使用*运算使得属性路径查询无法等价写为CGP时才使用集合语义.5. Cypher可通过shortestPath函数支持最短路径语义.6. Gremlin中其他语义可以被模拟出来.7. PGQL路径查询可通过用户定义函数实现其他语义.8. PGQL路径查询返回单条最短路径, 集合和包语义相同.9. G-CORE路径查询可通过ALL关键字改为任意路径语义.10. CRUD分别代表CREATE创建、READ读取、UPDATE更新和DELETE删除

4、查询操作

知识图谱上 3 种主要的查询操作类型:

NLP--知识图谱存储与图数据库总结【分析】(知识图谱ui)

图模式匹配、导航式和分析型查询

RDF图: 设U、B 和 L 为互不相交的无限集合,分别代表 URI、空顶点(blank node)和字面量(literal). 一个三元组(s,p,o)∈\in∈(U∪BU \cup BU∪B)×\times×U×\times×(UUU ∪\cup∪ BBB ∪\cup∪ LLL)称为 RDF 三元组,其中,s 为主语,p 为谓语,o 为宾语.RDF 图 G 是 RDF 三元组的有限集合.属性图:属性图 G 是 5 元组(VVV,EEE,ρ\rhoρ,λ\lambdaλ,σ\sigmaσ,),其中, (1) V 是顶点的有限集合; (2) E 是边的有限集合且 V∩E=ϕV\cap E=\phiV∩E=ϕ ; (3) 函数ρ:E→(V×V)\rho:E\rightarrow(V\times V)ρ:E→(V×V)将边关联到顶点对,如ρ(e)=(v1,v2)\rho(e)=(v1,v2)ρ(e)=(v1,v2)表示$ e $是从顶点 v1v1v1 到顶点 v2v2v2 的有向边; (4) 设 LabLabLab 是 标签集合,函数λ:(V∪E)→Lab\lambda: (V\cup E)\rightarrow Labλ:(V∪E)→Lab为顶点或边赋予标签,如 v∈\in∈V(或 e∈\in∈E)且λ(v)=l\lambda(v)=lλ(v)=l(或 λ\lambdaλ(e)=lll),则$ l$ 为顶点 v(或边 e)的标 签; (5) 设PropPropProp是属性集合,ValValVal是值集合,函数ρ:(V∪E)×Prop→Val\rho:(V\cup E)\times Prop \rightarrow Valρ:(V∪E)×Prop→Val为顶点或边关联属性,如v∈V(或e∈E)、p∈Propv \in V (或e \in E)、p \in Propv∈V(或e∈E)、p∈Prop且σ(v,p)=val(\sigma(v,p)=val(σ(v,p)=val(或σ(e,p)=val\sigma(e,p)=valσ(e,p)=val,则顶点v(或边e)v(或边e)v(或边e)上属性p的值为valp的值为valp的值为val二、知识图谱存储方式1、关系型存储

存储大规模知识图谱,且便于对知识进行更新,但当知识图谱查询的选择性较大时,查询性能明显下降

2、原生图存储

无邻接索引的特性能够高效处理复杂的知识图谱查询,但有限的存储容量和不灵活的更新机制使得原生图存储不能很好地应用于大规模知识图谱中

三、基于关系的知识图谱存储管理

关系数据库目前仍是使用最多的数据库管理系统。基于关系的知识图谱存储方案,包括:三元组表、水平表、属性表、垂直划分、六重索引和 DB2RDF。

1、三元组表

三元组表(triple table)是将知识图谱存储到关系数据库的最简单、最直接的办法,就是在关系数据库中建立 一张具有 3 列的表,该表的模式为triple_table(subject,predicate,object),subject、predicate 和 object 这 3 列分别表示主语、谓语和宾语。

三元组表存储方案虽然简单明了,但三元组表的行数与知识图谱的边数相等,其最大问题在于将知识图谱查询翻译为 SQL 查询后会产生三元组表的大量自连接操作RDF 数据库系统 3store 2、水平表

水平表(horizontal table)存储方案同样非常简单。水平表的每行记录存储知识图谱中一个主语的所有谓语 和宾语。实际上,水平表相当于知识图谱的邻接表。水平表的列数是知识图谱中不同谓语的数量,行数是知识图 谱中不同主语的数量。

RDF 数据库系统 DLDB水平表的缺点在于:(1) 所需列的数目等于知识图谱中不同谓语数量,在真实知识图谱数据集中,不同 谓语数量可能为几千个到上万个,很可能超出关系数据库所允许的表中列数目上限(2) 对于一行来说,仅在极 少数列上具有值,表中存在大量空值,空值过多会影响表的存储、索引和查询性能(3) 在知识图谱中,同一主语 和谓语可能具有多个不同宾语,即一对多联系或多值属性,而水平表的一行一列上只能存储一个值,无法应对这种情况(可以将多个值用分隔符连接存储为一个值,但这违反了关系数据库设计的第一范式);(4) 知识图谱的更新往往会引起谓语的增加、修改或删除,即水平表中列的增加、修改或删除,这是对于表结构的改变,成本很高。 3、属性表

属性表(property table)存储方案是对水平表的细分,将同类主语存到一个表中,解决了表中列数目过多的问题。

RDF 三元组库 Jena属性表既克服了三元组表的自连接问题,又解决了水平表中列数目过多的问题。实际上,水平表就是属性表的一种极端情况,即水平表是将所有主语划归为一类,因此属性表中的空值问题得到很大的缓解。属性表仍存 在如下一些缺点:(1) 对于规模稍大的真实知识图谱数据,主语的类别可能有几千到上万个,需要建立几千到上万个表,这往往超过了关系数据库的限制(2) 即使在同一类型中,不同主语具有的谓语集合也可能差异较大,会造成与水平表中类似的空值问题(3) 水平表中存在的一对多联系或多值属性存储问题在属性表中仍然存在 4、垂直划分

垂直划分(vertical partitioning)存储方案,为每种谓语建立一张两列的表(subject,object),表中存放知识图谱中由该谓语连接的主语和宾 语,表的总数量即知识图谱中不同谓语的数量.

SW-Store优点:(1) 谓语表仅存储出现在 知识图谱中的三元组,解决了空值问题;(2) 一个主语的一对多联系或多值属性存储在谓语表的多行中,解决了 多值问题;(3) 每个谓语表都按主语列的值进行排序,能够使用归并排序连接(merge-sort join)快速执行不同谓 语表的连接查询操作.缺点:(1) 需要创建的表的数目与知识图谱中不同谓语数目相等,而大规模的真实知识图谱(如DBpedia、YAGO、WikiData 等)中谓语数目可能超过几千个,在关系数据库中维护如此规模的表需要花费很大开销(2) 越是复杂的知识图谱查询操作,需要执行的表连接操作数量越多,而对于未指定谓语的三元组查询,将发生需要连接全部谓语表进行查询的极端情况(3) 谓语表的数量越多,数据更新维护代价越大,对于一个主语的更新将涉及多张表,产生很高的更新时 I/O 开销。 5、六重索引

六重索引(sextuple indexing)存储方案是对三元组表的扩展,是一种典型的“空间换时间”策略,其将三元组全部6种排列对应地建立为6张表,即spo(主语,谓语,宾语)、pos(谓语,宾语,主语)、osp(宾语,主语,谓语)、sop(主语,宾语,谓语)、pso(谓语,主语,宾语)和ops(宾语,谓语,主语)。不难看出,其中 spo 表就是原来的三元组表。六重索引通过6张表的连接操作不仅缓解了三元组表的单表自连接问题,而且提高了某些典型知识图谱查询的效率。

RDF-3X , Hexastore优点:(1) 知识图谱查询中的每种三元组模式查询都可以直接使用相应的索引进行快速 前缀范围查找;(2) 可以通过不同索引表之间的连接操作 直接加速知识图谱上的连接查询.缺点:(1) 虽然部分缓解了三元组表的单表自连接问题,但需要花费 6 倍的存 储空间开销、索引维护代价和数据更新时的一致性维护代价,随着知识图谱规模的增大,该问题会愈加突出;(2) 当知识图谱查询变得复杂时,会产生大量的连接索引表查询操作,依然不可避免索引表的自连接.DB2RDF 是一种面向实体的 RDF 知识图谱存储方案IBM DB2四、原生知识图谱存储管理

原生知识图谱存储是指专门为知识图谱而设计的底层存储管理方案 目前主要的原生图数据库有Neo4j、gStore、JanusGraph、OrientDB和Cayley。

1、Neo4j

Neo4j是目前最流行的属性图数据库,其原生图存储层的最大特点是具有“无索引邻接(index-free adjacency)”特性。所谓“无索引邻接”是指,每个顶点维护着指向其邻接顶点的直接引用,相当于每个顶点都可看作是其邻接顶点的一个“局部索引”,用其查找邻接顶点比使用“全局索引”节省大量时间。这就意味着图导航操作代价与图大小无关,仅与图的遍历范围成正比

2、gStore

gStore 将 RDF 数据图中每个资源的所有属性和属性值映射到一个二进制位串上。具体而言,对于每个属性 或属性值,gStore 都定义一个固定长度的位串并将位串中所有位置为 0。然后利用若干个预先定义的字符串哈希函数将属性或属性值按照标识符映射到若干个小于位串长度的整数值,进而将位串上这些值所对应的位置置为1。

3、分布式图数据库:JanusGraph

JanusGraph是在原有Titan系统基础上继续开发的开源分布式图数据库。JanusGraph的存储后端与查询引擎是分离的, 可使用分布式Bigtable存储库Cassandra或HBase作为存储后端。JanusGraph借助第三方分布式索引库ElasticSearch、Solr和Lucene实现各类型数据的快速检索功能,包括地理信息数据、数值数据和全文搜索。JanusGraph还具备基于MapReduce的图分析引擎,,可将Gremlin导航查询转化为MapReduce任务。

4、OrientDB

OrientDB最初是由OrientDB公司开发的多模型数据库管理系统。OrientDB虽然支持图、文档、键值、对象、关系等多种数据模型, 但其底层实现主要面向图和文档数据存储管理的需求设计。其存储层中数据记录之间的联系并不是像关系数据库那样通过主外键的引用,而是通过记录之前直接的物理指针。OrientDB对于数据模式的支持相对灵活,可以管理无模式数据(schema-less),也可以像关系数据库那样定义完整的模式(schema-full),还可以适应介于两者之间的混合模式(schema-mixed)数据。在查询语言方面,OrientDB支持扩展的SQL和Gremlin用于图上的导航式查询;OrientDB的MATCH语句实现了

本文链接地址:https://www.jiuchutong.com/zhishi/298543.html 转载请保留说明!

上一篇:HTML+CSS+JS 学习笔记(三)———Javascript(中)(html+css+javascript编程入门指南)

下一篇:直连路由、静态路由、动态路由(直连路由,静态路由)

  • 山西太原本轮疫情累计报告阳性感染者4567例 尚有高风险区318个

    山西太原本轮疫情累计报告阳性感染者4567例 尚有高风险区318个

  • 小米手机怎么拍月亮(小米手机怎么拍月亮更清晰)

    小米手机怎么拍月亮(小米手机怎么拍月亮更清晰)

  • soul聊天头像小绿点是什么意思(soul聊天头像小绿点什么意思)

    soul聊天头像小绿点是什么意思(soul聊天头像小绿点什么意思)

  • 华为手机浮动球怎么取消(华为手机浮动球在哪里)

    华为手机浮动球怎么取消(华为手机浮动球在哪里)

  • 手机怎么改照片分辨率(手机怎么改照片背景颜色)

    手机怎么改照片分辨率(手机怎么改照片背景颜色)

  • 手机进水喇叭声音变小杂音是(手机进水喇叭声音变小杂音放什么歌)

    手机进水喇叭声音变小杂音是(手机进水喇叭声音变小杂音放什么歌)

  • qq音乐播放次数(qq音乐播放次数怎么计算)

    qq音乐播放次数(qq音乐播放次数怎么计算)

  • 老年机变成英文了怎么恢复中文(老年机变成英文怎么改成中文)

    老年机变成英文了怎么恢复中文(老年机变成英文怎么改成中文)

  • 苹果相机九宫格有啥用(苹果相机九宫格线)

    苹果相机九宫格有啥用(苹果相机九宫格线)

  • 怎么限制手机下载软件(如何让手机限制下载软件)

    怎么限制手机下载软件(如何让手机限制下载软件)

  • 安卓手机如何打开.m3u文件(安卓手机如何打出删除线字)

    安卓手机如何打开.m3u文件(安卓手机如何打出删除线字)

  • 哈啰出行助力车怎么充电的(哈啰出行助力车是什么车)

    哈啰出行助力车怎么充电的(哈啰出行助力车是什么车)

  • 微信上面有个正在浏览(微信上面有个正方形怎么调出来)

    微信上面有个正在浏览(微信上面有个正方形怎么调出来)

  • 腾讯会议有ipad版本吗(腾讯会议有电脑版吗)

    腾讯会议有ipad版本吗(腾讯会议有电脑版吗)

  • 腾讯视频一退就不缓存(腾讯视频一退出来就得重新看)

    腾讯视频一退就不缓存(腾讯视频一退出来就得重新看)

  • 怎么开淘宝网店(自己怎么开淘宝网店)

    怎么开淘宝网店(自己怎么开淘宝网店)

  • 抖音怎么知道谁偷偷来看我(抖音怎么知道谁搜索了我的账号)

    抖音怎么知道谁偷偷来看我(抖音怎么知道谁搜索了我的账号)

  • stdlib.h是什么头文件(<stdlib.h>的作用)

    stdlib.h是什么头文件(的作用)

  • 手机挂断提示音怎么改换(手机挂断提示音怎么设置)

    手机挂断提示音怎么改换(手机挂断提示音怎么设置)

  • 腾讯二维码在哪里打开(腾讯二维码在哪找出来)

    腾讯二维码在哪里打开(腾讯二维码在哪找出来)

  • 微信如何按条件加好友(微信如何按条件查找附近好友的人)

    微信如何按条件加好友(微信如何按条件查找附近好友的人)

  • Web漏洞扫描器-Xray使用方法(web漏洞扫描器的设计与实现)

    Web漏洞扫描器-Xray使用方法(web漏洞扫描器的设计与实现)

  • 进口货物复合计税的应税消费品包括
  • 税友财务软件一年多少钱
  • 递延所得税什么时候确认
  • 普惠性幼儿园是非盈利幼儿园吗
  • 小微企业季度平均资产看每季度吗
  • 有限合伙企业要交增值税吗
  • 上一年的收入少做账了该怎么调
  • 收到生育津贴会计分录怎么做
  • 房企与个人订立购房合同是否贴花?
  • 申请发票增额有没有什么条件
  • 已过期增值税专票怎么开
  • 税款追征期起算点 增值税重新计算
  • 企业股权转让收入申报表填哪里
  • 应付职工薪酬月末结转到哪里
  • 小规模公司没有进项票 开票需要交什么税
  • 增值税发票专票有效期
  • 免征增值税还要做销项税吗
  • 成立一般纳税人公司有什么好处
  • 股权取得
  • 电子银行承兑汇票如何贴现
  • 购进农产品怎么做账
  • 怎么计算研发费用占销售收入总额比例
  • qbupdate.exe - qbupdate是什么进程 有什么作用
  • 特殊收入应扣减可加计扣除的研发费用政策依据
  • 建筑单位没有资质可以承包项目吗
  • 原材料赔偿会计分录
  • 处置工程物资取得净收益
  • 增值税专用发票丢了怎么补救
  • php分层
  • uniapp scroll-view 上下滑动
  • Web前端开发知识点总结
  • 持有至到期投资账务处理
  • java实现电子发票
  • 企业转让专利权属于什么收入
  • 工业企业采购流程
  • 会计怎么计算
  • 金税盘密码和口令忘了无法登录
  • Python中自定义异常
  • php安装步骤
  • 日常收集整理常用工具
  • 接受捐赠的固定资产怎么计提折旧
  • 支付版权使用费怎么记账
  • 研发费用资本化条件有哪些
  • 红字信息表跨月已报税
  • 商誉在资产负债表中如何体现
  • 企业汇算清缴的工资薪金支出是怎么填
  • 企业收到投资者投入资金
  • 其他应付款怎么处理
  • 疫情防控重点保障物资免征增值税
  • 应收账款多出来的钱记到什么科目
  • 原材料运费如何入账
  • 红字发票开错了已上传如何作废?
  • 公账直接转给个人,对公司有什么影响吗
  • 研发支出资本化和费用化的区别
  • 如何解绑企业开票员身份
  • 如何定义是应付还是应付
  • 罚金和罚款的区别怎么记
  • 汇总帐凭证处理
  • centos怎么看硬盘
  • centos bond mode
  • windows七如何连接网络
  • win8怎么取消自动关机
  • mac上安装ios app
  • linux中find命令基本使用方法
  • hyper run
  • macbookair扫描文件怎么弄
  • centos如何查看服务进程
  • win7彻底删除的文件怎么恢复
  • w10怎么usb连接上网
  • 请找到以下
  • 创建nodejs项目的步骤
  • css下margin、padding、border、background和font缩写示例
  • js 根据时间排序
  • bat批处理如何添加参数运行
  • python实现mysql的单引号字符串过滤方法
  • 小规模纳税人租金收入增值税税率
  • 深圳营业执照办理咨询电话
  • 河南热力公司收费标准
  • 农用三轮车免征增值税文件
  • 税控盘怎么申请领发票
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设