当前位置> 首页 > 科技成果 > 其他
基于Ceph的十亿级节点规模知识图谱的对象存储管理方法及系统
类 别:其他
地 区:市辖区
单位名称:承德市生产力促进中心
联系电话:03142383069
发布时间:2025-07-02

所属领域: A 电子信息技术

技术成果简介

知识图谱,是一种用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱可以将大规模数据中的隐藏的知识抽取出来,构建一个基于图的数据模型。近些年的数据挖掘、大数据、人工智能、机器学习等等和信息处理关联的热门技术,可以用知识图谱来辅助,这些技术的最终目的,实质是把数据收集整理成结构化的、可复用、可推理的存储,进而用于更多的使用场景,而知识图谱这种存储格式,可以近乎完美的匹配这些需求。知识图谱旨在描述真实世界中存在的各种实体或概念,以及他们之间的关联关系,它的每一个实体用全局唯一确定的ID来标识,就如每个人都有一个身份证号码;第二个就是用属性-值对来刻画实体的内在特性,用关系来连接两个实体,刻画他们之间的关联。目前图存储系统最大的缺陷在于并非是真正的分布式,大数据时代可获取的数据越来越多,单机的容量有限,当数据量超过单机的承载能力以后很难处理,底层存储远远没有块存储与对象存储方式效率高,且图查询及图分析效率低下,系统较差的容灾性和实时性,面临数亿节点量级有着难以动态扩容,节点关联查询效率低下等问题。为了解决现有技术中的不足,本发明公开了基于Ceph的十亿级节点规模知识图谱的对象存储管理方法及系统,方法包括:图存储架构的构建设计,获取与目标业务对应的多个实体的实体数据,并根据实体数据生成所述目标业务对应的知识图谱并进行存储,并以Ceph作为分布式资源存储器,同时新增外部索引后台机制,利用分布式计算引擎将大任务分解成多个子任务,分发给不同机器去执行,完成后汇总,以提供大规模数据处理能力来支撑OLAP需求,供用户基于知识图谱进行数据分析。本发明还提供了基于Ceph的十亿级节点规模知识图谱的对象存储管理系统。本方案引用了分布式资源管理器,具有可扩展和高可用特征,同时能存储和表达海量知识,支持数十亿节点数据量,有着可靠、易用、高效的特性。

技术成果前景

本方案新增大数据分布式架构,引用分布式资源管理器,具有可扩展,高可用等主要性能特征,主要体现在分布式集群,外部索引,数据可靠性,分布式资源管理器方面。同时获得了能存储和表达海量知识,支持数十亿节点数据量,有着可靠、易用、高效的特性。