当前位置> 首页 > 科技成果 > 其他
Data Torch——暗数据存储、点亮与价值评估系统
类 别:其他
地 区:市辖区
单位名称:承德市生产力促进中心
联系电话:03142383069
发布时间:2025-06-05

所属领域: A 电子信息技术

技术成果简介

针对暗数据处理,提出了如下方案:(1) 基于内容哈希的暗数据点亮技术本系统通过解析暗数据的内容语义生成哈希码,再通过汉明距离计算哈希码之间的距离度量,利用哈希码作为元数据,利用距离度量作为组织标准,对所有数据进行图结构化组织,实现暗数据的点亮。首先训练自学习哈希模型DDCH,其中包括对比学习和无监督哈希函数学习阶段。利用预训练好的模型对暗数据集中的文件进行重构编码,每一个文件都生成一个哈希码与之对应。哈希模型的输入在语义上越相近,生成的哈希码的汉明距离也越相近。暗数据点亮时,通过DDCH模型将所有的暗数据生成为哈希码,然后使用图结构对所有的哈希码进行倒排索引管理。(2) 基于语义汉明图的暗数据价值评估技术管理哈希码的图组织,即汉明图。语义越接近的数据在图中的距离也越接近。在汉明图中,可以看到一些分布比较集中的子图,即一组语义相似的元素。在实际应用中,数据集的数目和密度无法统一,例如,部分数据集的图像总量大,而有些数据集中与检索需求相关的图像数量多,为了精确评估各数据集的价值,提出综合考量密度和数量的暗数据价值评估技术。通过计算各个数据在数据集中的重要性分数,再将需求转换为数据对数据集中的数据进行检索,检索出的数据分数即可代表数据集对需求的重要性依赖,即价值。对于重要性分数,子图越密集,即元素越多,汉明距离越短,该子图的重要性越高,越具备挖掘价值。为了评估每个子图的重要性,首先给每个子图打一个“重要性分数”,然后根据重要性分数给子图排序,排序后得到排名表(3) 基于元数据图谱的暗数据存储技术暗数据存储系统利用哈希技术与语义汉明图技术生成并组织元数据,在不影响传统元数据组织的基础上,提供使语义相似的文件在逻辑结构上更接近的查找目标。该设计能够以外挂索引的方式单独管理生成的内容元数据。当需要查找某一类型的数据时,暗数据存储系统能够通过聚类来召回语义相似区域的数据,辅以双IO路径的设计,让系统既保留了现有存储系统的读写路径,又能够通过内容语义来查询并召回相应的文件,使得暗数据查询和检索更加高效和方便。

技术成果前景

主要面向信息技术服务行业,通过释放暗数据的潜在价值,助推各行各业激发数字要素潜能。应用群体分为个人用户及企业用户,对于个人用户,提供暗数据处理解决方案,提高日常工作效率;对于企业用户,通过对企业内部暗数据进行分析处理,提升存储性价比,推动信创产业发展及信息化建设。麦肯锡公司在2015年的报告中指出:暗数据的潜在价值高达11.1万亿美元。2022年我国大数据产业规模达1.57万亿,暗数据占据了数据总量的68%以上,因此,暗数据处理具备相当大的经济潜力,是数据治理环节的重要一环。

联系人信息

联系人: 苏经理

联系电话: 0311-89687911

E-mail: hbskjcgzjzx@163.com

通讯地址: 石家庄科技大厦一楼西展厅