1.4亿中文知识图谱导入Nebula Graph快速体验

1. 史上最大规模的中文知识图谱

Yener 开源了史上最大规模的中文知识图谱—— OwnThink(链接:​​https://github.com/ownthink/KnowledgeGraphData​​,数据量为 1.4 亿条。数据以 ​​(实体, 属性, 值)​​ 和 ​​(实体, 关系, 实体)​​ 混合的三元组形式存储,数据格式为 csv

在这里插入图片描述

2. 重复数据清洗

你可以在这里https://github.com/jievince/rdf-converter下载这个简单的清洗工具源代码并编译使用。该工具会把转换后的顶点的数据写入到 vertex.csv 文件、边数据写入到 edge.csv 文件。在测试过程中,发现有大量的重复点数据,所以工具里面也做了去重。完全去重后的点的数据大概是 4600 万条,完全去重后的边的数据大概是 1 亿 4000 万条。

也可以直接下载去重后的数据https://www.kaggle.com/datasets/littlewey/nebula-ownthink-property-graph

在这里插入图片描述

3. 准备 schema 等元数据

create space 的概念接近 MySQL 里面 create database

# 创建 test space
CREATE SPACE test(partition_num=20,replica_factor=1,vid_type=INT64);
# 进入 test space
USE test;
# 创建点类型(entity)
CREATE TAG entity(name string);
# 创建边类型 (relation) 
CREATE EDGE relation(name string);
# 查看 entity 标签的属性
DESCRIBE TAG entity;

在这里插入图片描述

4. nebula-importer 导入数据

https://github.com/vesoft-inc/nebula-importer/releases 下载导入工具

直接使用如下config.yaml, 语法参考github相关文档

client:version: v3address: "127.0.0.1:9669"user: rootpassword: nebulaconcurrencyPerAddress: 10reconnectInitialInterval: 1sretry: 3retryInitialInterval: 1smanager:spaceName: testbatch: 128readerConcurrency: 50importerConcurrency: 512statsInterval: 10s
log:level: INFOconsole: truefiles:- logs/nebula-importer.logsources:- path: ./vertex.csvfailDataPath: ./err/vertex.csvcsv:delimiter: ","withHeader: falsewithLabel: falsetags:- name: entityid:type: "INT"index: 0props:- name: "name"type: "STRING"index: 1- path: ./edge.csvfailDataPath: ./err/edge.csvbatch: 256csv:delimiter: ","withHeader: falsewithLabel: falseedges:- name: relationsrc:id:type: "INT"index: 0dst:id:type: "INT"index: 1props:- name: "name"type: "string"index: 2
nebula-importer -c config.yaml

等待导入即可
在这里插入图片描述

5. 查询初体验

5.1 与姚明有直接关联的边的类型和点的属性

GO FROM hash("姚明[中国篮球协会主席、中职联公司董事长]") OVER relation YIELD relation.name AS Name, $$.entity.name AS Value;

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/390640.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【最长重复子数组】python刷题记录

R3-滑动窗口专题 . - 力扣(LeetCode)

Xilinx FPGA 原语解析(一):IBUFDS_GTE3 差分时钟输入缓冲器

目录 1.使用说明 2.实例化代码 3.参数解释 4.端口连接 1.使用说明 IBUFDS_GTE3 是Xilinx FPGA 中用于高速接口的差分时钟信号输入缓冲器。 BUFDS_GTEx,x2/3/4(不同系列的FPGA x的值不同),其中UltraScale使IBUFDS_GTE3…

苹果手机录音删除了怎么恢复?快收藏,这3个方法超简单!

在日常生活中,苹果手机的语音备忘录功能为我们捕捉了许多珍贵的瞬间。然而,有时因为误操作或其他原因,我们可能会不小心删除了重要的录音。面对手机录音删除了怎么恢复这种情况,不必慌张,今天小编将向你展示3种简单易行…

ACl访问控制实验

要求:PC1可以telnet登录r1,不能ping通r1,pc1可以ping通r2,但不能telnet登录r2,pc2的所有限制与pc1相反 实验思路:因为华为的ensp默认允许所有,所以只写拒绝规则就行 rule 5 deny icmp source 19…

使用MultipartFile来上传单个及多个文件代码示例(前端传参数及后端接收)

背景 前端使用vue或vue+vant上传文件 后端java接收MultipartFile和其他参数 一、MultipartFile上传单个文件代码示例 1.1 MultipartFile上传单个文件,不包含其它参数 1.1.1 控制层代码如下: /*** 1、上传单个文件,不包含其它参数* */ @PostMapping( "/upload")…

vulhub:nginx解析漏洞CVE-2013-4547

此漏洞为文件名逻辑漏洞,该漏洞在上传图片时,修改其16进制编码可使其绕过策略,导致解析为 php。当Nginx 得到一个用户请求时,首先对 url 进行解析,进行正则匹配,如果匹配到以.php后缀结尾的文件名&#xff…

JAVA游戏源码:仙剑|大学生练手项目

学习java朋友们,福利来了,今天小编给大家带来了一款仙剑源码。注意:此源码仅供学习使用!! 源码搭建和讲解 启动main入口: //************************************************************************ // ************完整源码…

【practise】大数相加、大数相乘

通常,我们的int、long long类型都有最大的数字上限,也就是说再大了会有溢出问题,那么很大的数字是怎么进行运算的呢? 其中一种方法是把很大的数字转变成字符串存放到string中,然后用代码对字符串进行处理,…

进程通信(7):互斥锁(mutex)和条件变量

互斥锁(mutex)用于互斥访问临界区,只允许一个线程访问共享变量。 条件变量可以让获取互斥锁 的线程在某个条件变量上等待,直到有其他线程把他唤醒。 互斥锁和条件变量通常一起使用实现同步。 互斥锁的操作 lock(mutex); // 获取锁&#xff…

C++——哈希结构

1.unordered系列关联式容器 本节主要介绍unordered_map和unordered_set两个容器&#xff0c;底层使用哈希实现的 unordered_map 1.unordered_map是储存<key,value>键值对的关联式容器&#xff0c;其允许通过key快速查找到对应的value&#xff0c;和map非常相似&#x…

数学建模--支持向量机

目录 SVM的基本原理 SVM的应用场景 实现细节与案例分析 总结 支持向量机&#xff08;SVM&#xff09;在处理非线性数据时的核函数有哪些&#xff0c;以及它们各自的优缺点是什么&#xff1f; 如何选择支持向量机的惩罚参数CC以优化模型性能和计算效率&#xff1f; 在实际…

V.PS澳大利亚VPS测评

V.PS的澳大利亚VPS位于澳大利亚悉尼市&#xff0c;回程三网强制是走的联通AS9929/CUII链路&#xff0c;是一种轻负载企业级回国路由...而且IP解锁能搞定奈飞、迪士尼、steam、chatgpt等&#xff0c;大洋洲流媒体解锁&#xff0c;尤其是澳大利亚的流媒体&#xff0c;比如澳大利亚…

C语言程序设计-[1] 基础语法

1、字符集 字符集&#xff1a;是ASCII字符集的一个子集。 注&#xff1a;基本上就是电脑键盘可以输入的一些字符。 2、标识符 标识符&#xff1a;用来命名程序中的一些实体&#xff0c;如&#xff1a;变量、常量、函数、数组名、类型名、文件名等。由一个或多个字符组成。 —…

59.DevecoStudio项目引入不同目录的文件进行函数调用

59.DevecoStudio ArkUI项目引入不同目录的文件进行函数调用 arkUi,ets,cj文件&#xff0c;ts文件的引用 import common from ohos.app.ability.common; import stringutils from ./uint8array2string; //index.ts的当前目录 import StringUtils2 from ../http2/uint8array2st…

DETR论文详解

文章目录 前言一、DETR理论二、模型架构1. CNN2. Transformer3. FFN 三、损失函数四、代码实现总结 前言 DETR是Facebook团队在2020年提出的一篇论文&#xff0c;名字叫做《End-to-End Object Detection with Transformers》端到端的基于Transformers的目标检测&#xff0c;DET…

Java重修笔记 第二十七天 匿名内部类

匿名内部类 1. 定义&#xff1a;无类名&#xff08;底层自动分配类名“外部类名$1”&#xff09;&#xff0c;既是类也是对象&#xff0c;定义在外部类的局部位置&#xff0c;例如方法体和代码块中&#xff0c;通过new类或接口并在大括号里重写方法来实现。 2. 使用场景&…

c++网络编程实战——开发基于协议的文件传输模块(一)如何实现一个简单的tcp长连接

前言 在之前的几篇内容中我们已经介绍过基于ftp协议的文件传输模块&#xff0c;而这个系列我们所想实现的就是如何实现基于tcp进行的文件传输模块,话不多说&#xff0c;开坑开坑! 什么是tcp长连接 我们知道tcp在建立连接的时候会通过三次握手与四次挥手来建立tcp连接&#x…

大数据-62 Kafka 高级特性 主题 kafka-topics相关操作参数 KafkaAdminClient 偏移量管理

点一下关注吧&#xff01;&#xff01;&#xff01;非常感谢&#xff01;&#xff01;持续更新&#xff01;&#xff01;&#xff01; 目前已经更新到了&#xff1a; Hadoop&#xff08;已更完&#xff09;HDFS&#xff08;已更完&#xff09;MapReduce&#xff08;已更完&am…

类加载机制

概述 所谓机制就是某种流程规范或运作模式。简单来说&#xff0c;将类文件加载到JVM中的过程&#xff0c;需要对这个过程进行限定和约束&#xff0c;这就是Java类加载的机制。 具体说来&#xff0c;对Java类加载机制的描述可以从三个方面&#xff1a; 按需加载 需要某一个类…

Web开发-html篇-上

HTML发展史 HTML的历史可以追溯到20世纪90年代初。当时&#xff0c;互联网尚处于起步阶段&#xff0c;Web浏览器也刚刚问世。HTML的创建者是蒂姆伯纳斯-李&#xff08;Tim Berners-Lee&#xff09;&#xff0c;他在1991年首次提出了HTML的概念。HTML的初衷是为了方便不同计算机…