【人工智能】用Python实现图卷积网络(GCN):从理论到节点分类实战

解锁Python编程的无限可能:《奇妙的Python》带你漫游代码世界

目录

  1. 引言
  2. 图卷积网络理论基础
    • 2.1 图的基本概念
    • 2.2 卷积神经网络在图上的扩展
    • 2.3 GCN的数学模型
  3. GCN的实现
    • 3.1 环境配置
    • 3.2 数据集介绍与预处理
    • 3.3 模型构建
    • 3.4 训练与优化
  4. 实战:节点分类
    • 4.1 模型训练
    • 4.2 结果分析
    • 4.3 可视化
  5. 代码详解
    • 5.1 数据预处理代码
    • 5.2 GCN模型代码
    • 5.3 训练与评估代码
  6. 结论
  7. 参考文献

引言

随着社交网络、生物网络和知识图谱等复杂图结构数据的广泛应用,传统的深度学习方法在处理非欧几里得数据时面临诸多挑战。图卷积网络(GCN)作为图神经网络(Graph Neural Networks, GNNs)的一种重要变种,通过在图结构上进行卷积操作,实现了对图数据的有效表示和学习。自2017年Kipf和Welling提出GCN以来,其在节点分类、图分类、链接预测等任务中取得了显著成果。

本文将深入探讨GCN的理论基础,详细介绍其在节点分类任务中的实现方法。通过Python和PyTorch框架,我们将从零开始构建GCN模型,涵盖数据预处理、模型设计、训练优化及结果评估等全过程。文中提供的代码示例配有详尽的中文注释,旨在帮助读者理解并掌握GCN的实现细节。

图卷积网络理论基础

2.1 图的基本概念

在计算机科学中,**图(Graph)**是一种由节点(Vertices)和边(Edges)组成的数据结构,用于表示实体及其之间的关系。形式上,一个图可以表示为 ( G = (V, E) ),其中:

  • ( V ) 是节点集合,节点数量为 ( N = |V| )。
  • ( E ) 是边集合,边可以是有向的或无向的。

图可以用邻接矩阵(Adjacency Matrix)( A \in \mathbb{R}^{N \times N} )表示,其中 ( A_{ij} = 1 ) 表示节点 ( i ) 和节点 ( j ) 之间存在边,反之为0。

此外,图中的每个节点可以具有特征向量 ( X \in \mathbb{R}^{N \times F} ),其中 ( F ) 是每个节点的特征维度。

2.2 卷积神经网络在图上的扩展

传统的卷积神经网络(Convolutional Neural Networks, CNNs)主要应用于欧几里得数据(如图像、音频),其核心在于利用卷积操作捕捉局部特征。然而,图数据的非欧几里得性使得传统卷积难以直接应用。

为了解决这一问题,研究者提出了多种在图上进行卷积的方法,主要分为谱方法和空间方法:

  • 谱方法:基于图的谱理论,利用图拉普拉斯算子(Graph Laplacian)进行卷积操作。
  • 空间方法:直接在图的邻域结构上定义卷积操作,更加直观且易于扩展。

GCN属于谱方法的一种简化形式,通过对图拉普拉斯算子进行近似,实现高效的图卷积。

2.3 GCN的数学模型

GCN的核心思想是通过多层图卷积操作,将节点的特征与其邻居节点的特征进行聚合和变换。以Kipf和Welling提出的GCN为例,其基本的图卷积层可以表示为:

H ( l + 1 ) = σ ( D ^ − 1 / 2 A ^ D ^ − 1 / 2 H ( l ) W ( l ) ) H^{(l+1)} = \sigma\left( \hat{D}^{-1/2} \hat{A} \hat{D}^{-1/2} H^{(l)} W^{(l)} \right) H(l+1)=σ(D^1/2A^D^1/2H(l)W(l))

其中:

  • ( H^{(l)} ) 是第 ( l ) 层的节点特征矩阵,( H^{(0)} = X )。
  • ( \hat{A} = A + I_N ) 是加上自连接后的邻接矩阵,( I_N ) 是单位矩阵。
  • ( \hat{D} ) 是 ( \hat{A} ) 的度矩阵,即 ( \hat{D}{ii} = \sum_j \hat{A}{ij} )。
  • ( W^{(l)} ) 是第 ( l ) 层的可学习权重矩阵。
  • ( \sigma ) 是激活函数,如ReLU。

通过上述公式,GCN层实现了节点特征的聚合和线性变换,从而逐层提取更高层次的图结构信息。

GCN的实现

3.1 环境配置

在开始实现GCN之前,需要配置相应的开发环境。本文使用Python编程语言,结合PyTorch深度学习框架。以下是环境配置的主要步骤:

  1. 安装Python:建议使用Python 3.8及以上版本。
  2. 安装必要的库
pip install torch torchvision
pip install numpy scipy scikit-learn
pip install matplotlib
  1. 安装PyTorch Geometric(可选):虽然本文将手动实现GCN,但PyTorch Geometric提供了丰富的图神经网络工具,可供参考。
pip install torch-geometric

3.2 数据集介绍与预处理

节点分类任务常用的数据集包括Cora、Citeseer和Pubmed。本文以Cora数据集为例,介绍数据的结构和预处理方法。

Cora数据集包含2708个科研论文,这些论文根据内容被划分为7个类别,构成一个引用图,边表示论文之间的引用关系。每个节点的特征是一个1433维的词袋向量。

数据预处理步骤

  1. 加载数据:读取节点特征、标签和邻接关系。
  2. 构建邻接矩阵:基于引用关系构建稀疏邻接矩阵。
  3. 特征标准化:对节点特征进行标准化处理。
  4. 划分训练集、验证集和测试集

以下是数据预处理的Python代码示例:

import numpy as np
import scipy.sparse as sp
import torch
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split# 加载数据
def load_data(path="cora/", dataset="cora"):# 读取节点特征和标签idx_features_labels = np.genfromtxt("{}{}.content".format(path, dataset), dtype=np.dtype(str))features = sp.csr_matrix(idx_features_labels[:, 1:-1], dtype=np.float32)labels = idx_features_labels[:, -1]# 标签编码le = LabelEncoder()labels = le.fit_transform(labels)# 构建节点索引映射idx = np.array(idx_features_labels[:, 0], dtype=np.int32)idx_map = {j: i for i, j in enumerate(idx)}# 读取边信息并构建邻接矩阵edges_unordered = np.genfromtxt("{}{}.cites".format(path, dataset), dtype=np.int32)edges = np.array(list(map(idx_map.get, edges_unordered.flatten())), dtype=np.int32).reshape(edges_unordered.shape)adj = sp.coo_matrix((np.ones(edges.shape[0]), (edges[:,0], edges[:,1])), shape=(labels.shape[0], labels.shape[0]), dtype=np.float32)# 构建对称的邻接矩阵adj = adj + adj.T.multiply(adj.T > adj) - adj.multiply(adj.T > adj)return features

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/493387.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot--06--整合Swagger

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 Swagger一、简介官网:https://swagger.io/ Swagger 的优势 二、基本使用1. 导入相关依赖2. 编写配置文件2.1 配置基本信息2.2 配置接口信息2.3 配置分组…

写SQL太麻烦?免费搭建 Text2SQL 应用,智能写 SQL | OceanBase AI 实践

自OceanBase 4.3.3版本推出以来,向量检索的能力受到了很多客户的关注,也纷纷表达希望OB能拓展更多 多模数据库大模型 的AI应用实践。 在上篇文章 👉 OceanBase LLM,免费构建你的专属 AI 助手 ,我们介绍了如何去搭建一…

题海拾贝:力扣 86.分隔链表

Hello大家好&#xff01;很高兴我们又见面啦&#xff01;给生活添点passion&#xff0c;开始今天的编程之路&#xff01; 我的博客&#xff1a;<但凡. 我的专栏&#xff1a;《编程之路》、《数据结构与算法之美》、《题海拾贝》 欢迎点赞&#xff0c;关注&#xff01; 1、题…

sql server索引优化语句

第一步 建一个测试表 --create table TestUsers --( -- Id int primary key identity(1,1), -- Username varchar(30) not null, -- Password varchar(10) not null, -- CreateDateTime datetime not null --)第二步 插入100w数据 大概1分钟执行时间 ----插入数据…

多智能体/多机器人网络中的图论法

一、引言 1、网络科学至今受到广泛关注的原因&#xff1a; &#xff08;1&#xff09;大量的学科&#xff08;尤其生物及材料科学&#xff09;需要对元素间相互作用在多层级系统中所扮演的角色有更深层次的理解&#xff1b; &#xff08;2&#xff09;科技的发展促进了综合网…

VS Code Copilot 与 Cursor 对比

选手简介 VS Code Copilot&#xff1a;算是“老牌”编程助手了&#xff0c;虽然Copilot在别的编辑器上也有扩展&#xff0c;不过体验最好的还是VS Code&#xff0c;毕竟都是微软家的所以功能集成更好一些&#xff1b;主要提供的是Complete和Chat能力&#xff0c;也就是代码补全…

基于层次化设计方法,设计一个16位二进制全加器

设计思路&#xff1a;先一个半加器和一个或门&#xff0c;每两个半加器构成一个全加器&#xff0c;每四个全加器组成一个4位全加器&#xff0c;再将这4个4位全加器依次相连组成一个16位二进制全加器。 半加器的逻辑表达式&#xff1a;sumAB; coutAB; 半加器的真值表 全加器的逻…

ES搜索原理

ES搜索原理 bg: 搜索的时候&#xff0c;使用模糊查询经常出现搜索不到的情况&#xff0c;不如mysql的like有效。 https://www.bilibili.com/video/BV1yb421J7oX/?spm_id_from333.337.search-card.all.click&vd_source3f917722acc36b0fcca7cca2d21394e2 基础概念 索引&a…

轻松上手:使用 Vercel 部署 HTML 页面教程

&#x1f600; 在学习前端的过程中&#xff0c;部署项目往往是一个令人头疼的问题。然而&#xff0c;Vercel 为我们提供了一个便捷且免费的解决方案。 Vercel 是一个强大的云平台&#xff0c;专门用于前端项目的部署和托管。它不仅支持多种前端框架和静态网站生成器&#xff0…

STL 剖析

STL 六大组件 「STL 六大组件的交互关系」 Container 通过 Allocator 取得数据储存空间Algorithm 通过 Iterator 存取 Container 内容Functor 可以协助 Algorithm 完成不同的策略变化Adapter 可以修饰或套接 Functor、Iterator 配置器(allocator) 配置器&#xff1a;负责空间…

HTTP—03

触发 GET 请求 1&#xff09;直接在浏览器 地址栏 输入 URL&#xff0c;此时构成了一个GET请求 2&#xff09;HTML中的一些特殊标签可能会触发 例如 img,a,link,script... 3&#xff09;通过Form表单触发&#xff08;Form本质也是一个HTML标签&#xff09; 4&#xff0…

C 数组:索引魔杖点化的数据星图阵列

一、数组 1.数组的概念 数组是⼀组相同类型元素的集合&#xff1b;从这个概念中我们就可以发现2个有价值的信息&#xff1a; 数组中存放的是1个或者多个数据&#xff0c;但是数组元素个数不能为0。数组中存放的多个数据&#xff0c;类型是相同的。 2.数组的分类 数组主要分为一…

苹果手机怎么清理空间:拯救你的拥挤手机

在数字生活的海洋中&#xff0c;我们的苹果手机就像一艘小船&#xff0c;载满了照片、应用、视频和各种下载的“宝贝”。随着时间的推移&#xff0c;这艘小船开始变得拥挤&#xff0c;航行速度放缓&#xff0c;甚至有时候直接卡壳。苹果手机怎么清理空间&#xff1f;是时候学会…

Ubuntu上如何部署Nginx?

环境&#xff1a; Unbuntu 22.04 问题描述&#xff1a; Ubuntu上如何部署Nginx&#xff1f; 解决方案&#xff1a; 在Ubuntu上部署Nginx是一个相对简单的过程&#xff0c;以下是详细的步骤指南。我们将涵盖安装Nginx、启动服务、配置防火墙以及验证安装是否成功。 1. 更新…

javaScriptBOM

1.1、BOM概述 1.1.1、BOM简介 BOM&#xff08;browser Object&#xff09;即浏览器对象模型&#xff0c;它提供了独立于内容而与浏览器窗口进行交互的对象&#xff0c;其核心对象是window。 BOM由一系列的对象构成&#xff0c;并且每个对象都提供了很多方法与属性 BOM缺乏标准…

Unity3D仿星露谷物语开发7之事件创建动画

1、目标 掌握事件通知的Publisher - Subscriber设计模式&#xff0c;并通过事件通知触发动画。 2、发布者/订阅者模式 首先&#xff0c;定义事件Event 然后&#xff0c;Publisher触发事件 最后&#xff0c;Subscriber订阅事件并进行处理 &#xff08;1&#xff09;创建动作…

点击展示大图预览

原文链接在table表格里能够实现&#xff0c;点击里面的图片实现大图预览的效果&#xff1b; 一、先安装viewer — 使用npm安装 npm install v-viewer --save二、在main.js中引入 import Viewer from v-viewer //点击图片大图预览 import viewerjs/dist/viewer.css Vue.use(…

安全算法基础(一)

安全算法是算法的分支之一&#xff0c;还的依靠大量的数学基础进行计算&#xff0c;本文参照兜哥的AI安全样本对抗&#xff0c;做一个简单的算法安全概括&#xff0c;从零学习。 最新的安全算法对于我们常规的攻击样本检测&#xff0c;效果是不理想的&#xff0c;为了探究其原…

aioice里面candidate固定UDP端口测试

环境&#xff1a; aioice0.9.0 问题描述&#xff1a; aioice里面candidate固定UDP端口测试 解决方案&#xff1a; /miniconda3/envs/nerfstream/lib/python3.10/site-packages/aioice import hashlib import ipaddress import random from typing import Optional import…

UE UMG 多级弹出菜单踩坑

多级弹出菜单 https://www.bilibili.com/video/BV1ub411J7nA 运行时添加 widget 的方法 create widget 然后 add child 到某个组件&#xff0c;比如 canvas 运行时修改 widget 位置的方法 set widget slot position 用起来没效果 怀疑是因为我没有传入 slot 但是暂时不知…