Astronomaly:利用 CNN 和主动学习识别 400 万张星系图像中的异常

星系中的异常现象是我们了解宇宙的关键。然而,随着天文观测技术的发展,天文数据正以指数级别增长,超出了天文工作者的分析能力。
尽管志愿者可以在线上参与对天文数据的处理,但他们只能进行一些简单的分类,还可能会遗漏一些关键数据。
为此,研究者基于卷积神经网络和无监督学习开发了 Astronomaly 算法。近日,西开普大学的研究人员首次将 Astronomaly
用于大规模的数据分析,尝试从 400 万张星系照片中探寻宇宙的异常。

作者 | 雪菜
编辑 | 三羊、铁塔

星系中的异常现象 (Anomaly) 是我们了解宇宙的关键。通过对巡天望远镜 (Survey Telescope) 记录到的图像进行分析,研究人员能够找出星系中的异常现象,进而对宇宙的起源和演化做出推断。

然而,这一过程正面临着严峻的挑战,因为天文观测数据量正以指数级别在增长。以即将投入使用的薇拉·鲁宾天文台为例,这一天文台有着世界上最大的数码相机,预计每晚将记录 20 TB 的数据,十年间记录 60 PB 的数据,对约 200 亿个星系进行 32 万亿次观察,远超研究人员人力所能分析的极限。
在这里插入图片描述

图 1:正在建设的薇拉·鲁宾天文台

2007 年 7 月,一些研究者启动了 Galaxy Zoo 项目,通过线上招募志愿者的方式推进天文观测图像分类。这一项目吸引了约 15 万名志愿者,共对斯隆数字巡天项目 (SDSS) 记录到的 100 万个星系图像进行了超过 4,000 万次分类。

在这里插入图片描述

图 2:Galaxy Zoo 项目首页

但志愿者只能做一些基础的工作,而且很容易忽视掉图像中的细节。而机器学习长于图像分析和数据归类,在天文分析中大有可为。监督学习已被广泛用于天文数据分析,但这些算法需要大量的训练数据和预定义,在寻找异常现象中表现不佳

为此,2021 年研究人员基于卷积神经网络 (CNN) 开发了无监督机器学习算法 Astronomaly,并在不同任务中有着优异的表现。近日,西开普大学的研究者利用 Astronomaly 对约 400 万张星系图像进行分析,首次将这一算法应用于大规模的数据分析,并找到了之前为人忽视的异常现象。这一成果已在 arXiv 发表预印版。

在这里插入图片描述

这一成果已发表于 arXiv

论文链接:

https://arxiv.org/abs/2309.08660

实验过程

数据集:暗能量巡天相机

本研究的数据集主要为暗能量巡天相机 (DECaLS) 的第八批公开数据 (DR8) 中 g、r、z 波段中记录的图像。

随后,对数据集中的图像进行筛选。去除被伪迹和恒星遮盖的图像,同时排除与标准星系模型不符的图像,最后留下了 3,884,404 张星系图像。

特征提取:CNN + PCA

为了提高 Astronomaly 的计算效率,需要对高维的图像进行特征提取,将其转变为低维向量。

本研究通过预训练的 CNN 对图像进行特征提取。CNN 的每一层会对输入图像进行不同变换,生成一个可以代表图像特征的向量。

CNN 最终输出了包含 1,280 个图像特征的向量。随后,研究人员利用主成分分析 (PCA) 进一步降低数据维度。PCA 是一种常用的统计方法,能够基于数据的方差将一组相关的变量转换为不相关的主成分。通过 PCA,图像的维度进一步降低至 26,提高了 Astronomaly 的处理效率。

异常监测:iForest + 主动学习

Astronomaly 结合孤立森林 (iForest) 和局部离群因子 (LOF) 算法进行异常监测。在数据测试中,LOF 算法很难应用于大规模的数据,而 iForest 算法能够通过决策树迅速找到图像中的异常。因此,在后续分析中均使用 iForest 算法。

随后, Astronomaly 通过 K-近邻算法 (NS) 和直接回归算法 (DR) 进行主动学习,不断更新数据集中图像的异常评分。

NS 算法可以基于少量人工标注的评分,通过随机森林回归算法预测用户对所有图像的评分。而 DR 算法会直接尝试「模拟」用户对图像的评分。

最终,两种算法的评分结果将与人工标注的数据进行结果对比,进行评估。

在这里插入图片描述

图 3:部分被标注的图像。Label 0 结果中自左向右分别为伪迹、遮罩和低信噪比。

Label 5 结果自左向右分别对应星系融合、引力透镜和尚未归类。

引力透镜是指强引力天体使得附近的光不再沿直线传播的效应,与透镜对光线的折射作用类似。

对比验证:Recall 曲线 + UMAP

研究人员利用 iForest、NS 和 DR 算法对验证集中的数据进行了预测。评价集包含 184 个异常现象。iForest 算法在 500 个异常评分最高的图像中仅发现了 15 处异常,而 DR 和 NS 算法均找到了 84 处异常。

在这里插入图片描述

图 4:不同算法的预测结果

进一步,研究人员将 iForest 和 NS 算法的预测结果按照伪迹、引力透镜和星系融合进行了分类,发现了 iForest 算法表现不佳的原因。
在这里插入图片描述

图 5:iForest(虚线)和 NS(实线)算法的结果归类

如图所示,iForest 算法发现的异常大多是伪迹。这些技术异常虽然也是异常,但没有什么科学价值。上述结果说明,NS 和 DR 算法可以帮助 Astronomaly 迅速排除伪迹的干扰,找到宇宙中的异常现象。

同时,研究人员利用统一流形逼近投影法 (UMAP, Uniform Manifold Approximation and Projection) 对验证集中的图像进行了分类。

在这里插入图片描述

图 6:评估集的 UMAP 结果
UMAP 根据图像的异常分数进行分类。1 分的图像为普通的星系图像,即没有任何特殊情况的星系。各类图像周围均存在大量的 1 分普通图像,为 iForest 算法的预测提供了障碍。

可以看到,0 分的伪迹和 5 分的异常现象在图中被分为紧密的团簇,说明两类图像都有很明显的特征。但同时,两类图像的分布很近,很容易让 iForest 算法产生误判。

大规模应用:标注与探索

在对不同算法的性能进行评估后,研究人员将 NS 算法用于整个数据集中。

图中可以看到,当不对数据进行任何标注时,即无主动学习的 iForest 算法,结果中几乎看不到曲线,因为 iForest 算法在 2,000 个异常评分最高数据中只找到了一处异常。

在这里插入图片描述

图 7:NS 算法在不同标注数量下的预测结果

然而,对数据集中 2,000 个数据进行标注后,Astronomaly 能够通过主动学习迅速找到图像中的异常。当标注数为 4,000 时,Astronomaly 新找到的异常现象最多,随后开始下降,说明此时不需要额外的标注,可以增大数据集。

后续调查:1635/2000

在对数据集中所有图像进行分析后, Astronomaly 从异常评分最高的 2,000 张图像中找到了 1,635 处异常,其中 8 处引力透镜、18 处未被归类的现象、1609 处星系融合。
在这里插入图片描述

图 8:Astronomaly 发现的引力透镜

在这里插入图片描述

图 9:Astronomaly 发现的未被归类的异常

在这里插入图片描述

图 10:Astronomaly 发现的星系融合
# 迈向宇宙的 AI 随着天文观测数据量不断增加,善于数据分析的 AI 在天文学中的地位也逐渐提高。**早在 2020 年,英国华威大学的研究者就利用 AI 从 NASA 的旧数据中找到了 50 个新行星。**

同时,被称为「中国天眼」的 500 米口径球面射电望远镜 (FAST) 也面临着数据量过大的问题,而 AI 为他们提供了解决方案。2021 年,FAST 与腾讯优图实验室合作,对 FAST 数据进行分析,很快就找到了 5 颗脉冲星。

AI 在其他方面也发挥着自己的作用。2019 年,视界面望远镜 (ETH) 团队发布了世界上第一张黑洞照片。四年后,美国的研究人员利用 AI 对这张照片进行了图像处理,得到了更高清的黑洞照片,为黑洞「美颜」。

在这里插入图片描述

图 11:原始黑洞照片(左)和处理后的黑洞照片(右)
也许同人类一样,AI 也有着星辰大海的雄心。如今它将步伐迈向了宇宙,在浩如烟海的数据中寻找宇宙演化的蛛丝马迹。从新的行星,到新的脉冲星,再到新的宇宙异常现象,AI 正在开启天文学新的未来。

参考链接:

[1]https://zoo4.galaxyzoo.org/?lang=zh_cn#/classify

[2]https://www.cas.cn/kj/202009/t20200901_4757754.shtml

[3]https://www.thepaper.cn/newsDetail_

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/153664.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java日志框架详解-Log4j2

一、概述 Apache Log4j 2 (Log4j – Apache Log4j 2)是对Log4j的升级,它比其前身Log4j 1.x提供了重大改进,并参考了Logback中优秀的设计,同时修复了Logback架构中的一些问题。被誉为是目前最优秀的Java日志框架&#x…

[UE虚幻引擎] DTCopyFile 插件说明 – 使用蓝图拷贝复制文件 (Windows)

本插件可以在虚幻引擎中使用蓝图对系统的其他文件进行拷贝复制操作。 1. 节点说明 Async Copy File ​ 异步复制文件 Param Source File : 要复制的源文件的完整路径。Param Target File : 要复制的目标文件的完整路径。Param Force Copy : 如果为true,则如果目标…

项目管理必备的22个公式

大家好,我是老原。 趁着国庆时间比较空闲,给你们整理了一些项目管理必备的计算公式,一共22个。 每一个公式都给你们标注了适用情况和使用方法,为了方便你们理解,也加了一些例子,保准你看了就会。 觉得不…

FutureTask和CompletableFuture的模拟使用

模拟了查询耗时操作,并使用FutureTask和CompletableFuture分别获取计算结果,统计执行时长 package org.alllearn.futurtask;import com.google.common.base.Stopwatch; import com.google.common.collect.Lists; import lombok.AllArgsConstructor; imp…

基于Java+SpringBoot+Vue线上医院挂号系统的设计与实现 前后端分离【Java毕业设计·文档报告·代码讲解·安装调试】

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点…

2023全网最全requests库和requests模块使用详解(建议收藏)

一、requests简介 #简介:使用requests可以模拟浏览器的请求,比起之前用的urllib,requests模块的api更加便捷(本质就是封装了urllib3)#注意:requests库发送请求将网页内容下载下来以后,并不会执…

基于SSM线上课程管理系统设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

Python数据分析实战-实现卡方检验(附源码和实现效果)

实现功能 使用scipy.stats模块中的chi2_contingency函数来执行卡方检验(Chi-square test)。卡方检验用于检验两个或多个分类变量(组别)之间是否存在显著关联(差异)。 例1:从某中学随机抽取两个…

单目标应用:遗传算法(Genetic Algorithm,GA)求解微电网优化MATLAB

一、微网系统运行优化模型 微电网优化模型介绍: 微电网多目标优化调度模型简介_IT猿手的博客-CSDN博客 二、遗传算法GA 遗传算法(Genetic Algorithm,GA)起源于对生物系统所进行的计算机模拟研究,是一种随机全局搜索…

故障注入常用方法有哪些 其重要性是什么

故障注入是一种有效的测试方法,可用于评估系统对异常情况的响应。通过这种测试方法,可以发现系统中的潜在问题,并采取适当措施来改进系统的质量和性能。本文将介绍故障注入常用方法及重要性! 一、故障注入常用方法 1、随机故障注入&#xff1…

实施运维01

一.运维实施工程师所具备的知识 1.运维工程师,实施工程师是啥? 运维工程师负责服务的稳定性,确保服务无间断的为客户提供服务. 实施工程师负责工程的实施工作,负责现场培训,一般都要出差,哪里有项目就去…

【数据结构】什么是算法

🦄个人主页:修修修也 🎏所属专栏:数据结构 ⚙️操作环境:Visual Studio 2022 目录 一.算法的定义 1.算法的概念 2.数据结构与算法的关系 二.算法的特性 输入 输出 有穷性 确定性 可行性 三.算法的设计要求 1.正确性 2.可读性 3.健壮性 4.效…

GNU和Linux的关系、 Linux的发行版本、CentOs和RedHat的区别

GNU和Linux的关系 其实,我们通常称之为的"Linux"系统,相对更准确的名称应该称为“GNU/Linux”系统! 一个功能完全的操作系统需要许多不同的组成部分,其中就包括内核及其他组件;而在GNU/Linux系统中的内核就…

基于SpringBoot的大型商场应急预案管理系统

目录 前言 一、技术栈 二、系统功能介绍 员工信息管理 预案信息管理 预案类型统计 事件类型管理 三、核心代码 1、登录模块 2、文件上传模块 3、代码封装 前言 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍…

开学典礼教师代表讲话发言稿 教师宣誓词分享

教师精彩发言稿1 尊敬的领导,亲爱的同学们: 大家好! 在这个明媚的早晨,我非常荣幸地代表全体教师,向你们这群活力四溢的新面孔,表达我们最诚挚的问候和欢迎。 新学期,新开始,每个…

Elasticsearch:使用 ELSER 文本扩展进行语义搜索

在今天的文章里,我来详细地介绍如何使用 ELSER 进行文本扩展驱动的语义搜索。 安装 Elasticsearch 及 Kibana 如果你还没有安装好自己的 Elasticsearch 及 Kibana,请参考如下的链接来进行安装: 如何在 Linux,MacOS 及 Windows 上…

unity操作_刚体 c#

刚体Rigidbody 首先在场景中创建一个Plane 位置重置一下 再创建一个Cube 充值 y0.5 我们可以看出创建的Cube 和 Plane都自带碰撞器 Plane用的是网格碰撞器 我们可以通过网格世界看到不同的网格碰撞器 发生碰撞(条件): 两个物体都有碰撞器 …

新华三辅导笔记 2023/10/9-2023/10/13

新华三辅导笔记 一、需要用到的软件二、计算机网络概述1、计算机网络的定义和基本功能(1)什么是计算机网络(2)计算机网络的基本功能 2、(1)局域网、城域网和广域网(范围划分)&#x…

【名城优企游学】国轩高科,用数字化带来强劲发展动力

成立于2006 年5月,系中国动力电池产业最早进入资本市场的民族企业;2015年5月上市,股票代码SZ.002074,拥有新能源汽车动力锂电池、储能、输配电设备等业务板块,建有独立成熟的研发、采购、生产、销售体系。 它就是新能…

boost在不同平台下的编译(win、arm)

首先下载boost源码 下载完成之后解压 前提需要自行安装gcc等工具 window ./bootstrap.sh ./b2 ./b2 installarm (linux) sudo ./bootstrap.sh sudo ./b2 cxxflags-fPIC cflags-fPIC linkstatic -a threadingmulti sudo ./b2 installx86 (linux) su…