ICCV 2023 Oral | 人类语言演化中学习最优图像颜色编码

人类的语言是一种对复杂世界的高度简洁的编码,特别是语言中颜色的概念,成功地将原本极大的色彩空间(如256三次方真色彩空间)压缩至5到10种颜色。受此启发,来自上海交大,日本理化学研究所,东京大学 的研究人员,提出全新的基于视觉任务的色彩量化(colour quantisation)技术,利用深度学习重现人类数万年的颜色概念的演化。这项技术不但能推进文化人类学的研究,更是为网络量化(neural network quantisation)以及多模态大语言模型提供坚实的研究基础。目前大语言模型依赖于英语,中文等实际的语言,本工作通过模仿人类语言自然演化,为设计大预言模型-人类同步理解的人造语言打下了基础。

image.png

论文题目:

Name Your Colour For the Task: Artificially Discover Colour Naming via Colour Quantisation Transformer

论文链接: 

https://arxiv.org/abs/2212.03434

项目主页:

GitHub - ryeocthiv/CQFormer: [ICCV 2023] "Name Your Colour For the Task: Artificially Discover Colour Naming via Colour Quantisation Transformer"

研究背景

本工作旨在从机器学习的角度探讨人工智能能否拥有类似人类的的颜色命名分类机制。人类对颜色的感知来自于光谱与眼睛中的锥细胞相互作用时,视神经接收到的光刺激。通过定义像RGB,HSV等颜色空间,颜色被可量化成一些具体的如数值。与纯生理性色调分类相比,颜色命名(colour naming)或颜色分类(colour categorisation)的复杂现象涉及多个学科。

从认知科学到人类学,研究发现,人类语言不断演变以获取新的颜色名称,导致颜色命名系统越来越精细化。比如来自加纳西北部的纳凡拉语,1978年的时候只有如图1.a所示的三种颜色(浅色(fiNge')、暗色(wOO')和温暖或红色(`nyiE')),但是到了2018年,该语言演化出了如图1.b所示的另外七种颜色。

image1.png
图1. 来自The evolution of color naming reflects pressure for efficiency: Evidence from the recent past Zaslavsky et al. Journal of Language Evolution, 2022

如图2左图所示,现有的研究认为这个演化过程来自于沟通效率(Communication efficiency)和知觉结构(perceptual structure) 的双重演化压力。沟通效率要求通过尽可能少量的词汇来准确传达共享的颜色划分。颜色知觉结构与人类的颜色感知相关。例如,相邻颜色之间的颜色空间距离应与它们的知觉差异相对应。

image2.png
图2 左图 - 人类语言的演化模型;右图 - 我们实现的语言演化模型colour quantisation负责压缩colour size, 后端任务负责提高沟通的准确性

在图2右图里,本项工作通过用检测,分类等视觉任务的性能来定义沟通效率的方法,提出了一套基于QFormer全新的颜色量化(colour quantisation)算法。这个算法不但能整合人类和机器视觉的不同需求,更是一种人工颜色命名系统。

image3.png
图3 (a) - 理论上的人类语言沟通准确率随着颜色数量增加而逐渐提高直至饱和,图中为各个文化中真实的颜色系统。 (b) - 我们生成的颜色系统以及实际的分类准确率。

图3(a)显示了不同种类的真实人类语言的理论沟通效率随着颜色名称数量的提升而提高。令人惊讶的是,如图3(b)所显示,人工发现的颜色命名系统中,随着颜色数量的增加,识别准确性也在提高。

CQFormer的方法如图4所示,使用perceptual structure loss来定量控制来自perceptual structure的演化压力。而用machine-centred loss 来表示Communication efficiency的压力

image4.png

本文方法

具体的方法如图5所示,包括两个分支:注释分支和调色板分支

注释分支在将索引映射到对应的颜色调色板之前,为输入的RGB图像的每个像素注释合适的量化颜色索引。通过一个新颖的调色板分支在整个RGB颜色空间中定位颜色调色板,该分支使用变换器的显式注意力查询检测关键点。

在训练阶段,如图5的红线和黑线所示,调色板分支与输入图像和参考调色板查询进行交互,通过减少感知结构损失来维持知觉结构。这种以感知为中心的设计将相似的颜色分组,并确保颜色调色板充分表示由世界颜色调查(WCS)颜色命名刺激网格定义的颜色命名系统。如图5.(b)所示,调色板中的每个项目(用星号标注)位于WCS颜色命名概率图中对应颜色分布的中间位置。最后,量化图像传递给高级识别模块进行机器准确性任务,如分类和检测。通过CQFormer和随后的高级模块的联合优化,所提出的方法可以平衡感知和机器的需求。

除了自动发现颜色命名系统外, CQFormer还为极端压缩图像存储提供了有效解决方案,同时在高级识别任务中保持高性能。例如,CQFormer在只有1位颜色空间(即,两种颜色)的情况下,在CIFAR100数据集上实现了50.6%的top-1准确率。这种极低比特量化可以用于neural network quantisation研究,实现从图像到权重和激活的端到端优化。

image5.png
图5 模型的网络结构

网络结构

颜色演化

通过CQFormer,本工作探索了基于分类任务的颜色演化,包括两个连续阶段,使用不同的损失函数。由于CQFormer最初没有与相应的人类语言相关联的颜色命名系统的先验知识,第一个嵌入阶段旨在将某种语言的颜色感知知识嵌入到CQFormer的潜在表示中。

例如,CQFormer首先通过强制CQFormer输出与Nafaanra对应的相似的WCS颜色概率图来学习和匹配1978年的Nafaanra三色系统。如图6所示,这里设计了两个嵌入解决方案和损失函数,即LFull-Embedding和LCentral-Embedding,以将完整的颜色概率图嵌入或仅将代表性颜色提炼到CQFormer中。

第二个演化阶段让CQFormer演化更多颜色,即在准确性和感知结构的压力下从学到的三色系统中分离出第四种颜色。

image6.png

实验

本研究在主流的目标检测任务和图像分类任务的基准数据集上评估了CQFormer。此外,还专门设计了一个颜色演化实验以展示CQFormer如何自动演化以增加细粒度的颜色。

表格1显示了在MS COCO数据集上使用Sparse-RCNN检测器进行目标检测的结果。CQFormer在所有颜色量化级别(从1位到6位)下的AP值性能方面均优于所有其他方法。这一显著的改进表明了CQFormer在目标检测任务中的有效性。

image7.png

图7对四个数据集上的最新方法进行了比较。CQFormer(实线蓝色线)在极低比特颜色空间(小于3位)上与所有其他方法相比都有持续明显的改进。此外, CQFormer在从1位到6位的所有颜色量化级别下都比以任务为中心的方法ColorCNN表现更优秀。

image8.png

展望

虽然如图3所示,机器发现的颜色概念的复杂性-准确性权衡与人类语言的分类对应的理论沟通效率极限非常相似,但当前的工作仍处于初步阶段。新发现的WCS颜色概率图与人类的颜色概率图仍然存在很大差异。更准确的语言演化复制需要考虑更复杂的变量,如环境特异性、文化特殊性、功能需求、技术成熟度、学习经验和跨文化交流。

这次提出的 工作除了对技术领域,也有望为人类学语言学领域里的普遍主义-相对主义(linguistic determinism vs relativity)争论做出自己的贡献。尽管没有完全排除颜色方案的文化特异性,但这里机器的发现强烈支持了一种先天的、生理学原则对不同文化传统社区的基本颜色术语的演化顺序和分布可能性。从原始的“暗-亮-红”颜色,人工智能独立地发现了“绿-黄”类别,指向了神经算法与人类认知的一致性,并为通过机器模拟在社会科学中测试有争议的假设拓展了新的前沿。

目前大语言模型依赖于英语,中文等实际的语言,本工作期望跳出特定语言的藩篱,而是从人类语言自然演化本身出发,为设计大预言模型-人类同步理解的人造语言打下基础。


  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/286760.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue2 中使用音频

vue2 中使用音频 在 template 页面 写入 audio 标签 <template><div><audio ref"moreAudio" :src"moreAudioSrc"></audio><audio ref"noAudio" :src"noAudioSrc"></audio></div> </t…

百能云板开启高品质铝基PCB线路板定制服务

铝基板是一种具有良好散热功能的金属基覆铜板&#xff0c;一般单面板由三层结构所组成&#xff0c;分别是电路层&#xff08;铜箔&#xff09;、绝缘层和金属基层。用于高端使用的也有设计为双面板&#xff0c;结构为电路层、绝缘层、铝基、绝缘层、电路层。极少数应用为多层板…

iOS开发进阶(九):OC混合开发嵌套H5应用并互相通信

文章目录 一、前言二、嵌套H5应用并实现双方通信2.1 WKWebView 与JS 原生交互2.1.1 H5页面嵌套2.1.2 常用代理方法2.1.3 OC调用JS方法2.1.4 JS调用OC方法 2.2 JSCore 实现原生与H5交互2.2.1 OC调用H5方法并传参2.2.2 H5给OC传参 2.3 UIWebView的基本用法2.3.1 H5页面嵌套2.3.2 …

Linux 理解文件系统、磁盘结构、软硬链接

目录 一、理解磁盘结构 1、磁盘的物理结构 2、硬件层面理解 3、磁盘的具体物理存储结构 4、进行逻辑抽象 5、磁盘文件的管理 6、创建新文件的过程 二、理解文件系统 1、文件的构成 2、为何选择4KB而非512字节作为基本单位? 3、文件系统的组成 数据块&#xff08;Data Blocks&a…

flask_restful规范返回值

使用方法 导入 flask_restful.marshal_with 装饰器 定义一个字典变量来指定需要返回的标准化字段&#xff0c;以及该字段的数据类型 在请求方法中&#xff0c;返回自定义对象的时候&#xff0c; flask_restful 会自动的读 取对象模型上的所有属性。 组装成一个符合标准化参…

WordPress网站已经安装了SSL证书,但浏览器仍然提示不安全

WordPress网站已经安装了SSL证书&#xff0c;但浏览器仍然提示不安全 昨天我们新建了一个WordPress的网站&#xff0c;在已经安装了SSL证书的情况下&#xff0c;访问网站仍然会提示不安全。 我们使用的是Hostease提供的虚拟主机产品&#xff0c;之前从未出过这样的情况&#x…

rust中字符串String常用方法和注意事项

Rust 中通常说的字符串指的是&#xff1a;String 和 &str(字符串字面值、或者叫字符串切片)这两种类型。str是rust中基础字符串类型&#xff0c;String是标准库里面的类型。Rust 中的字符串本质上是&#xff1a;Byte的集合&#xff08;Vec<u8>&#xff09; 基础类型…

javaWeb在线考试系统

一、简介 在线考试系统是现代教育中一项重要的辅助教学工具&#xff0c;它为学生提供了便捷的考试方式&#xff0c;同时也为教师提供了高效的考试管理方式。我设计了一个基于JavaWeb的在线考试系统&#xff0c;该系统包括三个角色&#xff1a;管理员、老师和学生。管理员拥有菜…

特别澄清:关于ChatGPT辅助论文写作的重要说明

“高扬&#xff0c;快&#xff0c;教我用ChatGPT写论文&#xff0c;明天要交稿&#xff01;” “高师傅&#xff0c;ChatGPT如何能生成调查数据&#xff0c;我想直接拿来用。” “高老师&#xff0c;ChatGPT能不能一下子把论文生成出来&#xff0c;不用修改&#xff0c;直接就能…

微信小程序实战:无痛集成腾讯地图服务

在移动互联网时代,地图服务无疑是应用程序中最常见也最实用的功能之一。无论是导航定位、附近搜索还是路线规划,地图服务都能为用户提供极大的便利。在微信小程序开发中,我们可以轻松集成腾讯地图服务,为小程序赋能增值体验。本文将详细介绍如何在微信小程序中集成使用腾讯地图…

代码随想录算法训练营第四十六天|139.单词拆分、56. 携带矿石资源(第八期模拟笔试)

139.单词拆分 刷题https://leetcode.cn/problems/word-break/description/文章讲解https://programmercarl.com/0139.%E5%8D%95%E8%AF%8D%E6%8B%86%E5%88%86.html视频讲解https://www.bilibili.com/video/BV1pd4y147Rh/?vd_sourceaf4853e80f89e28094a5fe1e220d9062 题解&…

【Rust】——提取函数消除重复代码和泛型

&#x1f383;个人专栏&#xff1a; &#x1f42c; 算法设计与分析&#xff1a;算法设计与分析_IT闫的博客-CSDN博客 &#x1f433;Java基础&#xff1a;Java基础_IT闫的博客-CSDN博客 &#x1f40b;c语言&#xff1a;c语言_IT闫的博客-CSDN博客 &#x1f41f;MySQL&#xff1a…

【Git】日志功能

1. git日志显示 # 显示前3条日志 git log -3# 单行显示 git log --oneline# 图表日志 git log --graph# 显示更改摘要 git log --stat# 显示更改位置 git log --patch 或 git log -p# 查看指定文件的提交历史记录 git log {filename}例子1&#xff1a;单行显示 例子2&#xff…

基于springboot+vue的客户信息管理系统

作者主页&#xff1a;Java码库 主营内容&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。 收藏点赞不迷路 关注作者有好处 文末获取源码 技术选型 【后端】&#xff1a;Java 【框架】&#xff1a;spring…

C++ primer 第十五章

1.OPP:概述 面向对象程序设计的核心思想是数据抽象、继承和动态绑定。 通过继承联系在一起的类构成一种层次关系&#xff0c;在层次关系的根部的是基类&#xff0c;基类下面的类是派生类 基类负责定义在层次关系中所有类共同拥有的成员&#xff0c;而每个派生类定义各自特有…

原生数据开发软件 TablePlus for mac

一款非常好用的本地原生数据开发软件&#xff1a;TablePlus激活版。 软件下载&#xff1a;TablePlus for mac v3.11.0激活版 这款优秀的数据库编辑工具支持 MySQL、SQL Server、PostgreSQL 等多种数据库&#xff0c;具备备份、恢复、云同步等功能。它可以帮助您轻松编辑数据库中…

新能源汽车充电桩消防安全视频智能可视化监管建设方案

一、方案背景 据应急管理部门统计公布的数据显示&#xff0c;仅2023年第一季度&#xff0c;新能源汽车自燃率就上涨了32%&#xff0c;平均每天就有8辆新能源汽车发生火灾&#xff08;含自燃&#xff09;。在已查明起火原因中&#xff0c;58%源于电池问题&#xff0c;19%源于碰…

【Unity】UI九宫格

什么是九宫格&#xff1f; 顾名思义&#xff0c;九宫格就是指UI切成9个格子&#xff0c;9个格子可以任意拉伸。 1、3、7、9不拉伸。 2、8水平拉伸。 4、6垂直拉伸。 5既可以水平也可以垂直拉伸。 怎么切九宫格&#xff1f; 选中图片&#xff0c;改成Sprite模式&#xff0c;点…

2015年认证杯SPSSPRO杯数学建模D题(第二阶段)城市公共自行车全过程文档及程序

2015年认证杯SPSSPRO杯数学建模 D题 城市公共自行车 原题再现&#xff1a; 城市交通问题直接影响市民的生活和工作。在地形平坦的城市&#xff0c;公共自行车出行系统是一种很好的辅助手段。一般来说&#xff0c;公共自行车出行系统由数据中心、驻车站点、驻车桩、自行车&…

基于nodejs+vue家装一体化平台python-flask-django-php

提高现下家装一体化平台的准确度&#xff0c;同时降低经济波动带来的不良影响&#xff0c;希望本文能对广大学者的研究提供参考。 前端技术&#xff1a;nodejsvueelementui, Express 框架于Node运行环境的Web框架, 语言 node.js 框架&#xff1a;Express 前端:Vue.js 数据库&am…