微软赢麻了!数十亿文本-图像对训练,多模态Florence开启免费体验,登上Azure...

b6727d5182e30eec425fdfb8581ad276.jpeg


  视学算法报道  

编辑:LRS

【导读】前有ChatGPT,后有Florence,微软简直赢麻了!

2021年11月,微软发布了一个多模态视觉基础模型Florence(佛罗伦萨),横扫超过40个基准任务,轻松适用于如分类、目标检测、VQA、看图说话、视频检索和动作识别等多个任务。

时隔一年半,Florence正式开启商用阶段!

Florence能干什么?

最近,微软全球人工智能首席技术官黄学东官宣了微软 Florence 基础模型的公开预览版。

22097916d70d49da554eef7a4e0fbc5a.png

Florence模型经过数十亿文本-图像对的训练,目前已集成进Azure 认知视觉服务中,在「价格」和「性能」上都已到达「生产环境」的要求,目前处于免费试用阶段。

2c97a9f6a56e76b649b6a39d876be506.png

改进后的视觉服务使开发商能够在不同行业创建前沿的、适应市场的、负责任的计算机视觉应用程序。客户可以将他们的数据无缝地数字化、分析并连接到自然语言的交互中,从图像和视频内容中获取更精确的信息,保护用户远离有害内容,增强安全性,并提升事件响应速度。

Florence的实际能力也很强大,用户可以在Vision Studio中进行「开箱即用」的体验。

65618695f2058874428086d64431d3f3.png

体验网址:https://portal.vision.cognitive.azure.com/gallery/featured

具体包括:

Dense Captions(详细的描述):可以自动提供内容丰富的描述信息、设计建议、可访问的替代文本、搜索引擎优化、智能照片管理等以支持数字化内容。

图像检索:使用自然语言查询,无缝地度量图像和文本之间的相似性,从而改进搜索推荐和广告。

背景去除:可以方便地从原始背景中分割出人物和物体,并替换为其他背景场景,从而改变图像的外观和感觉。

模型定制:降低交付定制模型的成本和时间,能够以更高精度来匹配独特的业务需求,即便只有少量的可用图像。

视频摘要:搜索和交互视频内容,与人类同样直观的方式进行思考和写作。可以帮助找到相关内容,并且不需要额外的元数据。

Reddit

Reddit消费品产品经理Tiffany Ong表示,通过微软的Vision技术,可以使用户更容易发现和理解Reddit上的内容。

新创建的图片描述可以让用户更容易地访问Reddit,使用图像描述来帮助用户提高文章的搜索结果,让Reddit用户有更多机会来探索网站上的图片,参与对话,并最终建立联系和社区感知。

Florence能够为每张图片生成多达10000个标签,使得Reddit能够更好地控制图片中的物体数量,并帮助生成更好的图像描述。

Microsoft 365

除了微软数据中心之外,微软也正在提升Microsoft 365应用程序(包括 Teams、 PowerPoint、 Outlook、 Word、 Designer、 OneDrive)中视觉服务的能力。

在图像分割能力的帮助下,Teams正在推动数字空间的创新型,把虚拟会议的体验提升到新高度。

PowerPoint、 Outlook和Word利用自动替换文本的图像描述来提高可访问性。

Microsoft Designer和OneDrive正在使用改进的图像描述、图像搜索和背景生成来简化图像的可发现性和编辑。

Microsoft数据中心正在利用Vision Services来增强安全性和基础设施的可靠性。

LinkedIn

LinkedIn的无障碍工程负责人Jennison Asuncon表示,LinkedIn上有超过40%的帖子中包含至少一张图片,对于盲人或是低视力的用户来说,视觉服务能够让所有用户都有平等的阅读机会,并使他们能够参与到在线对话中。

83fc4d3a56ef121180eff5e196269ae2.png

通过Azure视觉认知服务,LinkedIn可以提供自动图像描述来编辑和支持可选文本,这是一种全新的体验。

不仅我对此感到兴奋,我的同事刚刚分享了一个他们参加活动的照片,LinkedIn的首席执行官Ryan Roslansky也在照片里。

负责任地创新

回顾负责任的人工智能原则,可以了解到微软是如何致力于开发人工智能系统,以提升世界的可访问性。

1ad8210887c3ad436469b96c184b27c7.png

微软致力于帮助各个组织充分利用人工智能,并正在大力投资于提供技术、资源和专业知识的项目,以增强那些致力于创造一个更可持续、更安全和更容易进入的世界的人的能力。

多模态是未来

包括微软、谷歌在内的多个科技巨头在人工智能发展方向上出奇地一致,认为「多模态模型」是提高人工智能系统能力的最佳途径,也就是单个模型可以同时理解语言、图像、视频和音频等,并能够完成单模态模型无法完成的任务,比如给视频添加文字描述等。

c6fb3e028cfcaaa5b3d56dc6ff06421f.png

为什么不把几个「单模态」模型串在一起,以达到同样的目的,比如说用一个模型来理解图像,而另一个模型用来理解语言?

第一个原因是,由其他模态提供的背景信息,多模态模型可以在某些情况下比单模态模型在同一任务中表现得更好。

比如说,一个能够理解图像、定价数据和购买历史的人工智能助手可以比一个「只理解定价数据」的AI能够提供更好的个性化产品建议。

并且从计算的角度来看,多模态模型往往更有效率,可以提升数据处理的速度,降低后端的成本。

毫无疑问,所有商业公司都渴望降本增效。

aab1a51dce72c7c3bbd7a3aef30fa569.png

Florence能够理解图像、视频和语言以及这些模态之间的关系,从而可以做到一些单模态无法完成的任务,比如测量图像和文本之间的相似度,分割照片中的对象,然后把它们粘贴到另一个背景上。

几乎所有AI模型的训练都面临数据版权问题,Azure AI的企业副总裁(CVP)John Montgomery在回答有关「Florence的训练数据」时没有透露太多信息,只是说Florence使用的是「负责任地获取」的数据源,包括来自合作伙伴的数据;此外,Montgomery表示,训练数据中删除了可能存在问题的内容,也是公开训练数据集的常见特点。

98c829cea8445dbb51c6e1210de19d19.png

Montgomery认为,当使用大型基础模型时,最重要的是要确保训练数据集的质量,为每个视觉任务的适应模型创建基础,微软针对每个视觉任务的调整模型都经过了公平性、对抗性和挑战性案例的测试,并实现了与 Azure Open AI Service 和 DALL-E 相同的内容审核服务。

在未来,消费者可以使用Florence做更多的事情,比如检测制造过程中的缺陷,以及在零售店实现自助结账。

不过Montgomery指出这些用例实际上并不需要多模态视觉模型,但他断言,多模态在这个过程中可以增加一些有价值的东西。

Florence是一个经过「完全重新思考」的视觉模型,一旦在图像和文本之间实现了简单且高质量的翻译过程,就会打开一个全新的、充满未知可能性的世界。

客户能够体验到显著改进的图像搜索,将图像和视觉模型以及语言和语音等其它模型类型训练成全新类型的应用,并轻松提高自定义模型的质量。

参考资料:

https://azure.microsoft.com/en-us/blog/announcing-a-renaissance-in-computer-vision-ai-with-microsofts-florence-foundation-model/

1e6569ef7b302a6cc01cafa1212cc9a5.png

outside_default.png

点个在看 paper不断!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/43070.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

重磅炸弹!OpenAI 现场演示官方版 AutoGPT!

编辑:丰色 明敏 转自:量子位 | 公众号 QbitAI OpenAI官方AutoGPT,要来了! 就在AutoGPT项目破10万Star之际,OpenAI也放出重磅炸弹,由联合创始人格雷格布洛克曼(Greg Brockman)亲自现场…

Java数组解析(详解)

数组 前言一、数组的概述1.数组的理解2.数组相关的概念3.数组的特点4. 数组的分类 二、一维数组的使用1. 声明和初始化2. 数组元素的引用3. 如何获取数组的长度4.如何遍历数组5.数组元素的默认初始化值6.数组的内存解析 三、二维数组的使用1. 声明和初始化2. 数组元素的引用3.如…

Unlimited “使用GPT-4 ”!它来了!

备注本文末尾附录注册登录过程 平台介绍: 聊天机器Chat.fore人front.ai是一为款基于人主工智能的题聊天的机器人主平台,旨在帮菜助企,业提可以高客户服务质是量和一效率。该平款台利用自然语精言处理技术和机器致学习的算法,能够自牛动排回答客,户的问题,提供个性化的服…

Android应用耗电量测试

测试方法 测试工具为adb,测试步骤如下: 关闭手机上无关软件。 连接电脑,运行adb shell dumpsys batterystats --reset重置电池记录,重置成功显示“Battery stats reset.”。 断开手机与电脑的连接(连着电脑充电结果…

Android 应用开发的耗电量控制

对于移动平台来说,设备电量有限一直是制约其发展的一个重要因素,作为开发者,功能实现虽然优先级高,但是开发过程中,针对耗电量进行优化也是应该牢记在心的,毕竟一款优质的App在耗电量方面也必须让广大用户满…

使用Batterystats和Battery Historian进行耗电检测

本文主要介绍Batterystats和Battery Historian的基本使用步骤和工作流程,如果您要想学习怎样使用Battery Historian分析耗电详情,请参考文档: Analyze power use with Battery Historian。 Batterystats是一个Android framework中的工具&…

APP-耗电量测试-battery-historian-master

这里主要是比较简单的Battery historian的操作,这个脚本文件只能用在python2版本,python3会语法报错 1.首先要下载并且解压historian的压缩包文件 battery-historian-master.zip Github下载地址 2.然后用adb命令开始操作手机 首先是清除测试前电量的数据 adb she…

Android App 耗电量分析-1

分为新老两个版本的SDK-TOOL,新版的放在另外一篇博客 Android App 电量分析https://blog.csdn.net/kan137g/article/details/84886277 耗电操作主要分为下面几种 高频通信CPU密集型的计算传感器 频繁唤醒系统 解决方案 -减少:您的应用可以裁剪多少操…

耗电优化(上):Android App 耗电分析

这里写目录标题 1. 电量和硬件1.1 App 通过使用硬件模块消耗相应的电能1.2 资源调度机制是厂商功耗优化最重要的手段 2. 电量和应用程序2.1 评估不同应用程序的耗电情况结论:把电量的测量转化为功能模块的使用时间或者次数 2.2 尽可能准确的测量电量bug report结合 …

图文结合,教您如何使用Trepn Profiler测试手机应用的耗电量

摘要:Trepn Profiler 可以帮助准确分析手机应用耗电情况的Android应用,可以测量很多与电池有关的数据,本文将结合图文,详细讲解如何操作。 Trepn Profiler 是一款帮助准确分析手机应用耗电情况的Android应用,可以测量很…

本地部署 ChatGLM-6B

本地部署 ChatGLM-6B 1. 什么是 ChatGLM-6B2. Github 地址3. 安装 Miniconda34. 创建虚拟环境5. 安装 ChatGLM-6B6. 启动 ChatGLM-6B7. 访问 ChatGLM-6B8. API部署9. 命令行部署10. 其他,修改使用显存大小11. ChatGLM-6B 的推理参数含义 1. 什么是 ChatGLM-6B Chat…

文心:PPT 制作、数字人主播一键开播等应用场景惊艳到我了,下面给到Prompt工程详细教程应用场景及案例

文心:PPT 制作、数字人主播一键开播等应用场景惊艳到我了,下面给到Prompt工程详细教程应用场景及案例 1.文心千帆简介 文心千帆优势 基础强大、知识丰富 文心千帆平台基于百度智能云,采用飞桨深度学习框架作为底层支撑,并内置文心…

【SQLAlchemy】第二篇——连接失效及连接池

一、背景 为了节约资源,MySQL会对建立的连接进行监控,当某些连接处于不活跃状态的时间超过一个阈值时,则关闭它们。 用户可以执行show variables like %wait_timeout%;来查看这个阈值: 可以看到,在默认的情况下&…

一个程序员的意想流

Readme:记录生活、工作、学习中自己的思考和想法,但是可能很杂乱的。目的为了提升自己BB的能力。 2023.3.9: 作为一个嵌入式(底层)开发者,通过对Linux内核的不断深入,包括VFS、内存管理、进程管…

ChatGPT提示词工程师 | prompt engineering | 吴恩达教你写提示词 课程笔记

Lecture1 引言 两种大语言模型(LLMs,Large Language Models): Base LLM: Predicts next word, based on text training dataInstruction Tuned LLM: Tries to follow instructions Lecture2 指南 使用C…

chatgpt提示词学习指南,提示词工程,提示词汇总

这篇gpt提示词指南我会随着我的学习一直更新。 结构 好的提示词角色(能力)上下文详细的指令说明风格输出格式 角色(必填):可以给模型提供特定的能力,让它更好的解决我们的问题,在声明角色后,…

股票入门基础知识之投资家有哪些?股票入门基础知识中的投资角色

《量化分析海龟训练营》课程学员:一般来说哪些人投资做得好呢? 同济桥博士:投资是一门科学,有很多研究投资的人拿到过诺贝尔经济学奖,投资做得好有五类人:科学家、哲学家、神学家、交易员、民间高手。最后…

投资理财启蒙之理财入门必看?

投资基金股票是怎么赚钱的 ? 公司上市就是为了融资扩大规模,需要在上海/深圳证券交易所去审批,现在国家注册制落实后,现在企业要上市很严格的需要公开公司的各方面情况的 ,投资渠道也正规,比如支付宝/微信&…

金融业务知识(2):股票交易的基本流程

股票交易的基本流程 (一)开户 需要开立证券账户和资金账户 证券账户用来记载投资者所持有的证券种类、数量和相应的变动情况 资金账户则用来记载和反映投资者买卖证券的货币收付和结存数额。 开立证券账户和资金账户后,投资者买卖证券所涉…