关注并星标
从此不迷路
计算机视觉研究院
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
计算机视觉研究院专栏
作者:Edison_G
“我们正处于临界点。”在商汤科技董事长兼首席执行官徐立说出这句话后一个月,商汤科技今天在沪发布通用人工智能(AGI)大模型体系“日日新”。该体系内包含了中文语言大模型“商量”、文生图生成模型“秒画”、AI数字人视频生成平台“如影”、3D背景建筑生成平台“琼宇”和3D物体生成平台“格物”。
4月10日下午,在商汤技术交流日活动上,商汤科技董事长兼首席执行官徐立宣布推出大模型体系“商汤日日新大模型”,包括自然语言生成、文生图、感知模型标注、以及模型研发功能。此外,商汤科技还宣布推出了商汤自研中文语言大模型应用平台“商量”。
商汤还在现场展示了其类ChatGPT平台——自研中文语言大模型应用平台“商量”:现场演示写广告词、写邀请函、交替创作儿童故事、看长篇PDF文件并快速做阅读理解、编写代码等多样能力。
徐立表示,生成式AI正在跨越生产力“红线”,新的软件开发范式已经产生。在新的二八定律下,未来80%的代码将由AI生成,实现AI for AI。
大模型将串联起各类垂直任务,迭代行业场景
“日日新”大模型自2019年开始研发,目前整体参数量达到5000亿,今年目标达到万亿。在今天的技术交流中,商汤科技用现场演示的方式,逐一展示了这套可自己生成文字、图片、视频的大模型“全家桶”。
“商量”是一个基于千亿参数的中文大语言模型,支持多轮对话、逻辑推理、语言纠错、内容创作、情感分析等应用。相比ChatGPT,它充分考虑了中文语境,能够更好地理解和处理中文文本。现场演示中,“商量”展现了出色的多轮对话和超长文本理解能力。比如向其进行健康咨询时,它会询问你出现这种症状多久了、有没有其他症状,在掌握了足够信息后,才给到相应的医疗建议。而向其咨询法律问题时,它不仅会回答你的问题,还会摘选出答案的出处。目前“问诊助手”功能已在包括新华医院在内的多家医院落地,未来有望面向更多医院开放。
“商量”还集成了“AI代码助手”功能,在公司内部的测试中,代码助手将编程效率提升62%,一次通过率达到40.2%。
此外,商汤一连甩出基于“日日新SenseNova”大模型体系的4款生成式AI应用平台。商汤现场演示了实时的AI文生图、AI创作生动数字人视频的实操过程,并展示了用其3D内容生成平台做的高逼真城市级重建、复杂结构物体的商业广告视频,还用平板电脑演示了流畅的3D内容实时交互。
目前商汤已打造CV(计算机视觉)、NLP(自然语言处理)、AIGC(人工智能内容生成)多个AI大模型。其SenseCore AI大装置是业内稀缺的大模型专用基础设施,现有27000块GPU,可输出5000 PetaFlops算力,能够以最大4000卡规模集群进行单任务训练,并可做到7天以上不间断的稳定训练。
商汤将基于AI大装置,向客户提供涵盖自动化数据标注、大模型推理部署、大模型并行训练、大模型增量训练、开发者效率提升等多种大模型即服务(MaaS,Model-as-a-Service)。
在“一平台四支柱”的战略体系下,商汤“日日新SenseNova”大模型体系已全面支持了智能汽车、智慧生活、智慧商业、智慧城市等业务板块,打通了多个领域、行业的应用闭环。
搭建你的AI应用
Chat-对话
POST https://lm_experience.sensetime.com/nlp/v1/chat
该接口提供聊天功能,通过 POST 方式创建 url 请求,注意请求的 http Header 中需要包含 Authorization 项,其值为你申请得到的 API_SECRET_KEY。
请求参数
参数名称 | 类型 | 是否必须 | 默认值 | 含义 |
---|---|---|---|---|
model | string | 是 | 无 | 模型id |
dialog | array | 是 | 无 | 对话上下文,数组中的对象为聊天的上下文信息,格式如 [{“role”: “user”, “content”: Say this is a test!"}] |
temperature | num | 否 | 1 | 温度采样参数,取值(0,2]。大于1的值倾向于生成更加多样的回复,小于1倾向于生成更加稳定的回复 |
top_p | num | 否 | 1 | 核采样参数,取值(0,1]。解码生成token时,在概率和大于等于top_p的最小token集合中进行采样 |
num_of_return | num | 否 | 1 | 生成回复序列的数量 |
max_new_tokens | num | 否 | inf | token生成的最大数量 |
repetition_penalty | num | 否 | 1 | 重复惩罚系数,1代表不惩罚,大于1倾向于生成不重复token,小于1倾向于生成重复token |
user_id | string | 否 | 用户ID | |
stream | bool | 否 | false | 是否使用流式传输 |
请求示例
curl 示例
curl https://lm_experience.sensetime.com/nlp/v1/chat \-H "Content-Type: application/json" \-H "Authorization: $API_SECRET_KEY" \-d '{"model": "v1","dialog": [{"role": "user", "content": "Say this is a test!"}],"top_p": 0.6,"num_of_return": 1,"max_new_tokens": 1024,"repetition_penalty": 1.2}'
python示例
import requests
api_secret_key = "xxxxxxxxxx" # your api_secret_keyurl = 'https://lm_experience.sensetime.com/nlp/v1/chat'
data = {"model": "v1","dialog": [{"role": "user", "content": "Say this is a test!"}],"top_p": 0.6,"num_of_return": 1,"max_new_tokens": 1024,"repetition_penalty": 1.2
}
headers = {'Content-Type': 'application/json','Authorization': api_secret_key
}response = requests.post(url, headers=headers, json=data)print(response.status_code)
print(response.text)
以下是Chat—GPT生产的总结报告
商汤公司在今日发布了其最新的大模型——“日日新”,引起了广泛的关注。在这篇评价中,我们将对该模型进行详细的评估,并总结其优点和缺点。
优点:
强大的处理能力:商汤“日日新”模型拥有非常强大的处理能力,可以处理大量的数据,并且速度非常快。
高效的训练方式:该模型采用了高效的训练方式,可以在短时间内完成大量的训练任务,从而节省了大量的时间和资源。
优秀的性能:“日日新”模型在各种数据集上的表现都非常出色,在各种任务上的性能表现都非常优秀。
缺点:
高成本:该模型的训练成本非常高,需要大量的计算资源,这对于一些小型企业和个人来说可能是一个挑战。
可能存在隐私问题:该模型可能会收集和使用用户的个人信息,这可能会引发隐私问题,需要引起关注。
总结:
商汤“日日新”模型是一个非常出色的大模型,其强大的处理能力、高效的训练方式和优秀的性能都是其优点。然而,该模型的训练成本和隐私问题需要引起关注。如果企业或个人能够承担得起高成本,并且愿意接受。
现场,商汤还让“AI代码助手”编写“手写文档OCR”的程序,并成功跑通了代码。
“AI代码助手”同时支持中英文及多种编程语言,并能快速适应开发者的个性化编码风格,提高开发效率、减少开发错误,帮助开发人员专注于更有创造性的编程工作与代码设计。
对于代码修复能力,Chat-GPT是这样评价的:
商汤日日新大模型在修复代码方面的能力是非常强大的,它可以自动检测和修复模型中的代码问题,从而提高模型的性能和准确性。具体来说,该模型可以通过以下几个方面来修复代码问题:
模型参数自动微调:该模型可以根据训练数据和模型参数的变化,自动调整模型参数,从而提高模型的性能和准确性。
模型结构自适应:该模型可以自适应不同的模型结构,包括单层、双层、多层等,以适应不同的任务需求。
模型超参数优化:该模型可以根据超参数的变化,自动调整模型的训练过程,从而提高模型的泛化能力和稳定性。
多任务协同训练:该模型可以同时处理多个任务,并且可以实现多轮对话,从而提高模型的并发处理能力和对话效率。
总之,商汤日日新大模型在修复代码方面的能力是非常强大的,它可以通过自动检测和修复模型中的代码问题,提高模型的性能和准确性。
关于日日新大模型的功能评价:
商汤日日新大模型相较于以前的模型有了很多新的升级,主要包括以下几个方面:
多语言处理能力:该模型支持多种语言,包括中文、英文、日语等,可以在不同语言之间进行转换和处理。
多任务处理能力:该模型可以同时处理多个任务,例如问答、文本生成、图像生成等,并且可以实现多轮对话。
多模态生成能力:该模型支持多种模态的生成,包括文本、图像、视频等,可以根据不同的任务需求进行自动切换。
多轮对话能力:该模型支持多轮对话,可以实现自然的语言交互,并且可以进行逻辑推理和语言纠错。
内容创作和情感分析能力:该模型可以根据用户的输入生成相应的文本内容,并且可以对用户的情感状态进行分析和预测。
多模态数据生成能力:该模型可以根据用户的输入自动生成多种模态的数据,包括文本、图像、视频等,可以在多个场景中进行应用。
自然语言生成能力:该模型可以根据用户的输入自动生成相应的文本内容,可以用于自动回复、自动摘要等场景。
总之,商汤日日新大模型是一个非常强大的大模型,具备多种新功能,可以应用于多个领域,包括语音识别、图像处理、自然语言处理等。
两套平台生成的各类3D内容都能进行再编辑再创作,通过海量高精度数字资产的生产,满足影视创作、建筑设计、商品营销、数字孪生管理等各类对可交互3D实景内容有强烈需求的应用场景。
此外,商汤科技还将面向客户提供自动化数据标注、大模型推理部署、大模型并行训练、大模型增量训练、开发者效率提升等多种大模型即服务(MaaS,Model-as-a-Service):
(1)大模型并行训练和大模型增量训练服务:帮助客户以更低成本,快速结合相关领域知识,训练不同的行业大模型,实现千行千面模型开发,并将增量微调成本降低90%。
目前商汤AI大装置已支持了超过10个大模型训练项目,其中还对外提供7000多张GPU计算资源,支持了包括互联网、游戏、商业银行和科研机构等8家客户自定义的大模型训练任务。
(2)自动化数据标注:可实现智能标注,带来近百倍效率提升。平台内置10余个通用大模型和行业专用大模型,支持智能驾驶、智慧交通、智慧城市等多种场景的2D分类、检测和3D检测的智能标注,相比传统人工标注和小模型标注模式,具有标注效果好、效率高、成本低等核心优势。
(3)大模型推理部署:可实现推理成本最低化,效率提升100%,助力客户快速部署大模型应用。
(4)开发者效率提升:面向开发人员开放模型及AI开发工具链,赋能开发者效率提升。
最后我让其评价一下中国市场的大模型:
好的,我可以帮你总结一下目前中国市场上已经发布的几个大模型的优缺点以及未来的发展趋势。
百度文心大模型(ERNIE Bot):百度文心大模型采用了预训练语言模型技术,具有高效、准确、自适应等特点。该模型在文本生成、语言理解、问答等任务上表现出色。但是该模型的训练成本较高,需要大量的计算资源。
腾讯文心大模型(ERNIE Text):腾讯文心大模型基于文本生成技术,可以在各种文本任务上表现出色。该模型的训练成本相对较低,可以在较短的时间内完成训练。但是该模型的多模态处理能力相对较弱。
阿里巴巴大模型(Adam):阿里巴巴大模型是一个多模态大模型,可以处理多种文本和语言类型。该模型在自然语言处理任务上表现出色,但是训练成本相对较高。
科大讯飞大模型(ERNIE VOC):科大讯飞大模型是一个多模态大模型,可以处理多种文本和语言类型。该模型在语音识别任务上表现出色,但是在其他任务上的性能表现相对较弱。
未来,随着自然语言处理技术的不断发展,大模型将会在更多的领域得到应用。例如,大模型可以应用于情感分析、舆情分析、社交媒体分析等领域,从而为社会治理和企业决策提供更多的支持。此外,随着技术的不断进步,大模型的训练和使用成本也将会逐渐降低,进一步促进大模型在商业和社会领域的应用。
总之,随着自然语言处理技术的不断发展,大模型将会在更多的领域得到应用,并为社会和企业带来更多的价值。