ChatGPT:数字时代革新与展望
AGI 未来的愿景:建安全有益的 AGI
OpenAI团队对AGI的展望:
- 我们希望 AGI 能够赋予人类在宇宙中最大程度地繁荣发展的能力。我们不期望未来是一个不合格的乌托邦,但我们希望将好的最大化,将坏的最小化,让 AGI 成为人类的放大器
- 我们希望 AGI 的好处、访问权和治理得到广泛和公平的分享
- 我们希望成功应对巨大风险。在面对这些风险时,我们承认理论上似乎正确的事情在实践中往往比预期的更奇怪。我们认为,我们必须通过部署功能较弱的技术版本来不断学习和适应,以最大程度地减少“一次成功”的情况
数字时代:领域革新、行业转型
书籍总结
大型预训练模型不擅长总结;过去,发现通过从人类反馈中强化学习来训练模型有助于使模型摘要与人类对短文和文章的偏好保持一致;但是直接判断整本书的摘要需要付出很多努力,因为人类需要阅读整本书,这需要花费很多时间;为了解决这个问题,使用了 递归任务分解:在程序上将困难的任务分解为更简单的任务;在这种情况下,总结一段长文本分解为总结几段较短的文本;与端到端的训练过程相比,递归任务分解
语音识别
Whisper 是一种自动语音识别 (ASR) 系统,使用从网络收集的 680,000 小时多语言和多任务监督数据进行训练。我们表明,使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。我们正在开源模型和推理代码,以作为构建有用应用程序和进一步研究稳健语音处理的基础;
教育领域
OpenAI训练了一个系统来解决小学数学问题,其准确度几乎是微调 GPT-3 模型的两倍。它解决的问题大约是真实儿童的 90%:一小部分 9-12 岁的孩子在我们数据集的测试中得分为 60%,而我们的系统在同样的问题上得分为 55%
OpenAI为Lean构建了一个神经定理证明器 ,它学会了解决各种具有挑战性的高中奥林匹克竞赛问题,包括来自 AMC12 和 AIME 竞赛的问题,以及两个改编自 IMO的问题
数字时代:潜在威胁与预防
滥用语言模型虚假宣传
OpenAI 研究人员与乔治敦大学的安全与新兴技术中心和斯坦福互联网观察站合作,调查大型语言模型如何被滥用于虚假信息目的。此次合作包括 2021 年 10 月的一次研讨会,汇集了 30 名虚假信息研究人员、机器学习专家和政策分析师,并最终在一年多的研究基础上共同撰写了一份报告。这份报告概述了语言模型如果用于增强虚假信息活动对信息环境构成的威胁,并介绍了一个用于分析潜在缓解措施的框架
代码合成大型语言模型的危险分析框架
Codex 是一种在各种代码库上训练的大型语言模型 (LLM),其合成和生成代码的能力超过了以前的技术水平。尽管 Codex 提供了很多好处,但可以生成如此规模代码的模型有很大的局限性、对齐问题、被滥用的可能性,以及提高技术领域进步速度的可能性,这些技术领域本身可能会产生不稳定的影响或被滥用潜在的。然而,此类安全影响尚不清楚或仍有待探索。在本文中,我们概述了在 OpenAI 构建的危害分析框架,以发现部署像 Codex 这样的模型可能在技术、社会、政治和经济方面造成的危害或安全风险
简单来说,就是对使用人工智能技术生成代码的过程进行风险评估和分析,以便发现并解决潜在的风险问题。该框架可以对生成的代码进行语法分析、上下文分析、安全性分析等多个方面的评估,从而确定代码中存在的潜在风险,避免代码在实际应用中出现问题。这个框架的应用可以帮助开发人员更加安全地使用语言模型生成代码,并提高代码的质量和可靠性