使用 Vision 插件让 GitHub Copilot 识图问答

GitHub Copilot 是一个由 GitHub 和 OpenAI 合作开发的人工智能代码提示工具。它可以根据上下文提示代码，还可以回答各种技术相关的问题。GitHub Copilot 在刚刚召开的全球技术大会上宣布升级了 GitHub Copilot 背后的大语言模型，现在已经正式启用 GPT 4o 模型，还增加了可预览使用 o1 模型。虽然未来能支持直接识图，现在还是不能识别图片，以及只能回答技术相关的问题。为了扩展 Copilot 的功能，微软发布了一个名为 Vision for Copilot Preview 的插件，它通过 Copilot 的 Agent 机制对接 OpenAI 中的 GPT 4o 模型实现识图问答。

安装 Vision 插件

官网链接在 Vision for Copilot插件

或者在 VS Code 的 Extensions 中搜索 "Vision for Copilot" 插件，安装完成后 Copilot Chat 的 Agent 会多一个vision。

vision agent

准备 Azure OpenAI 的 API Key

这个 vision 的 agent 实际上是借用了 Copilot Chat 中方便的 agent 机制再调用 OpenAI 现成的模型实现的识图问答。我们使用 Azure OpenAI，这是用企业级 OpenAI 服务，并且方便启用和配置。以下是简要步骤，注意创建 OpenAI 资源时选择 East US 区域，这是目前提供 gpt-4o 模型的区域。

创建 Azure OpenAI 服务：首先，你需要在 Azure 门户中创建一个新的 Azure OpenAI 服务实例。登录到 Azure控制台，导航到“创建资源”，然后搜索“Azure OpenAI”。按照提示完成服务的创建。
配置模型：在创建好的 Azure OpenAI 服务实例中，选择“模型部署”，然后选择你想要部署的 GPT-4 模型。配置模型的参数，如名称、版本等。
生成 API KEY：在 Azure 门户中，导航到你的 Azure OpenAI 服务实例，选择“密钥和终结点”。在这里，你可以生成新的 API KEY。

完成这些步骤后，在“部署”页点击刚刚创建好的部署，记下部署名称、终结点、和密钥，以备后面使用即可。

OpenAI Key