AI中文站翻译自medium.com
让我们来看看如何玩Minigpt-4并将其应用到日常生活中。
今年三月,OpenAI 宣布了 GPT-4 的图像识别功能,这意味着 GPT 技术又被提升一个维度。-4 尚未发布给大众使用很长时间,所以终于有人忍不住了!来自阿拉伯的一家大学,教授带领学生组成研究团队,本月首先推出了 MiniGPT-4,公开让大众使用。我们可以第一次体验 GPT 识别图片的能力,接下来我会带你一起看看 MiniGPT-4 能如何!
它可以用来做什么?
让他帮助您撰写基于即将发布或用于营销的产品照片的营销文本。这太糟糕了。如果这项技术更加成熟,不知道将有多少行业兴衰荣辱。这取决于您是使用它还是被使用。
它还可以让你在白板上编写程序要求并发送图片,它将自动为您完成完整的HTML文件!
你甚至可以向它发送你新鲜烹饪的热腾腾的饭菜图片,让它看看并评论你的烹饪。
传递你所制作的 logo,请求它给予一些意见和评论,看看需不需要加强改进,否则它会毫不留情地批评你。
这件事非常有趣,你可以把它交给他阅读漫画,让他告诉你漫画的内容,甚至你可以自己思考,比如使用这项技术将图片自动转换为文本,这样他就可以读图片并讲故事了。成为一个有着自己想象力的真正的创作者。
如何快速开始体验MiniGPT-4?
说了那么多,你现在一定很想使用吧。下面的链接将带你走过时代之门。点击它,你可以试用他的公共演示版本MiniGPT-4,当然因为它是试用版,所以当你用GPT上传图片或提问时,它会变慢,但你可以放心使用,而且这些都是免费的,你可以享受它带给你的功能体验。点击以下链接体验吧!
Minigpt-4
下面您可以看到其演示版本的操作界面。在左侧,您可以点击并上传图片。上传所需图片后,您可以在下方调整温度参数,以使GPT-4作出不同的回答。简单来说,温度越低,他的回答将更具预测性和保守性。相反,温度越高,他的回答将更具创意和意外性。
对于图像识别任务,Beam Search 中更大的 K 值意味着模型将尝试更多的识别可能性,可能会生成更多的可能标签,从而产生更加多样化和有创意的结果。但同时,这也会增加计算量和存储空间的需求。因此,在选择 Beam Search 参数时,需要根据任务的具体要求和可行性考虑 K 值。
在调整参数并上传图片后,您可以通过它旁边的聊天框输入您想问 GPT 的有关该图片的问题,并让 GPT 基于您的图片与您交互。
他是如何让GPT识别图片的?
MiniGPT-4是一种语言模型,已在识别图片方面取得良好的结果。为实现MiniGPT-4,图像编码器已与开源语言模型Vicuna集成,两者的大多数参数已被冻结,只剩下一个小部分需要训练。Vicuna的传统预训练阶段可在4个A100s使用10小时内完成,这使得Vicuna可以理解图像,但影响了其生成能力。为了解决这个问题,该团队通过让MiniGPT-4与同样开源的ChatGPT合作创建了一个高质量的数据集,包括3500个图像和文本。通过新数据集的微调,大大提高了模型的生成可靠性和整体可用性,并且计算效率高,只需要单个A100花费7分钟。想要了解更多,请看下一条。
就是这样。😉