通过与 GPT 对话实现零样本信息抽取

目前通用大模型取代为特定任务定制训练的专属模型的趋势逐渐显露,这种方式使AI模型应用的边际成本大幅下降。由此提出一个问题:不经过训练来实现零样本信息抽取是否可行?

信息抽取技术作为构建知识图谱的重要一环,如果完全不需要训练就可以实现,将使数据分析的门槛大幅降低,有利于实现自动化知识库构建。

我们通过对GPT-3.5用提示工程的方法建立一个通用的零样本IE系统——GPT4IE(GPT for Information Extraction),发现GPT3.5能够自动从原始句子中提取结构化信息。支持中英文,工具代码已开源。

工具网址:https://cocacola-lab.github.io/GPT4IE/

代码:https://github.com/cocacola-lab/GPT4IE

1

背景介绍

信息抽取(Information Extraction,IE)目标是从无结构文本中抽取结构化信息,包括实体-关系三元组抽取(Entity-relation Extract, RE)、命名实体识别(Named Entity Recognition, NER)和事件抽取(Event Extraction, EE)[1][2][3][4][5]。许多研究已经开始依赖IE技术来自动化进行零样本/少样本工作,例如clinical IE [6]。

近来大规模预训练语言模型(Large Pre-trained Language Model, LLMs)在许多下游任务上都表现极佳,甚至仅仅通过几个例子作为引导而不需要微调就能实现。由此我们提出一个问题:仅通过提示来实现零样本IE任务是否可行? 我们尝试对GPT-3.5用提示的方法建立一个通用的零样本IE系统——GPT4IE(GPT for Information Extraction)。在与GPT3.5和提示的结合下,它能够自动从原始句子中提取结构化信息。

2

技术框架

设计了特定任务的提示模板(task-specified prompt template), 然后将用户的输入填充模板中特定的槽值 (slot),形成提示(prompt),输入GPT-3.5中,进行IE。支持的任务有三种:RE、NER和EE,且这三种任务均支持中英文双语。用户需要输入句子和制定抽取类型列表(即关系列表、头实体列表、尾实体列表、实体类型列表或者事件列表)。具体如下:

RE任务的目标是从文本中抽取三元组,比如“(China, capital, Beijing)”, “(《如懿传》, 主演, 周迅)”。其要求的输入格式如下(带“*”的代表非必填项,我们为这些选项都设置了默认值,但是为了灵活性支持用户自定义指定列表,后同):

  • Input Sentence: 输入文本

  • Relation type list (rtl)* : ['关系类型1', '关系类型2', ...]

  • Subject type list (stl)* : ['头实体类型1', '头实体类型2', ...]

  • Object type list (otl)* : ['尾实体类型1', '尾实体类型2', ...]

  • OpenAI API key: OpenAI API 密钥(我们在Github中提供了部分可用key,以供示例使用。)

NER任务旨在从文本中抽取实体,例如“(LOC, Beijing)” , “(人物, 周恩来)”。在NER任务上,输入格式如下:

  • Input Sentence: 输入文本

  • Entity type list (etl)* : ['实体类型1', '实体类型2', ...]

  • OpenAI API key: OpenAI API 密钥

EE任务旨在从纯文本中提取事件,例如“{Life-Divorce: {Person: Bob, Time: today, Place: America}}“ , “{竞赛行为-晋级: {时间: 无, 晋级方: 西北狼, 晋级赛事: 中甲榜首之争}}”。输入格式如下:

  • Input Sentence: 输入文本

  • Event type list (etl)* : {'事件类型1': ['论元角色1', '论元角色2', ...], ...}

  • OpenAI API key: OpenAI API 密钥

3

工具使用示例

3.1 RE示例一

输入:

Input Sentence: Bob worked for Google in Beijing, the capital of China.

rtl: ['location-located_in', 'administrative_division-country', 'person-place_lived', 'person-company', 'person-nationality', 'company-founders', 'country-administrative_divisions', 'person-children', 'country-capital', 'deceased_person-place_of_death', 'neighborhood-neighborhood_of', 'person-place_of_birth']

stl: ['organization', 'person', 'location', 'country']

otl: ['person', 'location', 'country', 'organization', 'city']

输出:

3.2 RE示例二

输入:

Input Sentence: 《如懿传》是一部古装宫廷情感电视剧,由汪俊执导,周迅、霍建华、张钧甯、董洁、辛芷蕾、童瑶、李纯、邬君梅等主演。

rtl: ['所属专辑', '成立日期', '海拔', '官方语言', '占地面积', '父亲', '歌手', '制片人', '导演', '首都', '主演', '董事长', '祖籍', '妻子', '母亲', '气候', '面积', '主角', '邮政编码', '简称', '出品公司', '注册资本', '编剧', '创始人', '毕业院校', '国籍', '专业代码', '朝代', '作者', '作词', '所在城市', '嘉宾', '总部地点', '人口数量', '代言人', '改编自', '校长', '丈夫', '主持人', '主题曲', '修业年限', '作曲', '号', '上映时间', '票房', '饰演', '配音', '获奖']

stl: ['国家', '行政区', '文学作品', '人物', '影视作品', '学校', '图书作品', '地点', '历史人物', '景点', '歌曲', '学科专业', '企业', '电视综艺', '机构', '企业/品牌', '娱乐人物']

otl: ['国家', '人物', 'Text', 'Date', '地点', '气候', '城市', '歌曲', '企业', 'Number', '音乐专辑', '学校', '作品', '语言']

输出:

3.3 NER示例一

输入:

Input Sentence: Bob worked for Google in Beijing, the capital of China.

etl: ['LOC', 'MISC', 'ORG', 'PER']

输出:

3.4 NER示例二

输入:

Input Sentence: 在过去的五年中,致公党在邓小平理论指引下,遵循社会主义初级阶段的基本路线,努力实践致公党十大提出的发挥参政党职能、加强自身建设的基本任务。

etl: ['组织机构', '地点', '人物']

输出:

3.5 EE示例一

输入:

Input Sentence: Yesterday Bob and his wife got divorced in Guangzhou.

etl: {'Personnel:Elect': ['Person', 'Entity', 'Position', 'Time', 'Place'], 'Business:Declare-Bankruptcy': ['Org', 'Time', 'Place'], 'Justice:Arrest-Jail': ['Person', 'Agent', 'Crime', 'Time', 'Place'], 'Life:Divorce': ['Person', 'Time', 'Place'], 'Life:Injure': ['Agent', 'Victim', 'Instrument', 'Time', 'Place']}

输出:

3.6 EE示例二

输入:

Input Sentence:: 在2022年卡塔尔世界杯决赛中,阿根廷以点球大战险胜法国。

etl: {'组织行为-罢工': ['时间', '所属组织', '罢工人数', '罢工人员'], '竞赛行为-晋级': ['时间', '晋级方', '晋级赛事'], '财经/交易-涨停':['时间', '涨停股票'] , '组织关系-解雇': ['时间', '解雇方', '被解雇人员']}

输出:

3.7 EE示例三(一个有意思的错误示例)

输入:

Input Sentence:: 我今天和他离婚了

etl: {'组织行为-罢工': ['时间', '所属组织', '罢工人数', '罢工人员'], '竞赛行为-晋级': ['时间', '晋级方', '晋级赛事'], '财经/交易-涨停':['时间', '涨停股票'] , '组织关系-解雇': ['时间', '解雇方', '被解雇人员']}

输出:

明显上面的输出使错误的,自定义etl为: {'离婚': ['时间', '人物']},输出为:

参考文献

  1. Erik F. Tjong Kim Sang. 2002. Introduction to the CoNLL-2002 shared task: Language-independent named entity recognition. In COLING-02: The 6th Conference on Natural Language Learning 2002 (CoNLL-2002).

  1. Lev Ratinov and Dan Roth. 2009. Design challenges and misconceptions in named entity recognition. In Proceedings of the thirteenth conference on computational natural language learning (CoNLL-2009), pages 147–155.

  1. Zhepei Wei, Jianlin Su, Yue Wang, Yuan Tian, and Yi Chang. 2019. A novel cascade binary tagging framework for relational triple extraction. arXiv preprint arXiv:1909.03227.

  1. Hengyi Zheng, Rui Wen, Xi Chen, Yifan Yang, Yunyan Zhang, Ziheng Zhang, Ningyu Zhang, Bin Qin, Ming Xu, and Yefeng Zheng. 2021. Prgc: Potential relation and global correspondence based joint relational triple extraction. arXiv preprint arXiv:2106.09895.

  1. Fayuan Li, Weihua Peng, Yuguang Chen, Quan Wang, Lu Pan, Yajuan Lyu, and Yong Zhu. 2020a. Event extraction as multi-turn question answering. In Findings of the Association for Computational Linguistics: EMNLP 2020, pages 829–838, Online. Association for Computational Linguistics.

  1. Monica Agrawal, Stefan Hegselmann, Hunter Lang, Yoon Kim, and David Sontag. 2022. Large language models are zero-shot clinical information extractors. arXiv preprint arXiv:2205.12689.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16339.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT对于数据安全的应用

数据安全分类分级与GPT的应用 文章目录 数据安全分类分级与GPT的应用前言一、ChatGPT模型二、上下文关联三、中文能力并不太好四、如何去训练一个符合心意的模型呢?总结 前言 经过两三个月的chatGPT的熟悉后,我对chatGPT的使用有了部分浅薄的经验&#…

ChatGPT,爆火背后的安全风险

随着《流浪地球2》在今年春节档的大热,影片中的“MOSS”作为“幕后主角”的话题度也大大增长,再加上近日ChatGPT作为“全能网友”的爆火,2023的开年,人工智能已经在大众面前怒刷了一波存在感。 MOSS是虚拟世界中超前的人工AI&…

AI绘画:数字时代的提示工程新兴应用

在数字时代,人们对于信息和素材的需求日益增长。随着技术的不断发展,AI绘画正逐渐成为一种应对这种需求的新兴技术。特别是在“提示工程”这一领域中,AI绘画可以发挥出更大的作用。 什么是AI绘画 AI绘画是指使用人工智能技术生成艺术作品的…

playgroundai:这款文生图AI,比文心一言更靠近真实

2023年3月16日,百度发布了文心一言,基于百度文心知识增强大模型研发。此前2022年8月19日,中国图象图形大会 CCIG 2022 在成都召开,百度就正式发布了 AI 艺术和创意辅助平台——文心一格,这是百度依托飞桨、文心大模型的…

如何使用AI帮你制作PPT

一:前言 ChatGPT:智能AI助你畅聊天地 在现代人日益忙碌的生活中,难免需要一些轻松愉快的聊天来放松身心。而现在,有了 ChatGPT,轻松愉快的聊天变得更加智能、有趣且不受时间、地点限制! 什么是 ChatGPT&…

使用ChatGPT增强测试技能:让你的生产力提升到另一个层次

hatGPT拥有源源不断的机遇,能够帮助提升测试人员的测试能力, 从复杂的需求评审设计到运用自动化技巧的用例设计,再到web界面和接口测试的边界值检查等等。 需求评审 需求评审(Requirements review)是测试过程中必不可少的一环。它…

chatgpt赋能Python-pythonpublic

Pythonpublic - 为 Python 编程技术交流者而生的社区 介绍 Pythonpublic Pythonpublic 是一个针对 Python 编程技术交流者而生的社区。在这里,你可以和其他 Python 爱好者参与和讨论最新的 Python 编程技术、共享你的编程经验和经验教训等等。 Pythonpublic 提供…

文心一言 vs GPT4

本周真是科技爱好者的狂欢节。GPT4和文心一言接连发布,AI工具已经开始走进千家万户。 拿文心一言发布会上的几个问题调戏了 GPT4 一下,看看表现如何。 第一个为文心的回答,第二个为GPT4 的回答。 1. 可以总结一下三体的核心内容吗&#xf…

ChatGPT|探索人机协作的未来|小智ai

ChatGPT丨小智ai丨chatgpt丨人工智能丨OpenAI丨聊天机器人丨AI语音助手丨GPT-3.5丨开源AI平台 在当今日益数字化和智能化的世界中,ChatGPT(Chat Generative Pre-trained Transformer)作为一种先进的人工智能技术,为人与机器之间的…

Chatgpt真的暴了!突然爆火的ChatGPT究竟是什么?

能敲代码写文章 能代做题目写剧本 甚至能代写任何一种文章 …… ChatGPT 最近很火 美国89%的大学生都是用ChatGPT做作业 能敲代码能写论文 能写公文能做作业能做绘画 …… 在线体验 ​xitong.baihuanyun.com/addons/wike_aging/public/h5/https://link.zhihu.com/?ta…

OpenAI 祭出 AI 文本检测利器,ChatGPT 的对手横空出世

大家好,我是校长。 自从 ChatGPT 发布以来,真的是热度依旧不减,几乎每隔几天都会有新的消息爆出,登上热搜。 尤其是,ChatGPT 发布后,竟然成了学生的作弊神器,有学生用 ChatGPT 来写作业&#xf…

想端起“铁饭碗”,你最好先学会这个!

正文共 886 字,阅读大约需要 3 分钟 公务员必备技巧,您将在3分钟后获得以下超能力: 快速生成推荐材料 Beezy评级 :B级 *经过简单的寻找, 大部分人能立刻掌握。主要节省时间。 ●图片由Lexica 生成,输入&a…

2023年新课标I卷作文,5位人工智能考生(ChatGPT,文心一言,GPT4, ChatGLM-6b, ChatT5)来写作,看谁写得最好

大家好,我是微学AI,今天是2023年6月7日,一年一度的高考又来了,今年的高考作文题也新鲜出炉。今年是特殊的一年,有人说2023是AI的元年,这一年里有大语言模型的爆发,每天都有大模型的公布&#xf…

OpenAI 宣布推出适用于 iPhone 和 iPad 的 ChatGPT 官方应用程序。

🚀 OpenAI 宣布推出适用于 iPhone 和 iPad 的 ChatGPT 官方应用程序。 OpenAI 宣布推出适用于 iPhone 和 iPad 的 ChatGPT 官方应用程序。 该应用程序具备即时回答各种问题、量身定制的建议、创意灵感、专业意见和个性化学习等功能和特性,可以帮助提高…

chatgpt使用场景

ChatGPT可以用于以下场景: 客服机器人:ChatGPT可以作为企业客服机器人,为客户提供24小时在线的服务,回答常见问题,解决客户问题。 个性化推荐:ChatGPT可以根据用户的历史行为和兴趣爱好,推荐相…

灵丹妙药or行业威胁?一个资深从业者谈AI对质量保证行业的潜在影响

背景:QA和软件测试是许多努力想要入行互联网、IT业的人最喜欢的入门级职业。但随着人工智能在诸多应用领域的快速发展,软件测试被认为或许是下一个被替代的职业。 人工智能的崛起引起了质量保证专家对未来的忧思。人工智能解决方案最终是否会取代人类的…

中国OpenAI?李志飞放弃了;AutoGPT试玩指南;AI大时代的家长完整手册;电商数字模特生成实践 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 『AI "取代"人类职业的路径顺序是怎样的?』岗位容错率是决定性指标 人经过一段时间的讨论,类将因AI…

【GPT-4理论篇-1】GPT-4核心技术探秘 | 京东云技术团队

前言 GPT-4已经发布有一段时间了,但是出于安全性等各种原因,OpenAI并没有公布GPT-4的技术细节和代码,而是仅仅给出了一个长达100页的技术报告[1]。 这个技术报告着重介绍了GPT-4的强大之处,仅仅给出了几个技术方向的概括&#x…

【AutoGPT】实操亲测 AutoGPT —— 3 分钟打造您的个人 AI 自动化GPT助手

AutoGPT 是风靡互联网的人工智能代理,可在 30 分钟内完成设置。想象一下拥有自己的 AI 🤖 来完成任务并帮助您提高工作效率!让我们深入了解如何开始使用 AutoGPT。 AutoGPT - 3 分钟打造您的个人 AI 助手 目录 AutoGPT - 3 分钟打造您的个人 AI 助手 先来直接上手体验:A…

无代码资讯|ChatGPT新功能曝光;Mendix与亚马逊云科技底层融合;无代码开发平台Appy Pie推出内置AI

栏目导读:无代码资讯栏目从全球视角出发,带您了解无代码相关最新资讯。 Top3大事件 1、ChatGPT 新功能曝光,GPT-4 迎来 AGI 历史性时刻! 北美时间4月20日,Open AI联合创始人Greg Brockman受邀出席 “2023TED” 大会&…