【Python机器学习】NLP信息提取—

【Python机器学习】NLP信息提取——命名实体与关系

我们希望计算机能够从文本中提取信息和事实，从而略微理解用户所说的内容。例如，当用户说“提醒我星期一浏览***.org网站”，我们希望这句话触发当天后下一个周一的日程或者提醒的操作。

要触发上述操作，需要知道“我”代表一种特定类型的命名实体：人。而且，聊天机器人应该知道它需要将“我”替换成该用户的用户名，达到文本扩展或标准化的目的。还需要聊天机器人知道“***.org”是一个缩写的URL（一个指代特定事物名称的命名实体），而且这种特定类型的命名实体的标准化拼写方式可能是“http://***.org”、“https://***.org”，甚至可能是“https://www.***.org”。同样的，我们还需要聊天机器人明白周一是一周中的某一天（这是另一种被称为“时间”的命名实体），并且能够在日历中找到它。

为了使聊天机器人能够正确的相应这个“简单”的需求，还需要它能够提供命名实体“我”和指令“提醒”之间的关系。聊天机器人甚至需要识别句子的隐含主题（“你，提醒我……”），其中“你”指的是聊天机器人，即另一个类型为人的命名实体。而且需要告诉聊天机器人，日程或者提醒是在将来发生的，所以它应该找到下周一来创建提醒。

一个典型的句子可能包含集中几种不同类型的命名实体，例如地理位置实体、组织、人物、政治实体、时间、事件和自然现象。同时，一个句子有也可以包含多个关系，即关于句子中命名实体之间关系的事实。

知识库

除了从用户语句对应的文本中提取信息，我们还可以使用信息提取技术来帮助聊天机器人进行自我训练。如果使用聊天机器人在大型语料库上进行信息提取，这个语料库就可以生成关于这个世界的各种信息，从而指导聊天机器人后续的行为和动作。有一些聊天机器人通过知识库记录提取的所有信息（通过安排“家庭作业”式的离线阅读）。然后通过查询这个知识库，可以帮助我们的聊天机器人做出对于这个世界更加准确的判断或推理。

聊天机器人还可以存储与当前用户的“会话”或者对话相关的知识。这些仅和当前对话相关的知识称为“上下文”。这些上下文知识既可以存储在聊天机器人后台的统一全局知识库中，又可以存储在单独的知识库中。商业聊天机器人API通常将用户的上下文与支持和其他所有用户聊天的全局知识库分开存储。

上下文可以包含关于用户、聊天室或频道的信息，或者当前时刻的天气和新闻。基于会话内容，上下文甚至可以包含聊天机器人自身的状态变化。一个“自我感知”的例子是，智能聊天机器人应该跟踪它已经告诉用户的所有事情的历史记录，或者它已经向用户提出的问题的历史记录，从而避免重复。

这就是这部分的目标，即教会机器人理解输入的内容。将机器人产生的这种理解结果放入一个为了存储知识而设计的灵活数据结构中，然后机器人就可以利用这些知识做决策，从而在回复中引入更多对现实世界的理解。

除了识别文本中的数字和日期等简单的任务，我们还希望机器人能够提取有关现实世界的更通用的信息，而且希望它能够独立完成这项任务，而不是我们自己把关于现实世界的所有知识都“编程”输入给它。例如，我们希望机器人能够从自然语言文档中学习，例如下面这个句子：

In 1983, Stanislav Petrov,a lieutenant aolonel of the Soviet Air Defense Forces,saved the world from nuclear war.

如果在历史课上读到或听到类似上面这句话做笔记时，我们可能会去理解这句话的意思，同时在脑海中建立各种概念或词之间的关系。我们可能会把这句话简化成某种“从句子中得到的”知识。我们希望机器人做同样的事情希望它“记录”所学到的知识，例如Stanislav Petrov是lieutenant aolonel的事实或知识。这种知识可以存储在下面这样的数据结构中：

('Stanislav Petrov','is-a','lieutenant aolonel')

这个例子描述了两个命名实体节点（Stanislav Petrov和lieutenant aolonel）以及在知识图谱或知识库中它们之间存在的（'is-a'）关系或连接。当上述关系用符合知识图谱关系描述格式（RDF）标准的形式存储时，它被称为RDF三元组。一般来说，这些RDF三元组存储在XML文件中，但它们也能存储在可以用（主体、关系、对象）形式记录三元组图形关系的任何格式文件或数据库中。

这些三元组的集合称为知识图谱。上述集合有时也被语言学家称为本体，因为它存储可关于词的结构化信息。但当这个图谱表示的是关于世界的事实而不仅仅是词时，它被称为知识图谱或者知识库。下图就是想要从上述句子中提取出来的知识图谱的图形化表示。

上面的is-a关系表示一个无法直接从上述描述Stanislav的句子中提取出的事实。但是，这个lieutenant aolonel是军衔（military rank）的事实可以基于一个军事组织成员的头衔是军衔的事实推断出来。这种从知识图谱中获取事实的逻辑操作称为知识图谱推断。它也可以被称为知识库查询，就像关系数据库查询一样。对于像Stanislav军衔这种特殊推断或查询，知识图谱必须包含关于军队和军衔的事实。如果知识库包含关于人的头衔以及人与职业（工作）关系的事实，甚至可能也会有所帮助。也许可以看出，相比于没有相关知识的知识库，有相关知识的知识库对于机器人理解上面这句话的帮助更大。如果没有这种知识库，那么像上面这样一个简单的句子包含的许多知识，都将让聊天机器人“摸不着头脑”。甚至可以说，对于一个只知道如何根据随机分配的主题对文档进行分类的机器人，关于职业等级的问题将超出“它的能力范围”。

这个问题是很严重的，如果我们有过与一个不理解“which way id up”（路在何方）的聊天机器人交谈经历的话，我们就会理解这个问题的严重性。人工智能研究中最令人生畏的挑战之一就是对尝试知识图谱的编译和高效查询。而这些尝试在我们的日程对话中被视为理所应该知道的东西。

人类甚至在获得语言技能之前就获取了很多常识，但是机器人难以找到一个包含常识的语料库去阅读和学习，也不存在包含常识的百科文章供机器人进行信息提取。

事物与人之间存在各种各样的事实关系，例如“是……类别”、“被用来……”等。大多数知识库会规范化上述表示关系定义的字符串，所以“是……类别”和“是……类型”这种特定关系会被分配一个规范化的字符串或ID来表示。一些知识库也会规范化知识库中表示对象的名词，因此，可能会给2-gram “Stanislav Petrov”分配一个特定ID。“Stanislav Petrov”的同义词，比如“S. Petrov”，如果NLP流水线认为它们指的是同一个人，那么会被分配给同一个ID。

知识库可以用于构建称为问答系统（QA系统）的实用型聊天机器人。客服聊天机器人几乎完全依赖知识库来生成回复。问答系统非常适合帮助人们找到事实型信息，从而解放人类的大难去做更擅长的事情。人类不擅长精确地记忆事实，但善于发现这些事实之间的联系和模式，后者是机器人尚未掌握的东西。