在斯坦福大学举办的阅读理解比赛中,由微软和阿里巴巴分别独立开发的人工智能的得分都超过了人类。
在斯坦福大学举办的阅读理解比赛中,由微软和阿里巴巴分别独立开发的人工智能(AI)模型的得分均超过了人类。
这一人工智能里程碑是借助斯坦福大学问答数据集(Stanford Question Answering Dataset,SQuAD)实现的。该数据集由对应于500篇以上维基百科(Wikipedia)文章的超过10,000个问答对组成。阿里巴巴模型的得分为82.44,而微软亚洲研究院(Microsoft Research Asia)提交的模型则超过了这一成绩,得分为82.65。人类在SQuAD测试中的得分为82.304。
尽管是以微弱优势取胜,称不上表现优秀,但这代表自然语言处理(NLP)软件首次得以在这一特定基准上超越人类。谷歌、IBM、Facebook、腾讯、三星、Salesforce和其他公司也已向这项测试提交了自己的模型,但目前为止没有任何模型达到人类的阅读理解水平。
阿里巴巴和微软的成就表明,NLP技术的水平距离在诸如客户服务、旅行和医疗保健等领域的商业应用程序中扮演更重要的角色越来越近。如果与搜索引擎配对,可利用这项技术为企业和消费者提供所有类型的有用交互。微软表示,已在自己的必应(Bing)搜索引擎中集成了其SQuAD模型的早期版本。
微软称,软件开发人员正在努力使用这项技术将上下文引入这些交互中。微软的人工智能博客中提到:例如,假设您询问某个系统“德国总理出生于哪一年”,那么当您提出后续问题“她出生在哪座城市”时,您可能会想要它理解自己仍然在谈论同一件事。
尽管NLP领域出现了这一最新进展,微软亚洲研究院副院长周明承认,整体而言,人类在理解语言的复杂程度方面仍然比软件优秀。“自然语言处理领域仍存在许多挑战,我们大家都需要继续投资并推进其发展,”周明表示。“这一里程碑只是一个开端。”
这一观点得到了纽约大学计算机科学部门教授兼长期人工智能研究者欧内斯特·戴维斯(Ernest Davis)的详细阐述,他的观点被《华盛顿邮报》上一篇有关此话题的文章引用。戴维斯承认,尽管阿里巴巴和微软的工作成果令人印象深刻,但许多阅读理解基于阅读任何特定文章前已经了解的内容。而这些模型不会将此类上下文纳入其中。