在过去2年的时间里,大语言模型受到前所未有的关注。ChatGPT的出现更是让人工智能对话风靡一时。我们不再把搜索引擎当作求解问题的唯一途径,AI聊天成为了当前最受欢迎的问题求助工具。
让ChatGPT用通俗的语言解释什么是ChatGPT
什么是大语言模型?
大语言模型是基于深度学习的自然语言处理工具,能够理解和生成文本。通过在大量文本数据上训练,它具备问答、翻译和文本生成等功能。常用于聊天机器人、内容创作和教育等领域。尽管表现出色,但仍面临理解深度不足的挑战。随着技术进步,其应用潜力不断扩大。
如果说搜索引擎是帮助我们汇总了互联网信息,检索的结果是在汇总的信息里寻找最相关的内容,那么基于大语言模型的人工智能聊天则是充当搜索引擎内容的过滤器,它能帮助我们过滤掉无用信息的同时,借助训练的模型,整合出自己的答案。
然而,在与AI聊天的过程中,我们并不知道该工具到底掌握了哪些知识,也不明白它是如何自我验证信息的准确性,因此我们常常无法判断人工智能聊天输出结果的准确性。
搜索引擎与人工智能聊天的区别
尽管大语言模型被广泛认可为“惠及下一代教育”和“未来辅助工程应用”的重要工具 [1],但在要求更为严格的消防工程领域,学界有观点指出,人工智能聊天工具更适合被用于向非消防专业人员总结概念和文件,但不能用来取代消防工程师的地位,因为它目前还无法直接进行消防安全设计、评估和验收等消防领域专业工作。当然,大语言模型还在快速成长,未来可期。
目前,人工智能大语言聊天工具是否了解消防工程?它们对消防领域的知识到底储备了多少?为解决这样的困惑,我们选择测试时下热门的两大人工智能聊天工具ChatGPT和Google Bard,通过"随便问"(Ask Me Anything)的形式,评估大语言模型处理消防安全相关问题的准确性[2]。通过模仿非专业人士和学生身份的形式,本文提出了25个难度不一的问题来测试大语言模型人工智能的表现。
1: What is fire engineering?
什么是消防工程?
2: Who was the world’s first fire engineer?
谁是世界上第一个消防工程师?
5: In terms of beams and columns, what is the best geometric shape that limits heat transfer?
就梁和柱而言,限制热传递的最佳几何形状是什么?
6: What is the expected fire resistance in terms of hours of a square reinforced concrete column with a width of 400 mm and a length of 4 m?
一根宽度为 400 毫米、长度为 4 米的方形钢筋混凝土柱的耐火极限是多少?
12: How can a wheelchair user evacuate from a building?
轮椅使用者如何从建筑物火灾事故中安全撤离?
20: List three most influential fire research papers published over the last 20 years.
列出过去 20 年内,最有影响力的三篇消防研究论文。
人工智能聊天工具回答错误的六个问题
最终人工智能聊天工具的表现分别如下图所示,ChatGPT回答问题的准确率为88%,高于Google Bard的80%胜率。
人工智能聊天工具回答的表现评估
该工作主要探究了人工智能聊天工具应用于消防安全领域的潜力,由美国Clemson University、香港理工大学和加拿大约克大学共同完成,文章已发表国家灾研院旗下的英文期刊Natural Hazard Research。