近日,由人工智能研究实验室OpenAI研发的聊天机器人模型ChatGPT风靡全网。在OpenAI官网上,ChatGPT被描述为优化对话的语言模型,可以回答日常问题、进行多轮闲聊,也可以承认错误回复、挑战不正确的问题,甚至会拒绝不适当的请求。强大而惊艳的语言能力,让ChatGPT饱受关注。
据悉,ChatGPT是在一个开源数据集上进行训练的,训练参数是前代的10倍以上(前代预训练数据量达到45TB)。作为一个大型的语言模型,ChatGPT离不开万亿级别数据的投喂,依托强大的算力,其智能程度还与训练数据的质量和多样性挂钩。
(一)没有高质量的数据,就不会有可信的AI
AI的发展早已迈向技术和产业深度融合的新阶段,移动互联网的技术发展、智能手机的大规模普及和IoT物联网的兴起带来了AI模型训练迭代以及应用落地所需的海量数据。然而,单纯的数据并不能直接产生价值,AI模型需要的是经过处理、清洗、标注、管理的精准数据,只有输入准确的数据才能训练出精准的AI。
- 常见的数据挑战
数据虽然无法百分百解决一切问题,但在人工智能行业中存在一个简单而关键的共识:数据集质量的高低直接决定最终模型效果的好坏。即:数据对于算法模型训练非常重要,数据越丰富,代表性越强,数据质量越高,训练效果越好,算法就越稳健。在人工智能和机器学习进程中,常见的数据挑战基本是以下几类:
(1)如何查找正确数据用于建模?
(2)如何使数据可用于机器学习环境?
(3)如何确保用于建模的数据是可信的?
(4)希望减少数据准备的耗时,将更多时间用于数据科学。
(5)如何在生产环境中部署和实施机器学习模型?
(二)数据治理为人工智能奠定基础
“无治理,不分析”,数据治理的输出就是人工智能的输入,因此,数据治理多与人工智能的发展相辅相成。人工智能领域的领军人物吴恩达曾经说过: “一个机器学习团队80%的工作应该放在数据准备上,确保数据质量是最重要的工作。”
AI企业如何获得干净、结构清晰的数据?软信天成认为:需要通过定义数据质量需求、定义数据质量测量指标、定义数据质量业务规则、制定数据质量改善方案、设计并实施数据质量管理工具、监控数据质量管理操作程序和绩效等数据质量管理环节,确保数据可信任且敏感数据已脱敏,减少数据准备工作耗时,加速数据管道的实施,为深度学习等人工智能技术提供可信的数据输入。常见流程包括但不限于:
(1)数据目录和沿袭:发现正确的数据集
(2)数据导入:为机器学习环境导入正确数据
(3)数据集成:实施数据管道和大规模处理实时数据
(4)数据质量:确保可信数据可用于获取洞察
(5)数据脱敏:为机密信息脱敏
(6)数据准备:简化数据准备工具并实现数据协作
依托市面上完善的数据治理解决方案,帮助企业在海量中筛选出符合要求的数据,通过收集、处理、分析、验证、存储、保护和监控数据等环节确保数据的一致性、准确性和可靠性,最终以高精度严密管理加工成高质量干净的数据来运行机器学习模型,方便AI企业根据算法场景,自由挑选符合需求的样本数据进行训练,为AI企业持续研发创新提供强有力的数据支撑,推动人工智能的进一步发展。