标注猿的第70篇原创
一个用数据视角看AI世界的标注猿
大家好,我是AI数据标注猿刘吉,一个用数据视角看AI世界的标注猿。
从去年的10月份到现在有半年的时间没有更新了,去年没有更新是疫情的原因,今年没有更新主要有两个原因一是因为在拼命的“活着”,二是变化太快了,有点懵状态。
到去年年底或许行业内有超过一半的标注供应商公司倒闭,不在从事相关业务了。当然也有一部分公司转型成功了,据我了解有一些转型做抖音的相关业务也有比较好的结果的。当然也有越做越大的小伙伴,非常令人佩服。
所以在年初的时候也跑了一些地方和一些行业内的大牛们聊了聊,本来在聊完之后想写一篇文章,但是聊完之后感觉没有写的意义了。
随后的一个多月里ChatGPT席卷全球,又看不懂了,感觉整个国内的人工智能行业都被打蒙了“1秒”。
最近又和一些小伙伴交流,也请教了一些大咖,关注一些行业的信息,也有了一些思考,决定还是回归数据视角看AI的本质,去写一些内容和大家分享交流。所以本文就从三个方面和大家聊聊:
-
数据标注业务的增量在哪?
-
GhatGPT的冲击
-
数据标注会成为一种人机交互“语言”么?
一.数据标注业务的增量在哪?
总所周知,数据标注行业的业务从数据类型上类区分是图片、音频、文本、视频,而目前行业主体的业务需求大多来源于图片类的,而图片类的大部分需求源于自动驾驶相关标注的业务。
年初的时候,看到一篇36氪发布的一篇文章,文章介绍了几个标注服务商公司的业务增长非常高,有的都已经达到了442%,而一些主机厂的数据标注的投入也从几十万、几百万增长到了数千万甚至大几千万的级别。
所以至少在3月底之前大家对于数据标注今年的市场增量还是信心满满,预期着自动驾驶厂商今年的投入有会有一个非常大规模化的增长。
但是能单纯的认为是数据标注行业的增量么?或许是否定的,单从自动驾驶标注业务来看,实际客户源是很有限的,国内能做的起自动驾驶的公司和主车厂是非常有限的,而愿意实打实花大资金重投的或许是更有限的。
源于自动驾驶业务带来的增量在数据量上的确有增加,但是如果客户数量没有增加的话就会促使内卷进一步加剧。所以从行业增量来说,我认为是没有增量的,毕竟客户总量几乎没有增加。
逻辑很简单,一个主机厂不会把“鸡蛋”放到一个篮子里,而能接主机厂的数据标注供应商大多是规模比较大(关系户)或者平台方,而一般至少也会找3家及以上,那么竞争就来了,或许你会在不同的平台看到同样的项目,价格却不一样。
而从目前来看已经到了5月份、6月份了,年初所预期的井喷式的任务却没有如期而至,是大环境不好预算减少了、还是技术方案调整了?我们还不得而知。
二.ChatGPT的冲击
ChatGPT从文本类再到多模态的表现的确给所有人来了很大的冲击,虽然也有人认为没什么突破,就是数据量大了。但的确让每个人、每个行业都或多或少可以利用这个工具为自己做一些事情。
甚至有些人在思考ChatGPT会不会取代人类,会不会导致很多人失业?我认为不会取代人类,会让一部分失业,但是最恐怖的一件事儿是未来会有一部分人慢慢会会被AI提供的信息所供养。
ChatGPT对我冲击最大的两点是:
-
有意思的是在ChatGPT出现以后,很多投资人很多公司疯狂的开始吹捧大模型,虽然不知道最终会留下几家,毕竟这种基础的大模型投入太大,而最终能站到“金字塔”尖会非常少。
但这个过程也发生了一些非常有意思的事儿,最先通过ChatGPT赚到钱的人却是一批教普通人使用ChatGPT的人。从如何注册到如何使用,甚至看到了教别人如何向ChatGTP提问才能得到更好的答案。
看到这点的时候,从数据的角度我突然意识到一个问题,“问题也是ChatGTP的一种数据”。
这种问题在标注里面我们通常称为“问题泛化”、“问题扩展”。但这种问题的泛化、扩展其实很难通过标注人员人为的处理。所以才会出现很多人问的问题也想要的答案有出入,但是如果换一种方式问,可能就会得到更贴切的答案。
那么在ChatGPT3.5到ChatGPT4对外开放的迭代时间用了大概半个多月的时间,或许从数据标注的角度来看,应该是更多的训练了一次在3.5开放之后问题的数据。
所以在无意间每个使用过ChatGPT的人都成为了ChatGPT标注员,帮助它进行了一次有一次的标注。
-
-
ChatGPT数据的数量级
国内的公司或许也不会拿出上百亿美元的资金去做研发,而还有一部分又要花费在数据标注这个“无底洞”上面。
-
聚焦场景化解决方案和大模型
从这几年国内一直看重的场景化解决方案,不太看好大模型的发展。而ChatGPT3.5和ChatGPT4打破了国内的很多认知。
记得前几年的每年在参加很多地方举办的人工智能年度大会上,很多专家对大模型的不屑一顾,对场景化模型的吹捧还历历在目。
-
-
三.数据标注会成为一种人机交互“语言”么?
ChatGPT这种大模型的出现,之所以会席卷全球,除了有过硬的技术外,还有一个核心的问题就太易用了。任何一个非相关专业的人员,甚至都不需要多高学历的人员就可以使用。
易用、好用、就会变的易传播。
但热情退去,如何解决大模型在实际应用中“最后一公里”的问题呢?
不管是问答类、还是多模态的大模型,在我们问具体问题的时候,都会有一种感觉,看似给你了一个很“丰满”的答案,但只要你细研究,这个答案又好像没啥太大用,有一点像“废话文学”。
这也会是后面大模型落地时候的一大痛点,商业化的一个阻碍。看似非常有用,但在具体问题上有没啥用的尴尬。
这个时候在看看ChatGPT在解决问题数据泛化、扩展的思路,以及特斯拉在自动驾驶解决数据的思路就有异曲同工之妙了。
对于大模型人机交互在解决“最后一公里”问题,自主的数据标注就变的尤为重要了。
首先可以肯定的是想要ChatGPT解决很实时的具体问题时候,一定是需要给ChatGPT“投喂”一些相关的数据信息的,那么这一个过程其实就是一次数据标注的过程,但是否对于ChatGPT是有效的,我们是无法确定的。
对于数据标注来说,在大模型的长尾阶段一定是必须的,但这种必须又好像是我们在跟机器做了一次又一次的“对话”,来告诉机器我们要做什么,而这个数据标注的过程,是否可以变成一种特定的“人机交互语言”来实现呢?
作为普通人来使用AI,我们不关系技术实现、代码落地等等复杂的内核,我们更要关注的是自身的需求,并提出问题,完善问题需求,然后让AI来帮我们解决。
如果从这个角度来思考的话,数据标注是否更像是人机交互的一种语言呢?
以上就是最近关于数据标注相关内容的一点点思考,欢迎小伙伴留言讨论交流。
相关文章阅读:
-
自动驾驶测绘资质的信息安全要求,真的来了
-
甲方数据负责人供应商选择系列一
-
AI数据标注猿知识星球私域社区开始招募啦!【文章最下面有公众号福利】
-
数据标注员是职位,人工智能训练师是职业
-
数据标注行业创业还可以么?
-----------------------完--------------------