从有监督的分类数据集的角度来说,标注(诊断标签)可以是针对多个类别(classification),也可以是针对具有临床意义的视觉皮肤病变模式(Pattern);而从数据库表的设计角度,这些模式叫做属性(Attributes)或字段(Fields);从信息检索的角度,这些模式叫查询(query)或者关键字(key);从计算机视觉的角度,这些模式叫特征(Features),比如:颜色,纹理,形状等,从自然语言处理的角度,这些模式叫嵌入(embeddings),这是由于不同的角度或语义空间会给模式不同的约束范围,
prompt/指令/需求;场景:AI交互
比如创建一个智能体的流程:明确智能体目标(给定进化方向);
写prompt(要清晰具体,比如一个聊天机器人,能回答科技新闻问题,给出最新动态)
配置设定(访问权限,数据源,回应风格)都可特定
训练和测试
优化迭代
因为智能体的目标是学会某一项任务,所以其实你自己构建这个东西,相当于你要教会它这个任务,虽然教会了是你也会了,但是这个周期要多久呢,得考虑下,因为垂直领域它可能没办法直接使用很多通用工具,我觉得它和大模型最大的区别就在于它能访问互联网了;
最坑的我感觉就是无记忆性,我和智能体聊了半天,因为想到要改一个设置,然后保存了一下,但是不是想要保存到本地,取消之后触发了刷新,之前的聊天记录全没了,这时候就感觉自己之前就是做了一场梦,最重要的是,模型可能因为资源限制,很快就不记得之前说了什么,这一点让我觉得不太靠谱;不过给我引出了一些研究点:periperal vision这种认知行为模式和医学结合的,似乎也算是可行,因为就像openAI有次一个采访一样,人家的意思就是,我们其实知道怎样的学习行为是有效的,当然有时候也不知道,但是我们往往没有采用,AI就是在追求这种有效的学习方式的过程中,发展出现在这种类似智能的形态的;再就是数据集不平衡和可解释性这块是真没什么人研究,所以可以继续;再就是如果要驱动它给你分析视觉的数据,去完成训练任务那些的,要精准地提示网址,任务类型,目标,总之越精准越好,就是你怎么学的,你就怎么教会它;要达到涌现能力那样的意外之喜,需要成百上千轮的对话或迭代;也就是它表现出的专业性取决于你有多专业,它只是在你提到的思路和点上做了进一步的丰富和扩展,目前还达不到出现你没提到的意想不到的点,还都是相关联的点的一个检索;具体看大家的使用方式和个人的感觉了;
虽然工业界的人讽刺学术界做得东西是玩具,但是我觉得其实这些通用的大模型在专业任务上也差不多是个玩具 ,因为本质是模型,所以需要训练,而训练需要投入的数据和算力,是为你服务的,所以只能你来投入,特别是和你的需求紧密相关的,所以你想借助它做非常领域相关的研究,给你涌现出来能力,因为是语言模型,所以我觉得它就是嘴上说说而已;还不如你训练自己;因为我去年这时候就干过这类事,我感觉他们的能力其实还是很有限,所以我们要乐观一点,也要少一些幻想;因为说到底,这些API是人提供的,虽然可能他们的目的不一定是获取我们的数据,但是在对话中你也不大可能获得太多你不知道的东西,基本的是基于交互的,你提供你的想法,它帮你收集一下上下文,差不多就这样;他所能取代的,只是形式上的考核,而无法取代教育和认知的本质和内核;
自己建一个智能体,然后不断地基于prompt去调试,其实有点从头train一个模型的感觉,我觉得其实应该在那个智能体中心,找一个和你任务目标类似的模型作为基座,然后再用prompt调,因为在prompt这个范式之前,是预训练微调这个范式,所以预训练的思想肯定是已经有了的;
我感觉这些工具再强都代替不了我们对自身的训练,就像练习英语听力一样,我们对这些信息点的感知,在于我们对这些信息点的理解和整合能力,同样一句话,可能不同人关注点和建立的映射都不同,这需要我们日常不断地训练自己,培养自己在这块的敏锐程度,需要花时间积累,所以我觉得大模型这些发展的现状并没有改变这些底层逻辑,只是给我们提供了一些视野,别人在这种情境下是这么做的,有了这些途径,但是我们的工作我们还是要自己来深入挖掘;
感觉就像和一个有点内向又好像什么知道的学生在聊天,有点累的感觉,还是代替不了和人的交流,效率感觉还是不行,毕竟和人是真正的多模态的交流;如果大模型是你信息更新的唯一来源的话,我感觉这似乎很容易让你陷入信息茧房,或者什么难以提升的瓶颈,因为其他们也挺有限的,他们的有限是因为你的认知有限,你所能和他们交互的内容有限;
关于什么研究内容的相关性,一个基本的认识就是任务最起码是前后一致的,至于研究点是不是针对医学的具有一种针对性,这个是你自己要解决的问题,而且解决同样的问题,在医学上具有针对性和用其他的比如认知行为上的做法,也许都可以达到效果,因为最终还是在那些既定的评价指标上去评估的;小众的研究是不一定不好,但是你能坚持下去不,有什么新想法么,虽然说是降低要求就行了,但是开发一定比医学简单或者有前景么,还不都是从看得见的,谁是已经既定的获得了成效;而且学长达到毕业要求了,也不一定就是说研究有多么深刻的见地,多么严谨,只是符合了当下对他的要求,不过这也很好了把,至少人家做了几个数据集,在这一圈里还算是可以的,你不能没有对比就说人家不行吧,总不能都和爽哥一样,发了好的文章,结果被可能性冲昏了头,现在工作还没着落;其实只要他们各自安好,我就觉得好了;我问他那些没标的数据集的特性在通用数据集上,有没有类似的特性,他说没有,都是一个洞,就是你在那个拓扑分割的那个文章里见到的那种数据集的特征,而且人家说这个东西是之前有个项目,现在没人用,而且就是用一下,主要也没法解决这块的问题,我问当时数据集是医院的人采集的么,他似乎没正面回答,可是显然如果没有一个项目作为驱动,似乎就没有动力去做这件事,大家都在考虑利益最大化,为得到自己的目标结果,付出最小的代价,这其实就是北大那位教授要在自己的训练里避免的,强制它可以学到更多特征;我觉得主要还是得提升自己的核心竞争力,至少少杰明白,这些东西都代替不了和真的人玩,自己的分内事务要完成,需要大量的实践训练,还有要按时吃饭,健康问题是自己要坚守的原则和底线;其他的,什么奉献,也许人家无力考虑这些问题;
李博也觉得已有的数据集够用了,大家可能只是面对现在的大模型,有点不知所措?那就把小而美的事情做好吧,不管别人怎么说怎么想,也许人家谦虚呢,因为这种没有量化的对话,谁知道人家心里的那个标准和你心里的标准对齐了没有;所以你的工作量得够,不然人家卡你,你准备怎么过关,你跟人家不一个学院的,这个学位的含金量也不一样,你需要对自己负责呀;
梁也觉得数据够用,自己做的那一点数据不顶事,还是好好整代码,后面自己用起来也方便,要自己整,才能理解;人家说得已经很委婉了;jupyterNotebook本来就是分解问题的方式,工欲善其事必先利其器了;
关键是你的心够坚定地走自己选的路么,不管什么学长说什么,你有自己的坚持么
用通用的方法比如智能体来解决专业的皮肤病相关的分析问题,感觉真的还不如自己看,而且国内现在很多大厂都是在做这种通用的任务,包括阿里的那位也是这么说的,所以我觉得专业领域的东西我们还是要靠自己借助已有的工具网站来深挖一下;至于这些通用能力,由于相关研究者已经考虑了这些代理任务,那么我们的通用能力这块就可以外包给他们来实现,使得我们更专注于我们专业能力的提升;这块大家还是要有信心,因为数据别说未见的,就算是训练得方式不对,都很难泛化的,那种zero-shot的多是基于多模态的,而且是针对特定的比如电商环境下的,所以和咱们的专业内容还是有很大区别的;而且这些智能体或大模型的流行或者构建从某种程度来说目的就是获取数据,我们的prompt也算是一种,所以其实如果你觉得你并不是很依赖这个大模型,你的研究工作也可以不基于这东西;当然可能是我没选对平台或者prompt不到位,但是大模型的评估或反思能力一定是基于它已经训练过的数据的,如果它本身在这块没什么训练其实再相近,都很难泛化;
感觉模型设计者可能基于很多考虑,其实如果你不是专门做prompt,或者研究nlp这块,你其实从这些API嘴里也得到不了多少有用的信息,感觉还是得自己去看,有那点对点的示范一样的提示,我都自己去做了那任务了;这是我个人的感觉,可能和我写得提示词比较粗确实有关;
- 垂直领域的智能体在某一领域有深厚的知识积累,可以提供高效、准确的解决方案。我觉得这应该是我们研究生需要注重提升的能力;但是我们通常又怕局限于这种专业能力,没有抽象和共用的能力,来泛化到其他任务上;也许这本就是鱼与熊掌不可兼得的事;
- 没有免费的午餐定律里,还是奥卡姆剃刀的定律里,假定在任务或者问题不确定的情况下,没有模型是最好的或者最合适的;