
我们能隐约感知出一个心得:目前ai大模型的数学指标,可鞥是大模型的性能最接近的可信指标,而不是所谓的各类排名,刷分刷出来的各类哈哈一笑的榜单,要知道,lmsys的榜单其实是人刷出来的。。。anyway 你不能信任它。唯一可信的几乎只有逻辑和数学指标。 对人类语言的执行精度,模糊识别等。
目前最新的swe bench里,有公司号称做到了30%,而之前的几个报道里最好成绩是不到20%,这里先不管swe bench lite啥的。
代码辅助的测试工具,几乎等于数学的可用性情况,包含算法等。因为我们发现,现在流行的几个数学测试集给出的得分情况都太高了,太高,90多分,没法用了。
所以,用代码库工具的得分来介入我们的试验
把swe bench的20分,代入一个想象的模型,我们此刻有一个ai自动编程框架,它可以用最强悍的处理swebench的模型(包括他自己的rag),能拿来干啥? 能解决我们的实际项目开发的20%部分的任务 ( 这里的20%是从最低的开始往上算)
ai可用度= swe bench最高分
另一种解释,一个项目的完成度如果是80%,那么剩下的20%可能能靠一个swebench 得分20%的集合各种插件的model辅助完成。
项目完成度 = 1 减去 swe bench得分
前提是有一个完美的软件自动编程框架,能结合目前所有的大模型,rag,技能库,等等,用尽手段那种。只要软件公司肯投入大资金去开发这么个ide,那么,就能产生的回报和降低人工的成果,是可验证的。
最简单的的就是处理代码里的初始化部分,数据结构部分的自动生成。以及如何最高效的采用skill lib里的代码,知识库的代码, skill libs是美国公司通用的代指,也确实有这个东西,类似自己的常用代码块。。。
这样,研发人依旧要投入百分之八十的劳动力,脑力。
这就是为什么ai只能做copilot,目前。
而开发出这样的自动编程框架 ide本身又是巨大的人力工程,还得不断更新。
很可能耗散的能量会等价于一个完美框架节省的人工。。。。
如果五年内swe bench达不到40%,可以说ai自动编程是没法商业化的。
但是,反过来就是巨大的商机,turning point。
--------------------------------------------------------------
-------------------------------------------------------
为什么自动编程这么难以落地? 每个细分行业用软件开发项目的细节都是不一样的,前端,后端,硬件,甚至还有 low code, no code,从简单的docker配置脚本到各种纯粹的how to式开发,
这还没完,做soc的fpga开发用的语言,matlab语言,labview。。数学计算等等,每一个领域都完全不一样,二次开发的难度根本不是微软们能解决的。
还忘了游戏编程。。。安卓编程,ios开发。
假如所谓的ai copilot没有针对实际工业里的各个细分编程进行优化,那么所谓的ai编程就成了可悲的前端后端和儿童python编程伴侣。(真的需要人人学编程吗??)
单就硬件编程而言,用c c plus plus等做简单的固件编程,和用高级c做内核,驱动和应用,也是有稍微差异的。
--------------------------------------------------------------
假如目前的ai copilot按照他们的思路走,就只会变成专攻leetcode,精通所谓的各种脚本语言,非常着重web开发等,说实话,这样的模型会很狭隘。
市场上最大的大头是移动应用开发,小程序,其次是底层硬件驱动,而不是网页前端后端,leetcode应试。 还有一块需求,是来自运维和脚本。脚本就是常说的虚拟化产业里需要的那些,讲不太清楚,反正做过的人都知道,需要很多的how to。
想起群聊里的那些只会看服务器的老哥,毛线文化都没有,一样也在做“技术”,啥子叫看服务器,说白了就是各种见不得光的细分行业里如何调试配置服务器,运维的那些玩意儿,很多的这类工作是第一波会被淘汰的。
==========================
如果没有一个合适的整合大模型的ide,只是靠工程师不停的复制粘贴代码,报错信息,debug,那我看效率并不会太高。一半以上都是用了最糟糕的代码,表面上可以运行,但是代码本身可读性,可移植性都是0. 所以问题关键是如何集成到ide里,这个工作量很大。
自己的问题只有自己表达的非常清楚,ai才有可能反馈有用信息,大部分人目前用ai其实是瞎用。随便发个问题,你指望模型猜的对?
根据我的估算,到2028年左右,ai指标会比今天的模型最高分高至少40%
(很多人不知道,未来模型突破点在大幅度节省训练时间)
可以看到的未来是,不会有一个通用的ide能完美的嵌入ai模型,但是不排除每个细分行业有自己的细分辅助编程ai,就类似单片机的自动初始化脚本。
乐观的分析是,几年内简单的app,网页前后端都可以ai一键免费完成。
(问题是那个时候还有需求吗?) 游戏开发会非常依赖ai,一个好的剧本人最需要。
-------------------------------------------------------------------------------
这让我想起了很多年前的 DIY T恤潮流,那个时候,随便一人都能自己做T恤文化衫卖,当时就在想哇哦,一个巨大的自you市场来了,但是呢,这个市场最终并不存在。它依旧只是非常边缘的存在。 人人都可以做,但实际上没人在做。
ai辅助编程一直是被微软们把持的,但目前类似3d 打印机的独立的小企业做的能满足实际编程,应用需求的ai工具,真的没有。
--------------------------------------------------------------------------------
----------------------------------------
根据3d打印市场发展的经验来看,目前3d打印已经比较被市场接纳,大小企业,个人都在靠它解决实际问题,这个过程用了约10年。目前包括金属打印都成为产业现实。毫无疑问,在月球上人们必然要用它来加工产品。
那么,llm是否也要在等七年?
有国外报道说,第一波被ai淘汰的工作岗位依旧是软件工程师。。。
所以,目前ai 辅助编程,自动编程将会随着全社会熟悉编程的过程进化下去,通过ai更快提高全社会对编程的熟练度,从而产生ai产品的刚需。
这和我对ai在做数学题上的帮助的判断是一致的,教辅上能用的上ai。
整个行业的转折点就来自大模型的实际解决问题的指标能否增长,which is not easy。只要它达到40%以上,就能让企业投入更多来产业化更多。which 目标并不遥远了。
-------------------------------------------
从我的观察看,ai确实会取代大量的软件工程工作,但如果编程普及率如果和英语普及率一样高的时候,它反而会创造更多新工作。这不难,好比esp32普及到每个小学,完全可以做到人人都能写一些可运行的小玩意,从而让编程普及化,让需求铺开。而编程的通用语言就是python,c。
比如可编程的玩具狗,玩具动物,机器人,拿来你就得自己编程才能开机。哈哈