大模型架构创新已死?

新闻资讯   2023-11-15 21:47   37   0  

技术圈近日就大模型架构创新问题展开了广泛的讨论,起因是前阿里技术VP贾扬清在社交媒体上的吐槽,称有大厂新模型就是LLaMA架构,但为了显示不同,通过改变开源代码名字、替换几个变量名。这一争论的核心问题逐渐转向如何定义大模型的创新,以及创新的标准。

其中,零一万物的新模型Yi-34B被指与LLaMA架构相似,引发了热议。零一万物强调,模型结构只是研发的一部分,还有包括数据工程、训练方法等技术挑战。创新工厂的CMO也发文回应,强调是否沿用行业逐渐成为通用、并被生态系统拥抱的基础架构,就被视为“抄袭”和“山寨”,并提出大模型的创新核心在于训练方法和数据配比,而非架构。

有人甚至认为,如今大模型架构创新早已结束,现在的主流架构几乎都是基于Transformer,只是在部分组件如attention、activation等方面有所改动。另一方面,有人认为相同的架构可以孕育出完全不同的模型,因为大模型的训练是一个系统工程,涉及众多因素。

这一系列的争论反映了国内大模型研发的现状和挑战,也引发了关于大模型创新和国产大模型发展的思考。尽管架构层面已渐趋定型,但国产大模型在训练方法、数据配比等方面仍具有发展潜力。在《上海市推动人工智能大模型创新发展若干措施(2023-2025年)》中,也明确提出要研发下一代模型架构和训练方法,以推动人工智能大模型的创新发展。

因此,尽管大模型架构创新面临着一些挑战,但并未完全停滞,许多专家和业内人士仍然致力于探索新的架构和训练方法,以推动大模型技术的未来发展。

博客评论
还没有人评论,赶紧抢个沙发~
发表评论
说明:请文明发言,共建和谐网络,您的个人信息不会被公开显示。