一言不合就跑分,国内AI大模型为何沉迷于“刷榜”

值得一看   2023-12-03 23:12   64   0  

近年来,国内AI大模型领域对“刷榜”情有独钟,即在各种评测榜单上取得高分。虽然这些榜单上的成绩在一定程度上可以反映大模型的性能,但实际应用中的体验并未因此得到提升。评估方法的局限性、数据泄露问题和商业利益驱动是刷榜现象的根源。

一方面,当前的AI大模型评估方法主要是通过“做题”的方式衡量大模型的能力,导致了一些现象,如基准泄露和数据污染。部分厂商通过提前获取题库或针对性优化模型,使大模型在跑分上表现优异。另一方面,随着技术进步,大模型的记忆和接收能力不断提升,使得数据泄露问题变得愈发严重,而优质数据集的稀缺性也进一步限制了评测机构的运行速度和范围。

为追求商业利益,部分厂商为然选择刷榜,这与应用程序开发者注水用户量的逻辑相似。高跑分成绩被视为评判性能的重要依据,可以打下坚实的基础,甚至为融资服务。

因此,解决刷榜问题需要对AI大模型的评估方法进行改进,采用更多来自不同来源的基准,全面评估其基本能力和高级能力,同时在预训练数据和评估数据之间执行数据净化检查,并报告污染分析结果,建立一个公平、健康的环境,推动大型语言模型领域健康、可持续发展。

博客评论
还没有人评论,赶紧抢个沙发~
发表评论
说明:请文明发言,共建和谐网络,您的个人信息不会被公开显示。