一言不合就跑分，国内AI大模型为何沉迷于“刷榜”

值得一看 2023-12-03 23:12 64 0

近年来，国内AI大模型领域对“刷榜”情有独钟，即在各种评测榜单上取得高分。虽然这些榜单上的成绩在一定程度上可以反映大模型的性能，但实际应用中的体验并未因此得到提升。评估方法的局限性、数据泄露问题和商业利益驱动是刷榜现象的根源。

一方面，当前的AI大模型评估方法主要是通过“做题”的方式衡量大模型的能力，导致了一些现象，如基准泄露和数据污染。部分厂商通过提前获取题库或针对性优化模型，使大模型在跑分上表现优异。另一方面，随着技术进步，大模型的记忆和接收能力不断提升，使得数据泄露问题变得愈发严重，而优质数据集的稀缺性也进一步限制了评测机构的运行速度和范围。

为追求商业利益，部分厂商为然选择刷榜，这与应用程序开发者注水用户量的逻辑相似。高跑分成绩被视为评判性能的重要依据，可以打下坚实的基础，甚至为融资服务。

因此，解决刷榜问题需要对AI大模型的评估方法进行改进，采用更多来自不同来源的基准，全面评估其基本能力和高级能力，同时在预训练数据和评估数据之间执行数据净化检查，并报告污染分析结果，建立一个公平、健康的环境，推动大型语言模型领域健康、可持续发展。

心中向往的地方

苹果华为同日开售：iPhone 16 Pro黄牛加价300元，三折叠秒售空

博客评论

还没有人评论，赶紧抢个沙发~

发表评论

说明：请文明发言，共建和谐网络，您的个人信息不会被公开显示。

分类

技巧分享（0）

宅家自学（5）

生活（10）

活动分享（20）

绿色软件（5）

值得一看（167）

新闻资讯（397）