大模型发展日新月异,模型评估也需要持续跟进,需要更有挑战性、质量更高的评估集来指导模型能力迭代。工作原因会接触比较多的公开评测集,发现一个很有意思的现象。
OpenAI每次一发布公开评测集,第一时间就会收获最大程度的关注,评测集的接入优先级直接拉到P0,无论这个评测集是什么主题方向的、聚焦模型哪方面能力的。此外,算法或研发部门的同事提出的感兴趣评测集也会第一时间加入工作进度,获得更高关注度和优先级。相反,作为一个类似小卡拉米的角色,我偶尔发现的一些评测集,即使分享到群里并且该评测集本身也来自顶会,却很少有得到类似的关注和优先度。
这件事让我觉得,很多时候,你说了什么并不是很重要,相对更重要的是你是谁。小时候老师让背诵名人名言,我那时就很好奇,这些名言看起来这么普通(比如珍惜时间),我也能说个几句出来。后来才领悟过来,原来所谓的“名人名言”,名人是名言的基础,要说出“名言”,先得成为“名人”才行。
对于上面提到OpenAI发布内容受到关注,这就是品牌的力量与合理性吧,当一个个体成为行业佼佼者,就会引领主流、成为焦点,这降低了众人的信任成本,基本接近于无条件追随。而研发和算法部门关注点被高优推进,我觉得这是因为他们承接的模型优化角色离品牌更近,离信任更近。
如何打造一个品牌,获得这种信任,持续产出靠谱的成果应该是必要条件,否则如果出现几次劣质的东西,信任也会很快被消磨,而一旦被消磨,品牌就被毁掉了。所以打造品牌并持续维护,是一件艰难但是非常高价值、高回报的事情,其中牵涉到信任,信任就是货币流通的本质。