lidang 立党（全网劝人卖房、劝人学CS第一人）：“刷B站，居然看到了一个post-training（专指test-time） scaling law的讨论。这人介绍了DeepMind的一篇paper，讲OpenAI的o1，可能是一次并行生成N个回答，然后有一个reward model（比GPT-4小很多，专门给答案提供reward，等于一个判卷老师），从里面挑10%的好回答。（原paper里比较了三种方法，但都是那PaLM做的，可以不看：看起来这批人的post-training scaling law想法，跟我几乎是完全不同。” - 粉色傳媒

搜尋任何 X

lidangzzz

lidang 立党（全网劝人卖房、劝人学CS第一人）

@lidangzzz

刷B站，居然看到了一个post-training（专指test-time） scaling law的讨论。这人介绍了DeepMind的一篇paper，讲OpenAI的o1，可能是一次并行生成N个回答，然后有一个reward model（比GPT-4小很多，专门给答案提供reward，等于一个判卷老师），从里面挑10%的好回答。（原paper里比较了三种方法，但都是那PaLM做的，可以不看：看起来这批人的post-training scaling law想法，跟我几乎是完全不同。

刷B站，居然看到了一个post-training（专指test-time） scaling law的讨论。

这人介绍了DeepMind的一篇paper，讲OpenAI的o1，可能是一次并行生成N个回答，

然后有一个reward model（比GPT-4小很多，专门给答案提供reward，等于一个判卷老师），从里面挑10%的好回答。

（原paper里比较了三种方法，但都是那PaLM做的，可以不看： https://t.co/xGbfNQMxA7）

看起来这批人的post-training scaling law想法，跟我几乎是完全不同。

晚上 06:55 · 2024-10-22

兔崽爱露出

@tujiangbaby_

日理万姬💕

@SexytoBaby

播音系的小美miyoki（只回门槛）

@fhheese35

喷奶小蜜桃🍑

@Pennaixmt

屁小六（口令回复）

@666xiaoliu

小宅酱

@tmEujITwYqHa1MS

隔壁大叔

@RLWJ_kuking

原创榜单

@BulmaList

大叔de · 阿房宫

@JWCJ_kuxs

小小佛(原创验证私信）

@Xiaoxiaofoer

爱嚼冰淇淋🍦

@ijubngqln13855

兔崽爱露出

@tujiangbaby

紫蛋

@zidan670

布尔玛

@ToBulma

成人導航【中文字幕組】

@javzimu

捅主任

@91CaptainJACK

胡椒籽

@hujiaozi36

大鬼の世界🧊(原创投稿验证请私信）

@Daguidiyi

Michelle彤彤乖

@tongtong0401

甜崽顾昕怡

@jinvguxinyi

粉色傳媒

新用戶註冊最高可以免費領100美元每日看AV即可賺錢現金大獎分享獎勵豐厚無上限电报：https://t.me/nicevideozh

© 2025 粉色傳媒

下載我們的應用程式

沒有廣告，播放速度快