梦到被蜜蜂蛰是什么意思| 大便呈绿色是什么原因| sss是什么意思| 早餐吃什么比较好| 人又不人鬼不鬼是什么生肖| 百合和拉拉有什么区别| 什么爱心| 何首乌是什么| 又什么又什么的草地| 泪点低什么意思| 乳糖是什么| 日字旁和什么有关| 梅菜是什么菜晒干的| 什么的月光| 分子是什么| 全国劳动模范有什么待遇| 结婚要准备什么| 嘴硬是什么意思| 凌迟是什么| 男人吃什么补肾| 痛风是什么原因造成的| 乇是什么意思| 蠓虫叮咬后涂什么药膏| 怀孕第一个月最怕什么| 湿热体质吃什么中成药| 五蕴皆空是什么意思| 掌眼什么意思| 情趣内衣是什么意思| pola是什么牌子| 喝椰子汁有什么好处| 梦见自己疯了什么意思| 圣杯是什么意思| 做梦梦见生孩子是什么意思| 阿尔茨海默症是什么症状| 脸上长白斑是什么原因| 肛门痒什么原因| 为什么一吃东西就拉肚子| 江西老表是什么意思| 牛仔裤配什么上衣| 什么人容易得妄想症| 男马配什么属相最好| 增加胃动力最好的药是什么药| 恭敬地看的词语是什么| 吃黄瓜有什么好处| 易是什么意思| 感染幽门螺旋杆菌吃什么药| 吃狗肉有什么危害| 化橘红是什么东西| 胃大是什么原因造成的| 什么地看| 检查血常规挂什么科| jeep衣服什么档次| 碱是什么| 卉是什么意思| 指甲发青是什么原因| 头孢不能和什么一起吃| 绿心黑豆有什么功效| 实至名归什么意思| 后循环缺血是什么意思| 事业单位是指什么| 汗蒸是什么意思| 水火既济是什么意思| au750是什么材质| 什么生活| 规格是什么意思| 多晒太阳有什么好处| 五月初六是什么星座| 蜘蛛的血是什么颜色的| 睾丸皮痒用什么药膏| b是什么牌子| 囊肿什么意思| 炖羊排放什么调料好吃| 7月20日什么星座| 空腹吃西红柿有什么危害| 陈赫什么星座| 子宫内膜双层什么意思| 脑萎缩吃什么药能控制| 豆加支念什么| 咖啡为什么提神| 杏花什么季节开| 血压低吃什么东西好| 梦见掰玉米是什么意思| 什么榴莲最好吃| 天蝎座和什么座最配对| vte是什么意思| he是什么气体| 情商是什么| 国企董事长是什么级别| 一感冒就咳嗽是什么原因| 过敏性皮肤用什么护肤品比较好| 糖尿病可以吃什么零食| 古代天花是现代什么病| 衿字五行属什么| 完全性右束支传导阻滞是什么意思| 苹果6和苹果6S有什么区别| 肺动脉流什么血| 女人来月经吃什么好| 三轮体空什么意思| 前列腺炎不治疗有什么后果| 嗓子疼吃什么药见效最快| 小孩腿抽筋是什么原因引起的| 白葡萄酒配什么食物| 子宫腺肌症是什么意思| darker是什么意思| black什么颜色| 有毒是什么意思| 白痰多是什么原因| 尿带血是什么原因| 月经期适合做什么运动| 海底椰是什么东西| 女生的小鸡鸡长什么样| 甲钴胺有什么作用| 风湿病吃什么药| 肺炎吃什么水果好| 汪字五行属什么| 阴茎是什么| 怀孕20天有什么症状| 高原反应什么症状| 一个金字旁一个本念什么| 高考三百多分能上什么学校| 浪琴名匠系列什么档次| 医保报销是什么意思| 独生子女证有什么用| 热休克蛋白90a检查高是什么原因| 3月22日什么星座| 大姨妈吃什么水果| 中暑的症状是什么| 纤维灶是什么意思| 梦见别人杀人是什么预兆| 已故是什么意思| 三焦是什么器官| 什么什么于怀| 09年属什么| 瘪是什么意思| 孩子流黄鼻涕是什么原因| 宝宝不爱喝水有什么好的办法吗| 鸡精吃多了有什么危害| 手腕发麻是什么原因| 8月14是什么星座| 麻风病是什么| 想法是什么意思| 气泡水是什么水| 鱼油功效和作用是什么| 足踝外科主要看什么| 蔡字五行属什么| 茯苓什么人不能吃| 颈管细胞有是什么意思| 傍晚是什么时候| 失孤什么意思| 上下眼皮肿是什么原因| 自身免疫性疾病是什么意思| 什么人适合吃红参| 磨豆浆是什么意思| 凯乐石属于什么档次| 劳改犯是什么意思| 什么地找| 减肥什么方法有效| 多吃玉米有什么好处和坏处| 高定是什么意思| 高血压看什么科室| 日是什么意思| 白砂糖和冰糖有什么区别| 左边后背疼是什么原因| 平均红细胞体积偏低是什么原因| jeep是什么意思| 菠菜吃多了有什么害处| 球蛋白是什么意思| 脾虚的人有什么症状| 责任是什么生肖| 伤心的反义词是什么| 深海鱼油的作用是什么| 阻生牙是什么意思| 女是念什么| 梦见牛粪是什么意思| 女人吃什么最好| 男人不举是什么原因造成的| 紫玫瑰代表什么意思| 吃了就吐是什么原因| 三个小是什么字| 雷人是什么意思啊| 肾结石吃什么药能化石| 牛油果和什么不能一起吃| 万力什么字| th什么意思| 什么的鼻子填词形容词| 拉稀水是什么原因| 脚底板发热是什么原因| 晚上尿多什么原因| 八年是什么婚| 田螺姑娘是什么意思| nicole是什么意思| 水晶粉是什么原料做的| 叫舅舅的是什么关系| 尿素氮偏高是什么原因| 备皮什么意思| 火车无座是什么意思| 星期六打喷嚏代表什么| 田亮为什么不娶郭晶晶| 革兰阳性杆菌是什么病| 基质是什么| 上呼吸道感染吃什么药| 什么的道理| 愈合是什么意思| 令羽读什么| 狗肉不能和什么食物一起吃| 拉新是什么意思| xo兑什么饮料好喝| 联通查话费打什么号码| 开心是什么意思| 闺蜜是什么意思| 大便粗大是什么原因| 查乙肝五项挂什么科| 牙齿酸痛是什么原因| 更年期什么症状| 骨加客念什么| 老人大小便失禁是什么原因造成的| 珙桐是什么植物| 失眠什么药最好| 总打喷嚏是什么原因| 甲状旁腺分泌什么激素| 吃饭出虚汗是什么原因| 不孝有三无后为大是什么意思| 耳根子软是什么意思| hla是什么意思| 小白和兽神什么关系| 飞机选座位什么位置好| 海参为什么越小越贵| 高利贷是什么意思| 蜂蜜对人体有什么好处和功效| 7点到9点是什么时辰| 天秤座后面是什么星座| 郡字五行属什么| 吃猪腰子有什么好处和坏处| 15岁可以做什么兼职| 脾胃不和吃什么药| 容易感冒的人缺什么| 健身吃什么| 掉头发吃什么药最有效| 额头上长斑是什么原因造成的| 儿童登机需要什么证件| hi是什么| 做梦梦到鱼是什么意思| 肥达氏反应检查什么病| 皮癣是什么原因引起的| 红花是什么| 五更是什么生肖| 甲亢吃什么好的更快| 化疗后吃什么补身体| 喝完酒吃点什么对胃好| 胆囊结石不宜吃什么| 梦到吃蛇肉预示着什么| 五十年是什么婚| 红骨髓是什么意思| 毛囊炎用什么药膏| 喝酒手掌发红是什么原因| 三冬是什么意思| 鸡屎藤和什么相克| 什么奶粉好吸收好消化| 为什么男的叫鸭子| 淋巴结用什么药效果好| 11.22什么星座| 手臂酸痛是什么原因| 卷饼卷什么菜好吃| 无什么不什么| 百度
您正在使用IE低版浏览器,为了您的雷峰网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
此为临时链接,仅用于文章预览,将在时失效
人工智能 正文
发私信给郑佳美
发送

0

赛车漂移算什么!中国战士都在玩坦克漂移!

本文作者: 郑佳美   2025-08-04 16:36
导语:「复制训练」或许是一条推动 RL 模型走向通用智能的重要路径。
百度 性爱是夫妻间最全面、最亲密的接触。

最近,国外一家 AI 初创公司 Mechanize 的三位创始人联合撰文,提出一个大胆的判断:RL 或许要迎来属于它的 “GPT-3 时刻”,但还需要拥有相当于数千至上万年“模型处理任务所用时间”的训练。

在他们看来,当前的 RL 模型还存在明显短板,比如泛化能力差、难以适应新任务等,这种局面其实很像 GPT-3 出现之前的语言模型——能解决特定问题,但难以迁移和扩展。

为了解决这个问题,他们提出了一种新的训练范式,叫作“复制训练”(Replication Training):让模型在虚拟环境中模拟真实软件的操作过程,比如使用浏览器、编写代码、处理命令行任务等等。

这种训练方式的好处在于任务目标清晰、评分机制明确,同时还能大规模自动生成训练数据,非常适合用在 RL 模型的系统性训练中。当然,它也不是万能的,比如在任务开放性和测试设计方面还有一些挑战。

但他们认为,复制训练是一条能推动 RL 模型走向通用智能的重要路径,有望带来一次类似 GPT-3 那样的能力跃迁。

综上,雷峰网 AI 科技评论对原文做了不改原意的整理与呈现:

当 RL 遇上 GPT-3 式规模化

GPT-3 向我们展示了一个关键事实:仅靠规模的提升,就能催生出强大、任务无关的 few-shot 能力,甚至在不少任务上超越了精心微调的模型。在此之前,想要在特定任务上取得最优表现,通常需要先用大规模通用语料进行预训练,再针对目标任务进行微调。

今天的强化学习(RL)则还停留在 GPT-3 出现前的阶段:我们依旧先预训练一个大型模型,然后在某些高度特化的环境中进行繁琐的任务级微调。但这一策略存在根本缺陷——泛化能力极弱。一旦模型面临的环境略有变化,性能便迅速崩溃。

最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?

我们认为,RL 也将迎来属于它的 “GPT-3 时刻”。这意味着,训练方式将从在少数环境中微调,转向在成千上万种多样化环境中进行大规模训练,以培育出真正具备 few-shot 能力与任务无关泛化能力的智能体,能够灵活应对全新任务。

但要实现这一跃迁,前提是我们必须构建出规模和多样性远超当前水平的训练环境——这是推动 RL 走向能力爆发的关键。

要实现 GPT-3 级别的 RL 训练,需要多大的规模?

不过,目前的 RL 数据集规模仍然相当有限。

以 DeepSeek-R1 为例,其训练数据大约包含 60 万道数学题。假设每道题人类平均需要 5 分钟完成,总体相当于约 6 年的持续人工劳动。而相比之下,GPT-3 所使用的 3000 亿个 token 语料,若按人类正常写作速度来计算,则需要几十万年才能写完,数量级远不在一个水平。

另一方面,如果想让 RL 的算力投入达到当前最前沿预训练模型的水平,可能需要大约 1 万年的人类任务时间(即模型处理所需的时间,换算成人类完成同样任务所需的时间)。DeepSeek-R1 在 RL 阶段使用了大约 6E23 FLOP,对应约 6 年的模型处理任务时间。如果后续训练保持与 DeepSeek-R1 相近的训练周期与分组规模,那么将训练规模提升到 6E26 FLOP 级别,大致对应约 6000 年的模型处理任务的时间。

当然,随着任务多样性的提高,未来 RL 是否会采用更大或更小的批次规模,或增加训练轮数,目前仍无法确定。由于缺乏相关经验数据,要精确评估所需的模型任务时间仍有一定难度,但 “1 万年” 可能是一个合理的估算级别。

为了便于理解,我们可以将这一训练规模与某些大型软件工程项目进行类比:无论是 Windows Server 2008、GTA V,还是 Red Hat Linux 7.1,它们都被估算耗费了约 1 万年的人类劳动。

值得一提的是,将 RL 训练扩展到这一规模,从经济角度来看是可行的。由于算力支出在整体训练成本中占据主导,将 RL 的训练预算提升至与语言模型预训练相当的水平,有望显著提升模型性能,而不会带来成倍增长的总成本。

而真正的挑战在于:如何构建足够多样且可自动评估的 RL 环境。实现这一点,或许需要我们彻底重新思考 RL 环境的设计与构建方式。

复制训练或是解法?

想象一下,如果每次训练一个语言模型进行下一个词的预测(next-token prediction),都必须手动编写整套训练语料库,那几乎是不可能完成的任务。实际上,我们之所以能够训练出强大的语言模型,正是因为可以直接利用大量现有内容资源 —— 比如书籍、学术论文、博客文章,以及 Reddit 上的讨论等,构建出大规模、高质量的训练数据。

类似地,我们认为,强化学习也有望迎来自己的 GPT-3 时刻,而实现这一点的关键,很可能是一种被我们称为“复制训练”(Replication Training)的新范式。

其核心思想是:让 AI 模型去复现已有的软件产品,或其中的某些具体功能。

起步阶段可以从一些相对简单的命令行工具入手,比如实现某种哈希或加密算法的小程序——这些目标清晰、结构紧凑,适合训练初期使用。随着模型能力的提升,复制训练的任务范围也可以扩展到更复杂的系统,比如网页应用、专业软件,甚至是大型游戏。雷峰网(公众号:雷峰网)

每一个复制训练任务,都会提供详尽的功能规范和一个参考实现。AI 模型的任务,就是生成一个行为上与参考实现完全一致的版本。这种方式的最大优势在于评估非常直接且客观:模型的输出要么与参考结果完全一致,要么就不一致。清晰的评分标准大大简化了训练过程中的评估机制,也提升了训练效率。

尽管“复制训练”任务在形式上可能与日常软件开发有所不同,但它们瞄准的,正是当前 AI 系统在工程能力上仍显薄弱的一些关键环节。比如,要让模型复现一个复杂算法(如一个包含上万行代码的加解密命令行工具,并要求严格遵循详细规范),就必须具备以下核心能力:

准确阅读并深入理解复杂的技术文档;

严格按照规范执行指令,避免逻辑或实现上的任何偏差;

能够识别并修复早期出现的错误,具备可靠的问题恢复能力;

在长时间、高复杂度任务中保持稳定输出,就像人类工程师连续开发数周一样,成果质量直接由正确性衡量;

面对困难具备足够韧性,不轻易满足于“差不多就行”的半成品。

这些能力的组合,是构建可靠、高质量 AI 工程系统的基础。而“复制训练”的独特价值就在于:通过高强度还原现实复杂系统,为模型提供了系统性磨炼上述能力的路径。这不仅补足了当前 AI 系统的能力短板,也为通用型智能体的训练奠定了关键技术基石。

我们预测,“复制训练”将成为 AI 训练的下一个核心范式。

这一判断源于当前 AI 发展的基本趋势:通过大量已有的人类创作数据,自动构建出丰富的新任务。就像自然语言资源广泛存在于互联网上一样,软件本身也是一种高度结构化且数量庞大的现成素材。复制训练正是基于这一前提,提供了一种可扩展、自动化的方式,能够高效生成复杂任务,推动我们向具备端到端开发能力的 AI 迈进——即那些能够独立完成整个软件项目的智能体。

当然,这一方法也并非没有挑战。比如,如何编写既高效又覆盖全面的测试,仍是一项不小的工程难题,往往需要大量人工投入。此外,从形式上看,复制训练也略显“人工”——在日常软件开发中,完全照搬已有软件的情况并不常见,尽管它在软件移植、遗留系统重构、“洁净室”重写等场景中确实存在。

尽管如此,我们仍认为复制训练提供了一条清晰且具可行性的路径,能够将 RL 训练环境扩展到支持泛化能力所需的海量规模。这种范式很可能成为 RL 实现“GPT-3 时刻”的关键——帮助模型积累成千上万年级别的任务经验,进而具备稳健、任务无关的泛化能力。

那么,复制训练是否就是实现“全自动劳动”的终极路径?我们并不这么认为。虽然它有望催生出能够依据详细设计说明独立完成复杂软件项目的系统,但这类系统仍可能缺乏人类所具备的开放性、灵活性,以及在跨领域场景中进行抽象规划和高阶管理的能力。即便未来 AI 成为顶级程序员,它们也未必能胜任更广泛意义上的决策与协调任务。

不过,我们相信复制训练仍有可能成为通往下一个训练范式的关键“桥梁”——正如在复制训练之前,我们也需要经历预训练这一阶段一样。我们对这一新范式的潜力与前景,充满期待


雷峰网原创文章,未经授权禁止转载。详情见转载须知

最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?

分享:
相关文章
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说
屁股有痣代表什么 卵泡排出来是什么样的 牙龈肿痛吃什么消炎药 什么时候有胎动 子官肌瘤吃什么食物
etf是什么意思 外婆菜是什么菜 什么是组织 用酒擦身体有什么好处 什么日什么秋
三朵花代表什么意思 头痛吃什么 sweet什么意思 血压高什么症状 肛塞有什么用
颈椎病引起的头晕吃什么药 腰间盘突出是什么原因引起的 互为表里是什么意思 中国什么姓氏人口最多 寄居蟹吃什么
乳糖不耐受是什么原因导致的bfb118.com 鸡蛋胶是什么鱼胶hcv7jop9ns5r.cn 贼眉鼠眼是什么生肖hcv8jop8ns5r.cn 猫咪喜欢什么颜色hcv8jop2ns6r.cn 降低压吃什么药luyiluode.com
息肉是什么hcv8jop4ns1r.cn 怀孕一个月吃什么对宝宝发育好xinmaowt.com 全价猫粮是什么意思tiangongnft.com 轻度溶血是什么意思shenchushe.com 先天性一个肾对人有什么影响hcv8jop8ns2r.cn
砖茶是什么茶hcv7jop5ns2r.cn 初中学历能做什么工作hcv8jop8ns6r.cn 双肺散在纤维灶是什么意思gysmod.com 猴跟什么生肖配对最好hcv8jop6ns5r.cn 老夫聊发少年狂什么意思youbangsi.com
草是什么颜色的hcv9jop0ns8r.cn 鼻子流清水是什么原因hcv9jop5ns7r.cn 冠心病什么症状表现hcv9jop6ns5r.cn 揩油是什么意思hcv9jop4ns0r.cn 空调外机为什么会滴水xscnpatent.com
百度