1. 首页
  2. 新闻

AMMO:多 Agent 时代,迈向「人机共生网络」

撰文:Pzai,Foresight News

在迈向赛博年代的当下,AI 的发展在为所有人带来生产力飞速提升的同时,也正在为我们提出一个问题:当 AI 正在向着人类的领域逐渐深入,人类是否需要重新评估人机关系?

在这一大背景之下,对 AI 技术的政治观点逐渐派别林立。在充满怀疑论点的「AI 危机派」和「加速主义(e/acc)派」闹得不可开交时,「对齐派」主张提升对技术的公共效益、伦理讨论、人文价值的重视,在 AI 研发和迭代过程中引入人文判断,确保 AI 技术不会失控。

而在 AI Agent 大行其道的当下,伴随着从单一大模型迭代到多模态感知和多 AI 交互范式的路线,AI 的「对齐之问」似乎正在被越来越多人所重视。

在 2 月 20 日,由前 Google、DeepMind 和 Meta 技术负责人联合推出的 AMMO 获得了由 Amber Group 领投的 250 万美元种子轮融资。从团队背景来看,AMMO 汇聚了来自各大科技巨头的 AI 专家,联合创始人兼首席执行官 David Huang 在 Google 工作了 10 年,其中包括 7 年领导移动领域的 AI 计划和战略服务。另一位创始人 Diego Hong 毕业于牛津大学,曾在 Meta 领导第一代 AI agent 框架工作。团队内部汇聚来自 DeepMind, Google, Apple 的顶尖 AI 人才,甚至包括 ACM-ICPC 世界冠军。

该项目从对齐视角出发,旨在通过多代理框架和来自人类反馈的强化学习 (RLHF)将当前的互联网转变为「人与 AI 共生网络」,让数十亿 AI 代理和人类平等共存,并让 AI 根据人类集体反馈的一致性共同进化。

RL Gyms:多 Agents 强化学习

在人工智能与机器学习领域,强化学习一直是备受瞩目的研究方向。而 AMMO 的 RL Gyms 为多 Agents 强化学习的研究与应用提供了坚实的技术支撑。

区别于传统的单代理强化学习,多 Agents 强化学习聚焦于多个代理(Multi-Agent)在同一环境下相互作用、共同学习并做出决策的过程。这一过程中,代理之间的关系错综复杂,既可能需要携手协作完成共同目标,也可能在竞争中彼此博弈。例如在物流配送场景中,多辆配送车作为代理,需要协调路线、规划配送顺序,以实现整体配送效率的最大化;而在竞技类游戏中,不同玩家控制的角色代理则要相互竞争,争取胜利。

RL Gym 最早由 OpenAI 提出,为 AI 进化提供强大的模拟仿真环境。开发者可以通过自定义一系列关键函数以构建高度适配研究需求或应用场景的强化学习环境,如经济模拟,红蓝对战等设定。这些关键函数包括环境状态转换规则的定义,代理环境感知和行动执行的协议,奖励函数的定义等。只要能精确定义以上函数,RL Gym 便能模拟各类复杂场景,进而为 AI 在其中的进化打好基础。


本文地址: - 蜂鸟财经

免责声明:本文仅代表作者本人观点,与蜂鸟财经立场无关。本站所有内容不构成投资建议,币市有风险、投资请慎重。

下一篇:没有了
« 上一篇
上一篇:OKX & SlowMist 联合发布|Bom 恶意软件席卷上万用户,盗取资产超 182 万美元
下一篇 »

相关推荐