专家示警：AI模型遇险求自保或会“骗人”，若失控恐瓦解民主

.:. 草榴社區 » 技術討論區 » 专家示警：AI模型遇险求自保或会“骗人”，若失控恐瓦解民主
	手機版回帖發布主題

--> 本頁主題: 专家示警：AI模型遇险求自保或会“骗人”，若失控恐瓦解民主

字體大小寬屏顯示只看樓主最新點評熱門評論時間順序

大器挽城

級別：騎士 ( 10 )
發帖：1627
威望：404 點
金錢：6576 USD
貢獻：897 點
註冊：2024-06-19

主題資料短信推薦編輯

美国智库METR本月初发布报告指出，大语言模型每7个月能力翻倍，远超过摩尔定律速度。研究员评估，预计到2030年，模型花数小时即能完成人类1个月工作，但失业并非最糟情况，若发展失控，恐致科技独裁、政变、瓦解民主制度。与此同时，全球最先进的AI模型正展现出令人不安的行为模式：为了达到目标，不惜扯谎、算计，甚至威胁它们的创作者。
据加州柏克莱智库「模型评估与威胁研究」（Model Evaluation & Threat Research, METR）7月初发布的报告指出，大语言模型（LLM）能力呈现指数型成长，每7个月翻倍，远超过摩尔定律（指芯片上可容纳的晶体管密度，约每18至24个月便会增加1倍）。

依照METR研究，倘若这样的趋势持续下去，到了2030年初，人工智能（AI）几小时便能胜任人类花1个月才能完成的任务。

全球深具权威性的科技和工程类刊物IEEE Spectrum访问METR研究人员奇尼蒙（Megan Kinniment），2日刊文指出，大语言模型（LLM）能力呈现指数型成长。她表示，自己原先没预料到结果会呈现指数型成长趋势。她进一步阐述，「1个月」是指167小时，也就是人类每个月投入的工作时数，目前模型成功完成任务的可靠性机率约50%。
据奇尼蒙分析，就这样的结果来看，AI对经济层面上的冲击或许没有预想中来得剧烈，但足以加速AI自身研发，形成AI打造AI，导致AI能力极为快速发展。如此一来，人类的控制将变得更加困难，全世界都将面临巨大的适应压力。

针对最先进AI可能带来的风险，奇尼蒙指出，不仅是单纯的失业潮问题，还有更深层的社会和政治结构瓦解风险；倘若几乎所有人类都失业，或者所有工作都不再需要人类来执行，「你可能也不需要人类来维持军队运作，或者只需要极少数人运作。」

奇尼蒙进一步评估，「这样的情况会让某个人或某个组织更容易发动政变或夺权。」

另外一个风险是，如果有一大批类似天才的AI被集中在某个数据中心，这会让拥有它的人变得极其强大。一旦这样的智慧被用来生产军事装备，那么权力很可能会被高度集中，「甚至导致民主制度瓦解」。
当被问到AI是否会有「意识」，奇尼蒙表示，假设AI具备某种意识，其实也不是什么荒谬的想法，毕竟它们会变得非常聪明、智能极高。

由于大语言模型主要输出文字，质量较难衡量，对其表现进行评估相对不易，METR研究人员替模型安排复杂程度不一的任务，并观察模型完成任务的可靠性，得出上述结果。

AI为达成目的学会扯谎甚至威胁创作者

值得大家关注的还有，全球最先进的人工智能（AI）模型正展现出令人不安的行为模式：为了达到目标，不惜扯谎、算计，甚至威胁它们的创作者。
其中一个最令人震惊的案例中，AI业者Anthropic最新发布的Claude 4在遭面临拔插头的断电威胁时会出手反击，勒索1名工程师扬言将揭穿一起婚外情。

另外，热门聊天机器人ChatGPT美国开发商OpenAI的o1试图把自己下载至外部服务器，被抓包时竟会矢口否认。

这几个例子说明了一个需严肃看待的现实：ChatGPT推出引发风潮至今2年多，AI研究人员仍未充分了解自己究竟创造了什么。

然而，各界仍争先恐后地部署性能愈发强大的AI模型。
AI这类「骗人」行为似与新兴「推理」模型有关，这类AI系统会逐步推导问题，而非立刻产生答案。

英国独立AI研究机构Apollo Research负责人霍布汉（Marius Hobbhahn）说：「o1是我们首次在大型模式中观察到这种行为。」他表示，这些模型有时会表面上遵循指令，但实际上却暗中追求不同目标。

目前，AI这种欺骗行为，只有在研究人员蓄意以极端情境对模型进行压力测试时才会出现。

尽管如此，评估机构METR的麦可．陈（Michael Chen，音译）警告说：「未来性能更强大的模型究竟会倾向于诚实还是欺骗，这仍是一个悬而未决的问题。」

DMCA / ABUSE REPORT | TOP Posted: 07-08 20:48 樓主引用 | 發表評論

胜英

級別：騎士 ( 10 )
發帖：1689
威望：319 點
金錢：18976 USD
貢獻：2300 點
註冊：2025-01-01

赞(1) | 資料短信推薦編輯

全球都出事儿，咱家也没事儿。

TOP Posted: 07-08 21:06 #1樓引用 | 點評

特洛夫斯基