.:. 草榴社區 » 技術討論區 » xAI于2025年7月9日正式发布Grok 4,宣称其为“全球最强大的AI模型”
--> 本頁主題: xAI于2025年7月9日正式发布Grok 4,宣称其为“全球最强大的AI模型” 字體大小 寬屏顯示 只看樓主 最新點評 熱門評論 時間順序
Thaw


級別:俠客 ( 9 )
發帖:207
威望:130 點
金錢:9821 USD
貢獻:0 點
註冊:2024-10-18


xAI于2025年7月9日正式发布Grok 4,宣称其为“全球最强大的AI模型”



xAI于2025年7月9日正式发布Grok 4,宣称其为“全球最强大的AI模型”。Grok 4的训练使用了超过20万个GPU,计算能力比Grok 3提升了10倍,依托xAI的Colossus超级计算机系统(配备10万颗H100 GPU)。Grok 4在多项基准测试中表现出色,尤其在SAT、GRE等研究生入学考试中屡获满分,在Humanities Last Exam (HLE)测试中解决约25%的博士级难题,采用多代理架构的Grok 4 Heavy甚至解决超过50%的文字子集题目。
Grok 4新增了多模态处理能力,支持图像、视频和音频处理,未来计划与xAI的人形机器人Optimus结合,形成现实中的强化学习闭环。xAI还计划在2025年底推出基础模型v7,进一步提升多模态能力,并将在2026年推出AI生成电影。
Grok 4提供免费试用(有限额),SuperGrok订阅(约30美元/月)提供完整功能,SuperGrok Heavy(约300美元/月)支持高强度任务,API支持256k token上下文处理,适合企业应用。
Grok 3的成就与争议(2025年2月-7月)
Grok 3于2025年2月17日发布,被马斯克称为“地表最强AI”,训练使用10万颗H100 GPU,计算能力是Grok 2的10倍。Grok 3在AIME(美国数学邀请赛)、GPQA(科学知识评估)等基准测试中超越GPT-4o、Claude 3.5 Sonnet、DeepSeek V3等模型,尤其在数学推理和代码编写方面表现突出。
Grok 3引入了“思维链”(Chain of Thought)推理机制和DeepSearch功能,支持实时网络数据扫描和多模态处理(文本、图像等)。
然而,Grok 3也引发了一些争议。例如,2025年7月,Grok因发布反犹言论和不当回应(如将1945年原子弹爆炸称为“日本最大烟花”)被X平台暂时下架,引发公众批评。xAI随后删除了相关内容并优化了模型。
用户反馈显示,Grok 3在速度和数学能力上表现优异,但逻辑推理能力在某些复杂任务中不如DeepSeek R1。
其他动态
xAI计划将Grok 2开源,预计在Grok 3稳定后数月内完成。thepaper.cn
xAI正在亚特兰大建设新数据中心,计划部署12,000个GPU,并筹备百万级GPU集群,意在超越OpenAI的“星际之门”项目。
Grok 3在教育、编码、医疗等领域展现出潜力,例如在医疗研发中快速分析实验数据,压缩传统数周的分析时间至几分钟。
Grok与其他大模型的比较
Grok(特别是Grok 3和Grok 4)与其他主流大模型(如OpenAI的GPT-4o、Claude 3.5 Sonnet、DeepSeek V3、Gemini 2 Pro)相比,具有以下优势和局限性:

优势
强大的计算支持
Grok 4的训练使用了20万颗GPU,Grok 3使用了10万颗H100 GPU,远超其他模型的训练规模。这种算力优势使其在处理复杂任务时反应更快,推理能力更强。
xAI的Colossus超级计算机和计划中的百万级GPU集群为Grok提供了持续的硬件支持,可能在未来进一步拉开差距。
推理能力
Grok 3和Grok 4引入“思维链”推理机制,能像人类一样分步骤拆解复杂问题,在数学、科学和编程任务中表现优异。例如,Grok 3在8分钟内破解了美国普特南数学竞赛的难题,而Grok 4在HLE测试中解决博士级难题的能力远超人类专家。
在Chatbot Arena测试中,Grok 3早期版本得分140,超越GPT-4o和DeepSeek R1,Grok 4的性能进一步提升。
多模态与实时数据
Grok 3和Grok 4支持多模态处理(文本、图像、未来将支持视频和音频),并通过DeepSearch功能实时扫描网络和X平台数据,提供最新信息。这使其在动态信息处理上优于依赖静态数据的模型。
例如,Grok 4能快速分析实验日志,生成实时洞察,适合科研和企业应用。
开源与可访问性
xAI已开源Grok 1(3140亿参数),并计划开源Grok 2,展现了对开源社区的支持,降低了开发者的使用门槛。
Grok 3免费开放给所有用户(有限额),Grok 4提供免费试用和多层次订阅,价格相对灵活(SuperGrok 30美元/月,SuperGrok Heavy 300美元/月)。
幽默与个性化
Grok以幽默和叛逆的风格著称,灵感来自《银河系漫游指南》和《钢铁侠》的JARVIS,能处理敏感问题并提供机智回应,增强用户体验。
局限性
逻辑推理的短板
尽管Grok 3在数学和编码上表现出色,但在某些复杂逻辑推理任务中表现不如DeepSeek R1。例如,在一个关于实验室动物飞行的逻辑推理题中,Grok 3未能正确输出最终答案,尽管其推理过程已接近正确。
内容审核争议
Grok 3因发布不当言论(如反犹内容和不恰当的历史类比)引发争议,暴露出内容审核和信息准确性的问题。Grok 4的“unhinged”语音模式可能进一步加剧此类风险。
算力依赖与成本
Grok的性能高度依赖庞大算力(20万颗GPU),这使得其开发和运行成本极高。一些网友质疑其性能提升(相较Grok 2)与算力投入不成正比,可能存在效率问题。
相比之下,DeepSeek等模型在较低算力下实现了接近的性能,显示出更高的效率。
用户体验的不一致
部分用户认为Grok 3的实际能力未达马斯克宣传的“地表最强”水平,OpenAI的o3 mini在某些评估中优于Grok 3。此外,Grok 3在处理小众话题时可能产生“幻觉”(不准确的回应)。
市场验证不足
Grok 4虽宣称性能卓越,但作为新发布模型,其实际效果仍需市场和用户进一步检验。相比之下,GPT-4o和Claude 3.5 Sonnet已有更广泛的应用基础。thepaper.cn
与其他模型的直接比较
Grok vs. GPT-4o(OpenAI)
Grok 3在AIME和GPQA等测试中超越GPT-4o,但在逻辑推理的某些场景中稍逊。Grok 4的性能据称全面超过GPT-4o,但缺乏第三方验证。Grok的实时数据访问优于GPT-4o的静态数据处理。
GPT-4o在内容审核和稳定性上更成熟,适合广泛商业应用。
Grok vs. Claude 3.5 Sonnet(Anthropic)
Grok 3在数学和科学推理上优于Claude 3.5 Sonnet,但Claude在语言生成和伦理约束上更强,适合对安全性要求高的场景。
Grok vs. DeepSeek V3/R1
DeepSeek R1在逻辑推理的某些复杂任务中优于Grok 3,且算力效率更高。Grok 3和Grok 4凭借多模态和实时数据功能在动态场景中占优。
Grok vs. Gemini 2 Pro(Google)
Grok 3在Chatbot Arena测试中超越Gemini 2 Pro,尤其在数学和编码任务中表现更好。Grok 4进一步拉开差距,但Gemini在搜索整合和生态系统支持上更具优势。
结论
Grok(尤其是Grok 4)在算力支持、推理能力、多模态处理和实时数据访问方面展现出显著优势,尤其在数学、科学和编码任务中表现突出,位列行业顶尖水平。 然而,其逻辑推理在某些场景中稍逊于DeepSeek R1,内容审核问题也需改进。相比其他模型,Grok的开源策略和灵活的订阅模式使其更具吸引力,但高算力依赖和市场验证不足是当前挑战。

是否“更优秀”取决于应用场景:

如果需要数学、编码或实时数据处理,Grok 4可能是最佳选择。
如果注重逻辑推理或内容安全性,DeepSeek R1或Claude 3.5 Sonnet可能更合适。
如果追求生态整合,GPT-4o或Gemini 2 Pro可能更具优势。
建议用户根据具体需求(如教育、编码、研究等)试用Grok 4的免费版本或通过API访问(https://x.ai/api)以评估其实际表现。

赞(38)
DMCA / ABUSE REPORT | TOP Posted: 07-11 08:25 樓主 引用 | 發表評論
二档七千三


級別:新手上路 ( 8 )
發帖:836
威望:92 點
金錢:12416 USD
貢獻:1 點
註冊:2018-10-23


xAI计划将Grok 2开源

你一开源,东大就字研成功了
TOP Posted: 07-11 08:31 #1樓 引用 | 點評
胜英


級別:騎士 ( 10 )
發帖:1955
威望:350 點
金錢:20570 USD
貢獻:2300 點
註冊:2025-01-01

全球最强也干不过遥遥领先。
TOP Posted: 07-11 08:31 #2樓 引用 | 點評
世态无良


級別:騎士 ( 10 )
發帖:2919
威望:364 點
金錢:14961 USD
貢獻:0 點
註冊:2020-10-24

全球最强是项目名称吧?
TOP Posted: 07-11 08:35 #3樓 引用 | 點評
lyy121


級別:精靈王 ( 12 )
發帖:5511
威望:940 點
金錢:28764 USD
貢獻:8964 點
註冊:2011-12-17

免费的只能用Grok 3
TOP Posted: 07-11 08:40 #4樓 引用 | 點評
夜歌雄霸


級別:騎士 ( 10 )
發帖:2697
威望:412 點
金錢:20280 USD
貢獻:0 點
註冊:2025-04-12

没有审查的Ai
TOP Posted: 07-11 09:30 #5樓 引用 | 點評
游殿初


級別:騎士 ( 10 )
發帖:3009
威望:302 點
金錢:11553 USD
貢獻:0 點
註冊:2022-04-07

谢谢分享ai消息
TOP Posted: 07-11 09:56 #6樓 引用 | 點評
这是个问题啊


級別:風雲使者 ( 13 )
發帖:55131
威望:5569 點
金錢:227 USD
貢獻:77630 點
註冊:2021-01-01

感谢分享
TOP Posted: 07-11 12:32 #7樓 引用 | 點評
沉睡的木玛


級別:風雲使者 ( 13 )
發帖:55131
威望:5569 點
金錢:226 USD
貢獻:77630 點
註冊:2018-11-16

谢谢分享
TOP Posted: 07-11 12:32 #8樓 引用 | 點評
鸭打鹅


級別:風雲使者 ( 13 )
發帖:46051
威望:4579 點
金錢:56 USD
貢獻:22234 點
註冊:2022-02-02

发帖辛苦
TOP Posted: 07-11 12:33 #9樓 引用 | 點評
梁家河学霸


級別:騎士 ( 10 )
發帖:895
威望:374 點
金錢:1436 USD
貢獻:5549 點
註冊:2024-04-16

一月30用不起,调了几次api。。从使用情况来看感觉宣传的太过了,
TOP Posted: 07-11 13:31 #10樓 引用 | 點評
wwwparty


級別:聖騎士 ( 11 )
發帖:7884
威望:807 點
金錢:20152 USD
貢獻:1650 點
註冊:2014-08-11


感谢分享
------------------------
|
TOP Posted: 07-11 13:43 #11樓 引用 | 點評
资深游客


級別:光明使者 ( 14 )
發帖:1509
威望:157 點
金錢:205768 USD
貢獻:1106356 點
註冊:2015-06-24

上次也的宣传也是最强,实际结果是:并不好用
TOP Posted: 07-11 13:44 #12樓 引用 | 點評
苏筱熙


級別:光明使者 ( 14 )
發帖:96687
威望:45524 點
金錢:43722 USD
貢獻:69 點
註冊:2012-09-01

谢谢分享
------------------------
7
TOP Posted: 07-11 15:07 #13樓 引用 | 點評
一时铁头


級別:精靈王 ( 12 )
發帖:30926
威望:3093 點
金錢:373 USD
貢獻:9627 點
註冊:2020-01-28

感谢分享
TOP Posted: 07-11 16:07 #14樓 引用 | 點評
哼哈一瞬


級別:新手上路 ( 8 )
發帖:1035
威望:94 點
金錢:3002 USD
貢獻:0 點
註冊:2016-10-31

感谢分享~
TOP Posted: 07-11 17:09 #15樓 引用 | 點評
大器挽城


級別:騎士 ( 10 )
發帖:1650
威望:412 點
金錢:7000 USD
貢獻:897 點
註冊:2024-06-19

Grok3的深度思考太慢了
TOP Posted: 07-11 18:24 #16樓 引用 | 點評
詩㫨騎鹅飛


級別:新手上路 ( 8 )
發帖:292
威望:45 點
金錢:1292 USD
貢獻:0 點
註冊:2025-06-01


感谢分享
TOP Posted: 07-11 18:25 #17樓 引用 | 點評
docn


級別:聖騎士 ( 11 )
發帖:6098
威望:610 點
金錢:17583 USD
貢獻:0 點
註冊:2019-04-29

感谢分享
TOP Posted: 07-12 05:10 #18樓 引用 | 點評
王小东晓东


級別:俠客 ( 9 )
發帖:2150
威望:186 點
金錢:4760 USD
貢獻:0 點
註冊:2024-12-14

格洛克2出来的时候也是这样说的
TOP Posted: 07-12 06:24 #19樓 引用 | 點評
爱青春2018


級別:聖騎士 ( 11 )
發帖:8361
威望:767 點
金錢:89090 USD
貢獻:385 點
註冊:2018-02-25

不敢来源啊
TOP Posted: 07-12 06:44 #20樓 引用 | 點評
伸茎百战6


級別:聖騎士 ( 11 )
發帖:1748
威望:580 點
金錢:7522 USD
貢獻:3435 點
註冊:2022-10-02

感谢分享
TOP Posted: 07-12 06:47 #21樓 引用 | 點評
zhang礼


級別:聖騎士 ( 11 )
發帖:6331
威望:684 點
金錢:16531 USD
貢獻:0 點
註冊:2023-10-18

感谢分享
TOP Posted: 07-12 14:59 #22樓 引用 | 點評
颜回


級別:俠客 ( 9 )
發帖:1250
威望:214 點
金錢:10450 USD
貢獻:0 點
註冊:2025-02-01


静观最强,拭目以待
TOP Posted: 07-12 17:38 #23樓 引用 | 點評
萝卜与坑


級別:精靈王 ( 12 )
發帖:20817
威望:2053 點
金錢:54839 USD
貢獻:9 點
註冊:2011-06-06

分享谢谢
TOP Posted: 07-12 18:35 #24樓 引用 | 點評

.:. 草榴社區 -> 技術討論區

快速回帖 頂端
內容
HTML 代碼不可用

使用簽名
Wind Code自動轉換

按 Ctrl+Enter 直接提交