.:. 草榴社區 » 技術討論區 » xAI于2025年7月9日正式发布Grok 4,宣称其为“全球最强大的AI模型”
本頁主題: xAI于2025年7月9日正式发布Grok 4,宣称其为“全球最强大的AI模型”字體大小 寬屏顯示 只看樓主 最新點評 熱門評論 時間順序
Thaw


級別:俠客 ( 9 )
發帖:236
威望:158 點
金錢:12122 USD
貢獻:0 點
註冊:2024-10-18

xAI于2025年7月9日正式发布Grok 4,宣称其为“全球最强大的AI模型”

xAI于2025年7月9日正式发布Grok 4,宣称其为“全球最强大的AI模型”。Grok 4的训练使用了超过20万个GPU,计算能力比Grok 3提升了10倍,依托xAI的Colossus超级计算机系统(配备10万颗H100 GPU)。Grok 4在多项基准测试中表现出色,尤其在SAT、GRE等研究生入学考试中屡获满分,在Humanities Last Exam (HLE)测试中解决约25%的博士级难题,采用多代理架构的Grok 4 Heavy甚至解决超过50%的文字子集题目。
Grok 4新增了多模态处理能力,支持图像、视频和音频处理,未来计划与xAI的人形机器人Optimus结合,形成现实中的强化学习闭环。xAI还计划在2025年底推出基础模型v7,进一步提升多模态能力,并将在2026年推出AI生成电影。
Grok 4提供免费试用(有限额),SuperGrok订阅(约30美元/月)提供完整功能,SuperGrok Heavy(约300美元/月)支持高强度任务,API支持256k token上下文处理,适合企业应用。
Grok 3的成就与争议(2025年2月-7月)
Grok 3于2025年2月17日发布,被马斯克称为“地表最强AI”,训练使用10万颗H100 GPU,计算能力是Grok 2的10倍。Grok 3在AIME(美国数学邀请赛)、GPQA(科学知识评估)等基准测试中超越GPT-4o、Claude 3.5 Sonnet、DeepSeek V3等模型,尤其在数学推理和代码编写方面表现突出。
Grok 3引入了“思维链”(Chain of Thought)推理机制和DeepSearch功能,支持实时网络数据扫描和多模态处理(文本、图像等)。
然而,Grok 3也引发了一些争议。例如,2025年7月,Grok因发布反犹言论和不当回应(如将1945年原子弹爆炸称为“日本最大烟花”)被X平台暂时下架,引发公众批评。xAI随后删除了相关内容并优化了模型。
用户反馈显示,Grok 3在速度和数学能力上表现优异,但逻辑推理能力在某些复杂任务中不如DeepSeek R1。
其他动态
xAI计划将Grok 2开源,预计在Grok 3稳定后数月内完成。thepaper.cn
xAI正在亚特兰大建设新数据中心,计划部署12,000个GPU,并筹备百万级GPU集群,意在超越OpenAI的“星际之门”项目。
Grok 3在教育、编码、医疗等领域展现出潜力,例如在医疗研发中快速分析实验数据,压缩传统数周的分析时间至几分钟。
Grok与其他大模型的比较
Grok(特别是Grok 3和Grok 4)与其他主流大模型(如OpenAI的GPT-4o、Claude 3.5 Sonnet、DeepSeek V3、Gemini 2 Pro)相比,具有以下优势和局限性:

优势
强大的计算支持
Grok 4的训练使用了20万颗GPU,Grok 3使用了10万颗H100 GPU,远超其他模型的训练规模。这种算力优势使其在处理复杂任务时反应更快,推理能力更强。
xAI的Colossus超级计算机和计划中的百万级GPU集群为Grok提供了持续的硬件支持,可能在未来进一步拉开差距。
推理能力
Grok 3和Grok 4引入“思维链”推理机制,能像人类一样分步骤拆解复杂问题,在数学、科学和编程任务中表现优异。例如,Grok 3在8分钟内破解了美国普特南数学竞赛的难题,而Grok 4在HLE测试中解决博士级难题的能力远超人类专家。
在Chatbot Arena测试中,Grok 3早期版本得分140,超越GPT-4o和DeepSeek R1,Grok 4的性能进一步提升。
多模态与实时数据
Grok 3和Grok 4支持多模态处理(文本、图像、未来将支持视频和音频),并通过DeepSearch功能实时扫描网络和X平台数据,提供最新信息。这使其在动态信息处理上优于依赖静态数据的模型。
例如,Grok 4能快速分析实验日志,生成实时洞察,适合科研和企业应用。
开源与可访问性
xAI已开源Grok 1(3140亿参数),并计划开源Grok 2,展现了对开源社区的支持,降低了开发者的使用门槛。
Grok 3免费开放给所有用户(有限额),Grok 4提供免费试用和多层次订阅,价格相对灵活(SuperGrok 30美元/月,SuperGrok Heavy 300美元/月)。
幽默与个性化
Grok以幽默和叛逆的风格著称,灵感来自《银河系漫游指南》和《钢铁侠》的JARVIS,能处理敏感问题并提供机智回应,增强用户体验。
局限性
逻辑推理的短板
尽管Grok 3在数学和编码上表现出色,但在某些复杂逻辑推理任务中表现不如DeepSeek R1。例如,在一个关于实验室动物飞行的逻辑推理题中,Grok 3未能正确输出最终答案,尽管其推理过程已接近正确。
内容审核争议
Grok 3因发布不当言论(如反犹内容和不恰当的历史类比)引发争议,暴露出内容审核和信息准确性的问题。Grok 4的“unhinged”语音模式可能进一步加剧此类风险。
算力依赖与成本
Grok的性能高度依赖庞大算力(20万颗GPU),这使得其开发和运行成本极高。一些网友质疑其性能提升(相较Grok 2)与算力投入不成正比,可能存在效率问题。
相比之下,DeepSeek等模型在较低算力下实现了接近的性能,显示出更高的效率。
用户体验的不一致
部分用户认为Grok 3的实际能力未达马斯克宣传的“地表最强”水平,OpenAI的o3 mini在某些评估中优于Grok 3。此外,Grok 3在处理小众话题时可能产生“幻觉”(不准确的回应)。
市场验证不足
Grok 4虽宣称性能卓越,但作为新发布模型,其实际效果仍需市场和用户进一步检验。相比之下,GPT-4o和Claude 3.5 Sonnet已有更广泛的应用基础。thepaper.cn
与其他模型的直接比较
Grok vs. GPT-4o(OpenAI)
Grok 3在AIME和GPQA等测试中超越GPT-4o,但在逻辑推理的某些场景中稍逊。Grok 4的性能据称全面超过GPT-4o,但缺乏第三方验证。Grok的实时数据访问优于GPT-4o的静态数据处理。
GPT-4o在内容审核和稳定性上更成熟,适合广泛商业应用。
Grok vs. Claude 3.5 Sonnet(Anthropic)
Grok 3在数学和科学推理上优于Claude 3.5 Sonnet,但Claude在语言生成和伦理约束上更强,适合对安全性要求高的场景。
Grok vs. DeepSeek V3/R1
DeepSeek R1在逻辑推理的某些复杂任务中优于Grok 3,且算力效率更高。Grok 3和Grok 4凭借多模态和实时数据功能在动态场景中占优。
Grok vs. Gemini 2 Pro(Google)
Grok 3在Chatbot Arena测试中超越Gemini 2 Pro,尤其在数学和编码任务中表现更好。Grok 4进一步拉开差距,但Gemini在搜索整合和生态系统支持上更具优势。
结论
Grok(尤其是Grok 4)在算力支持、推理能力、多模态处理和实时数据访问方面展现出显著优势,尤其在数学、科学和编码任务中表现突出,位列行业顶尖水平。 然而,其逻辑推理在某些场景中稍逊于DeepSeek R1,内容审核问题也需改进。相比其他模型,Grok的开源策略和灵活的订阅模式使其更具吸引力,但高算力依赖和市场验证不足是当前挑战。

是否“更优秀”取决于应用场景:

如果需要数学、编码或实时数据处理,Grok 4可能是最佳选择。
如果注重逻辑推理或内容安全性,DeepSeek R1或Claude 3.5 Sonnet可能更合适。
如果追求生态整合,GPT-4o或Gemini 2 Pro可能更具优势。
建议用户根据具体需求(如教育、编码、研究等)试用Grok 4的免费版本或通过API访问(https://x.ai/api)以评估其实际表现。

赞(38)
DMCA / ABUSE REPORT | TOP Posted: 07-11 08:25 發表評論
.:. 草榴社區 » 技術討論區

電腦版 手機版 客戶端 DMCA
用時 0.01(s) x3, 07-16 22:14