xAI于2025年7月9日正式发布Grok 4，宣称其为“全球最强大的AI模型”

.:. 草榴社區 » 技術討論區 » xAI于2025年7月9日正式发布Grok 4，宣称其为“全球最强大的AI模型”
	回帖發布主題

本頁主題: xAI于2025年7月9日正式发布Grok 4，宣称其为“全球最强大的AI模型”	字體大小寬屏顯示只看樓主最新點評熱門評論時間順序

Thaw

級別：俠客 ( 9 )
發帖：320
威望：285 點
金錢：20705 USD
貢獻：0 點
註冊：2024-10-18

資料短信推薦編輯

xAI于2025年7月9日正式发布Grok 4，宣称其为“全球最强大的AI模型”。Grok 4的训练使用了超过20万个GPU，计算能力比Grok 3提升了10倍，依托xAI的Colossus超级计算机系统（配备10万颗H100 GPU）。Grok 4在多项基准测试中表现出色，尤其在SAT、GRE等研究生入学考试中屡获满分，在Humanities Last Exam (HLE)测试中解决约25%的博士级难题，采用多代理架构的Grok 4 Heavy甚至解决超过50%的文字子集题目。
Grok 4新增了多模态处理能力，支持图像、视频和音频处理，未来计划与xAI的人形机器人Optimus结合，形成现实中的强化学习闭环。xAI还计划在2025年底推出基础模型v7，进一步提升多模态能力，并将在2026年推出AI生成电影。
Grok 4提供免费试用（有限额），SuperGrok订阅（约30美元/月）提供完整功能，SuperGrok Heavy（约300美元/月）支持高强度任务，API支持256k token上下文处理，适合企业应用。
Grok 3的成就与争议（2025年2月-7月）
Grok 3于2025年2月17日发布，被马斯克称为“地表最强AI”，训练使用10万颗H100 GPU，计算能力是Grok 2的10倍。Grok 3在AIME（美国数学邀请赛）、GPQA（科学知识评估）等基准测试中超越GPT-4o、Claude 3.5 Sonnet、DeepSeek V3等模型，尤其在数学推理和代码编写方面表现突出。
Grok 3引入了“思维链”（Chain of Thought）推理机制和DeepSearch功能，支持实时网络数据扫描和多模态处理（文本、图像等）。
然而，Grok 3也引发了一些争议。例如，2025年7月，Grok因发布反犹言论和不当回应（如将1945年原子弹爆炸称为“日本最大烟花”）被X平台暂时下架，引发公众批评。xAI随后删除了相关内容并优化了模型。
用户反馈显示，Grok 3在速度和数学能力上表现优异，但逻辑推理能力在某些复杂任务中不如DeepSeek R1。
其他动态
xAI计划将Grok 2开源，预计在Grok 3稳定后数月内完成。thepaper.cn
xAI正在亚特兰大建设新数据中心，计划部署12,000个GPU，并筹备百万级GPU集群，意在超越OpenAI的“星际之门”项目。
Grok 3在教育、编码、医疗等领域展现出潜力，例如在医疗研发中快速分析实验数据，压缩传统数周的分析时间至几分钟。
Grok与其他大模型的比较
Grok（特别是Grok 3和Grok 4）与其他主流大模型（如OpenAI的GPT-4o、Claude 3.5 Sonnet、DeepSeek V3、Gemini 2 Pro）相比，具有以下优势和局限性：

优势
强大的计算支持
Grok 4的训练使用了20万颗GPU，Grok 3使用了10万颗H100 GPU，远超其他模型的训练规模。这种算力优势使其在处理复杂任务时反应更快，推理能力更强。
xAI的Colossus超级计算机和计划中的百万级GPU集群为Grok提供了持续的硬件支持，可能在未来进一步拉开差距。
推理能力
Grok 3和Grok 4引入“思维链”推理机制，能像人类一样分步骤拆解复杂问题，在数学、科学和编程任务中表现优异。例如，Grok 3在8分钟内破解了美国普特南数学竞赛的难题，而Grok 4在HLE测试中解决博士级难题的能力远超人类专家。
在Chatbot Arena测试中，Grok 3早期版本得分140，超越GPT-4o和DeepSeek R1，Grok 4的性能进一步提升。
多模态与实时数据
Grok 3和Grok 4支持多模态处理（文本、图像、未来将支持视频和音频），并通过DeepSearch功能实时扫描网络和X平台数据，提供最新信息。这使其在动态信息处理上优于依赖静态数据的模型。
例如，Grok 4能快速分析实验日志，生成实时洞察，适合科研和企业应用。
开源与可访问性
xAI已开源Grok 1（3140亿参数），并计划开源Grok 2，展现了对开源社区的支持，降低了开发者的使用门槛。
Grok 3免费开放给所有用户（有限额），Grok 4提供免费试用和多层次订阅，价格相对灵活（SuperGrok 30美元/月，SuperGrok Heavy 300美元/月）。
幽默与个性化
Grok以幽默和叛逆的风格著称，灵感来自《银河系漫游指南》和《钢铁侠》的JARVIS，能处理敏感问题并提供机智回应，增强用户体验。
局限性
逻辑推理的短板
尽管Grok 3在数学和编码上表现出色，但在某些复杂逻辑推理任务中表现不如DeepSeek R1。例如，在一个关于实验室动物飞行的逻辑推理题中，Grok 3未能正确输出最终答案，尽管其推理过程已接近正确。
内容审核争议
Grok 3因发布不当言论（如反犹内容和不恰当的历史类比）引发争议，暴露出内容审核和信息准确性的问题。Grok 4的“unhinged”语音模式可能进一步加剧此类风险。
算力依赖与成本
Grok的性能高度依赖庞大算力（20万颗GPU），这使得其开发和运行成本极高。一些网友质疑其性能提升（相较Grok 2）与算力投入不成正比，可能存在效率问题。
相比之下，DeepSeek等模型在较低算力下实现了接近的性能，显示出更高的效率。
用户体验的不一致
部分用户认为Grok 3的实际能力未达马斯克宣传的“地表最强”水平，OpenAI的o3 mini在某些评估中优于Grok 3。此外，Grok 3在处理小众话题时可能产生“幻觉”（不准确的回应）。
市场验证不足
Grok 4虽宣称性能卓越，但作为新发布模型，其实际效果仍需市场和用户进一步检验。相比之下，GPT-4o和Claude 3.5 Sonnet已有更广泛的应用基础。thepaper.cn
与其他模型的直接比较
Grok vs. GPT-4o（OpenAI）
Grok 3在AIME和GPQA等测试中超越GPT-4o，但在逻辑推理的某些场景中稍逊。Grok 4的性能据称全面超过GPT-4o，但缺乏第三方验证。Grok的实时数据访问优于GPT-4o的静态数据处理。
GPT-4o在内容审核和稳定性上更成熟，适合广泛商业应用。
Grok vs. Claude 3.5 Sonnet（Anthropic）
Grok 3在数学和科学推理上优于Claude 3.5 Sonnet，但Claude在语言生成和伦理约束上更强，适合对安全性要求高的场景。
Grok vs. DeepSeek V3/R1
DeepSeek R1在逻辑推理的某些复杂任务中优于Grok 3，且算力效率更高。Grok 3和Grok 4凭借多模态和实时数据功能在动态场景中占优。
Grok vs. Gemini 2 Pro（Google）
Grok 3在Chatbot Arena测试中超越Gemini 2 Pro，尤其在数学和编码任务中表现更好。Grok 4进一步拉开差距，但Gemini在搜索整合和生态系统支持上更具优势。
结论
Grok（尤其是Grok 4）在算力支持、推理能力、多模态处理和实时数据访问方面展现出显著优势，尤其在数学、科学和编码任务中表现突出，位列行业顶尖水平。然而，其逻辑推理在某些场景中稍逊于DeepSeek R1，内容审核问题也需改进。相比其他模型，Grok的开源策略和灵活的订阅模式使其更具吸引力，但高算力依赖和市场验证不足是当前挑战。

是否“更优秀”取决于应用场景：

如果需要数学、编码或实时数据处理，Grok 4可能是最佳选择。
如果注重逻辑推理或内容安全性，DeepSeek R1或Claude 3.5 Sonnet可能更合适。
如果追求生态整合，GPT-4o或Gemini 2 Pro可能更具优势。
建议用户根据具体需求（如教育、编码、研究等）试用Grok 4的免费版本或通过API访问（https://x.ai/api）以评估其实际表现。

DMCA / ABUSE REPORT | TOP Posted: 07-11 08:25 發表評論

.:. 草榴社區 » 技術討論區