GPT-5.4 与 Grok 4.20 评测
OpenAI 于3月3日发布了 GPT-5.3 Instant,GPT-5.4 则在两天后上线。Grok 4.20 处于测试阶段,仅 SuperGrok 订阅用户可用,且在完成 HTML5 游戏任务时速度大约是对手的两倍。GPT-5.4 完成同一任务所需时间更长,构建过程中出现了上下文窗口警告,并且在游戏达到稳定状态前需要额外一次的修复迭代。
GPT-5.4 与 Grok 4.20 评测中的性能细节
Grok 4.20 在游戏开发中的应用揭示了关卡生成的问题,特别是记者侦测区域的位置设置导致部分游戏布局无法正常游玩。尽管如此,Grok 4.20 执行任务的速度几乎是竞争对手的两倍。相比之下,GPT-5.4 处理类似任务时耗时更长,过程中遇到了上下文窗口警告,需要额外修复一轮才能实现游戏稳定。虽然处理时间更长,GPT-5.4 在提供更干净的用户界面和更精致的输出方面表现出色。但这种质量提升伴随着更高的令牌成本,反映了它对精细且无错误代码的关注。
GPT-5.4 与 Grok 4.20 评测 — 故事与可靠性
对于 Jose Lanz 提示,GPT-5.4 生成了更出色的时间旅行故事,文笔被描述为控制得当且富有氛围,输出内容中叙事语调始终如一。在代码正确性至关重要的场合,该模型被认为是更稳妥的选择。提示及完整回应内容已上传至 Github 仓库。这些条目包含了评测中使用的原始提示和完整生成输出。
对比显示,Grok 4.20 优先考虑执行速度,而 GPT-5.4 更注重可靠性和输出的精细度。Grok 4.20 以测试版形式向 SuperGrok 订阅者开放,表现出了更快的任务完成速度,而 GPT-5.4 则产生了更清晰的界面、更精致的代码输出,被认为在代码正确性方面更为可靠。评测中的提示和完整回复已上传至 Github 仓库供参考。


