Đánh giá GPT-5.4 và Grok 4.20
OpenAI đã ra mắt GPT-5.3 Instant vào ngày 3 tháng 3, và GPT-5.4 được phát hành hai ngày sau đó. Grok 4.20 đang trong giai đoạn beta và được truy cập bởi người dùng SuperGrok, Grok 4.20 nhanh gấp khoảng hai lần trong nhiệm vụ game HTML5. GPT-5.4 mất nhiều thời gian hơn cho cùng một nhiệm vụ, gặp cảnh báo cửa sổ ngữ cảnh giữa quá trình xây dựng và cần thêm một vòng sửa lỗi nữa trước khi game đạt được sự ổn định.
Chi tiết hiệu suất trong đánh giá GPT-5.4 và Grok 4.20
Việc sử dụng Grok 4.20 trong phát triển game đã làm nổi bật các vấn đề về sinh cấp độ, đặc biệt liên quan đến vị trí các vùng phát hiện nhà báo khiến một số bố trí game không thể chơi được. Mặc dù vậy, Grok 4.20 vẫn thực hiện các nhiệm vụ nhanh gần gấp đôi so với đối thủ. Ngược lại, GPT-5.4 cần nhiều thời gian hơn để hoàn thành các nhiệm vụ tương tự, gặp các cảnh báo cửa sổ ngữ cảnh trong quá trình này, dẫn đến cần một vòng sửa lỗi thêm để đạt được sự ổn định cho game. Mặc dù thời gian xử lý lâu hơn, GPT-5.4 lại xuất sắc trong việc cung cấp giao diện người dùng sạch sẽ và các đầu ra được hoàn thiện hơn. Tuy nhiên, sự cải tiến về chất lượng này đi kèm với chi phí token cao hơn, phản ánh trọng tâm vào mã hoàn chỉnh và không lỗi.
Đánh giá GPT-5.4 và Grok 4.20 — Câu chuyện và độ tin cậy
GPT-5.4 tạo ra câu chuyện du hành thời gian tốt hơn cho lời nhắc Jose Lanz, với văn phong được mô tả là kiểm soát và đầy khí quyển, với tông giọng nhất quán trong toàn bộ đầu ra. Mô hình được xem là lựa chọn an toàn hơn khi tính đúng đắn của mã là yếu tố quan trọng. Các lời nhắc và phản hồi đầy đủ có sẵn trong Kho lưu trữ Github. Các mục trong kho lưu trữ này chứa các lời nhắc gốc và toàn bộ các đầu ra được tạo ra sử dụng trong bài đánh giá.
So sánh cho thấy Grok 4.20 ưu tiên tốc độ thực thi trong khi GPT-5.4 ưu tiên độ tin cậy và sự tinh chỉnh đầu ra. Grok 4.20 được cung cấp bản beta cho người đăng ký SuperGrok và thể hiện khả năng hoàn thành nhiệm vụ nhanh hơn, trong khi GPT-5.4 tạo ra giao diện sạch hơn, đầu ra mã được tinh chỉnh hơn và được xem là lựa chọn an toàn hơn về độ chính xác của mã. Các lệnh và câu trả lời đầy đủ của bài đánh giá có sẵn trong Kho lưu trữ Github để tham khảo.


