head-to-head

StepFun: Step 3.7 Flash vs xAI: Grok 4.20

Side-by-side comparison of specs, pricing, benchmark scores, and task rankings. Updated 2026-07-27.

Who wins by task?

Task	StepFun: Step 3.7 Flash	xAI: Grok 4.20
SQL Generation	153	144
Code Review	146	150
Code Completion	130	122
Code Refactoring	144	153
Bug Fixing	155	154
Unit Test Generation	139	135
Code Documentation	133	141
Regex Writing	129	127
CI/CD Pipelines	131	131
Frontend Component Design	136	131
Data Analysis	150	136
CSV / Spreadsheet Cleanup	141	139
ETL Scripting	137	142
JSON Extraction	142	123
Bulk Data Labeling	133	120
OCR / Document Parsing	138	135
Table Extraction from PDFs	138	135
Long-Document Summarization	142	154
Short-Form Summarization	128	119
Blog Post Writing	129	132

Scores reflect capability match + benchmark data + pricing for each task. Methodology →