col_rank	col_model	col_org	col_score	col_elo	col_tokens
🥇	o3-high	OpenAI	88.07(-1.98, +1.16)	1461(-30.54, +20.17)	1453
🥈	o3-low	OpenAI	87.51(-1.22, +1.43)	1452(-18.75, +23.83)	1306
🥉	o3-medium	OpenAI	85.25(-1.91, +1.42)	1419(-25.22, +20.38)	1432
4	o4-mini-high	OpenAI	81.41(-1.49, +2.11)	1371(-16.58, +25.43)	1084
5	o4-mini-medium	OpenAI	79.65(-1.70, +1.75)	1351(-17.66, +19.37)	1053
6	o4-mini-low	OpenAI	76.38(-2.18, +2.17)	1318(-20.35, +21.63)	1020
7	deepseek-chat-v3-0324 (judge)	Deepseek	59.5(-2.61, +2.50)	1181(-18.61, +18.25)	1085
8	gpt-4.1-2025-04-14	OpenAI	57.83(-2.45, +2.81)	1169(-17.30, +20.25)	949
9	quasar-alpha	OpenAI	56.82(-2.52, +2.45)	1162(-17.73, +17.44)	909
10	claude-3.7-sonnet(thinking)	Anthropic	55.62(-2.32, +2.81)	1153(-16.27, +19.93)	1248
11	gemini-2.5-pro-exp-03-25	Google	52.03(-3.46, +4.97)	1128(-24.06, +34.87)	2577
12	gemini-2.0-pro-exp-02-05	Google	51.76(-3.39, +3.78)	1126(-23.56, +26.45)	2372
13	chatgpt-4o-latest(2025-03-26)	OpenAI	51.56(-2.91, +2.56)	1125(-20.26, +17.81)	1111
14	deepseek-r1	Deepseek	51.08(-2.74, +3.38)	1121(-19.01, +23.59)	1218
15	claude-3.7-sonnet (baseline)	Anthropic	50.0(-0.00, +0.00)	1114(-0.00, +0.00)	1094
16	o3-mini-high	OpenAI	49.71(-2.40, +2.49)	1112(-16.71, +17.33)	1265
17	o1-high	OpenAI	49.4(-2.47, +2.49)	1110(-17.20, +17.26)	1512
18	gpt-4.5-preview	OpenAI	48.67(-2.77, +3.27)	1105(-19.32, +22.75)	1040
19	o1-medium	OpenAI	47.27(-2.68, +2.77)	1095(-18.73, +19.28)	1490
20	gpt-4.1-mini-2025-04-14	OpenAI	47.26(-2.15, +1.99)	1095(-15.02, +13.86)	1080
21	o1-low	OpenAI	41.66(-2.28, +2.50)	1056(-16.42, +17.72)	1513
22	o3-mini-medium	OpenAI	40.43(-1.95, +3.17)	1047(-14.20, +22.60)	1221
23	claude-3.5-sonnet	Anthropic	38.98(-4.10, +2.27)	1036(-30.60, +16.40)	682
24	gemini-2.5-flash-preview(thinking)	Google	38.81(-3.05, +3.37)	1035(-22.64, +24.33)	2521
25	grok-3-beta	xAI	38.28(-2.55, +2.52)	1031(-19.02, +18.28)	1824
26	command-a	Cohere	35.01(-2.70, +1.77)	1007(-20.97, +13.41)	1083
27	o3-mini-low	OpenAI	34.46(-2.13, +2.30)	1002(-16.62, +17.49)	1205
28	qwen-max	Alibaba	32.56(-1.53, +1.83)	987(-12.26, +14.29)	1420
29	gpt-4o-2024-11-20	OpenAI	31.47(-2.25, +1.77)	979(-18.47, +14.10)	1142
30	qwq-32b	Alibaba	30.11(-2.26, +2.60)	968(-19.08, +20.96)	1517
31	gemini-2.0-flash-thinking-exp-01-21	Google	29.53(-1.90, +2.11)	963(-16.15, +17.27)	2497
32	grok-3-mini-beta	xAI	28.31(-2.31, +2.15)	953(-20.30, +18.02)	2010
33	claude-3.5-haiku	Anthropic	27.14(-3.03, +3.17)	942(-27.62, +26.91)	601
34	qwen-plus	Alibaba	27.05(-1.89, +1.75)	942(-17.09, +15.09)	1346
35	claude-3.5-sonnet-20240620	Anthropic	25.38(-2.80, +3.17)	927(-26.66, +27.98)	628
36	gemini-2.5-flash-preview	Google	24.71(-2.01, +1.86)	920(-19.29, +16.97)	2299
37	gemini-2.0-flash-001 (judge)	Google	24.22(-2.07, +2.05)	916(-20.21, +18.86)	1901
38	deepseek-v3	Deepseek	23.49(-1.86, +1.80)	909(-18.52, +17.00)	1007
39	gemma-3-27b-it	Google	20.9(-1.68, +1.97)	883(-18.25, +20.04)	1655
40	gpt-4.1-nano-2025-04-14	OpenAI	20.63(-1.88, +2.25)	880(-20.69, +22.94)	938
41	gemini-2.0-flash-lite-001	Google	18.66(-1.80, +1.78)	858(-21.51, +19.68)	2196
42	grok-2-1212	xAI	14.09(-1.66, +1.77)	800(-25.16, +24.11)	898
43	jamba-1.6-large	AI21	12.99(-1.77, +1.18)	784(-28.99, +17.40)	863
44	nova-pro-v1	Amazon	12.36(-1.09, +1.47)	774(-18.15, +22.49)	905
45	gpt-4o-mini (judge)	OpenAI	11.98(-1.33, +1.44)	768(-23.18, +22.51)	830
46	qwen-2.5-72b-instruct	Alibaba	11.53(-1.45, +1.64)	760(-26.07, +26.33)	1097
47	llama-4-maverick	Meta	11.52(-1.16, +1.48)	760(-20.69, +24.01)	920
48	mistral-large-2411	Mistral	10.65(-1.30, +1.08)	745(-25.14, +18.87)	906
49	minimax-01	MiniMax	10.55(-1.13, +1.03)	743(-21.80, +18.30)	1071
50	gpt-4-1106-preview	OpenAI	9.76(-1.28, +1.38)	728(-26.79, +25.63)	840
51	gemma-2-27b-it	Google	9.72(-1.13, +1.39)	727(-23.62, +25.94)	794
52	qwen2.5-32b-instruct	Alibaba	7.02(-1.06, +1.37)	665(-30.60, +33.46)	795
53	command-r-plus-08-2024	Cohere	6.73(-0.88, +1.02)	657(-25.90, +26.54)	969
54	hermes-3-llama-3.1-405b	NousResearch	6.53(-1.06, +1.22)	652(-32.77, +32.00)	771
55	mistral-small-3.1-24b-instruct-2503	Mistral	6.32(-0.79, +0.75)	646(-24.73, +20.67)	961
56	qwen-turbo	Alibaba	6.19(-1.15, +1.22)	642(-37.88, +33.58)	623
57	llama-4-scout	Meta	6.13(-0.84, +0.86)	640(-27.22, +24.58)	844
58	nova-lite-v1	Amazon	5.78(-0.88, +1.20)	629(-30.37, +34.97)	994
59	lfm-7b	Liquid AI	5.53(-0.57, +1.01)	621(-20.06, +30.97)	1011
60	wizardlm-2-8x22b	Microsoft	5.37(-0.69, +0.79)	616(-25.25, +25.45)	1028
61	hermes-3-llama-3.1-70b	NousResearch	5.16(-0.82, +0.99)	608(-31.64, +32.20)	771
62	mistral-small-24b-instruct-2501	Mistral	4.94(-0.62, +0.76)	600(-24.30, +26.43)	998
63	gemma-2-9b-it	Google	4.85(-0.86, +0.76)	597(-35.46, +26.72)	751
64	command-r-08-2024	Cohere	3.82(-0.82, +0.78)	554(-43.66, +33.84)	796
65	llama-3.3-70b-instruct	Meta	3.75(-0.80, +1.03)	550(-43.09, +44.22)	809
66	nova-micro-v1	Amazon	3.74(-0.59, +0.79)	550(-30.98, +34.77)	927
67	lfm-40b	Liquid AI	3.33(-0.75, +0.69)	529(-45.68, +33.98)	863
68	command-r7b-12-2024	Cohere	2.84(-0.53, +0.52)	500(-37.24, +29.86)	882
69	lfm-3b	Liquid AI	2.19(-0.47, +0.41)	454(-42.91, +30.36)	776
70	qwen-2.5-7b-instruct	Alibaba	1.75(-0.41, +0.44)	414(-46.96, +39.63)	844
71	olmo-2-0325-32b-instruct	Allen AI	1.72(-0.39, +0.55)	411(-45.62, +49.18)	890
72	jamba-1.6-mini	AI21	1.51(-0.35, +0.51)	388(-45.78, +52.05)	920
73	llama-3.1-nemotron-70b-instruct	Meta	1.18(-0.23, +0.26)	344(-37.68, +35.10)	1854
74	llama-3.1-405b-instruct	Meta	0.53(-0.16, +0.18)	205(-63.82, +51.62)	1735
75	llama-3.1-70b-instruct	Meta	0.25(-0.09, +0.07)	72(-72.08, +45.43)	1923
76	llama-3.1-8b-instruct	Meta	0.04(-0.02, +0.01)	-268(-95.65, +52.71)	5081

col_rank	col_model	col_org	col_score	col_elo	col_tokens
🥇	o3-high	OpenAI	91.07(-0.97, +1.07)	1517(-19.88, +24.12)	1453
🥈	o3-medium	OpenAI	90.0(-0.89, +1.19)	1496(-16.69, +24.16)	1432
🥉	o3-low	OpenAI	89.74(-1.00, +1.16)	1491(-18.11, +23.04)	1306
4	gemini-2.5-pro-exp-03-25	Google	82.89(-1.65, +1.84)	1388(-19.45, +23.69)	2577
5	o4-mini-high	OpenAI	81.14(-1.47, +1.80)	1368(-16.22, +21.14)	1084
6	o4-mini-medium	OpenAI	79.74(-1.85, +1.71)	1352(-19.28, +18.96)	1053
7	o4-mini-low	OpenAI	76.37(-1.73, +2.45)	1318(-16.24, +24.51)	1020
8	gemini-2.0-pro-exp-02-05	Google	75.5(-1.65, +1.77)	1310(-15.16, +17.07)	2372
9	gemini-2.5-flash-preview(thinking)	Google	73.33(-2.31, +1.84)	1290(-20.01, +16.71)	2521
10	o1-high	OpenAI	65.13(-2.51, +2.32)	1223(-18.91, +18.05)	1512
11	gemini-2.0-flash-thinking-exp-01-21	Google	63.63(-1.98, +2.53)	1211(-14.73, +19.27)	2497
12	o1-medium	OpenAI	60.98(-2.28, +2.20)	1192(-16.49, +16.21)	1490
13	o3-mini-high	OpenAI	59.99(-2.32, +2.51)	1184(-16.63, +18.40)	1265
14	o1-low	OpenAI	57.29(-2.41, +2.70)	1165(-16.96, +19.36)	1513
15	grok-3-beta	xAI	56.25(-2.64, +2.03)	1158(-18.55, +14.41)	1824
16	gemini-2.5-flash-preview	Google	55.93(-2.74, +2.50)	1155(-19.22, +17.75)	2299
17	deepseek-chat-v3-0324 (judge)	Deepseek	54.07(-2.43, +2.42)	1142(-16.89, +17.02)	1085
18	chatgpt-4o-latest(2025-03-26)	OpenAI	54.06(-2.22, +2.52)	1142(-15.46, +17.74)	1111
19	claude-3.7-sonnet(thinking)	Anthropic	52.01(-2.28, +2.35)	1128(-15.86, +16.38)	1248
20	o3-mini-medium	OpenAI	50.01(-2.58, +2.30)	1114(-17.98, +15.97)	1221
21	claude-3.7-sonnet (baseline)	Anthropic	50.0(-0.00, +0.00)	1114(-0.00, +0.00)	1094
22	grok-3-mini-beta	xAI	48.61(-2.70, +2.45)	1104(-18.79, +17.00)	2010
23	gemini-2.0-flash-001 (judge)	Google	48.22(-2.27, +2.32)	1102(-15.84, +16.09)	1901
24	deepseek-r1	Deepseek	47.13(-2.09, +2.48)	1094(-14.60, +17.24)	1218
25	quasar-alpha	OpenAI	46.35(-2.08, +2.73)	1089(-14.57, +19.04)	909
26	gpt-4.1-2025-04-14	OpenAI	44.95(-2.14, +2.37)	1079(-15.13, +16.51)	949
27	gemini-2.0-flash-lite-001	Google	44.36(-2.27, +2.83)	1075(-16.04, +19.85)	2196
28	o3-mini-low	OpenAI	43.99(-2.56, +1.98)	1072(-18.15, +13.95)	1205
29	gpt-4.5-preview	OpenAI	43.44(-2.07, +1.97)	1068(-14.69, +13.92)	1040
30	gpt-4.1-mini-2025-04-14	OpenAI	42.17(-2.45, +1.73)	1059(-17.59, +12.22)	1080
31	qwen-max	Alibaba	40.26(-2.67, +2.57)	1045(-19.55, +18.40)	1420
32	gemma-3-27b-it	Google	39.87(-2.58, +1.89)	1043(-18.96, +13.54)	1655
33	command-a	Cohere	34.07(-2.50, +1.92)	999(-19.65, +14.70)	1083
34	qwq-32b	Alibaba	33.04(-2.03, +2.03)	991(-16.20, +15.77)	1517
35	qwen-plus	Alibaba	32.54(-1.84, +2.01)	987(-14.75, +15.68)	1346
36	gpt-4o-2024-11-20	OpenAI	31.25(-1.65, +1.84)	977(-13.57, +14.65)	1142
37	claude-3.5-sonnet	Anthropic	22.61(-2.28, +1.88)	900(-23.45, +18.22)	682
38	deepseek-v3	Deepseek	22.6(-1.82, +1.34)	900(-18.70, +12.97)	1007
39	gpt-4.1-nano-2025-04-14	OpenAI	19.74(-1.95, +1.37)	870(-22.17, +14.64)	938
40	claude-3.5-sonnet-20240620	Anthropic	14.83(-1.20, +1.87)	810(-17.17, +24.46)	628

col_rank	col_model	col_org	col_score	col_elo	col_tokens
🥇	o3-high	OpenAI	86.93(-1.63, +1.73)	1443(-23.72, +28.07)	1453
🥈	o3-low	OpenAI	86.22(-1.22, +1.45)	1432(-17.18, +22.28)	1306
🥉	o3-medium	OpenAI	83.83(-1.81, +1.82)	1400(-22.25, +24.44)	1432
4	o4-mini-high	OpenAI	79.16(-2.15, +1.98)	1346(-21.87, +21.62)	1084
5	o4-mini-medium	OpenAI	77.2(-1.73, +2.06)	1326(-16.58, +21.04)	1053
6	o4-mini-low	OpenAI	73.36(-2.37, +1.99)	1290(-20.46, +18.19)	1020
7	deepseek-chat-v3-0324 (judge)	Deepseek	62.7(-1.94, +2.43)	1204(-14.27, +18.34)	1085
8	gpt-4.1-2025-04-14	OpenAI	61.1(-2.70, +2.12)	1192(-19.49, +15.64)	949
9	claude-3.7-sonnet(thinking)	Anthropic	58.25(-2.31, +2.64)	1172(-16.38, +19.06)	1248
10	quasar-alpha	OpenAI	56.6(-1.73, +2.68)	1160(-12.17, +19.17)	909
11	deepseek-r1	Deepseek	53.74(-2.66, +2.67)	1140(-18.53, +18.73)	1218
12	gemini-2.5-pro-exp-03-25	Google	51.12(-3.13, +3.86)	1122(-21.71, +26.97)	2577
13	gemini-2.0-pro-exp-02-05	Google	50.67(-2.97, +3.88)	1119(-20.68, +27.02)	2372
14	claude-3.7-sonnet (baseline)	Anthropic	50.0(-0.00, +0.00)	1114(-0.00, +0.00)	1094
15	gpt-4.5-preview	OpenAI	49.84(-2.41, +2.99)	1113(-16.72, +20.82)	1040
16	gpt-4.1-mini-2025-04-14	OpenAI	48.36(-2.49, +2.83)	1103(-17.38, +19.71)	1080
17	o1-high	OpenAI	48.04(-3.17, +3.06)	1100(-22.12, +21.25)	1512
18	o3-mini-high	OpenAI	47.99(-2.73, +3.07)	1100(-19.06, +21.38)	1265
19	chatgpt-4o-latest(2025-03-26)	OpenAI	46.68(-2.25, +2.62)	1091(-15.78, +18.25)	1111
20	o1-medium	OpenAI	45.53(-2.52, +2.57)	1083(-17.75, +17.93)	1490
21	grok-3-beta	xAI	42.32(-2.54, +2.11)	1060(-18.23, +14.94)	1824
22	o1-low	OpenAI	39.32(-2.56, +2.53)	1039(-18.84, +18.24)	1513
23	o3-mini-medium	OpenAI	38.35(-1.92, +2.16)	1032(-14.20, +15.72)	1221
24	command-a	Cohere	38.19(-2.20, +2.16)	1030(-16.39, +15.73)	1083
25	gemini-2.5-flash-preview(thinking)	Google	37.83(-2.13, +2.62)	1028(-15.89, +19.10)	2521
26	qwen-max	Alibaba	37.24(-2.66, +2.31)	1023(-20.07, +16.93)	1420
27	gpt-4o-2024-11-20	OpenAI	34.78(-2.94, +1.71)	1005(-23.01, +12.96)	1142
28	claude-3.5-sonnet	Anthropic	34.04(-2.40, +2.74)	999(-18.91, +20.84)	682
29	qwq-32b	Alibaba	33.91(-2.56, +2.67)	998(-20.29, +20.28)	1517
30	o3-mini-low	OpenAI	32.33(-2.13, +2.04)	986(-17.22, +15.92)	1205
31	grok-3-mini-beta	xAI	31.23(-2.52, +2.56)	977(-20.87, +20.25)	2010
32	qwen-plus	Alibaba	31.13(-2.29, +1.63)	976(-18.94, +12.98)	1346
33	gemini-2.0-flash-thinking-exp-01-21	Google	28.97(-1.90, +2.54)	958(-16.33, +20.92)	2497
34	deepseek-v3	Deepseek	26.56(-2.11, +1.95)	937(-19.28, +16.98)	1007
35	gemini-2.5-flash-preview	Google	24.39(-1.93, +2.17)	917(-18.70, +19.88)	2299
36	claude-3.5-haiku	Anthropic	23.63(-2.56, +2.36)	910(-25.65, +22.01)	601
37	gemini-2.0-flash-001 (judge)	Google	23.53(-1.62, +2.00)	909(-16.08, +18.79)	1901
38	claude-3.5-sonnet-20240620	Anthropic	22.36(-2.52, +3.13)	898(-26.31, +29.85)	628
39	gpt-4.1-nano-2025-04-14	OpenAI	21.22(-1.95, +2.23)	886(-21.00, +22.32)	938
40	gemma-3-27b-it	Google	20.46(-1.49, +1.66)	878(-16.41, +17.15)	1655

col_rank	col_model	col_org	col_score	col_elo	col_tokens
🥇	o3-high	OpenAI	87.29(-0.69, +1.19)	1335(-15.74, +32.25)	1453
🥈	o3-medium	OpenAI	85.83(-0.65, +1.25)	1313(-14.32, +31.40)	1432
🥉	gemini-2.5-pro-exp-03-25	Google	85.71(-0.77, +0.90)	1311(-15.89, +25.95)	2577
4	o3-low	OpenAI	85.31(-0.50, +1.09)	1306(-12.05, +28.38)	1306
5	gemini-2.0-pro-exp-02-05	Google	77.88(-1.03, +0.78)	1219(-15.37, +20.83)	2372
6	gemini-2.5-flash-preview(thinking)	Google	76.37(-1.65, +1.44)	1204(-20.69, +27.04)	2521
7	o4-mini-high	OpenAI	74.54(-1.15, +1.50)	1187(-15.57, +26.81)	1084
8	o4-mini-medium	OpenAI	72.8(-0.94, +1.53)	1171(-13.33, +26.55)	1053
9	grok-3-beta	xAI	70.81(-0.64, +0.93)	1154(-10.46, +20.82)	1824
10	o4-mini-low	OpenAI	68.99(-1.10, +1.03)	1139(-14.03, +21.26)	1020
11	gemini-2.0-flash-thinking-exp-01-21	Google	68.44(-0.48, +1.62)	1134(-8.95, +26.10)	2497
12	deepseek-chat-v3-0324 (judge)	Deepseek	65.62(-0.83, +1.69)	1112(-11.47, +26.05)	1085
13	grok-3-mini-beta	xAI	63.91(-1.14, +1.00)	1099(-13.66, +20.47)	2010
14	gemini-2.5-flash-preview	Google	61.49(-1.12, +1.56)	1081(-13.25, +24.44)	2299
15	claude-3.7-sonnet(thinking)	Anthropic	59.99(-1.61, +1.29)	1070(-16.66, +22.31)	1248
16	o1-high	OpenAI	57.92(-1.13, +1.25)	1056(-13.20, +21.77)	1512
17	deepseek-r1	Deepseek	56.62(-0.60, +1.13)	1046(-9.32, +20.88)	1218
18	qwen-max	Alibaba	56.46(-1.48, +1.51)	1045(-15.58, +23.59)	1420
19	gpt-4.1-2025-04-14	OpenAI	55.18(-1.23, +1.98)	1036(-13.80, +26.83)	949
20	o3-mini-high	OpenAI	53.73(-1.90, +1.04)	1026(-18.37, +20.17)	1265
21	o1-medium	OpenAI	53.69(-1.52, +1.28)	1026(-15.73, +21.80)	1490
22	gemini-2.0-flash-001 (judge)	Google	52.93(-1.75, +1.30)	1020(-17.28, +21.95)	1901
23	o1-low	OpenAI	50.4(-1.64, +1.67)	1003(-16.49, +24.55)	1513
24	claude-3.7-sonnet (baseline)	Anthropic	50.0(-0.00, +0.00)	1000(-5.13, +12.88)	1094
25	chatgpt-4o-latest(2025-03-26)	OpenAI	49.3(-1.57, +1.88)	995(-16.07, +25.90)	1111
26	gemini-2.0-flash-lite-001	Google	49.24(-0.74, +1.46)	995(-10.26, +23.00)	2196
27	quasar-alpha	OpenAI	48.99(-1.57, +1.29)	993(-16.09, +21.80)	909
28	gpt-4.1-mini-2025-04-14	OpenAI	48.23(-1.42, +1.11)	988(-15.06, +20.57)	1080
29	gpt-4.5-preview	OpenAI	48.23(-2.19, +0.85)	988(-20.45, +18.74)	1040
30	qwq-32b	Alibaba	47.28(-1.09, +1.05)	981(-12.76, +20.17)	1517
31	qwen-plus	Alibaba	46.78(-1.10, +1.23)	978(-12.78, +21.45)	1346
32	gemma-3-27b-it	Google	45.14(-1.40, +0.86)	966(-14.98, +18.94)	1655
33	o3-mini-medium	OpenAI	44.14(-1.33, +1.68)	959(-14.53, +24.73)	1221
34	command-a	Cohere	43.54(-1.14, +1.44)	955(-13.17, +23.05)	1083
35	gpt-4o-2024-11-20	OpenAI	42.53(-1.07, +1.16)	948(-12.75, +21.06)	1142
36	o3-mini-low	OpenAI	39.0(-1.60, +1.43)	922(-16.91, +23.31)	1205
37	deepseek-v3	Deepseek	30.32(-0.93, +1.58)	855(-12.87, +25.65)	1007
38	gpt-4.1-nano-2025-04-14	OpenAI	21.54(-1.33, +1.22)	775(-19.07, +25.25)	938
39	claude-3.5-sonnet	Anthropic	18.19(-1.02, +0.87)	739(-17.31, +22.82)	682
40	minimax-01	MiniMax	17.48(-1.27, +1.04)	730(-20.91, +25.08)	1071