UI-Bench Leaderboard

Comprehensive evaluation of AI tools for frontend generation, ranked by expert assessment across diverse design challenges.

Overall leaderboard aggregated across n = 4,047 blinded pairwise matches

Tool win rates vs loss rates

RatingWin Rate

Orchids

Rating (μ): 30.08

95% CI: [26.61, 33.55]

Win rate: 67.5%

30.0867.5%

Figma Make

Rating (μ): 27.46

95% CI: [24.11, 30.81]

Win rate: 57.1%

27.4657.1%

Lovable

Rating (μ): 27.14

95% CI: [23.77, 30.51]

Win rate: 54.8%

27.1454.8%

Anything

Rating (μ): 25.46

95% CI: [22.15, 28.77]

Win rate: 51.2%

25.4651.2%

Bolt

Rating (μ): 24.44

95% CI: [21.15, 27.73]

Win rate: 48.9%

24.4448.9%

Magic Patterns

Rating (μ): 24.23

95% CI: [20.90, 27.56]

Win rate: 47.0%

24.2347.0%

Same.new

Rating (μ): 23.57

95% CI: [20.24, 26.90]

Win rate: 45.8%

23.5745.8%

Base44 by Wix

Rating (μ): 23.47

95% CI: [20.16, 26.78]

Win rate: 47.4%

23.4747.4%

Rating (μ): 22.24

95% CI: [18.87, 25.61]

Win rate: 41.2%

22.2441.2%

Replit

Rating (μ): 20.95

95% CI: [17.56, 24.34]

Win rate: 38.9%

20.9538.9%

Rankings based on TrueSkill model

Bar lengths are proportional to ratings

Win Rate

Blue bars represent win rates as percentages

UI-Bench Leaderboard

Complete performance data with sortable columns

Rank	Tool	Rating (μ)	Uncertainty (σ)	95% CI	Win Rate
#1	Orchids	30.08	1.77	[26.61, 33.55]	67.5%
#2	Figma Make	27.46	1.71	[24.11, 30.81]	57.1%
#3	Lovable	27.14	1.72	[23.77, 30.51]	54.8%
#4	Anything	25.46	1.69	[22.15, 28.77]	51.2%
#5	Bolt	24.44	1.68	[21.15, 27.73]	48.9%
#6	Magic Patterns	24.23	1.70	[20.90, 27.56]	47.0%
#7	Same.new	23.57	1.70	[20.24, 26.90]	45.8%
#8	Base44 by Wix	23.47	1.69	[20.16, 26.78]	47.4%
#9	v0	22.24	1.72	[18.87, 25.61]	41.2%
#10	Replit	20.95	1.73	[17.56, 24.34]	38.9%