benchmark humaneval
Filter by value
Distribution — click row to filter
891→
81.71→
29.91→
921→
84.91→
40.21→
30.51→
48.11→
671→
90.21→
871→
92.41→
86.61→
91.61→
82.61→
15 entities
| Entity ↕ | benchmark humaneval ↕ | Type | Integrations ↓ |
|---|---|---|---|
| o1 | 92.4 | — | 48 |
| Mixtral 8x7B | 40.2 | — | 43 |
| GPT-4o | 90.2 | — | 37 |
| Mistral 7B | 30.5 | — | 33 |
| Llama 2 70B | 29.9 | — | 32 |
| DeepSeek R1 | 91.6 | — | 32 |
| Qwen 2.5 72B | 86.6 | — | 30 |
| Llama 3 70B | 81.7 | — | 29 |
| Claude 3.5 Sonnet | 92 | — | 29 |
| Llama 3.1 405B | 89 | — | 28 |
| GPT-4 | 67 | — | 27 |
| GPT-3.5 Turbo | 48.1 | — | 26 |
| DeepSeek V3 | 82.6 | — | 18 |
| GPT-4o mini | 87 | — | 17 |
| Claude 3 Opus | 84.9 | — | 15 |