Construimos un harness de código que supera a modelos frontier usando modelos open source

Esta fue nuestra apuesta: construir software memory-first, no model-first, y superará a los demás.

Mientras todos corren a envolver el siguiente modelo, nosotros hicimos lo opuesto. Construimos primero la capa de memoria, el enrutamiento, el tool-calling, el motor recursivo, y dejamos el modelo como una pieza intercambiable.

“El pensamiento model-first dice: elige el modelo más inteligente, dale un buen prompt, y espera que recuerde. El pensamiento memory-first dice: dale al sistema persistencia real, enrutamiento real, memoria real, y un modelo más pequeño superará a uno más inteligente que olvida todo entre turnos.”

Hoy esa apuesta tiene nombre: Backboard Development Studio. Arranca con el R-CLI, un harness de código que ya está en beta abierta. ¿El resultado? Supera a modelos frontier usando modelos open source.

Pruébalo

La beta está abierta. Dos líneas y estás corriendo:

# macOS / Linux
curl -fsSL https://app.backboard.io/api/cli | bash

# Windows (PowerShell)
irm https://app.backboard.io/api/cli/windows | iex

Consigue tu API key en app.backboard.io. Código promocional: DEVTOCLI para crédito gratuito de inferencia.

Los números que estamos viendo esta semana

  • 92% en Terminal Bench 2.1 ejecutando Codex 5.5
  • 70% en Terminal Bench 2.1 ejecutando GLM 5.1, un modelo open-source
  • Hasta 30% menos tokens y hasta 90% menor costo que los harness cerrados
  • 0% de tu código usado para entrenar modelos de terceros

Memoria > Inteligencia bruta

El R-CLI funciona con los algoritmos de memoria de Backboard, los mismos que rankean #1 en LoCoMo y LongMemEval. Corre sobre la API unificada de Backboard: memoria, enrutamiento entre 17,000+ modelos, RAG e hilos con estado detrás de una sola key.

La lección para LATAM es clara: no necesitas el modelo más caro. Con la arquitectura correcta — persistencia, contexto, herramientas — puedes competir con presupuestos mucho menores. Esto aplica tanto para startups de desarrollo como para empresas que quieren implementar agentes de código sin depender de APIs que cuestan cientos de dólares al mes.