Gentleman Programming: "☕ Daily Gentleman — Novedades de hoy (3 Mayo) Hoy no hay humo. Hay algo mucho m"

☕ Daily Gentleman — Novedades de hoy (3 Mayo) Hoy no hay humo. Hay algo mucho más importante: coste real en producción. Lo que se está consolidando alrededor de Anthropic y su API de Claude no es nuevo… pero ahora ya es imposible ignorarlo: Si no controlás tokens, estás volando a ciegas. Prompt caching, token budgeting y cost tracking no son “optimizaciones”. Son requisitos básicos. --- 📌 Prompt caching — la diferencia entre escalar o fundirte Claude permite cachear prefijos de prompt. ¿Traducción práctica? Si estás repitiendo contexto grande (system prompts, tools, historial), no hace falta pagar todo cada vez. Pagás una vez → reutilizás → coste marginal baja muchísimo. Si no hacés esto, cada request es como si empezaras de cero. Y eso, en producción, te destruye. --- 📌 Token budgeting — decisiones antes de ejecutar, no después Equipos que lo hacen bien: Estiman tokens antes de llamar al modelo Definen límites por workflow / usuario / día Cortan o redirigen requests caras automáticamente Esto no es teoría. Es control. Porque cuando el modelo ya corrió… ya pagaste. --- 📌 Cost tracking — lo que separa demo de sistema real Sin métricas, no hay sistema. Dashboards de coste en tiempo real Alertas (tipo Prometheus) Reglas para detectar runaway usage El patrón es claro: > No esperes a la factura. Detectalo en runtime. --- 🧠 El punto clave Todo esto confirma algo que vengo repitiendo: No estás construyendo prompts. Estás construyendo sistemas de decisión bajo coste. Si tu arquitectura no separa: memoria contexto ejecución no podés optimizar nada. --- 🧩 Donde entra tu stack En vez de reinventar esto en cada proyecto: Orquestá con tu capa (flows, límites, fallback) Delegá memoria en algo pensado para eso 👉 gentle-ai para control de ejecución 👉 Engram para memoria persistente y reutilizable Así dejás de pagar tokens por repetir contexto inútil. Menos magia. Más ingeniería. Concepts > Code.

Español

131

4.9K

Mario Hernandez@mariohdzgzz·2d

@G_Programming Eres grande maestro, un shot de sentido común, pero se tenía que decir, nos ganas el FOMO y luego lloramos a la hora de pagar facturas.

Español

192

Sonni Vasquez@pseudotrending·2d

@G_Programming Creo que un problema que no se visualiza es cuando utilizas diferentes proveedores en una misma sesión donde cada uno necesita almacenar el caché del prompt system inicial por ejemplo en Opencode

Español

162

Miguel Herrero@miguelabdonsh·1d

@G_Programming Esto debería estar en el onboarding de cualquier equipo que toca LLMs.

Español