Garríta รีทวีตแล้ว

Este desarrollador chino ejecutó Llama 70B localmente en un MacBook en un avión y, durante 11 horas completas sin internet, gestionó proyectos de clientes.
Estaba sentado junto a la ventana en un vuelo transatlántico con un MacBook Pro M4 con 64 GB de memoria. El WiFi a bordo costaba $25 por el vuelo. Lo rechazó.
Sin API en la nube, sin conexión a los servidores de Anthropic o OpenAI, sin internet en absoluto.
Solo un Llama 3.3 70B local en bf16 y su propio script de orquestador.
El modelo se ejecuta a través de llama.cpp. Velocidad de generación, 71 tokens por segundo. Contexto alrededor de 60.000 tokens. Uso de memoria, 48,6 GiB de 64. Batería al despegue, 3 horas 21 minutos.
Y le dio al orquestador esta instrucción de sistema antes del despegue:
"Eres un orquestador offline que se ejecuta en un solo MacBook. No hay red. Los únicos recursos que tienes son archivos locales en /Users/dev/work, el servidor de inferencia Llama 70B en localhost:8080 y un presupuesto de batería de 3 horas 21 minutos. Procesa la cola en /Users/dev/work/queue.jsonl (una tarea de cliente por línea). Para cada tarea: borrador → ejecutar evaluaciones locales → guardar artefacto en /Users/dev/work/done/. Guarda puntos de control de contexto cada 12 tareas para que puedas reanudar después de un cambio de batería. Detente solo con la cola vacía o cuando la batería baje del 5 %."
Así que el sistema sabe exactamente en qué recursos se está ejecutando.
Sabe que no tiene conexión con el mundo exterior durante las próximas 11 horas. Sabe que tiene memoria finita y una batería finita. Sabe que el humano no intervendrá hasta que el avión aterrice.
El sistema se ejecuta en 1 bucle. Toma una tarea de la cola, la ejecuta a través de inferencia, guarda el artefacto, escribe un punto de control. Tarea tras tarea, así de simple.
Y solo cuando la batería baja del 5 %, el orquestador hace una pausa automáticamente, espera a que el portátil cambie al banco de energía de respaldo y continúa desde el último punto de control.
Aquí está lo que el sistema realmente escribe en su registro durante el vuelo:
"guardado punto de control de contexto 8 de 12 (pos_min = 488, pos_max = 50118, size = 62.813 MiB)"
"restaurado punto de control de contexto (pos_min = 488, pos_max = 50118)"
"progreso de procesamiento de prompt: n_tokens = 50 / 60 818"
"tarea 37016 completada | tps = 71 s tokens text → /Users/dev/work/done/proposal_westside.md"
Fuera de la ventana, nubes, cielo azul y sin WiFi. En la bandeja, 1 MacBook, una terminal abierta en 2 pantallas y un servidor de inferencia en localhost.
Por lo que he observado, este es el flujo de trabajo de IA offline más limpio que he visto en el último año: 11 horas de vuelo, $0 por WiFi y toda la cola de clientes cerrada antes del aterrizaje.
Español


















