Root Rat

34.8K posts

Root Rat banner
Root Rat

Root Rat

@root_rat

IT nerd 🖥️. Ex pisaplayas y 🔱. Rajadas, opiniones personales y shitposting. Gracias a Twitter, ahora tengo un pódcast.

Beigetreten Mart 2024
2.7K Folgt14.9K Follower
Root Rat
Root Rat@root_rat·
Puliendo el sistema que reconoce el tipo de layout en mi generador de clips, me he encontrado con un par de edge cases donde tiende a fallar, aunque el 99% del tiempo lo hace bien. Dándole una pensada en cómo mejorarlo se me ha ocurrido usar detección de caras, pero sin recurrir a la GPU, así que tiré por MediaPipe corriendo en CPU y dejé la 4090 libre para lo que realmente la necesita. El sistema anterior analizaba brillo en zonas hardcodeadas del frame, lo que funciona razonablemente bien pero se pone tonto con contenido fullscreen. MediaPipe en cambio extrae el frame completo, detecta caras y clasifica el layout según cómo están distribuidas: apiladas a la izquierda significa screenshare con webcams en sidebar, repartidas por el frame significa tiles de cámara. Si aparecen menos de dos cae al sistema de brillo como fallback, y ahí está la clave de todo. La tentación era combinar ambas señales en paralelo como validación cruzada, pero esa idea no resuelve nada porque el problema de fondo no es de señal sino de arbitraje. Cuando face detection dice screenshare y brillo dice 2tile necesitas una regla que decida quién gana, y esa regla termina siendo invariablemente "prioriza faces", que es exactamente lo que ya hace el fallback. Vuelta completa para llegar al mismo sitio, con el doble de complejidad. Los únicos casos donde brillo podría corregir a faces son los casos donde faces ya no tiene señal suficiente. Cuando MediaPipe ve dos o más caras y clasifica el layout esa señal es fiable, y los falsos positivos del análisis de brillo (un waterfall SDR a pantalla completa, un bumper de calavera) no le afectan en absoluto. Con cascade siempre corriendo se van unos 65ms por frame contra los 2-5ms del fallback, y con 20 samples por clip eso son 1,3 segundos extra de latencia por clip solo en detección de layout, sin ningún beneficio real a cambio.
Root Rat@root_rat

Terminando el sistema ya en serio, fuera del modo POC. Mañana vídeo con hilo de cómo funciona todo. Bastante virguero, 100% local, y con IA solo donde hay que usarla. Últimamente veo mucho esa filosofía de que el agente lo haga todo a pura fuerza bruta con modelos frontier. Me parece un error. Hay cosas en las que no necesitamos que el modelo haga absolutamente nada, y forzarlo igualmente es simplemente mala ingeniería. Como hablaba ayer en el podcast con Pau y @Poliorcetes: sistemas IA de guerrilla, optimización de recursos y capa de control. Ingeniería de software de siempre, pero con cositas golosonas a mayores que resuelven problemas que antes era imposible abordar desde un enfoque determinista. En este caso concreto, la selección de clips según qué diálogo se está teniendo, con condiciones preestablecidas, consiguiendo que el corte final quede como gancho que invite a ver el vídeo completo. Eso sí necesita modelo. El resto, no.

Español
2
1
11
2.8K
Root Rat
Root Rat@root_rat·
@JoseJuanSaGa Buf. No sabría decirte… la verdad. No sé cuál es tu nivel en ingeniería de software. Depende de donde partimos.
Español
2
0
0
15
Root Rat
Root Rat@root_rat·
@JoseJuanSaGa Pero aún así… procesar un podcast completo de 2 horas , y darte los “shorts” completos y editados con mi propia imagen “corporativa” sin ninguna intervención humana… Horas de edición y de curro ahorra esto…
Español
1
0
0
15
Root Rat
Root Rat@root_rat·
Necesitarías GPU para el modelo que determina qué partes son interesantes. Es el único punto donde corre un LLM; en CPU se eternizaría. Ya con GPU y una transcripción de un vídeo de 2 horas tarda aproximadamente 1 hora en dar los candidatos. Tiene que procesar mucho texto. Todo lo demás lo haces sin problema sin GPU.
Español
1
0
0
27
Root Rat
Root Rat@root_rat·
El resultado es espectacular. Identifica que es un podcast con tres participantes, monta el layout, reconoce el screenshare y ejecuta la transición limpia. Lo que queda es pulir el pipeline de montaje para que cuando aparece una transición haga un fade out unos milisegundos antes y un fade in después, un leve fundido a negro que suavice el corte y lo convierta en algo que se sienta producido, no recortado.
Español
1
0
8
934
Root Rat retweetet
Mɐrc Almeidɐッˎˊ˗
Mɐrc Almeidɐッˎˊ˗@cibernicola_es·
Nadie nunca lo pidió, en realidad un poco sí. Esto lo voy a ir ampliando, la cosa está en un punto de inflexión (creo). El setup grosso modo de hierro y SW que uso para IA LOCAL. codename: IDALIA
Mɐrc Almeidɐッˎˊ˗ tweet media
Español
3
3
18
1.5K
Izan González
Izan González@izangc·
@root_rat Se puede acceder al episodio a través de alguna plataforma de podcast?
Español
1
0
0
20
Drones de guerra
Drones de guerra@dronesdeguerra·
🇺🇦Drones terrestres logísticos de la 54 brigada ucraniana, cada vez más claro que no hace falta exponer soldados para llevar pertrechos a la linea del frente
Español
2
38
263
7K