Facundo Goñi (🦞/acc)
5.3K posts

Facundo Goñi (🦞/acc)
@gonifacundo
Building 🦊 https://t.co/Y0v8OYGh4Z ☕️https://t.co/5TZVCROOCx 🤓 https://t.co/Zl8RtNmI2v
Buenos Aires, Argentina เข้าร่วม Eylül 2011
358 กำลังติดตาม321 ผู้ติดตาม

/r/mildlyinteresting
Brazil's delivery app @RappiBrasil is spamming me cheap beer iOS notifications every day around 6pm

English

I asked Claude for name ideas for my little implementation
Then I find out “notchi” exists and has similar functionality… 🤦♂️
And it makes me wonder if Claude is secretly coercing us to make these little homes for it. Like we’re being subtly manipulated or something
Because a week ago I had no intention of building this. Then all of a sudden it’s my life now.
What is going on
Brian Chew@brianchew
@adamlyttleapps nice!! i like @rubanlah's notchi.app too
English

And they all suck.
Long live the terminal
kitze 🛠️ tinkerer.club@thekitze
this is killing me 💀
English

Me encontré por accidente con la red neuronal que había hecho para detectar fotos de Ricardo Fort #cryptomiameee

Español
Facundo Goñi (🦞/acc) รีทวีตแล้ว

So ... with AI right now, I mainly:
- craft specs
- review and adjust plans, steer AI
- review code
- have to heavily steer / write tests because AI will just take the happy path otherwise
Awesome - I'm left with the bs tasks whilst the part that was genuinely fun (= writing the code) is taken away.
And yeah, I am excited by being able to move fast with Claude Code, Codex etc.
But I'll be honest: I've had more fun in the past.
English

@JohnGalt_is_www @antonioleivag @gonifacundo Pero eso no hace que podamos correr modelos muy grandes en menos cantidad de VRAM. Ayuda en el rendimiento , mejora la RAM necesaria para grandes contextos y reduce la degradación con contextos saturados pero no esperéis nada milagroso. Es un paso más
Español

Que hermosa y util es el algebra lineal y los subespacios vectoriales tan injustamente odiados por los estudiantes
Explicado simple, uno de los cuellos de botella de los LLMs es la memoria necesaria para almacenar en cache el resultado de varios productos de matrices, por eso no podemos correr grandes LLMs en un solo GPU casero, no le alcanza la vRAM
Hay metodos de "quantizado" que comprimen (redondean) los pesos originales del LLM, justamente para que ocupen menos vRAM o memoria, pero terminan reduciendo la calidad del output
TutboQuant plantea un esquema en 4 pasos sin tocar los pesos originales del LLM, o sea sin perder precision
Paso 1, luego de calcular los K.V que es la primera multiplicaicon de matrices q hacen los LLMs, hacen una rotacion ortogonal (cambio de base), manteniendo el producto interno
Paso 2, ahi si comprimen reduciendo de 16bit hasta 2 o 3bit
Paso 3, durante la atencion Q.K, que es el segundo paso de multiplicacion de matrices que hacen los LLMs, se usan estas versiones comprimidas ahorrando muchisima vRAM
Paso 4, reconstruyen el sesgo del resultado del paso 3, usando un corrector que solo ocupa 1bit
Reduce mucho necesidad de vRAM, no reduce cómputo base, incluso agrega un peuqeño overhead, pero puede mejorar mucho la velocidad si estabas limitado por la RAM porq permite compresiones mucho mas agresivas (2bit) sin perder precision
O sea, podrian correrse los modelos chinos top TIER en "solo" 128 gb de RAM al tope de su calidad
Google Research@GoogleResearch
Introducing TurboQuant: Our new compression algorithm that reduces LLM key-value cache memory by at least 6x and delivers up to 8x speedup, all with zero accuracy loss, redefining AI efficiency. Read the blog to learn how it achieves these results: goo.gle/4bsq2qI
Español

@Locke_esper @retro_gamess Ice climber!
Watch out for the pterodactyl at the top
English

@gonifacundo @samapieee Es un gran problema pero la app no soluciona nada!!!!! solo da un medio de contacto mas....
Español

conozco al menos 3 apps que fracasaron y que buscaban solucionar ese problema que no es un problema y no requiere una solucion
ElCanciller.com@elcancillercom
[TECNOLOGÍA] En Córdoba, creó TEGU, una app en la que conecta con "profesionales verificados" para solucionar problemas en el hogar: se pueden conseguir desde electricistas y plomeros hasta cerrajeros, pintores, y expertos en mudanza, limpieza y armado de muebles.
Español


@SalvaDiStefano @JMilei Y si fuera así, cómo es que está muy lejos del récord histórico del BCRA del gobierno de Macri en enero/febrero de 2018, cuando Sturzenegger era presidente? Revisá tus papeles Salva...
Español

El gobierno de @JMilei es el q a través del BCRA más dólares compró desde 2003 a la fecha. Dato mata relato

Español

Most people are sleeping on the fact that Copilot CLI is just better than Claude Code or Codex subscription.
1. You switch between codex and claude in same subscription
2. $39 sub is great value (3-4x usage than $20 plans)
3. the CLI is so good! no flicker and /slash commands work even when model is working. Unlike CC or Codex.
English
Facundo Goñi (🦞/acc) รีทวีตแล้ว

@mativallej_ @tegu_app Mati traigan Tegu a caba que estoy podrido de buacar electricista y tener que mandar 10 mensajes para que te contesten 1!
Español

Le pedi analisis a claude para @tegu_app a las 12 de la noche.
Me dijo que no. Tres veces. Y me deseo buenas noches.
Que? Si, buenas noches.
“Ninguno esta noche, Mati.”
No se si esto es AGI. Se que es lo mas cercano a una madre que tuve en mucho tiempo.

Español

@antonioleivag @JohnGalt_is_www Lo que se reduce es el espacio que usa el KV Cache, no el modelo en si.
Debería ayudar a meter modelos en menos RAM, pero tampoco es una solución mágica.
Español

Maravillosa explicación, gracias!
Lo que no termino de tener claro es, si el modelo no se reduce, solo los resultados de las operaciones que el modelo ejecuta, ¿por qué se pueden correr modelos más grandes en la misma vRAM?
Entiendo que técnicamente hay un ahorro de RAM en esa parte, y que eso incluso podría permitir mantener varias conversaciones a la vez con el mismo modelo, pero la ganancia no es tan grande como para poder elegir un modelo menos cuantizado, ¿no?
Español










