네프티
2.8K posts

네프티
@NeftyMinerva
과학, 수학, 그림, 퍼리, 역사, 대륙철학, 컴퓨터, 일렉트로니카 좋아하는 20대 고양이입니다 야옹~







What’s the first thing that comes to mind when you hear the words "Japan"?


아니 이 븅신들이 진짜 빚내서 하는게 아니고 작년 4분기에 체납자 때려잡고,법인세 등등 한거를 편성한거야. 세금낸걸 다시 돌려주는거라고!! 그리고 총 예산중 6조 정도가 민생지원금이고 20조가 넘는 돈으로 수출 지원, 나프타+석유 비축 하겠다는데 기름을 사오라는게 뭔씹 그거 하고있다고!!

These absolutely insane LLM wizards are now experimenting with Turboquant not just to compress KV cache, but now, the entire model itself. This test showed a >50% reduction in memory footprint, allowing for Qwen 3.5-27B to be run on a single RTX 5060 @ 3.15bit precision - with no apparent degradation. This just goes to show that we're likely nowhere near full optimization for existing models. We are likely <1yr away from running big models on smol devices with minimal consequence. And during that time, they will only get better and better. What a time to be alive.









