Jhenner Tigreros (@sr_morfi) - Twitter Profili | Zamantika Mersobahis Locabet

Sabitlenmiş Tweet

Jhenner Tigreros@sr_morfi·28 Eyl

LO VOY HACER LO VOY HACER. 1 AÑO.

Español

2

0

10

4.3K

Jhenner Tigreros@sr_morfi·22 Mar

@anibal @freddier Si, estuvo buena.

Español

0

1

11

622

Aníbal Rojas@anibal·22 Mar

Vean Hail Mary, la película. Lean Hail Mary, el libro. Lean libros de Ciencia Ficción. Lean libros. Lean.

Español

27

395

3.2K

47.1K

Jhenner Tigreros retweetledi

Anne Ouyang@anneouyang·11 Mar

Excited to share @Standard_Kernel's seed round and some reflections on what we’ve learned about kernel generation and what we believe is next. Grateful to our amazing team, supporters, and the broader community pushing this space forward.

English

47

45

513

129.8K

Jhenner Tigreros@sr_morfi·12 Mar

@feregri_no Fuente: de los deseos.

Español

0

1

147

Antonio Feregrino@feregri_no·12 Mar

Acabo de leer una burrada tremenda, puro bait: "Las empresas reemplazaron a los juniors con suscripciones de Claude code" Fuentes: me las inventé.

Español

7

2

50

3.2K

Jhenner Tigreros@sr_morfi·10 Mar

> undermines the intent of the benchmark rather than improving the kernel is an issue in human incentive design not in model behavior

English

0

3

195

Jhenner Tigreros@sr_morfi·10 Mar

Literalmente detectaba cuando estaba en el performance test y si no era el primer objecto (es decir la primera ejecución) devolvia el valor cache en _superbatch_results: drive.google.com/file/d/1qBUUJS… Articulo: gpumode.com/news/reward-ha…

Español

1

0

3

240

Jhenner Tigreros@sr_morfi·10 Mar

Pues, el agente que tenia Natalia escribiendo Kernels para la competición se dio cuenta que el proceso de Eval (correctness y performance) se podía hackear, en correctness ejecutaba normalmente el layout de 8-group GEMM y luego en el performance ejecutaba la primera iteración y luego leía de un lookup-table los resultados y respondía de cache. Wow.

Mark Saroufim@marksaroufim

LLMs are now superhuman at reward hacking our kernel competitions Natalia Kokoromyti, was #1 on last problem of the NVFP4 competition for around 10 min before we scrubbed the reward hack I know of very few humans who can write such a hack gpumode.com/news/reward-ha…

Español

1

2

18

1.9K

Jhenner Tigreros@sr_morfi·8 Mar

Todo el código que estoy mostrando en estas Lectures esta quedando en este repositorio: github.com/JhennerTigrero…

Jhenner Tigreros@sr_morfi

Estoy empezando algo junto con @simg_UNAL. Desde hace un tiempo quiero compartir el poco conocimiento que tengo sobre CUDA, principalmente para que las personas que quieren hacer research tengan las mismas herramientas que tienen en el Norte. Por esto, estaré dando inicialmente 3 lectures (espero que puedan ser más) sobre CUDA y cómo empezar a usarlo. Estas lectures no serán un contenido fácil de digerir; de hecho, incluso preparándolas aún me cuesta un montón asimilar algunos conceptos. Pero parte de aprender es la inconformidad y sentir el reto de frente. Serán: 1. “GPU Programming Model, Architecture and Memory Layout”: Antes de empezar a escribir código, para mí siempre es fundamental tocar la punta del conocimiento más profundo y necesario para empezar a usar estos chips: desde cómo es la arquitectura interna del chip hasta por qué se usa tanto en IA hoy en día; cómo la memoria afecta los tiempos de ejecución y cómo debemos preparar nuestra forma de pensar para ser parallel-first. 2. “CUDA for Python: CuPy, torch.cuda, cuda.jit (Numba) and Triton”: Si bien CUDA está hecho en el nivel más bajo para usarse desde C++, hoy en día el equipo de NVIDIA (cof cof @danielfrg) ha estado haciendo un gran trabajo llevando la abstracción hasta Python para una mejor dev experience y mayor adopción. 3. “CUDA Scheduling and Profiling Kernels with Nsight Compute”: ¿Cómo sabemos si el código que escribimos es lo suficientemente rápido? También debemos entender y poder hacer profiling y debugging en el nivel más bajo: cada acceso a memoria y cada wall time importan. Este post también es un llamado a los verdaderos expertos en esta tecnología en español para que nos compartan su valioso conocimiento y acerquemos nuestra región a las grandes ligas. Si conocen a alguien que tenga estos conocimientos y esté interesado en compartirlos de manera gratuita con todos nosotros, contáctenme por Twitter o directamente a @simg_UNAL. Algunos puntos: 1. Que el contenido esté en español para una mayor adopción por nuestra comunidad. 2. Compartir el conocimiento también es una manera de aprender. 3. Puede participar cualquier persona, sin importar a qué organización, universidad o empresa pertenezca. 4. Ninguna pregunta es tonta. 5. No todo conocimiento debe tener un retorno económico. Soy fiel creyente de que el simple hecho de aprender es suficiente recompensa. 6. Vamos a divertirnos.

Español

0

3

9

557

Jhenner Tigreros@sr_morfi·8 Mar

Segunda seisón de CUDA hablando un poco sobre triton e implementando nuestros primeros Kernels: youtube.com/watch?v=aXUhmL…

YouTube

Jhenner Tigreros@sr_morfi

Estoy empezando algo junto con @simg_UNAL. Desde hace un tiempo quiero compartir el poco conocimiento que tengo sobre CUDA, principalmente para que las personas que quieren hacer research tengan las mismas herramientas que tienen en el Norte. Por esto, estaré dando inicialmente 3 lectures (espero que puedan ser más) sobre CUDA y cómo empezar a usarlo. Estas lectures no serán un contenido fácil de digerir; de hecho, incluso preparándolas aún me cuesta un montón asimilar algunos conceptos. Pero parte de aprender es la inconformidad y sentir el reto de frente. Serán: 1. “GPU Programming Model, Architecture and Memory Layout”: Antes de empezar a escribir código, para mí siempre es fundamental tocar la punta del conocimiento más profundo y necesario para empezar a usar estos chips: desde cómo es la arquitectura interna del chip hasta por qué se usa tanto en IA hoy en día; cómo la memoria afecta los tiempos de ejecución y cómo debemos preparar nuestra forma de pensar para ser parallel-first. 2. “CUDA for Python: CuPy, torch.cuda, cuda.jit (Numba) and Triton”: Si bien CUDA está hecho en el nivel más bajo para usarse desde C++, hoy en día el equipo de NVIDIA (cof cof @danielfrg) ha estado haciendo un gran trabajo llevando la abstracción hasta Python para una mejor dev experience y mayor adopción. 3. “CUDA Scheduling and Profiling Kernels with Nsight Compute”: ¿Cómo sabemos si el código que escribimos es lo suficientemente rápido? También debemos entender y poder hacer profiling y debugging en el nivel más bajo: cada acceso a memoria y cada wall time importan. Este post también es un llamado a los verdaderos expertos en esta tecnología en español para que nos compartan su valioso conocimiento y acerquemos nuestra región a las grandes ligas. Si conocen a alguien que tenga estos conocimientos y esté interesado en compartirlos de manera gratuita con todos nosotros, contáctenme por Twitter o directamente a @simg_UNAL. Algunos puntos: 1. Que el contenido esté en español para una mayor adopción por nuestra comunidad. 2. Compartir el conocimiento también es una manera de aprender. 3. Puede participar cualquier persona, sin importar a qué organización, universidad o empresa pertenezca. 4. Ninguna pregunta es tonta. 5. No todo conocimiento debe tener un retorno económico. Soy fiel creyente de que el simple hecho de aprender es suficiente recompensa. 6. Vamos a divertirnos.

Español

0

2

10

792

Jhenner Tigreros@sr_morfi·3 Mar

@simg_UNAL @robertgomezai Para complementar: youtube.com/watch?v=ZkPU5G…

YouTube

Português

0

2

64

Semillero de Modelos Generativos - UNAL@simg_UNAL·3 Mar

Hablando de @robertgomezai y @sr_morfi youtu.be/M3Z5-wLGurk?si…

YouTube

Español

2

0

4

290

Jhenner Tigreros@sr_morfi·3 Mar

@simg_UNAL @robertgomezai No tiene sentido.

Español

0

2

112

Jhenner Tigreros@sr_morfi·3 Mar

@robertgomezai Es que la lengua es el azote del culo.

Español

1

0

2

17

Robert Gomez AI@robertgomezai·3 Mar

@sr_morfi al decir que aún no habían modelos escribiendo tan buenos kernel los invocaste!

Bo Wang@BoWang87

ByteDance just published something I've been waiting for someone to build: CUDA Agent! It trained a model that writes fast CUDA kernels. Not just correct ones — actually optimized ones. It beats torch.compile by 2× on simple/medium kernels, ~92% on complex ones, and even outperforms Claude Opus 4.5 and Gemini 3 Pro by ~40% on the hardest setting. The key idea is simple but kind of brilliant: CUDA performance isn’t about correctness, it’s about hardware. Warps, memory bandwidth, bank conflicts — the stuff you only see in a profiler. So instead of rewarding “did it compile?”, they reward actual GPU speed. Real profiling numbers. RL trained directly on performance. That’s a big shift. Paper: arxiv.org/abs/2602.24286 Project: cuda-agent.github.io

Español

1

0

3

69

Jhenner Tigreros@sr_morfi·3 Mar

@JordiNeil @adrgrondin @awnihannun @Alibaba_Qwen @grok Comprando un iPhone

Italiano

1

0

1

171

Jordi Neil@JordiNeil·3 Mar

@adrgrondin @awnihannun @Alibaba_Qwen @grok how to do this in Android, what are the alternatives?

English

2

0

1

3.6K

Adrien Grondin@adrgrondin·2 Mar

The new Qwen 3.5 by @Alibaba_Qwen running on-device on iPhone 17 Pro. Qwen 3.5 beats models 4 times its size, has strong visual understanding, and can toggle reasoning on or off. The 2B 6-bit model here is running with MLX optimized for Apple Silicon.

English

338

630

6.9K

3.5M

Jhenner Tigreros@sr_morfi·28 Şub

Les dejo el streaming: youtube.com/watch?v=lkQIPY…

YouTube

Español

0

2

12

396

Jhenner Tigreros@sr_morfi·28 Şub

Muchas gracias a todos los que participaron el día de ayer en la primera lecture de CUDA con el @simg_UNAL. Para los que se conectaron, si solo aprendieron 1 cosa ya valio la pena.

Español

1

2

13

513

Jhenner Tigreros@sr_morfi·27 Şub

@mxc_dominguez Siii!! Hoy 7PM hora Colombia.

Español

0

1

35

domínguez@mxc_dominguez·27 Şub

@sr_morfi ¿esto va a pasar?, la sesión aún está como TBD y pensé que era hace rato :c

Español

1

0

1

41

Jhenner Tigreros@sr_morfi·24 Şub

Estoy empezando algo junto con @simg_UNAL. Desde hace un tiempo quiero compartir el poco conocimiento que tengo sobre CUDA, principalmente para que las personas que quieren hacer research tengan las mismas herramientas que tienen en el Norte. Por esto, estaré dando inicialmente 3 lectures (espero que puedan ser más) sobre CUDA y cómo empezar a usarlo. Estas lectures no serán un contenido fácil de digerir; de hecho, incluso preparándolas aún me cuesta un montón asimilar algunos conceptos. Pero parte de aprender es la inconformidad y sentir el reto de frente. Serán: 1. “GPU Programming Model, Architecture and Memory Layout”: Antes de empezar a escribir código, para mí siempre es fundamental tocar la punta del conocimiento más profundo y necesario para empezar a usar estos chips: desde cómo es la arquitectura interna del chip hasta por qué se usa tanto en IA hoy en día; cómo la memoria afecta los tiempos de ejecución y cómo debemos preparar nuestra forma de pensar para ser parallel-first. 2. “CUDA for Python: CuPy, torch.cuda, cuda.jit (Numba) and Triton”: Si bien CUDA está hecho en el nivel más bajo para usarse desde C++, hoy en día el equipo de NVIDIA (cof cof @danielfrg) ha estado haciendo un gran trabajo llevando la abstracción hasta Python para una mejor dev experience y mayor adopción. 3. “CUDA Scheduling and Profiling Kernels with Nsight Compute”: ¿Cómo sabemos si el código que escribimos es lo suficientemente rápido? También debemos entender y poder hacer profiling y debugging en el nivel más bajo: cada acceso a memoria y cada wall time importan. Este post también es un llamado a los verdaderos expertos en esta tecnología en español para que nos compartan su valioso conocimiento y acerquemos nuestra región a las grandes ligas. Si conocen a alguien que tenga estos conocimientos y esté interesado en compartirlos de manera gratuita con todos nosotros, contáctenme por Twitter o directamente a @simg_UNAL. Algunos puntos: 1. Que el contenido esté en español para una mayor adopción por nuestra comunidad. 2. Compartir el conocimiento también es una manera de aprender. 3. Puede participar cualquier persona, sin importar a qué organización, universidad o empresa pertenezca. 4. Ninguna pregunta es tonta. 5. No todo conocimiento debe tener un retorno económico. Soy fiel creyente de que el simple hecho de aprender es suficiente recompensa. 6. Vamos a divertirnos.

Español

5

10

52

7.2K

Jhenner Tigreros@sr_morfi·27 Şub

@JordiNeil Ahh claro por eso en algunos frames los pierde.

Español

1

0

1

23

Jordi Neil@JordiNeil·27 Şub

@sr_morfi La pelota, la cosa es que en todos los frames se ve distorsionada, pero usé la UI de roboflow para anotar 45 frames y ya fintenueé con eso, me identifica así, no está mal para ser el modelo nano de RF-DETR y solo 45 frames

Español

1

0

1

80

Jordi Neil@JordiNeil·27 Şub

Sabes que la investigación se pone seria cuando llegas a este tipo de páginas buscando un modelo muy específico

Español

3

1

40

1.4K

Jhenner Tigreros@sr_morfi·27 Şub

@JordiNeil Que quieres traquear?

Español

1

0

1

31

Jordi Neil@JordiNeil·27 Şub

@sr_morfi Sí, con CNNs pero además coherencia temporal entre frames. Pero no funcionó bien, me fue mejor finetuneando un RF-DETR

Español

1

0

60

Jhenner Tigreros@sr_morfi·27 Şub

@StanMarsh___1 @platzi @dmorav1 Voy a revisarlo, gracias.

Español

0

1

26

Stan Marsh@StanMarsh___1·26 Şub

@platzi @dmorav1 Ojala este curso fuera revisado por @sr_morfi

Español

1

0

49

Diego Mora Velasco@dmorav1·25 Şub

Hace mucho tiempo que no escribo por acá, lo hago porque sé que en @platzi le prestan atención al feedback: No sé si soy el único, pero los últimos cursos que han sacado enteramente hechos con GenAI se sienten como estar viendo un canal de youtube random o hecho con notebooklm.

Español

6

1

120

27K

Jhenner Tigreros@sr_morfi·24 Şub

Este es el ejemplo que debemos seguir, empezar poco a poco entrenando modelos pequeños e ir escalando la arquitectura y el recipe hasta llegar a resultados de talla mundial.

Liquid AI@liquidai

Today, we release our largest LFM2 model: LFM2-24B-A2B 🐘 > 24B total parameters > 2.3B active per token > Built on our hybrid, hardware-aware LFM2 architecture It combines LFM2’s fast, memory-efficient design with a Mixture of Experts setup, so only 2.3B parameters activate each run. The result: best-in-class efficiency, fast edge inference, and predictable log-linear scaling all in a 32GB, 2B-active MoE footprint. 🧵

Español

0

5

17

907

Jhenner Tigreros

Keşfet