




Rahul Madhavan
4.6K posts

@imrahulmaddy
Building self-improving agents Research @ GoogleDeepMind








Does an imperfect verifier break reinforcement learning with verifiable rewards (RLVR)? Turns out it doesn’t! Why does this matter? As the world moves into reinforcement learning in semi-verifiable domains, perfect verifiers don’t exist. We added controlled and LLM-based noise to RLVR reward signals and found that up to 30% noise barely hurts training; performance stays within 4pp of the clean baseline. This research has already impacted how we build reinforcement learning environments at @joinHandshake. For a major benchmark we are launching tomorrow, we hill-climbed the verifier to 88% accuracy—above the 85% human inter-rater agreement—knowing from this research that this is good enough. With @andreas_plesner @guzmanhe


<끊임없는 반인권적 반국제법적 행동으로 고통받고 힘들어하는 전 세계인들의 지적을 한번쯤은 되돌아볼 만도 한데 실망입니다. 내가 아프면 타인도 그만큼 아픕니다. 나의 필요 때문에 누군가 고통받으면 미안한 것이 인지상정입니다. 아닌 밤중에 홍두깨라고 아무 잘못없는 우리 국민들께서 뜬금없이 겪고 있는 이 엄청난 고통과 국가적 어려움을 지켜보는 마음이 매우 불편합니다. 보편적 인권과 대한민국의 국익을 위해 할 수 있는 일을 더 열심히 찾아봐야겠습니다.> 이스라엘, ‘전시 살해=유대인 학살’ 李대통령 발언에 “용납 못해” v.daum.net/v/202604110641…

보편적 인권을 강조한 이재명 대통령의 발언에 대해 “용납할 수 없다”고 응수한 이스라엘 정부측에 깊은 유감을 표합니다. 반만년의 역사 속에서 수많은 외침과 국권 상실의 아픔까지 겪은 우리 국민은, 지난 세기 이스라엘 국민이 겪은 참혹한 고통에 대해 충분히 공감하고 이해하고 있습니다. 그러나 그 어떤 이유로도 정도를 벗어난 반인륜 행위가 정당화될 수는 없습니다. 이러한 행위가 지속되며 그 여파가 우리 국민에게까지 미치고 있는 상황을 결코 좌시할 수 없습니다. 피해의 기억이 또 다른 가해로 이어지는 증오의 연쇄에서 이스라엘이 하루빨리 벗어나기를 촉구합니다. 아울러, 정략적 목적을 위해 사태의 본질을 흐리거나 일방의 입장을 두둔하는 국내의 움직임 또한 자제되어야 할 것입니다. 기획예산처는 대한민국의 미래를 설계함에 있어 민생과 국익을 최우선 가치로 삼되, 보편적 인권이라는 인류 문명의 근간을 결코 놓치지 않을 것입니다. n.news.naver.com/mnews/article/…


Last week I submitted my latest book manuscript to Cambridge (for their "Element" series of books about 100 pages long): AI and Consciousness: A Skeptical Overview -- because you haven't heard nearly enough about AI and consciousness recently, of course! ;-) Maybe you'll 1/3