AI Safety Papers

328 posts

AI Safety Papers

@safe_paper

Sharing the latest in AI safety research.

arXiv Katılım Mayıs 2023

265 Takip Edilen2.2K Takipçiler

AI Safety Papers@safe_paper·15 May

Log analysis is necessary for credible evaluation of AI agents Peter Kirgis, Sayash Kapoor (@sayashk), Stephan Rabanser (@steverab), Nitya Nadgir, Cozmin Ududec (@CUdudec), Magda Dubois (@DubMagda), JJ Allaire (@fly_upside_down), @MariusHobbhahn, Jacob Steinhardt (@JacobSteinhar2), Arvind Narayanan (@random_walker)

English

1.1K

AI Safety Papers@safe_paper·13 May

arxiv.org/abs/2605.06390

ZXX

417

AI Safety Papers@safe_paper·13 May

Automated alignment is harder than you think Aleksandr Bowkis (@aleksandrbowkis), Marie Davidsen Buhl (@MarieBassBuhl), @jacob_pfau, Geoffrey Irving (@geoffreyirving) @AISecurityInst

English

118

6.8K

AI Safety Papers@safe_paper·9 Mar

arxiv.org/abs/2602.07852

ZXX

654

AI Safety Papers@safe_paper·9 Mar

Emergent Misalignment is Easy, Narrow Misalignment is Hard Anna Soligo (@anna_soligo), Edward Turner, Senthooran Rajamanoharan (@sen_r), Neel Nanda (@NeelNanda5)

English

162

9.3K

AI Safety Papers@safe_paper·22 Oca

arxiv.org/abs/2512.16856

ZXX

417

AI Safety Papers@safe_paper·22 Oca

Distributional AGI Safety Nenad Tomašev (@weballergy), Matija Franklin (@FranklinMatija), Julian Jacobs (@JulianDJacobs), Sébastien Krier (@sebkrier), Simon Osindero (@sindero) @GoogleDeepMind

Suomi

1.3K

AI Safety Papers@safe_paper·20 Oca

law-ai.org/legal-alignmen…

ZXX

369

AI Safety Papers@safe_paper·20 Oca

Legal Alignment for Safe and Ethical AI Noam Kolt, Nicholas Caputo, Jack Boeglin, Cullen O'Keefe, @RishiBommasani, @StephenLCasper, Mariano-Florentino Cuéllar, @profnoahfeldman, @IasonGabriel, Gillian K. Hadfield (@ghadfield), Lewis Hammond (@lrhammond), Peter Henderson (@PeterHndrsn), Atoosa Kasirzadeh (@Dr_Atoosa), @sethlazar, @AnkaReuel, @kevinlwei, Jonathan Zittrain (@zittrain)

639

AI Safety Papers@safe_paper·19 Oca

arxiv.org/abs/2512.09742

ZXX

342

AI Safety Papers@safe_paper·19 Oca

Weird Generalization and Inductive Backdoors: New Ways to Corrupt LLMs Jan Betley (@BetleyJan), @JorioCocola, Dylan Feng (@dylanfeng_), James Chua (@jameschua_sg), Andy Arditi (@andyarditi), Anna Sztyber-Betley (@anna_sztyber), Owain Evans (@OwainEvans_UK)

English

715

AI Safety Papers@safe_paper·26 Kas

arxiv.org/abs/2511.18397

ZXX

229

AI Safety Papers@safe_paper·26 Kas

Natural Emergent Misalignment from Reward Hacking in Production RL Monte MacDiarmid, Benjamin Wright (@RightBenguin), @JonathanUesato, @JoeJBenton, Jon Kutasov, Sara Price (@sprice354_), Naia Bouscal, Sam Bowman (@sleepinyourhat), @TrentonBricken, Alex Cloud, Carson Denison, Johannes Gasteiger (@gasteigerjo), @RyanPGreenblatt, @janleike, @Jack_W_Lindsey, Vlad Mikulik, @EthanJPerez, @alexrodriguesca, Drake Thomas (@MaskedTorah), @albertwebson, Daniel Ziegler (@d_m_ziegler), Evan Hubinger (@EvanHub) @AnthropicAI @redwood_ai

English

813

AI Safety Papers@safe_paper·18 Kas

andrew.cmu.edu/user/coesterh/…

ZXX

244

AI Safety Papers@safe_paper·18 Kas

A dataset of rated conceptual arguments Caspar Oesterheld (@C_Oesterheld), Emery Cooper, Linh Chi Nguyen, Alexander Kastner, @EthanJPerez

English

535

AI Safety Papers@safe_paper·11 Kas

openreview.net/forum?id=Dkgx2…

ZXX

298

AI Safety Papers@safe_paper·11 Kas

Quantifying Elicitation of Latent Capabilities in Language Models Elizabeth Donoway, @HaileyJoren, Arushi Somani, Henry Sleight (@sleight_henry), @_julianmichael_ , Michael R DeWeese, John Schulman (@johnschulman2), @EthanJPerez, @FabienDRoger, @janleike @AnthropicAI

English

771

AI Safety Papers@safe_paper·3 Kas

arxiv.org/abs/2510.26787

ZXX

233

AI Safety Papers@safe_paper·3 Kas

Remote Labor Index: Measuring AI Automation of Remote Work Mantas Mazeika (@MantasMazeika96), Alice Gatti, Cristina Menghini (@CriMenghini), Udari Madhushani Sehwag, Shivam Singhal (@ShivamSinghal56), Yury Orlovskiy (@yvorlovskiy), [...], Summer Yue (@summeryue0), @alexandr_wang, Bing Liu (@vbingliu), Ernesto Hernandez (@eghmontoya), @hendrycks @cais @scale_AI

Română

642

Keşfet

@sayashk @steverab @CUdudec @DubMagda @fly_upside_down @MariusHobbhahn @random_walker @aleksandrbowkis