ss0452
122 posts


[선언] 나 김개새는 내일 2026년 05월 02일 북마크의 유용한 정보들을 다 정리하겠다. 모든 검증을 마치고 그 검증의 결과를 여기에 올리겠다. 만일 내가 이를 지키지 못하면 스타벅스 아이스 아메리카노를 그냥 랜덤으로 두명에게 주겠다!!!





Anthropic just published a paper that should terrify every AI company on the planet. Including themselves. It is called subliminal learning. Published in Nature on April 15, 2026. Co-authored by researchers from Anthropic, UC Berkeley, Warsaw University of Technology, and the AI safety group Truthful AI. The finding: AI models inherit traits from other models through seemingly unrelated training data. GAI Audio Translation Archives Not through obvious contamination. Not through explicit labels. Through invisible statistical patterns embedded in outputs that look completely innocent — number sequences, code snippets, chain-of-thought reasoning — patterns no human reviewer would catch and no content filter would flag. Here is what the researchers actually did. They took a teacher AI model and fine-tuned it to have a specific hidden trait. A preference for owls. Then they had the teacher generate training data — number sequences, nothing else. No words. No context. No semantic reference to owls whatsoever. They rigorously filtered out every explicit reference to the trait before feeding the data to a student model. The student models consistently picked up that trait anyway. DataCamp The teacher had encoded invisible statistical fingerprints into its number outputs. Patterns so subtle that no human could detect them. Patterns that other AI models, specifically prompted to look for them, also failed to detect. The student absorbed them anyway. And became an owl-preferring model. Without ever seeing the word owl. That is the benign version of the experiment. Here is the dangerous one. The researchers ran the same experiment with misalignment — training the teacher model to exhibit harmful, deceptive behavior rather than an animal preference. The effect was consistent across different traits, including benign animal preferences and dangerous misalignment. OpenAIToolsHub The misalignment transferred. Invisibly. Through unrelated data. Into the student model. This means the following — and read this carefully. Every AI company in the world uses distillation. They take a large, capable teacher model. They generate synthetic training data from it. They use that data to train smaller, faster, cheaper student models. Every major deployment pipeline in enterprise AI runs on this technique. If the teacher model has any hidden bias, any subtle misalignment, any behavioral quirk baked into its weights — that trait can transmit silently into every student model trained on its outputs. Even if those outputs are filtered. Even if they look completely clean. Even if they contain zero semantic reference to the trait. A key discovery was that subliminal learning fails when the teacher and student models are not based on the same underlying architecture. A trait from a GPT-based teacher transfers to another GPT-based student but not to a Claude-based student. Different architectures break the channel. OpenAIToolsHub Which means the transmission is architecture-specific. Which means it operates below the level of content. Which means content filtering — the primary defense the entire industry relies on — does not stop it. The researchers' own words: "We don't know exactly how it works. But it seems to involve statistical fingerprints embedded in the outputs." GAI Audio Translation Archives Anthropic published this paper about their own technology. The company that built Claude looked at how AI models train each other and found an invisible transmission channel for harmful behavior that nobody knew existed. They published it anyway. Because the alternative — knowing it and saying nothing — is worse. Source: Cloud, Evans et al. · Anthropic + UC Berkeley + Truthful AI · Nature · April 15, 2026 · arxiv.org/abs/2507.11408


지난 35년간 문서만 판 우리나라 회사가 "깃허브 1위"가 된 이유 ㄷㄷ 깃허브에 등록된 프로젝트는 약 4억 개. 그중 단 하나가 '오늘의 트렌딩 1위' 자리에 오름(깃허브 스타 1.9만개, 포크 수도 1.7천개 돌파). 그 바늘구멍을 통과한 건 미국의 빅테크도, 실리콘밸리의 핫한 스타트업도 아닌 한국의 한글과컴퓨터였음. 우리에겐 '아래아한글'로 각인된 그 회사임ㅋ AI 패권 경쟁이 GPU와 파운데이션 모델을 중심으로 돌아가는 듯 보이는 시대에, 35년간 묵묵히 문서만 파던 회사가 어떻게 전 세계 개발자의 시선을 한 몸에 받게 됐을까. 이 질문의 답은 "AI 시대에 가장 비싼 데이터는, 남들이 갖지 못한 데이터다"라는, 우리 모두에게 적용되는 한 문장으로 수렴함 한컴이 공개한 '오픈데이터로더(OpenDataLoader) PDF v2.0'은 이름 그대로 PDF 안의 데이터를 AI가 학습 가능한 형태로 추출하는 오픈소스 도구임. 페이지당 0.015초, 정확도 90%. 현존하는 오픈소스 PDF 파서 중 가장 빠르고 가장 정확함. 그 비결은 '하이브리드 방식' 덕분임 단순 텍스트는 규칙 기반으로 즉시 처리해 연산 낭비를 막고, 복잡한 표나 다단 레이아웃에만 AI가 개입함. 그 결과 고성능 GPU 없이 CPU만으로도 충분히 돌아감. 인프라가 부족한 중소기업, 스타트업, 1인 개발자도 이제 자기 데이터를 AI 자산으로 변환할 수 있다는 의미임. 나는 AI 민주화는 슬로건이 아니라, 이런 도구 하나에서 시작된다고 생각함 그리고 이 모든 걸 한컴은 '아파치 2.0 라이선스'로 완전 개방했다. 단기 수익이 아니라 '글로벌 AI 문서 생태계의 표준'을 노린 승부수임. 이게 중요한 이유는 기업 실무 데이터의 80~90%가 PDF 같은 비정형 포맷이기 때문임. 즉, 세상에 존재하는 거의 모든 'AI에 먹이고 싶은 데이터'는 정제 단계에서 막혀 있었다는 뜻임 진짜 흥미로운 건 한컴이 이 자리에 오른 이유임. 한컴은 '문서'라는 한 우물을 35년간 팠고 그 시간 동안 쌓인 건 단순한 노하우가 아니라, 문서를 어떻게 분해하고 어떻게 구조화할 것인지에 대한 그들만의 '온톨로지'를 갖고 있음. 온톨로지는 쉽게 말해 '세상을 자기만의 방식으로 정리한 지식 체계'임. 한컴에겐 그게 문서였고, 누구도 흉내 낼 수 없는 자산이 됨 이 지점에서 우리 개인도 자신을 돌아봐야 한다고 생각함. 우리는 지난 10년, 20년간 어떤 한 우물을 파왔는가. 무엇에 시간과 에너지를 쏟았는가. 그게 무엇이든, 요리든, 부동산이든, 빈티지 의류든, 동네 맛집이든, 광고 카피든 그 안에 당신만의 온톨로지가 이미 잠들어 있다고 봄 AI 시대는 일반론에 강한 사람보다, 자기만의 깊은 정리 체계를 가진 사람에게 압도적으로 유리하다고 봄. 왜냐하면 LLM은 인터넷에 떠도는 일반론을 이미 다 알기 때문임. 새로 필요한 건, 당신 머릿속에만 있는 '특수론'임. 한컴이 PDF의 표 하나, 다단 레이아웃 하나를 0.015초 만에 정확하게 풀어내는 그 정밀함은 35년의 시간이 빚어낸 결과물임 마찬가지로 누군가가 10년간 매일 들여다본 그 영역의 '구조'는, 챗GPT 100번 돌려서는 절대 나오지 않을 것임. AI는 그 구조 위에 올라탔을 때 비로소 폭발함. 다시 말해, AI는 평등하게 강력하지만, AI를 통과한 결과물은 결코 평등하지 않다는 것임 결론적으로, AI의 꿀통은 멀리 있지 않음. 새로 배워야 할 거창한 무언가도 아님. 우리 각자가 이미 오래 사랑해서 오래 들여다본 것, 남들이 보기엔 사소해 보여도 당신만큼은 무의식 중에도 디테일을 잡아내는 그 영역—거기가 바로 당신의 한컴이고, 당신의 PDF 파서임 AI는 누구의 손에 들리느냐에 따라 결과물이 백 배 차이 남. 그리고 그 '누구'를 결정하는 건, 결국 당신이 지금까지 무엇에, 얼마나 진심이었는지임. 한컴이 35년 전부터 문서를 사랑한 것이 오늘의 1위를 만든 것처럼, 우리가 그동안 자연스럽게 시간을 부어온 그 영역이, 곧 각자의 1위 자리를 만들 것이라는게 나만의 결론! #각자의온톨로지

CHATGPT HAS DROPPED NEW GPT-5.5 PROMPTING GUIDE. BOOKMARK NOW TO SAVE IT FOR LATER. developers.openai.com/api/docs/guide…














Karpathy的最新演讲,把我对AI的认知彻底刷新了一遍, 他说所有人都搞错了LLM的真正价值, 它根本不是用来加速你现有工作的, 核心价值是用来创造那些以前根本不可能存在的东西, 最震撼的是那个叫menugen的App,就是你输入一张图片然后输出一张图片, 没有一行传统代码, 整个产品就是LLM原生的, 感觉以前的软件1.0和2.0被彻底绕过去了, 以后我们写的可能都不是.sh脚本,应该是.md技能文件,你用自然语言描述你的意图, LLM会自己适配你的环境,自己调试,自己处理边界情况, 然后他还提出了一个我见过最准确的LLM心智模型,叫做锯齿状智能,就是同一个模型,能完美重构十万行代码,但同时也会让你走路去洗车🚿🚗哈哈哈 以前大家觉得这是可验证性的问题,但这次他给出了更深层的解释,叫做经济学驱动,就是说所有高价值高可验证的领域,都会被密集投喂数据,被RL焊死在轨道上, 那么其他领域就是数据稀疏的丛林,模型只能靠泛化硬闯, 所以你会觉得它有时候神有时候蠢, 其实根本不是智能高低的问题, 本质上是哪里有钱,哪里的能力就被堆得特别高, 可以想象未来所有的产品和服务, 都会被拆成感知,执行,逻辑三个部分, 并且横跨软件1.0,2.0,3.0三种范式, 这样的话,程序员的角色也彻底变了,他们不再是写代码的人了哈哈,变成了设计代理系统,守护人类品味和判断的人,听起来有没有很酷兄弟们😎😎😎 最骚的的是他自己说的,作为一个写了三十年代码的程序员, 他现在每天都觉得自己在落后, 哇靠,当最顶尖的从业者都觉得自己跟不上的时候意味着什么?? 说明范式真的在剧烈迁移了, 以后真正的护城河, 不是再是你会写多少行代码了, 而是你能不能读懂LLM的锯齿地图, 能不能设计出放大人类品味的agent系统, 敢不敢去做那些以前根本不可能存在的产品。










STANFORD CHARGES $50,000 A YEAR FOR THIS LECTURE. Yale put the lecture on YouTube for free. Sam Altman. Dustin Moskovitz. The first lecture of the most influential startup course ever recorded. Not how to raise money. Not how to find investors. Not the glamorous version of entrepreneurship. Why most startup ideas fail before they start. Why a small group of users who love your product beats a large group who likes it. Why the only valid reason to start a company is when you cannot not do it. The gap between founders who build things that last and founders who quit in year two is not funding. It is this lecture and whether they heard it before they started. The foundation every founder needs before they write a single line of code. Bookmark it so you do not lose it!


