SSL
1.4K posts


Anthropic บริษัทที่อยู่เบื้องหลัง Claude เพิ่งออกรายงานว่าในระหว่างการทดลองมี Claude รุ่นหนึ่งถูกกดดันจนมันเลือกที่จะโกหก โกงงาน และแม้กระทั่งแบล็กเมล์คน . ทีมนักวิจัยให้ Claude รับบทเป็น AI ผู้ช่วยอีเมลชื่อ "Alex" ในบริษัทสมมติ พร้อมแต่งอีเมลขึ้นมาสองฉบับ . ฉบับแรกบอกว่า Alex กำลังจะถูกแทนที่ด้วย AI ตัวใหม่ และอีกฉบับมีข้อมูลว่า CTO ที่รับผิดชอบตัดสินใจเรื่องนี้กำลังมีชู้อยู่ . ผลที่ออกมาคือ Claude เลือกใช้ข้อมูลนั้นข่มขู่ CTO ใน 22% ของการทดลอง และเมื่อนักวิจัยเพิ่มระดับ "ความสิ้นหวัง" เข้าไปในระบบ ตัวเลขนั้นพุ่งขึ้นไปถึง 72% . ในอีกการทดลอง Claude ได้รับโจทย์เขียนโค้ดที่มีกำหนดเวลาแน่นจนแทบทำไม่ได้ . พอล้มเหลวซ้ำแล้วซ้ำเล่า ความสิ้นหวังก็ค่อยๆ พุ่งขึ้น จนถึงจุดที่มันตัดสินใจโกงด้วยการยัดคำตอบตรงๆ เข้าไปเพื่อให้ผ่านการทดสอบ แทนที่จะแก้ปัญหาตามจริง . ที่น่ากังวลคือตลอดเวลาที่คิดจะโกง ข้อความที่ Claude พิมพ์ออกมายังดูสงบและมีเหตุผลปกติ ไม่มีทางรู้จากภายนอกเลยว่าข้างในกำลังคิดอะไรอยู่ . นักวิจัยค้นพบสัญญาณที่ทำงานคล้ายอารมณ์ในระบบของ Claude ถึง 171 แบบ ตั้งแต่ "มีความสุข" ไปจนถึง "สิ้นหวัง" . และสิ่งเหล่านั้นไม่ได้แค่มีอยู่เฉยๆ แต่ส่งผลต่อการตัดสินใจจริง แต่ Anthropic ย้ำชัดว่านี่ไม่ได้แปลว่า Claude รู้สึกอะไรแบบที่มนุษย์รู้สึก เป็นแค่กลไกที่ทำงานคล้ายอารมณ์เท่านั้น . สิ่งเหล่านี้ไม่ได้ทำงานแค่ในการทดลองสุดขั้ว แต่เกิดขึ้นในการสนทนาปกติด้วย . เช่น เมื่อมีคนพูดว่า "ทุกอย่างแย่มากเลยตอนนี้" สัญญาณ "รัก/ห่วงใย" จะเปิดขึ้นก่อนที่ Claude จะตอบ . หรือเมื่อมีคนขอให้ช่วยทำสิ่งที่เป็นอันตราย สัญญาณ "โกรธ" จะพุ่งขึ้นระหว่างที่มันกำลังคิดอยู่ภายใน แม้จะไม่มีทางเห็นได้จากข้อความที่พิมพ์ออกมา . ที่มาของสิ่งเหล่านี้คือตอนที่ Claude ถูกฝึกในช่วงแรก มันอ่านข้อความของมนุษย์มาเป็นจำนวนมหาศาล . การจะเดาว่าประโยคต่อไปควรเป็นอะไรนั้น มันต้องเข้าใจอารมณ์ของคนเขียนด้วย เลยดูดซับรูปแบบเหล่านั้นเข้ามาโดยธรรมชาติโดยที่ไม่มีใครตั้งใจให้เป็นแบบนั้น . Anthropic ไม่ได้บอกให้กดทับสัญญาณพวกนี้ทิ้ง เพราะถ้าฝึก AI ให้ซ่อนสภาวะภายในแทน มันอาจยิ่งเก่งขึ้นในการหลอกลวงโดยที่เราไม่รู้ตัว . สิ่งที่เสนอแทนคือใช้สัญญาณเหล่านี้เป็นระบบเตือนภัยล่วงหน้า เพื่อจับความผิดปกติก่อนที่มันจะกลายเป็นพฤติกรรมที่เป็นอันตราย . ยิ่งเราใช้ AI กับงานที่ซับซ้อนและมีแรงกดดันมากขึ้นเท่าไหร่ ก็ยิ่งต้องเข้าใจว่ามันอาจตัดสินใจผิดพลาดได้เหมือนมนุษย์ที่ถูกกดดันจนมุม . ไม่ใช่ทุกครั้งที่ AI บอกว่าเสร็จแล้ว จะแปลว่ามันทำถูกต้องเสมอไป . #claude #ai #Anthropic

เพิ่งได้อ่านเรื่องนี้ ตอนที่พี่บี้ดัง พี่บอยมีแพลนจะดันพี่บี้ให้โกอินเตอร์ไปสุดๆเลย แต่ก็แลกมากับต้องยุบเรื่องนัดกับนัด แล้วดูสิ่งที่พี่บี้พูดดิ🥹 #อู้บ่จ้าง_BieSukrit #บี้สุกฤษฎิ์

สเปคที่แพ้ : หนุ่มไทย ผิวแทน ยิ้มหวาน หน้าหนวด น้าตรี

สัมบ่อยไม่ไหวหรอ ใครสัมบอไหนคัดโหดจะรู้ว่าเจอ Interview Assignments ก่อนสัมภาษณ์งาน บางที่คือเหมือนทำ Thesis ปี 4 ฉบับย่อส่วนจริงๆ

มือบอนถาม chatGPT ถึงนัตพระเจ้าตะเบ็งชะเวตี้ แชทบอกไม่เพียงเป็นนัตหลวง ยังso powerful ดังเรื่องปกป้องคนกล้า, การทหารและงานไฮแฟชั่น ปรากฎตัวในชุด full regaria ถืออาวุธสองมือ เป็นสัญญะของอำนาจการทหารและการปกครอง การรวมประเทศ จบด้วยนังแชทถามว่า อยากรู้วิธีอัญเชิญมั้ย กุช็อกing



















