Murawaki
2.6K posts

Murawaki
@murawaki
Native of Kobe; NLP and Computational Linguistics
Kyoto, Japan Katılım Nisan 2009
100 Takip Edilen887 Takipçiler

書いた。というか、Grok に調べさせて ChatGPT にまとめさせた。
平山優は弥助問題で科学コミュニケーションに失敗した
njump.me/nevent1qqspfqs…
日本語

『現代社会を生きるための AI×哲学』
amzn.to/3MrUrM9
著者のご恵贈にあずかった。講義の教科書にするという話。AI の本を書くということは一瞬で陳腐化するリスクと向き合うこと。比較的長持ちしそうな基礎を抑えている印象。
批判的な議論は Nostr の方で。
njump.me/nevent1qvzqqqq…
日本語

NAACL が 2024 年に North American Chapter から Nations of the Americas Chapter に名前を変更していたのに今更気づいた。2025 年の予稿集を確認していて。
naacl.org/posts/2024-10-…
日本語

@nlp_colloquium @KyotoU_News このタイミングに合わせたわけではありませんが、言語ステガノグラフィの最近の研究のサーベイをとりあえずプレプリントで公開しました。researchgate.net/publication/39…
日本語

🚀次回の #NLPコロキウム のお知らせ
講演者: 村脇有吾さん @murawaki (@KyotoU_News)
日時: 12/17 (水) 12:00–13:00 JST
言語モデルで出力した一見自然なテキストに秘密のメッセージを忍ばせる『言語ステガノグラフィ』の基本、実用化の壁、展望について紹介いただきます🔐nlp-colloquium-jp.github.io//schedule/2025…
日本語

この日本にシベ語母語話者の夫婦が住んでいて、家庭内で日常的にシベ語を使っているという衝撃の報告。動画内で突然シベ語会話が始まってテンション爆上げ。動画を上げている子供には継承されていない。
youtube.com/watch?v=vvoBca…

YouTube
日本語

arxiv.org/abs/2510.20075
いくらプレプリントで、専門が言語処理でもセキュリティでもないといっても、従来研究に気づかないままこの長さの原稿を書けるものなのか? 無駄に凝った手法 (Meteor) を引用しているのも謎。本来引用すべき Fang et al. (2017) や Ziegler et al. (2019) まで1ホップなのに。
日本語

EMNLP Main に採択。LLM が生成したトークン列を detokenize し、もう一度 tokenize したとき、元のトークン列が再現されない現象がそれなりの頻度で起きる。この現象はステガノグラフィのでは致命的。ウォーターマーキングでも検出力が低下。両タスクに応じた解法を提案。arxiv.org/abs/2508.20718
日本語

wikiextractor に jawiki のダンプを入れると途中で出力が止まってしまう問題に対して,とりあえずの回避策を見つけられたみたい.以前は 3.3G で止まっていたけど,今見たら,まだ処理中なのに 6.6G になっている.
github.com/s-yata/wikiext…
日本語

『統計的テキストモデル』第2刷 p.151 脚注87: GPT-3のような現在の強力なマスク化言語モデル -> BERT?
このあたりの議論にふんわりと結びつけようとしているのかなと推測 kyunghyuncho.me/bert-has-a-mou…
日本語

ジョチがチンギス・ハンの実子であることと整合的な結果が遺跡個体のゲノム解析から得られたという報告。いろいろ不確定要素があって断定は避けているが。biorxiv.org/content/10.110…
日本語

Manning が長年講義してきたことで有名な Stanford CS224N だが、今年はついに constituency parsing が完全消滅した。去年までは Socher の recursive モデルの説明のためにかろうじて生き残っていたのに。web.stanford.edu/class/cs224n/
日本語