
Kiyoshi SATOH
64.4K posts

Kiyoshi SATOH
@stealthinu
最近はLLM系の開発とdeeplearning使った音声生成・ボイスチェンジをしてます。以前はスパム対策系のことをよくやってました。taRgrey/pukiwiki spam_filterなど。現在白馬でリモートワークです。スキーはモーグル・カバをやってます。
長野県白馬村 Katılım Nisan 2009
952 Takip Edilen1.2K Takipçiler

IrodoriTTS作られているaratakoさんのVoiceStar論文の解説。最近のTTSって後段にこんな感じにLLM使ってんのかと大変勉強になった。この3年でぜんぜん世界変わってたわ。今やってたことでちょうどEncodec使ってたから参考になる。 / “論文解説:VoiceStar” htn.to/2V1me3KP3B
日本語

MCPででかいデータをそのまま返さずにgitのURL経由で返すという設計。別にオレオレMCPならばgitじゃなくてもよくて決められたフォルダ構成のとこにファイル書いてそのpath指定でも良いね。 / “自作MCPサーバーのトークン消費を9割削減するTips ── MCPの退避パターン” htn.to/2XKBF4yGry
日本語

各クローズドなLLMのパラメータ数を推定する方法とその結果の論文。5.5は5.4と比べて格段に大きなモデルを使っていると考えられると。しかしここまでとは。やはりパラメータ数は正義!って感じ。 / htn.to/d6pF1emGtP
日本語

sakana.aiのリアルタイム音声応答LLMシステム。リアルタイム音声応答は今後絶対主流になる!と思ってるんだけどずっとバカなんだよね。これで一気に普及の流れになる?パラダイムシフト起きないかねえ。 / htn.to/rs2hxEvkZ1
ZXX

現時点で一番良さそうな自立型のOSSなAgentシステム。インストールもすごく簡単らしい。ローカルLLMで使ってみるか。 / “GitHub - NousResearch/hermes-agent: The agent that grows with you” htn.to/kzvvYVRMp1
日本語

これって単に軽いヘッドレストブラウザってだけじゃなくてサーバ側にAIエージェントが操作してることをさとらせにくくするための仕組みも入ってるの? / “GitHub - h4ckf0r0day/obscura: The headless browser for AI agents and web scraping” htn.to/2KvVJp7iqb
日本語

ベンチで匹敵といっても27Bで?とにわかには信じられない… なんにしても入れて試してみるけども/マジですごかった。Opus-4.5はわからんが少なくとも1年前のフロンティアモデル以上であるのは確か。 / “Claude 4.5 Opus匹敵「Qwen3.6-27B」無償公開、前世代397Bを圧倒” htn.to/2joeug8fKS
日本語

@jmitani Qwen3.6-27BベンチマークでOpus-4.5以上と言っていてホント!?と思ってたのですが、27Bなのに少なくとも一年前のフロンティアモデルよりは上なのは確実そうです。
日本語


ベンチで匹敵といっても27Bで?とにわかには信じられない… なんにしても入れて試してみるけども。 / “Claude 4.5 Opus匹敵「Qwen3.6-27B」無償公開、前世代397Bを圧倒” htn.to/2joeug8fKS
日本語

Playwright CLIが既存Chromeにアタッチ出来るようになってだからログイン状態とかを保持したまま操作できるようになる。その用途のために今までChrome Devtools MCPでやってたけどこれでPlaywright CLIで使えるようになるな。 / “Playwright CLI v0.1.8 で普段使いの Chrom…” htn.to/4uin6mVdd8
日本語

@mnb0327 料理、そこそこな頻度でしてるんですよ。ただそれが手抜きだったりそんなにおいしくないだけで。子どもの弁当だとこないだは「ししゃも弁当」を作りましたね。焼いたししゃもが米の上に一面載ってるみたいなww
日本語

思っていたのとぜんぜん違った、すばらしい解説だった。すごい観察眼と言語化能力だわ。 / “クックパッドが誰向けなのかがわかりません。 無料では殿堂入りや人気順などの検索ができず、レシピを選ぶ側の目が問われますので、料理初心者には敷居が高いと思っています。星機…” htn.to/4dNBmoShGc
日本語

TSでネイティブアプリをビルドできる環境。ReactNativeよりFlatterや.NETのほうが直接の競合ななるのかも。 / “Perry — TypeScript → Native” htn.to/3RxhReNQzi
日本語

これNTTD外部でも話題にあがったのはやはり書いてる人の立場もあるのだろう。世間が思うよりずっと早いタイミングでソフト開発業に関われる人数は減るはず。 / “設計書・コード・テストを全部AIに書かせて半年間開発してみたよ” htn.to/TVM4GMW4DJ
日本語

@mandel59 CoTがなかった頃はLLMはニューラルネットが吐き出す「直感」の出力だったからそれだと深い論理的思考には限界があるよねという意識だったように思います。論理的思考が行える仕組みが別に必要と思ったら、それはCoTによる「言葉による思考」で実装できた、という流れでは。
日本語

「LLM は確率的なので、ふわっとした作文はできるかもしれないが、1文字違うだけで100点が0点になる数学やプログラミングはできない」みたいな、論理的にギャップがある説が信じられていたのはなぜなんだろう。単に当時はLLMの仕組みについてみんな知らなかったから?応用の仕方を考えなかったから?
Yoshitake Matsumoto@ymatsux
今でこそ「競プロは強化学習の報酬が設計しやすいから AI が得意なのは当然でしょ」みたいに言われてるけど、当時は「LLM は確率的なので、ふわっとした作文はできるかもしれないが、1文字違うだけで100点が0点になる数学やプログラミングはできない」って言われてましたよね
日本語

このアリもすごいけど経緯もすごいな。『アリ研究者として知られる元高校教諭の木野村恭一さんが約40年前に発見』『木野村さんの高校時代の教え子でもあるチームの浜口京子・森林総研生物多様性研究グループ長』 / “「女王」しか存在しないアリ、世界初報告 日本生息の希…” htn.to/NTsnSqGycX
日本語

うおお… なんかめちゃよい話だった。こういう歴史や文化の記録が残せたのはほんと価値あると思う。 / “「こんなばあに何を聞きたいんや?」地域に長年住まう老女(91)を訪ねなければ判明しなかった…滋賀県に現存する“謎の遺構”の“まさかの正体” | 文春オンライン” htn.to/GpWu6rKZ3R
日本語

Kiyoshi SATOH retweetledi

AI2027のEli LiflandによるClaude Mythosまとめ。
まず、Anthropic の内部版ECI(EpochAI Capabilities Index)では、Mythosはこれまでのトレンドラインを打破している。しかも最近のモデルと違って、Opus よりかなり高価で、約5倍高い。つまり単なる安価な横展開ではなく、重いがかなり強いモデルとして出てきている。
そのうえで Anthropic は、ECIの傾きが 2〜4倍上振れしても、RSPの「AI R&D 自動化で進歩速度が 2倍になる」閾値にはまだ届いていないと主張している。
Anthropic 側の根拠として挙げているのは主に3つで、
・Mythosを作る過程の進歩は、まだMythos自身ではなく人間主導の研究
・社内 n=18 調査では、Mythos の生産性向上は平均4倍くらいだが、Anthropic の内部モデルに入れると 全体進歩はまだ2倍未満
・最初は「すごい成果」に見えた Mythos の実例も、後から見ると思ったより小さいか、形が違っていた
Eli 自身は、Anthropic の結論はたぶん妥当かもしれないとしつつ、むしろそこから警報が鳴るべきだと警告している。つまり、「まだ閾値未満です」で安心する話ではなく、知能爆発に近いものへかなりの勢いで進んでいるのに、制度や安全プロセスは全然追いついていないのではないかという危機感を持っている。しかも Anthropic 以外の企業は、もっと準備不足だろうとも言及。
またEliが引っかかっているポイントがありそれはAnthropic は仮に今見えている加速が AI 自動化によるものだったとしても、それは Mythos 以前のモデルの寄与を反映しているのであって、Mythos 自体の評価ではないと言っているがそれなら Mythos はそれ以前のモデルより強いのだから、むしろ Mythos の能力をもっと高く見積もるべきでは?と疑問を呈している。
また、Anthropic は現在の productivity uplift が4倍でも、全体進歩を2倍にするには40倍くらい必要という内部の「elasticity」見積もりを持っている。これはアルゴリズム進歩だけでなく計算資源拡大も含めた総合進歩として見ているのではないかと推測している。そのうえで、AI Futures Model では 2倍の全体進歩に約25倍の coding labor が必要だったことを引き、厳密な比較ではないが、そこまで大きくズレていないかもしれないとも述べている。
さらに Eli は、社内調査の細部も注目し18人中5人が「3か月ほどスキャフォールディングを改善すれば、Mythos はエントリーレベルの Research Engineer / Scientist の drop-in replacement になりうる」と見ていることを取り上げ、Anthropic 同様に過大評価の可能性はあるとしつつも、かなり注目に値すると述べている。
そのほかの観察としては、
・Anthropic の内部 ECI にはかなり大量の内部ベンチが使われている
・高いECI域にもベンチがいくつかあり、Anthropic は今よりかなり上のモデルも見据えている感じがある
・Mythos は coding benchmarks では Opus をかなり圧倒している
・Glasswing の発表を見ると、サイバー能力も相当に異常
Anthropic 自体もここ数か月で急成長していて、今なにをしているか注視すべき

Eli Lifland@eli_lifland
Thread on Mythos's AI R&D abilities (via model card). It looks like a trend break based on an internal version of "ECI," a technique for aggregating benchmark scores. Unlike recent releases, Mythos is more expensive than the previous SOTA; it's ~5x more expensive than Opus.
日本語




