Masa Yamamoto予測誤差が大きい人生を楽しもう

118.6K posts

Masa Yamamoto予測誤差が大きい人生を楽しもう banner
Masa Yamamoto予測誤差が大きい人生を楽しもう

Masa Yamamoto予測誤差が大きい人生を楽しもう

@mshero_y

発言は個人。様々な分野で研究、開発、事業を経験。先端的な技術を常に取り込み、LLMに関しても2021/12に某公的機関のウェビナーにて技術トレンドを紹介。今は神経科学が専門だと思っているがその時々の仕事相手からはその仕事が専門だと思われている。当面はAI&ブレインテック御用聞き。数学無しでの生成AIの仕組みをまとめ中

Japan Katılım Ocak 2010
1.3K Takip Edilen1.1K Takipçiler
Masa Yamamoto予測誤差が大きい人生を楽しもう retweetledi
ギャズログ | Gaz:Log
Intelの高性能GPU搭載CPU「Razer Lake-AX」にはLPDDR6をオンパッケージで搭載 ただし、メモリ価格高騰が長期化すれば搭載ノートPCはワークステーション級の価格帯に押し上げられる可能性 gazlog.jp/entry/intel-ra…
日本語
0
19
62
4.2K
Masa Yamamoto予測誤差が大きい人生を楽しもう
ソフトバンクの利益は会計上の数字で、その額がどこかにプールされているわけではないだろうから、数字が大きくても素直に評価できないと言う感じなんだろう 投資会社として見るんだろうなあ
日本語
0
0
0
48
Masa Yamamoto予測誤差が大きい人生を楽しもう retweetledi
渡邉究/数学科教員/KADOKAWAより「すごすぎる数の図鑑」発売中/YouTube
代数幾何の問題をAIを用いて解くプロジェクトらしい⬇️ Littさんが個人的に気になる問題を集めたもの。
Daniel Litt@littmath

New project: problemsilike.com, a website collecting open problems that I, personally, like, with comments on their context, difficulty, and interest.

日本語
1
7
63
8.7K
Masa Yamamoto予測誤差が大きい人生を楽しもう retweetledi
アニメ「ルパン三世」公式
アニメ「ルパン三世 PART2」(1977年)より、『ルパン三世のテーマ』をはじめとする楽曲を多く手がけられた作曲家・ジャズピアニストの大野雄二さんが5月4日にご逝去されました。 長年のご活躍への感謝と共に、お悔やみを申し上げます。 ありがとうございました。
アニメ「ルパン三世」公式 tweet media
日本語
465
27K
57.1K
2M
Masa Yamamoto予測誤差が大きい人生を楽しもう retweetledi
書泉_MATH
書泉_MATH@rikoushonotana·
好評発売中 『ホモロジー代数』佐藤隆夫(森北出版) 環と加群から始めて,環上の加群に対するチェイン複体とホモロジー群の定義,TorとExt,普遍係数定理とキュネットの公式,そしてスペクトル系列と,ホモロジー代数の基礎事項をひとつずつていねいに解説 書泉オンラインショップ⇩ x.gd/S3t2A
書泉_MATH tweet media
日本語
0
20
96
7.3K
Masa Yamamoto予測誤差が大きい人生を楽しもう retweetledi
Takahiro Kawabe
Takahiro Kawabe@kawabe_takahiro·
報道発表させて頂きました。 世界初、柔らかさや粘り気を触らずに伝える錯覚手法を考案 ~身近なデバイスで遠隔地に質感を伝え、体験価値向上に寄与~ group.ntt/jp/newsrelease…
日本語
0
139
495
46.6K
Masa Yamamoto予測誤差が大きい人生を楽しもう retweetledi
Sosuke Ito (伊藤 創祐)
先ほど国際会議で情報幾何の射影と熱力学への応用について説明しました。僕が情報幾何を学び始めた2017年ごろに読みたかった資料を目指してまとめました。線形代数だけわかる人が、ユークリッド幾何の射影を導入として自然な形で情報幾何の射影を理解できる資料だと思います。 sosuke110.com/Yerevan-2026.p…
日本語
0
69
360
22.5K
Masa Yamamoto予測誤差が大きい人生を楽しもう retweetledi
Masa Yamamoto予測誤差が大きい人生を楽しもう retweetledi
Daisuke Okanohara / 岡野原 大輔
Embedded Language Flows(ELF)は、連続空間上で言語を生成する拡散型言語モデルである。マスクされたトークン列を少しずつ埋める離散拡散モデルとは異なり、画像生成などで発展してきた連続拡散モデルやFlow Matchingの技術を比較的そのまま利用できる点に特徴がある。 ELFではまず、目標となるトークン列をT5 encoderに通し、各トークン位置に対応する連続ベクトル列に変換する。このとき得られるのは、単なる単語埋め込みではなく、周囲の文脈を考慮した文脈的埋め込みである。 ELFは、この文脈的埋め込み空間を生成対象とする。学習時には、正解文から得られた埋め込み列にノイズを加え、モデルがそれを元の埋め込み列へデノイジングできるように学習する。 同時に、生成された埋め込みをトークンに戻すためのunembedding層も学習する。これは、各位置の埋め込みから語彙全体に対するlogitsを出す層である。ELFでは、デノイジングを行うネットワークと最終的なデコードを行うネットワークが重みを共有しており、最後のステップだけ、unembedding層を通してトークン列を生成する。 この設計により、T5 encoderが必要なのは学習時のみであり、推論時にはGaussian noiseからELF自身が埋め込み列を生成し、最後にunembedding層を通してトークン列を得ることができる。 論文では、encoderや埋め込み表現の選択についてもablationが行われている。T5 encoderを用いた文脈的埋め込みが最も良い結果を示しており、単語ごとの埋め込みや学習可能な埋め込み層を使う場合よりも性能が高い。また、scratchで学習したencoderも試されているが、事前学習済みT5 encoderには及ばない。これは、生成対象となる埋め込み空間が学習中に動いてしまうと、モデルが追いかけるべき目標分布が不安定になるためだと考えられる。ただし、大規模化や学習方法の工夫によって、この傾向が変わる可能性はある。 実験では、105Mパラメータ程度のモデルによる無条件生成において、既存の離散・連続DLMであるMDLM、Duo、FLM、LangFlowを上回る結果が示されている。さらに、既存手法が500Bトークン以上で訓練されているのに対し、ELFは45Bトークン程度で済んでいるとされる。 また、ELFは条件付き生成にも自然に拡張できる。機械翻訳や要約の実験では、同規模の自己回帰モデルや既存DLMを上回る結果が報告されている。 コメント === 連続表現上の拡散モデルで生成し、最後に離散化するというアイデア自体は古くから存在する。たとえばAnalog Bits(2022)は、トークンをbit列に変換し、そのbit表現を連続空間上で復元することで離散データを生成していた。 ELFも同じく、離散データを連続空間で扱い、最後に離散化するという考え方に基づいている。ただし、Analog Bitsがbit表現を用いたのに対し、ELFはすでに意味構造がある程度ほどけた文脈的埋め込み空間を用いている。この点が、言語生成との相性の良さにつながっていると考えられる。 さらに、埋め込み空間として事前学習済みモデルであるT5 encoderを使ったことにより、学習目標となる連続空間が固定され、学習が安定したと考えられる。良い学習目標を用意することと、その目標に向けて生成モデルを学習することを分離する設計は、他の分野でもよく見られる。 一方で、今後は工夫によって、フルスクラッチで埋め込み空間そのものの学習と、その埋め込み空間に向けたデノイジングの学習を同時に行う方向も進むだろう。 さらに、そうなってくると生成対象は必ずしも固定されたトークン列である必要はない。Byte Latent Transformerのように、byte列や可変長の潜在表現を目標にすることも考えられる。
日本語
2
15
78
9.2K
Masa Yamamoto予測誤差が大きい人生を楽しもう retweetledi
ダムP🌸🌟
ダムP🌸🌟@dmbrkp_·
こいつに任せてワイは隠居するか… [2605.06607] AI CFD Scientist: Toward Open-Ended Computational Fluid Dynamics Discovery with Physics-Aware AI Agents arxiv.org/abs/2605.06607
日本語
1
11
77
5.5K
Masa Yamamoto予測誤差が大きい人生を楽しもう retweetledi
Kien Y. Knot
Kien Y. Knot@0_u0·
#ref-acemoglu2026AI" target="_blank" rel="nofollow noopener">ill-identified.hatenablog.com/entry/2026/05/… nber.org/system/files/w… 初めてこの論文見たんだけど、モデル自体はそこまで複雑でなく、仮定は多いが強引でなく、得られるインプリケーションが豊かなの、いい。こういう仕事をしたいが私には足りないものが多すぎるな……。
日本語
1
30
181
21.6K
Masa Yamamoto予測誤差が大きい人生を楽しもう retweetledi
Leona 極度妄想(しなさい)
複素ニューラルネットワークについて面白い現象を見つけたのでシェアさせて下さい。 位相可干渉トランスフォーマー (Phase Coherent Transformer)と呼ぶもので、特定条件下で複素ニューラルネットワークの汎化・多タスクにわたる高性能化がみられるという現象で、論文に詳細な実験報告を書きました。 誤解を恐れずに言えば、今までなかった複素ニューラルネットワークにピッタリ当てはまるトランスフォーマーが見つかるという幸運なことが起こったというところです。従来は複素ニューラルネットワークは通常の実数ニューラルネットに比べて得意なタスクが信号分析・位相情報のような狭い範囲だと考えられてきました。そして、トランスフォーマー/attentionの登場後は実数との差は大きくなるばかりでした。実際今回の実験でも通常トランスフォーマーでは複素化は(位相タスク以外で)パフォーマンスの低下をもたらすだけでした。 今回、その原因がトランスフォーマーのsoftmaxによる多層間での複素重みの位相情報の消失ではないかと考え、位相保存ができるアテンション構造について分析・考案し、実験しました。Sigmoid attentionや先日発表されたMultiscreenなどはその構造をもち、これらの複素化と多層位相の調整できるようなチューニングを施したものを位相干渉トランスフォーマーと名付けて実験した結果、従来の複素NNでは考えられない性能の汎化と深化が見られました。従来複素NNが苦手だったタスクで多くの実数NNを大きく引き離したほか、得意だった位相タスクに関してもその優位を残していました。 こちら論文preprintになります:arxiv.org/abs/2605.10123 これはAI全体にどう影響するかはわかりませんが、少なくとも複素ニューラルネットワークの分野には小さくないインパクトだと思います。 生成AIに関して個人的には新しいアプローチを試してみたいと考えています。それは現在LLMへの関数入力がテキスト記号的な関数や回路情報なのに対して、複素NNはシンボリック表現ではなくフーリエ変換された後の分解された関数や回路を扱い、データからより深遠な回路や関数のスペクトラム的性質を連想して推論できるのではないかという期待です。もちろん実数NNにもフーリエ変換後の関数情報は入れれますし、そもそも部分的に複素重みを実数NNに入れてる試みはあるのですが、普通の実数NNはデータ状態に位相情報が隠れているという前提で設計されていません。 今の有名LLMは皆実数NNですが、そうである蓋然性はありません。(もちろん複素数や四元数であるべきという蓋然性もありませんが) 自分の注力してきた分野のゼロ知識証明や回路型暗号の世界では、関数(この分野では主に超高次多項式)への入力となる代数的構造は必要性に応じて有限体から拡大体(複素数も拡大体)に拡張されてきました。LLMに関してもそれを試してみることは非常に面白いと思います。
日本語
7
69
331
32.8K
Masa Yamamoto予測誤差が大きい人生を楽しもう retweetledi
Dataibridge
Dataibridge@Dataibridge_01·
PFN(Preferred Networks)の視点から、LLMの歴史的進化・技術的特徴・課題・実務活用・未来展望までを53スライドで徹底解説。 Transformer以降のGPTシリーズや国産LLM(PLaMo)のリアルな現在を一気に整理できます。 
・LLMの進化タイムラインとスケーリング法則:GPT-2→GPT-4oまでの性能比較と推論最適化(量子化・LoRAなど)の実践Tips
・PFNの実プロジェクト事例:GPSamplerによる2.5x高速化やAIBU/PLaMoの事後学習・コンテナ活用で現場のコスト削減・精度向上
・課題とリスク対策:幻覚・バイアス・倫理的注意点(Hinton氏警告含む)から法的枠組みまで、プロジェクトで即活かせるリスク評価ポイント 
理論だけじゃなくPFNの実際の開発事例と図解(タイムライン・グラフ・比較表)が豊富で、少し古いですが2024年までの動向(GPT-4o/Claude 3対応)を現場目線でまとめてくれています。 speakerdeck.com/pfn/llm-no-gen…
日本語
1
83
495
29.9K
Masa Yamamoto予測誤差が大きい人生を楽しもう retweetledi
Daisuke Okanohara / 岡野原 大輔
Transformerの中でも計算が大きい、FFN内部のニューロン活性をL1正則化も組み合わせ疎にし、GPUカーネル上の実装最適化も行うことで、高速化、省メモリ化につなげる手法が提案されている。 Transformerは大きく、注意機構と、FFNから構成され、計算量の大部分をFFNが占める。最近はFFNをMoE化する例が増えている。 多くのFFNはgated FFNを採用している。これは入力からゲート出力と線形変換を計算した後要素ごとの積をとることで中間表現を得る。 この研究では疎にするために、ゲート側の活性関数として、従来使われる滑らかなSiLUやSwiGLUではなく、ReLUを使うことで多くの成分が自然に0になるようにする さらに学習時にFFN活性値に対してL1正則化を加える。これによりなるべく少数のニューロンを使って予測するように圧力をかける。 こうしたことで99%以上の活性値を0にできながら下流タスク性能劣化をほとんどおさえられる。 しかし現在のGPUは密な行列演算に最適化されており、疎な表現しても活用できない。そこでTile-wise ELLPACKというスパース形式、列方向のタイルごとに非ゼロ要素を詰めた表現を使い、gate projectionの計算と同じカーネル内で計算するようにする。 さらに推論時にはまずgate活性を計算し、非ゼロ要素をTwELL形式で保存。非ゼロニューロンのみ、up projectionとdown projectionを計算するようにする。 学習全体は20%の高速化が達成され、推論でも最大30%程度の高速化が達成される コメント === MoEはエキスパート単位で疎にするのにし、本研究ではFFNニューロン単位でスパースにする。非構造化スパースは実行効率をあげることが簡単ではないが、今回カーネル最適化も含め学習と推論で20~30%の高速化が達成された。 (なお、本研究自体はFFN一般に使える手法なのでMoE内部のFFNに使うことも可能)。 一方、99%も疎にできているのに全体の高速化率が20%に留まっている(これでもすごいが)というようにメモリアクセスへの特性上、密な計算が得意な最近のHWに対して、非構造の疎化をどのように活かしていくかは大きな課題である。 完全な非構造化じゃなく、なんらかのブロック化を導入(これをすすめると結局MoEに近づいていってしまうが)したり、よく使われるニューロンにつながる重みだけを高速なメモリ上においておき、必要なニューロンをメモリ階層として呼び出すなど、システム全体の最適化なども考えていく必要がでてくる。
日本語
0
21
177
22.3K
Masa Yamamoto予測誤差が大きい人生を楽しもう
6月の原油に関して昨年度実績の7割は確保できた -> 7割しか確保できていないということなので、もし残りの3割が確保できなければ今後、値段だけではなく何かの製品そのものが店頭から無くなる可能性すらあると言うことにつながるのだけれど。 その先が見えないと我慢と工夫で乗り越えるのもきつい
日本語
0
0
0
38
Masa Yamamoto予測誤差が大きい人生を楽しもう
最先端コンシューマ技術の展覧会 個人的には東京ゲームショウ2012のバイオハザードでSRがその実力を発揮した件が忘れらない一コマ もうすごい昔.. #東京ゲームショウ30th
TOKYO GAME SHOW/東京ゲームショウ@tokyo_game_show

/ 東京ゲームショウ 30周年記念キャンペーン開催🎉 \ #TGS2026 一般公開日ペア招待券を 抽選で3組6名様にプレゼント🎁 🎮参加方法 ①@tokyo_game_showをフォロー ②当ポストに引用RPで「#東京ゲームショウ30th」をつけて、期待コメントを投稿 一緒に30周年をお祝いしましょう! 🗓️5/31(日) 23:59〆切

日本語
1
0
0
136
Masa Yamamoto予測誤差が大きい人生を楽しもう retweetledi
TOKYO GAME SHOW/東京ゲームショウ
◤ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄◥    ? ? ? ? ? ◣_________◢ 𝟐𝟎𝟐𝟔.𝟎𝟓.𝟏𝟐  𝐂𝐎𝐌𝐈𝐍𝐆 𝐒𝐎𝐎𝐍... #TGS2026 #東京ゲームショウ30th
TOKYO GAME SHOW/東京ゲームショウ tweet media
English
367
4.8K
24.6K
4.9M