Asst. Prof. Li Sheng (call me /listen/ :)

3.6K posts

Asst. Prof. Li Sheng (call me /listen/ :) banner
Asst. Prof. Li Sheng (call me /listen/ :)

Asst. Prof. Li Sheng (call me /listen/ :)

@cs_lisheng

◆Faculty of Science Tokyo ◆Speech tech+multilingual+multimodal+security ◆Welcome collaboration, discussion CV: https://t.co/naL0tJB3sI

Japan Katılım Ocak 2013
7.5K Takip Edilen773 Takipçiler
Asst. Prof. Li Sheng (call me /listen/ :) retweetledi
Heiga Zen (全 炳河)
【Waymo の日本市場展開を牽引するリーダーの募集】 Waymoが、東京を拠点とする「Japan Market Operations Lead」の募集を行っています。自動運転技術の社会実装において、日本は非常に重要かつ挑戦的な舞台であり、その立ち上げをリードする重要なポジションです。 業務内容には、市場参入のリード・安全性の担保・戦略的パートナーシップの構築などが含まれており、モビリティの未来を創る大きなやりがいがあるはずです。経験豊富なオペレーションリーダーにとって、素晴らしい挑戦の機会となるでしょう 🤝 世界最先端の自動運転AIが、日本の複雑な道路環境でどのように価値を発揮していくのか、これからの展開が今からとても楽しみです。 先日もWaymoの東京での取り組みについて触れましたが、着実に日本での準備が進んでいることを、同じAlphabet傘下でAIに携わる一員として大変嬉しく思い、今後の展開に大いに期待しています 🚀 careers.withwaymo.com/jobs/japan-mar…
日本語
1
33
156
19.3K
Asst. Prof. Li Sheng (call me /listen/ :) retweetledi
まむ
まむ@mamurai1208·
東京科学大学の岡崎研究室のセミナーのためスライドを作ったので公開しました speakerdeck.com/pfn/20260406_p…
日本語
1
54
268
27.6K
Asst. Prof. Li Sheng (call me /listen/ :) retweetledi
Google Gemma
Google Gemma@googlegemma·
Who wants to know how Gemma 4 works? This visual guide breaks down the new architectures and how they process text, images, and (for the smaller models) audio. 👇
Google Gemma tweet media
English
86
488
4.3K
228K
Asst. Prof. Li Sheng (call me /listen/ :) retweetledi
masaoutiyama
masaoutiyama@masaoutiyama·
SFTだけでは、LLMの性能が不十分な理由として、訓練データの正解例とLLMの出力で、トークン列が似ていても、LLMの出力の意味が全然違う場合があるからではないか。たとえば、電話番号の 110 と 119 は、文字列としては似ているが、電話のかけ先は全然違うのでロスは大きくしたい。
日本語
0
2
16
3.6K
Asst. Prof. Li Sheng (call me /listen/ :) retweetledi
Oscar Arias
Oscar Arias@OACerebro·
Oscar Arias tweet media
ZXX
11
253
1K
59.3K
Asst. Prof. Li Sheng (call me /listen/ :) retweetledi
Odashi
Odashi@odashi_t·
LLM-jp-4の現行版モデルはSFTとDPOしかやってないので、詳細な推論が必要な高難度タスクはあんまし性能出ないんじゃないですかね。仮モデルで強化学習やった人らの報告で結構性能が上がるらしいことは知っているので、次はその辺の調整ですね
日本語
1
10
72
9.4K
Asst. Prof. Li Sheng (call me /listen/ :) retweetledi
Odashi
Odashi@odashi_t·
IT mediaに「Llama2ベース/Qwen3ベース」などと紹介されているせいか、LLM-jp-4が継続学習モデルであると誤解されているようです。動作互換性の関係で前述モデルのアーキテクチャを採用していますが、パラメータは完全なフルスクラッチで継続学習モデルではありません。 itmedia.co.jp/aiplus/article…
日本語
1
42
155
16.3K
Asst. Prof. Li Sheng (call me /listen/ :) retweetledi
Omar Sanseviero
Omar Sanseviero@osanseviero·
Introducing a Visual Guide to Gemma 4 👀 An in-depth, architectural deep dive of the Gemma 4 family of models. From Per-Layer Embeddings to the vision and audio encoders. Take a look!
Omar Sanseviero tweet media
English
18
178
1.1K
56.7K
Haiyue Song
Haiyue Song@shyyhs·
報告だいぶ遅くなりましたが 4月1日にプリファードネットワークスに入社しました。 大規模言語モデルを作ります💪 名刺には博士(理学)とありますが、実は博士(情報学)です
Haiyue Song tweet media
日本語
4
0
86
9.8K
Asst. Prof. Li Sheng (call me /listen/ :) retweetledi
国立情報学研究所(NII)
✏️ニュースリリース 約12兆トークンの良質なコーパスで学習した新たな国産LLM「LLM-jp-4 8Bモデル」「LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで公開 ~一部ベンチマークでGPT-4oやQwen3-8Bを上回る性能を達成~ nii.ac.jp/news/release/2…  大学共同利用機関法人 情報・システム研究機構 国立情報学研究所大規模言語モデル研究開発センター(LLMC)は、同センターが主宰するLLM研究開発コミュニティ「LLM-jp」の活動の中で大規模言語モデル(LLM)のフルスクラッチ学習を実施し、約86億パラメータの「LLM-jp-4 8Bモデル」と約320億パラメータのMoEモデル「LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで一般公開しました。公開モデルの学習では、オープンソースAIの定義(OSAID)に配慮し、第三者も入手可能な良質な学習コーパスの収集・選別・構築を行い、インターネット上の公開データや政府・国会の文書、合成データなどからなる約12兆トークンの学習コーパスを整備・使用しました。公開モデルは最大で約6万5千トークンの入出力まで処理でき、言語モデルの日本語理解能力を測る「日本語 MT-Bench」、英語理解能力を測る「MT-Bench」において、強力な多言語LLMである「GPT-4o」や「Qwen3-8B」を上回る性能を達成しています。  LLMCでは「LLM-jp-4 8Bモデル」とMoEモデル「LLM-jp-4 32B-A3Bモデル」を活用してLLMの透明性・信頼性の確保に向けた研究開発を進めていきます。また、現在、より大規模なパラメータを備えたモデルの開発を進めており、2026年度に順次公開予定です。
日本語
12
604
2K
344.4K
Asst. Prof. Li Sheng (call me /listen/ :) retweetledi
Chujie Zheng
Chujie Zheng@ChujieZheng·
We are planning to open-source the Qwen3.6 models (particularly medium-sized versions) to facilitate local deployment and customization for developers. Please vote for the model size you are **most** anticipating—the community’s voice is vital to us!
English
313
262
4.1K
292.1K
Asst. Prof. Li Sheng (call me /listen/ :) retweetledi
Google
Google@Google·
We just released Gemma 4 — our most intelligent open models to date. Built from the same world-class research as Gemini 3, Gemma 4 brings breakthrough intelligence directly to your own hardware for advanced reasoning and agentic workflows. Released under a commercially permissive Apache 2.0 license so anyone can build powerful AI tools. 🧵↓
English
683
3.1K
20.3K
7.2M
Asst. Prof. Li Sheng (call me /listen/ :) retweetledi
arXiv Sound
arXiv Sound@ArxivSound·
Wataru Nakata, Kentaro Seki, Hitomi Yanaka, Yuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari, "J-CHAT: Japanese Large-scale Spoken Dialogue Corpus for Spoken Dialogue Language Modeling," arxiv.org/abs/2407.15828
Indonesia
0
9
21
1.6K
Asst. Prof. Li Sheng (call me /listen/ :) retweetledi
Willow
Willow@WillowVoiceAI·
Most models score 5-7% word error rate on clean audio. In real-world conditions they fall to 10-15%. Atlas 1 holds at 1.2% on clean audio and 2.1% in production. The gap widens in noisy environments.
Willow tweet media
English
6
8
147
78.7K
Asst. Prof. Li Sheng (call me /listen/ :) retweetledi
Kazuya Masu
Kazuya Masu@masu1017·
2024年10月1日発足の東京科学大学。 日本語名称:東京科学大学 英語名称:Institute of Science Tokyo 和文略称・英文略称:Science Tokyo (科学大 ←× 東科大 ←× です!) Science Tokyo 覚えていただければ幸いです。
Kazuya Masu@masu1017

東京科学大学が10月1日に発足予定です。 大学の略称ですが、英文・和文ともに”Science Tokyo”です!  覚えていただけるとありがたいです。 isct.ac.jp/ja

日本語
32
733
1.4K
1.4M
Asst. Prof. Li Sheng (call me /listen/ :) retweetledi
Feiteng
Feiteng@FeitengLi·
Kaldi 之父 Daniel Povey 的新作,小米团队出品。 OmniVoice — 一个零样本 TTS 模型,支持 600+ 语言,覆盖面直接拉满: 1)单阶段架构,文本直接映射到声学 token,不走两阶段流水线。结构极简但效果反超 MaskGCT、F5-TTS 这些 NAR 前辈 2)用 Qwen3-0.6B 初始化 backbone,NAR TTS 里第一个成功吃到 LLM 红利的。WER 直接从 2.5% 降到 1.3% 3)24 语言评测,平均 WER 2.85,speaker similarity 0.83。纯开源数据训练,打赢了 ElevenLabs v2 和 MiniMax-Speech 4)0.8B 参数,8 张 H800 训 10 天。性价比离谱 581k 小时多语言数据全部来自开源社区,代码模型也开源了。Povey 当年用 Kaldi 改变了语音识别的游戏规则,这次能否在 TTS 上再来一次。 论文:arxiv.org/abs/2604.00688 代码:github.com/k2-fsa/OmniVoi…
Feiteng tweet mediaFeiteng tweet media
中文
5
58
310
43.4K