Asst. Prof. Li Sheng (call me /listen/ :)

3.6K posts

Asst. Prof. Li Sheng (call me /listen/ :)

@cs_lisheng

◆Faculty of Science Tokyo ◆Speech tech+multilingual+multimodal+security ◆Welcome collaboration, discussion CV: https://t.co/naL0tJB3sI

Japan Katılım Ocak 2013

7.5K Takip Edilen773 Takipçiler

Sabitlenmiş Tweet

Asst. Prof. Li Sheng (call me /listen/ :)@cs_lisheng·27 Ağu

NICT-Tib1: A public speech corpus of the Lhasa dialect for benchmarking Tibetan language speech recognition systems developed by NICT 日本語 Japanese page ast-astrec.nict.go.jp/release/ 英語 English page ast-astrec.nict.go.jp/en/release/

English

5.1K

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

Wen-Chin Huang@unilightwf·39m

Didn’t know this, cool arxiv.org/abs/2506.16381

English

170

Asst. Prof. Li Sheng (call me /listen/ :)@cs_lisheng·1h

cited and used by OmniVoice

English

Asst. Prof. Li Sheng (call me /listen/ :)@cs_lisheng·14 Tem

openslr.org/158/ finally archived in openslr ...

English

213

Asst. Prof. Li Sheng (call me /listen/ :)@cs_lisheng·27 Ağu

English

5.1K

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

Heiga Zen (全炳河)@heiga_zen·1d

【Waymo の日本市場展開を牽引するリーダーの募集】 Waymoが、東京を拠点とする「Japan Market Operations Lead」の募集を行っています。自動運転技術の社会実装において、日本は非常に重要かつ挑戦的な舞台であり、その立ち上げをリードする重要なポジションです。業務内容には、市場参入のリード・安全性の担保・戦略的パートナーシップの構築などが含まれており、モビリティの未来を創る大きなやりがいがあるはずです。経験豊富なオペレーションリーダーにとって、素晴らしい挑戦の機会となるでしょう 🤝 世界最先端の自動運転AIが、日本の複雑な道路環境でどのように価値を発揮していくのか、これからの展開が今からとても楽しみです。先日もWaymoの東京での取り組みについて触れましたが、着実に日本での準備が進んでいることを、同じAlphabet傘下でAIに携わる一員として大変嬉しく思い、今後の展開に大いに期待しています 🚀 careers.withwaymo.com/jobs/japan-mar…

日本語

156

19.3K

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

まむ@mamurai1208·18h

東京科学大学の岡崎研究室のセミナーのためスライドを作ったので公開しました speakerdeck.com/pfn/20260406_p…

日本語

268

27.6K

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

Google Gemma@googlegemma·2d

Who wants to know how Gemma 4 works? This visual guide breaks down the new architectures and how they process text, images, and (for the smaller models) audio. 👇

English

488

4.3K

228K

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

masaoutiyama@masaoutiyama·1d

SFTだけでは、LLMの性能が不十分な理由として、訓練データの正解例とLLMの出力で、トークン列が似ていても、LLMの出力の意味が全然違う場合があるからではないか。たとえば、電話番号の 110 と 119 は、文字列としては似ているが、電話のかけ先は全然違うのでロスは大きくしたい。

日本語

3.6K

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

Oscar Arias@OACerebro·3d

ZXX

253

59.3K

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

Odashi@odashi_t·3d

LLM-jp-4の現行版モデルはSFTとDPOしかやってないので、詳細な推論が必要な高難度タスクはあんまし性能出ないんじゃないですかね。仮モデルで強化学習やった人らの報告で結構性能が上がるらしいことは知っているので、次はその辺の調整ですね

日本語

9.4K

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

Odashi@odashi_t·2d

IT mediaに「Llama2ベース/Qwen3ベース」などと紹介されているせいか、LLM-jp-4が継続学習モデルであると誤解されているようです。動作互換性の関係で前述モデルのアーキテクチャを採用していますが、パラメータは完全なフルスクラッチで継続学習モデルではありません。 itmedia.co.jp/aiplus/article…

日本語

155

16.3K

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

Computer Vision and Pattern Recognition Papers@CSVisionPapers·4d

JAMMEval: A Refined Collection of Japanese Benchmarks for Reliable VLM Evaluation Issa Sugiura, Koki Maeda, Shuhei Kurita, Yusuke Oda, Daisuke Kawahara, Naoaki Okazaki arxiv.org/abs/2604.00909 [𝚌𝚜.𝙲𝚅]

Computer Vision and Pattern Recognition Papers tweet media

Filipino

192

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

Omar Sanseviero@osanseviero·3d

Introducing a Visual Guide to Gemma 4 👀 An in-depth, architectural deep dive of the Gemma 4 family of models. From Per-Layer Embeddings to the vision and audio encoders. Take a look!

English

178

1.1K

56.7K

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

Desh Raj@rdesh26·3d

x.com/i/article/2040…

ZXX

132

14.6K

Asst. Prof. Li Sheng (call me /listen/ :)@cs_lisheng·3d

@shyyhs congratulations!!!

English

303

Haiyue Song@shyyhs·3d

報告だいぶ遅くなりましたが 4月1日にプリファードネットワークスに入社しました。大規模言語モデルを作ります💪 名刺には博士(理学)とありますが、実は博士(情報学)です

日本語

9.8K

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

国立情報学研究所(NII)@jouhouken·3d

✏️ニュースリリース約12兆トークンの良質なコーパスで学習した新たな国産LLM「LLM-jp-4 8Bモデル」「LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで公開～一部ベンチマークでGPT-4oやQwen3-8Bを上回る性能を達成～ nii.ac.jp/news/release/2… 　大学共同利用機関法人情報・システム研究機構国立情報学研究所大規模言語モデル研究開発センター（LLMC）は、同センターが主宰するLLM研究開発コミュニティ「LLM-jp」の活動の中で大規模言語モデル（LLM）のフルスクラッチ学習を実施し、約86億パラメータの「LLM-jp-4 8Bモデル」と約320億パラメータのMoEモデル「LLM-jp-4 32B-A3Bモデル」をオープンソースライセンスで一般公開しました。公開モデルの学習では、オープンソースAIの定義（OSAID）に配慮し、第三者も入手可能な良質な学習コーパスの収集・選別・構築を行い、インターネット上の公開データや政府・国会の文書、合成データなどからなる約12兆トークンの学習コーパスを整備・使用しました。公開モデルは最大で約6万5千トークンの入出力まで処理でき、言語モデルの日本語理解能力を測る「日本語 MT-Bench」、英語理解能力を測る「MT-Bench」において、強力な多言語LLMである「GPT-4o」や「Qwen3-8B」を上回る性能を達成しています。　LLMCでは「LLM-jp-4 8Bモデル」とMoEモデル「LLM-jp-4 32B-A3Bモデル」を活用してLLMの透明性・信頼性の確保に向けた研究開発を進めていきます。また、現在、より大規模なパラメータを備えたモデルの開発を進めており、2026年度に順次公開予定です。

日本語

604

344.4K

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

Chujie Zheng@ChujieZheng·3d

We are planning to open-source the Qwen3.6 models (particularly medium-sized versions) to facilitate local deployment and customization for developers. Please vote for the model size you are **most** anticipating—the community’s voice is vital to us!

English

313

262

4.1K

292.1K

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

Google@Google·4d

We just released Gemma 4 — our most intelligent open models to date. Built from the same world-class research as Gemini 3, Gemma 4 brings breakthrough intelligence directly to your own hardware for advanced reasoning and agentic workflows. Released under a commercially permissive Apache 2.0 license so anyone can build powerful AI tools. 🧵↓

English

683

3.1K

20.3K

7.2M

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

arXiv Sound@ArxivSound·3d

Wataru Nakata, Kentaro Seki, Hitomi Yanaka, Yuki Saito, Shinnosuke Takamichi, Hiroshi Saruwatari, "J-CHAT: Japanese Large-scale Spoken Dialogue Corpus for Spoken Dialogue Language Modeling," arxiv.org/abs/2407.15828

Indonesia

1.6K

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

Willow@WillowVoiceAI·5d

Most models score 5-7% word error rate on clean audio. In real-world conditions they fall to 10-15%. Atlas 1 holds at 1.2% on clean audio and 2.1% in production. The gap widens in noisy environments.

English

147

78.7K

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

Kazuya Masu@masu1017·23 Haz

2024年10月1日発足の東京科学大学。日本語名称：東京科学大学英語名称：Institute of Science Tokyo 和文略称・英文略称：Science Tokyo （科学大 ←×　東科大 ←×　です！） Science Tokyo 覚えていただければ幸いです。

Kazuya Masu@masu1017

東京科学大学が10月1日に発足予定です。大学の略称ですが、英文・和文ともに”Science Tokyo”です！　覚えていただけるとありがたいです。 isct.ac.jp/ja

日本語

733

1.4K

1.4M

Asst. Prof. Li Sheng (call me /listen/ :) retweetledi

Feiteng@FeitengLi·4d

Kaldi 之父 Daniel Povey 的新作，小米团队出品。 OmniVoice — 一个零样本 TTS 模型，支持 600+ 语言，覆盖面直接拉满： 1）单阶段架构，文本直接映射到声学 token，不走两阶段流水线。结构极简但效果反超 MaskGCT、F5-TTS 这些 NAR 前辈 2）用 Qwen3-0.6B 初始化 backbone，NAR TTS 里第一个成功吃到 LLM 红利的。WER 直接从 2.5% 降到 1.3% 3）24 语言评测，平均 WER 2.85，speaker similarity 0.83。纯开源数据训练，打赢了 ElevenLabs v2 和 MiniMax-Speech 4）0.8B 参数，8 张 H800 训 10 天。性价比离谱 581k 小时多语言数据全部来自开源社区，代码模型也开源了。Povey 当年用 Kaldi 改变了语音识别的游戏规则，这次能否在 TTS 上再来一次。论文：arxiv.org/abs/2604.00688 代码：github.com/k2-fsa/OmniVoi…

中文

310

43.4K

Keşfet

@shyyhs @elonmusk @BarackObama @taylorswift13 @cristiano @BillGates @NASA @nikifrancismediavine