Yume | AIエンジニア

1.1K posts

Yume | AIエンジニア banner
Yume | AIエンジニア

Yume | AIエンジニア

@engix_dev

データ&AIにBetする https://t.co/Mw5PhYHAhW 代表 | ENTJでADHDでHDMI 最近は AI Agent がメインテーマ 経営・起業やAI・最新テックの学びと現役エンジニアの思考を日々シェアします

Присоединился Aralık 2024
447 Подписки691 Подписчики
Yume | AIエンジニア
Yume | AIエンジニア@engix_dev·
@ryoppippi ありがとうございますー!!ryoppippiさんもおめでとうございますですよね?またお話し聞かせてください🔥 いろいろな切り口からAI Agentやっていきましょう!!
日本語
1
0
1
97
ryoppippi
ryoppippi@ryoppippi·
@engix_dev 写真見た時びっくりしました!おめでとうございます!(前に話したことが全て繋がった)
日本語
1
0
1
418
Yume | AIエンジニア ретвитнул
Bret Taylor
Bret Taylor@btaylor·
I’m excited to announce that Sierra has acquired Opera Tech in Japan. Opera’s co-founders, Keita Morikawa and Kiyo Kunii, started the company with the simple idea that AI could help businesses deliver high-quality customer experiences at scale. We’re so excited to have them join us to lead Sierra in Japan. sierra.ai/blog/sierra-ac…
Bret Taylor tweet media
English
16
45
536
209.4K
Yume | AIエンジニア ретвитнул
Bret Taylor
Bret Taylor@btaylor·
Last week, Sierra released 𝜏³-Bench, an update to our industry standard agent benchmark, expanding the benchmark in several important ways: 𝜏-Knowledge tests whether agents can operate over large collections of internal company documents spread across systems and formats; 𝜏-Voice evaluates agents built for live voice conversations; and We’ve also incorporated fixes contributed by the 𝜏-Bench community across existing 𝜏-Bench domains to improve evaluation accuracy. Read more here: sierra.ai/blog/bench-adv…
English
6
25
200
22.4K
Yume | AIエンジニア
Yume | AIエンジニア@engix_dev·
Firecrawlを食いに来てるな
Koichi Nishizuka@KoichiNishizuka

CloudflareがWebサイト全体のコンテンツを一度のAPI呼び出しで取得できる新しい /crawl エンドポイントを公開👀✨ これまでサイト全体の情報を取得するには、リンクを辿るクローラーを自作し、ブラウザの自動操作やHTML取得、JavaScriptレンダリングなどを組み合わせて処理する必要があった。こうした作業は検索エンジンや大規模サービスでは当たり前の技術だが、個人開発やAI用途で扱うには意外と手間のかかる工程でもあった。 今回公開された /crawl エンドポイントでは、その複雑な処理をCloudflareのインフラ側が引き受ける。開発者はURLを一つ渡すだけで、そのサイトに含まれるページを自動的に巡回し、各ページのURL、タイトル、そして完全なHTMLコンテンツを取得できる。結果はHTMLだけでなくMarkdownやJSONでも返されるため、AIやプログラムから扱いやすい形でそのまま利用することができる。 現在のAIシステムでは、外部の情報を取り込みながら回答を生成するRAGや検索型AIが広く使われているが、その前提になるのが「知識をどこから取得するか」という問題になる。/crawl はその入口を極端にシンプルにする。URLを渡すだけでサイト全体のコンテンツが取得できるため、ドキュメントサイトやブログ、ニュースなどをまとめて取り込み、AIの知識ベースや検索システムのデータとして活用できるようになる。 言い換えるなら、これは「サイトを読むロボット」をAPIとして提供し始めたようなものになる。これまで自前で構築する必要があったクローリング基盤がAPI一つに抽象化されたことで、開発者はデータ収集の仕組みではなく、そのデータをどう活用するかという設計に集中できるようになる。インターネットを人間が読むページの集合として扱う時代から、AIが知識として読み取るためのデータ源として扱う時代へ移りつつある中で、このようなインフラはその基盤の一つになりそうじゃな🧐✨

日本語
0
0
4
1.3K
Yume | AIエンジニア
Yume | AIエンジニア@engix_dev·
NLP初参加でしたが、知り合いの知り合いがたくさん居て楽しかった!
日本語
0
0
1
212
Yume | AIエンジニア
Yume | AIエンジニア@engix_dev·
データ基盤の文脈でも、課金モデルについては結構悩ましい議論 1. SaaSとしてシート課金(ユーザー数課金)にする 2. データ処理した時のバイト数に応じて課金する 3. インスタンスの稼働時間で課金する そこら辺をどう設計するのがいいのかは、非常に難しい
福島良典 | LayerX@fukkyy

シート課金がいいのか、仕事課金がいいのかというのは意外と単純ではない。例えば経費精算の場合、「申請数」ベースの仕事課金にしてはどうか?という社内議論は毎回出てくる。 では仕事課金にするといいのか?というと「月末にたまった領収書を一気に申請して、1つの申請数にまとめよう」とするインセンが働いてしまう。そうすると、本来即時に出してほしい領収書が月末一気に集中して、月次決算が遅くなってしまう。 またそもそも月次の「申請数」を正確に把握しているケースも少なく、仕事課金に寄せすぎると、顧客からした時予算が読みづらいという問題も出てくる。 なので顧客心理的にはシート課金(定額)にして、「申請数の制限はありません」とした方が良いケースもある。即時に領収書をだしてくれるので全体として決算も早まるし、確認業務も分散化できる。 シート課金か仕事課金かよりも、顧客にとってのぞましい価格体系になっており、その価格はvalue-basedで設定されているか?が本質だと思う。(そもそもOpenAIやAnthropicのサブスクもシート課金だし...API連動の部分はあれど)

日本語
0
0
1
446
Yume | AIエンジニア
Yume | AIエンジニア@engix_dev·
Typeless、セキュリティ系でプチバズってから粛々と情報管理も固めてて偉い👏 Zennのこの記事もまあわかるとなった zenn.dev/kazuma_horiike…
Huang Song@huang_song_

Typeless is now GDPR compliant 🇪🇺🛡️ We're building the Typeless future - private by design: 1. Zero cloud data retention 2. Never trained on your data 3. On-device history storage Track our security progress: trust.typeless.com - Written with @typelessdotcom

日本語
0
0
1
393
Yume | AIエンジニア
Yume | AIエンジニア@engix_dev·
📝コンタクトセンターのAI化は、AIエージェントの次のフロンティアなのでエンジニアも知っておくと良さそうです。 顧客接点の最前線であること、AgentSDKエコスシステムの成長により去年ごろから本格的にワークフロー全体をAIで完結させる道筋が見えてきたこと。VoiceOSやTypeless, ElevenlabsなどでわかるようにSTT/TTSの高度化もある。 SMBCさんの事例が顕著で、すでに一部AIオペレーターを導入し、24時間自由発話対応を実現している。 今年はB2C領域でのAIエージェント実装が一気に具体化してきそうです!
森川 馨太 | Sierra (ex-Opera, McK)@keita_opera

日本コンタクトセンター協会主催の「コンタクトセンター・セミナー2026」において、基調講演をさせていただきました。 2026-27年にかけて、現在進行形で各大企業様が裏で仕込んでいるAIが本番デプロイされ、日本でも電話・チャット・メールの応対は基本AIから始まることが珍しくなくなると思われます。 prtimes.jp/main/html/rd/p…

日本語
0
0
1
490
Yume | AIエンジニア ретвитнул
akihiro(あきひろ)| 生成AI活用
【Codex CLI 0.105.0 リリース】 音声入力の対応とマルチエージェントの強化があり、大注目のアップデートです。要点を解説します。 【音声入力】 ターミナル上で音声によって Codex にプロンプト指示ができるようになりました。 config.toml の [features] 配下に voice_transcription = true を追加すると有効化できます。 Codex 起動後、プロンプトが空欄の状態でスペースバーを長押しして話し、離すと文字起こしされます。 初回はターミナルからマイクの使用許可を求められるので、許可すれば使えるようになります。 デフォルトで音声入力ができて便利です。実際に試したところ、日本語入力も問題なさそうです。 【マルチエージェント強化】 サブエージェントからさらにサブを起動するネスト構成に対応しました。 マルチエージェント自体が実験的機能なので、未有効の場合は [features].multi_agent = true が必要です。加えて config.toml に agents.max_depth = 2 を追加しないとネスト起動ができません。 デフォルトは agents.max_depth = 1 扱いなので、明示的に設定が必要な点に注意してください。 また、サブエージェントにはニックネームが自動で付与されるようになり、今までの UUID のような形式と違ってだいぶ見分けやすくなりました。子スレッドの承認プロンプトも可視化され、エージェントピッカー UI も整理されています。 【その他の主な変更】 ✅ TUI でコードブロック・diff のシンタックスハイライト対応(/theme ピッカーも追加) ✅ /copy で最新のアシスタント返答をコピー ✅ /clear と Ctrl-L でスクリーンクリア(/clear は新チャット開始も可) ✅ 承認制御の柔軟化(コマンド単位で追加権限要求、特定プロンプトタイプの自動拒否) ✅ Linux sandbox に /dev マウント追加 ✅ @ パース修正(npx -y @scope/pkg@latest でファイルピッカーが誤作動しなくなった) 後ほど詳細についてもさらに解説していく予定です。
akihiro(あきひろ)| 生成AI活用 tweet media
日本語
1
17
53
10.9K
Yume | AIエンジニア ретвитнул
Koichi
Koichi@x64koichi·
日本向けに多数のプロンプトインジェクションを狙った不正メールが到達しています。AIをメールと連携されている環境はご注意ください。 HTMLメールの中に白いフォントで隠れた英語メッセージも埋め込まれてますが、これは意味のない内容のように見えます。本来は英語の文を本文として表示し、日本語のプロンプトインジェクションを隠れたメッセージにしたかったのかも。
Koichi tweet mediaKoichi tweet media
日本語
1
418
827
242K
Yume | AIエンジニア
Yume | AIエンジニア@engix_dev·
Graphite って Cursor が買収したやつ、課金するバリューがあるか知りたい。使ってる人いるかな
日本語
1
0
2
234
Yume | AIエンジニア ретвитнул
usutaku
usutaku@usutaku_channel·
FocuSeeという画面録画サービス試してる。 背景削除と簡単な字幕入れられるのがいいのと、 Zoomの仕方がScreen Studioより見やすい気がする。
日本語
2
8
228
31.3K
Yume | AIエンジニア
Yume | AIエンジニア@engix_dev·
個人開発の延長でローンチしたら伸びちゃって困ってそうですね笑 もちろん擁護とかではないので、使いたい方はもう少し待って情報管理の透明性が増してから利用するのが良さそうです。
日本語
0
0
1
255
Yume | AIエンジニア
Yume | AIエンジニア@engix_dev·
気になって調べてみたが、法人格としての情報は確かにないけどCEO自体はオープンなアカウントで顔出しもしてて、完全に匿名ってわけではないですね Xも2018年からやってるアカウントだしLinkedInの経歴が本当なら説得力はある x.com/huang_song_/st… linkedin.com/in/huang-song-…
げれげれ@medmuspg

【注意喚起】音声入力アプリ「Typeless」をリバースエンジニアリングした結果、かなり深刻なプライバシーリスクが見つかったので共有します。 ■ 結論から Typelessは「On-device history」「Zero data retention」を謳っていますが、実際にはすべての音声データがAWS(米国オハイオ)のサーバーに送信されて処理されています。ローカルの音声認識モデルは一切入っていません。 それだけなら「クラウドSTTサービス」として普通ですが、問題は音声以外に収集しているデータの範囲です。 ■ 何を調べたか macOS上でTypeless v0.9.3のバイナリ解析、ネットワーク通信調査、ローカルDB解析、ネイティブライブラリの文字列解析を実施しました。 ■ 確認された事実 1. 音声処理は100%クラウド アプリ内にWhisper等のSTTモデルは存在せず、音声はOpusで圧縮後、WebSocket(wss://api.typeless.com/ws/rt_voice_flow)経由でAWS us-east-2のサーバーにリアルタイム送信されます。 api.typeless.com…565501648.us-east-2.elb.amazonaws.com 公式プライバシーポリシーにも「processed in real time on our cloud servers」と書いてあるので嘘ではないのですが、マーケティングの「On-device」という表現は履歴保存に限定されており、かなりミスリーディングです。 2. 音声以外にも広範なデータを収集 ローカルのSQLiteデータベースとネイティブライブラリの解析で、以下のデータ収集を確認しました: ・ 閲覧中のWebサイトの完全URL(Gmail、Google Docs等も記録) ・ フォーカス中のアプリ名、ウィンドウタイトル ・ 画面上のテキスト(アクセシビリティAPIで再帰的に収集する「collectVisibleTexts」関数) ・ クリップボードの読み書き(パスワードマネージャのTransientTypeも処理可能) ・ CGEventTapによるシステムレベルのキーボード入力監視 ・ ブラウザのDOM要素情報(Safari, Chrome, Edge, Firefox, Brave対応) ・ ユーザーがテキストを編集した内容(TrackEditTextService → sendTrackResultToServer) 3. ローカルDBに個人情報が平文保存 typeless.dbに音声認識結果のテキスト、閲覧URL、アプリ情報が平文で保存されています。「Zero data retention」を謳いながら、ローカルには全て残っています。音声ファイル(.ogg)も削除されずに残存。 4. 過剰な権限要求 音声入力ツールなのに、マイクに加えて画面録画、カメラ、Bluetooth、アクセシビリティの権限を要求します。スクリーンショット機能も内蔵されています。 5. 会社の透明性がほぼゼロ ・ 利用規約・プライバシーポリシーに法人名の記載なし ・ 所在地は「サンフランシスコ郡、CA」(利用規約の管轄地のみ) ・ WHOISは非公開(GoDaddy + Cloudflare) ・ SOC2、ISO27001等のセキュリティ監査の記載なし ・ 連絡先は hello@typeless.com のみ ■ 技術的な根拠(再現可能) 以下のコマンドで誰でも確認できます: # ネットワーク通信先 nslookup api.typeless.com # app.asar内のAPI URL strings /Applications/Typeless.app/Contents/Resources/app.asar | grep "api.typeless.com" # WebSocket通信プロトコル strings /Applications/Typeless.app/Contents/Resources/app.asar | grep "rt_voice_flow" # キーボード監視のネイティブライブラリ strings /Applications/Typeless.app/Contents/Resources/lib/keyboard-helper/build/libKeyboardHelper.dylib | grep -i "key pressed" # 画面テキスト収集 strings /Applications/Typeless.app/Contents/Resources/lib/context-helper/build/libContextHelper.dylib | grep -i "collectVisibleTexts" # ローカルDBの中身 sqlite3 ~/Library/Application\ Support/Typeless/typeless.db ".schema history" ■ 何がまずいのか CGEventTap(キーボード監視) + アクセシビリティAPI(画面テキスト収集) + クリップボードアクセス。この3つの組み合わせは技術的にキーロガーと同等の能力を持ちます。 これを運営法人が不明なサービスに許可しているということです。 音声入力の精度向上のためにコンテキスト(使用中のアプリや入力フィールドの情報)を取得すること自体は合理的な設計です。しかし、それをクラウドに送信する場合、運営の信頼性とセキュリティ体制が問われます。法人名すら公開していない会社にその信頼を置けるかは、各自で判断してください。 ■ 代替手段 完全ローカルで動作する音声入力ツールは存在します: ・ Whisper.cpp / MLX Whisper(OSS、完全ローカル、無料) ・ macOS標準の音声入力(Apple Silicon上でオンデバイス処理) ・ Superwhisper(Whisperベース、Mac向け、ただし要検証) ■ まとめ ・ Typelessの音声認識は100%クラウド処理(ローカルモデルなし) ・ 音声以外にも画面テキスト・URL・キーボード入力を収集可能な技術基盤 ・ 運営法人が不透明(法人名・所在地の公開なし) ・ セキュリティ監査の証拠なし 利用中の方はリスクを認識した上で判断してください。少なくともLittle Snitch等でネットワーク通信を監視することを推奨します。 #typeless

日本語
1
0
7
1.7K