ぼす(群体)

164.1K posts

ぼす(群体) banner
ぼす(群体)

ぼす(群体)

@Boss_dess

ぽこ中心雑多垢、三次創作(うちよそオリトレBL/相手固定同軸リバ三つ巴)、成人済。画像文章等の利用禁止/転載禁止/AI学習禁止(No AI)、アイコンぽぽゆた(po2yuta)さん。鍵:@boss_dess_ga ピク: https://t.co/AN1ronAp1N

三次創作=捏造NPC(OC)×創作(OC)×pk化(OC) 参加日 Mart 2010
344 フォロー中1K フォロワー
ぼす(群体)
ぼす(群体)@Boss_dess·
昨晩はでじんも23話何度見ても…いいな…クレイの「まだわからないのか!」のカット地味に好きで。ムラキョウが再度前に出てからはもっと好き~格が落ちない見せ場とピンチの作り方と一話通して天才だな~て
日本語
0
0
0
13
ぼす(群体)
ぼす(群体)@Boss_dess·
わ~いけーさんそうさんのゲ長編漫画改めて一気読みさせてもろたけどほんと好き~原作のネタの拾い方がビターで晴れやかさもあって。おはようございます~!
日本語
0
0
0
11
ぼす(群体)
ぼす(群体)@Boss_dess·
朝から震度6強、東北の方お怪我無いですか…お気をつけて…
日本語
0
0
0
597
ぼす(群体) がリツイート
ぼうくん | VoQn 🎨
シンプルに「正しかったら+1, 間違ってたら -1 点」で累計する新しいLLMベンチマーク。科学技術分野からビジネス分野、法律等々の正誤が確認できる質問に対してのハルシネーション率を測るもの。 ...GPT5.1 世代でやっとプラスに転じれた程度だったところなのは本当に要注意というか
Artificial Analysis@ArtificialAnlys

Announcing AA-Omniscience, our new benchmark for knowledge and hallucination across >40 topics, where all but three models are more likely to hallucinate than give a correct answer Embedded knowledge in language models is important for many real world use cases. Without knowledge, models make incorrect assumptions and are limited in their ability to operate in real world contexts. Tools like web search can support but models need to know what to search for (e.g. models should not search for ‘Multi Client Persistence’ for an MCP query when it clearly refers to ‘Model Context Protocol’). Hallucination of factual information is a barrier to being able to rely on models and has been perpetuated by every major evaluation dataset. Grading correct answers with no penalty for incorrect answers creates an incentive for models (and the labs training them) to attempt every question. This problem is clearest when it comes to knowledge: factual information should never be made up, while in other contexts attempts that might not work are useful (e.g. coding new features). Omniscience Index is the the key metric we report for AA-Omniscience, and it punishes hallucinations by deducting points where models have guessed over admitting they do not know the answer. AA-Omniscience shows that all but three models are more likely to hallucinate than provide a correct answer when given a difficult question. AA-Omniscience will complement the Artificial Analysis Intelligence Index to incorporate measurement of knowledge and probability of hallucination. Details below, and more charts in the thread. AA-Omniscience details: - 🔢6,000 questions across 42 topics within 6 domains (’Business’, ‘Humanities & Social Sciences’, ‘Health’, ‘Law’, ‘Software Engineering’, and ‘Science, Engineering & Mathematics’) - 🔍 89 sub-topics including Python data libraries, Public Policy, Taxation, and more, giving a sharper view of where models excel and where they fall short across nuanced domains - 🔄 Incorrect answers are penalized in our Knowledge Reliability Index metrics to punish hallucinations - 📊3 Metrics: Accuracy (% correct), Hallucination rate (% incorrect of incorrect/abstentions), Omniscience Index (+1 for correct, -1 for incorrect where answered, 0 for abstentions where the model did not try to answer) - 🤗 Open source test dataset: We’re open sourcing 600 questions (10%) to support labs develop factual and reliable models. Topic distribution and model performance follows the full set (@huggingface link below) - 📃 Paper: See below for a link to the research paper Key findings: - 🥇 Claude 4.1 Opus takes first place in Omniscience Index, followed by last week’s GPT-5.1 and Grok 4: Even the best frontier models score only slightly above 0, meaning they produce correct answers on the difficult questions that make up AA-Omniscience only marginally more often than incorrect ones. @AnthropicAI’s leadership is driven by low hallucination rate, whereas OpenAI and xAI’s positions are primarily driven by higher accuracy (percentage correct). - 🥇 xAI’s Grok 4 takes first place in Omniscience Accuracy (our simple ‘percentage correct’ metric), followed by GPT-5 and Gemini 2.5 Pro: @xai's win may be enabled by scaling total parameters and pre-training compute: @elonmusk revealed last week that Grok 4 has 3 trillion total parameters, which may be larger than GPT-5 and other proprietary models - 🥇 Claude sweeps the hallucination leaderboard: Anthropic takes the top three spots for lowest hallucination rate, with Claude 4.5 Haiku leading at 28%, over three times lower than GPT-5 (high) and Gemini 2.5 Pro. Claude 4.5 Sonnet and Claude 4.1 Opus follow in second and third at 48% - 💭 High knowledge does not guarantee low hallucination: Hallucination rate measures how often a model guesses when it lacks the required knowledge. Models with the highest accuracy, including the GPT-5 models and Gemini 2.5 Pro, do not lead the Omniscience Index due to their tendency to guess over abstaining. Anthropic models tend to manage uncertainty better, with Claude 4.5 Haiku achieving the lowest hallucination rate at 26%, ahead of 4.5 Sonnet and 4.1 Opus (48%) - 📊 Models vary by domain: Models differ in their performance across the six domains of AA-Omniscience - no model dominates across all. While Anthropic’s Claude 4.1 Opus leads in Law, Software Engineering, and Humanities & Social Sciences, GPT-5.1 from @OpenAI achieves the highest reliability on Business questions, and xAI’s Grok 4 performs best in Health and in Science, Engineering & Mathematics. Model choice should align with the the use case rather than choosing the overall leader - 📈 Larger models score higher on accuracy, but not always reliability: Larger models tend to have higher levels of embedded knowledge, with Kimi K2 Thinking and DeepSeek R1 (0528) topping accuracy charts over smaller models. This advantage does not always hold on the Omniscience Index. For example, Llama 3.1 405B from @AIatMeta beats larger Kimi K2 variants due to having one of the lowest hallucination rates among models (51%)

日本語
1
20
35
6K
ぼす(群体) がリツイート
日本アニメフィルム文化連盟 -NAFCA-
「人工知能基本計画素案」に対するNAFCAのパブリックコメントを公開しました。 AI時代には、AIを使わない判断を尊重し、数値化できない価値を守る仕組みも必要です。 是非ご一読ください。 nafca.jp/public-comment…
日本語
5
1.2K
2.1K
109.3K
ぼす(群体) がリツイート
入江泰浩@ハロウィン・パジャマ
>公取委によると、制作会社に発注して作られたものという。担当者は「クリエーターが一部で生成AIを使ったかもしれないが、対価は支払っており、『公取委が全く金を出さずに作ったもの』とは心外」と話す。 次からは違う会社に発注すればいいと思う。
毎日新聞ニュース@mainichijpnews

「アニメ取引適正化」告知チラシ、「AI風」で批判 公取委当惑 mainichi.jp/20260623/k00/0…

日本語
1
45
103
10.2K
ぼす(群体)
ぼす(群体)@Boss_dess·
法的にもだいぶ人間の著作物とは別物扱いされてるので弁理士の先生のリプツリーも参考に
日本語
0
0
0
18
ぼす(群体)
ぼす(群体)@Boss_dess·
人間の学習だって~みたいな無能の連想ゲームでおろおろしがちな絵描きはこの辺の記事読めばええよ。生成AIて画像盗用合成AIなんすよねえ~自分で描けるんで偽画像、偽文書、偽音声出力サービスなくて大丈夫です~
日本語
1
0
0
21
ぼす(群体) がリツイート
ケイバリュエーション☻ (鈴木健治)
本件の事実関係については、ツリーで引用する毎日新聞記事を参照ください。 生成AIイラストをチラシに利用するリスクの一つを説明します。 公取チラシ全面の中央人物の顔を画像検索(Google Lens)で検索すると、AIによる概要で「兵庫県の公式英単語学習アプリ」のキャラクターと説明されます。
ケイバリュエーション☻ (鈴木健治) tweet media
公正取引委員会@jftc

/ アニメーターの皆様! 画像のチェックリストであなたの取引も点検☑ \ アニメの制作現場の取引適正化に向けた指針を公表しました。 口約束や一方的な報酬決定ありませんか? 指針の詳細は👇 jftc.go.jp/dk/guideline/u… #アニメ制作 #アニメーター

日本語
1
67
163
8.4K
ぼす(群体) がリツイート
ケイバリュエーション☻ (鈴木健治)
こちらがその兵庫県公式英単語学習アプリの説明で、たしかに、顔の表現に共通性があります。 akashi-nakatani-juku.jp/way/habatan-ap… 生成AIイラストどうしは、とてもよく似た出力になりがちです。それをまた生成AIが○○のキャラクターとして説明してしまいます。
日本語
1
14
32
952
ぼす(群体) がリツイート
ケイバリュエーション☻ (鈴木健治)
チラシへの生成AIイラストの利用は、このようなリスクがあります。 ・生成AIイラストに著作権はありませんので、著作権侵害にはなりませんが、出所の混同は生じていますので、商標登録されていると危険です。生成AIイラストの商標登録例はあります。
日本語
1
12
29
886
ぼす(群体) がリツイート
ケイバリュエーション☻ (鈴木健治)
・もちろん、両方の生成AI画像のもととなるクリエーターの作品の著作権を侵害している可能性はあります。この場合、公正取引委員会や受注制作した企業や担当者が、そのクリエーターの作品を知らなくても、AIシステムがそのクリエーターの作品を学習していれば、依拠が認められるのが原則です。
日本語
1
12
31
846
ぼす(群体) がリツイート
西位 輝実 NlSHII Terumi
頭痛い... だから制作会社への契約書に“生成AIの使用を禁止する“ってのが増えてるのに...。 要するに、公取が発注した制作会社がクソだってことです。
日本語
1
820
2.3K
101K
ぼす(群体)
ぼす(群体)@Boss_dess·
生成AI擁護が反AIがアニメーターの待遇改善ポストを燃やしたと喚いても、伸びてる批判ポストがメーターさんや業界の人なんだよなwそら業界で生成AIに規制求めてるしね
日本語
0
0
0
79
ぼす(群体) がリツイート
ペンギン
ペンギン@penpenguin2023·
『現状の多くのAIサービスにおいて「学習過程で行われる複製行為そのものが、著作権侵害に該当し得る」との見解を示した。』 「AIによる権利侵害」に出版・アニメ制作会社など集う国内団体が声明 「看過できない問題」 itmedia.co.jp/aiplus/article…
日本語
1
1.5K
3.2K
386.7K
ぼす(群体) がリツイート
ぼうくん | VoQn 🎨
”さて、大変残念なことですが、ネット一般に目を向ければ相も変わらず「生成AI」なる言葉を振り回す、意味のないフェイク未満の情報が山をなしています。” ”GPTの略がすぐ出てこないなら「G:がさつで」「P:ペテンの」「T:テキトウ」くらいに思って無視しておくのが安全、少なくとも、お金を出す価値はありません” うははははは jbpress.ismedia.jp/articles/-/763…
日本語
0
3
7
968
ぼす(群体) がリツイート