
carzygod
441 posts

carzygod
@carzygod
Nothing but cumming with endless boring Donate : 0x9b4bc4d5cbdad37c297886010a998cb5f1217cee https://t.co/UJ4jlxAGmU
Dark Side Of Moon Katılım Eylül 2016
67 Takip Edilen87 Takipçiler
Sabitlenmiş Tweet

久违的腾出了手做了一下生成式测试,对 Happy horse的产出能力做了一下验证。
整体上略失望,给我只管的感觉是,没有比LTX 2.3 好多少。并且一个号称开源的模型等了差不多一个月了,还没有看到具体的开源权重模型权重,也没有找到我能本地化部署的方案,不排除是可灵换皮。
先说结论,整体生成效果跟LTX 2.3 甚至 Wan 2.2 持平,比可灵3.0 略逊色,最多也只有可灵2.6的水准。距离seedance 2.0更是还有很长的路要走。
在没有强prompt约束的前提下,生成出来的四肢动作绵软不符合逻辑,克总附身。
整体缺乏真实感,缺乏要求的镜头抖动。
我也不清楚半个月多月前X上铺天盖地的吹嘘是怎么个一回事
至今没开源权重,换皮与否尚未可知,整体能力跟Ltx2.3没有多显著的提升,除了软文想不到其他可能
中文

考虑到原版的 HyerFrames 插件没有音频能力,所以封装了一套支持本地配音+comfyui控制的Codex插件。
最后实测了一下,整体效果还是相对不错的。但是人机感还是太重。
后续会考虑使用其他的音频合成 workflow , 尝试用来做科普类视频,效果应该会很不错。
配合自动发版工作流,做些Ai科普类的矩阵号应该是信手拈来。
carzygod@carzygod
实测了一番 Codex 的 HyperFrames by HeyGen 插件。 整体产出效果比预期的要好,后续使用这一套方案做闪剪、短广告、应用说明效果应该不差。 缺点是当前Extension并不支持音频生成,所以无法有效配音。 但是理论上我也可以通过让Codex调度ComfyUI实现音频生成,然后再寻找BGM音效实现对该视频进行原生配音。 从而实现构建完整的成品视频方案。 整体效果还是相对惊艳的,比起传统的生成式工作流该方案更适合做科普类工作流。
中文

@caicai_Vic 有的,这个我封装了一个支持调度本地部署comfyui来实现音频配置和BGM配置的codex插件。
试用了一下效果还是蛮好的
github.com/carzygod/comfy…
中文

@williamlab 核心冲击SORA的应该是Veo 3/3.1 。
目前来看基本只有Veo 系根Sora是同生态位的。
毕竟可灵3/Seedance2.0 这两家的效果根Sora比在动作和镜头控制上好太多,照理说碰不到一块。
中文

测试一下当前的微信原生openclaw信道。
1. 目前似乎暂时不支持图片、视频、文件的传输(非常明智)
2. 整体连接处于完全0KYC状态
暴论先摆在这,微信原生的openclaw通道势必会成为下一个爆款的诈骗、地面盘、色情订阅的爆点。
你无法想象一个无KYC无鉴权无身份验证无内容审查的微信官方chat信道对广大中老年群体的定向收割能力,也不敢想象这条信道被地面保健品盘、理财盘、资金盘发扬光大之后能够带来多大范围的定向AOE。
基于这条信道,光是我能想到的玩法就五花八门:
1. 91订阅BOT,定向更新推送所有新鲜的91porn的新视频给到订阅者的微信。【还好目前视频、文件传输还没开放。确实是明智的】
2. 群聊客服钓鱼诈骗、资金盘销售、保健品销售。有效的替代私聊体系,随便一个二维码就能连上这套系统,使得完全匿名无审查的信道直接构建。随便钓钓都能钓成翘嘴,事后还一点都反查不了。
3. 网赌直聊信道。传统的网赌平台痛点在于会被快速的ban domain/IP,使得大部分网赌、色情要么需要快速的变更站点地址,要么通过撒网大量镜像站的形式规避金盾的定向审查。现在可简单了,只要微信扫码订阅了,直接随时定向推送最新IP/地址。配合namecheap+cf的组合,这下网赌、毒、黄是属于春风吹不尽金盾拦不完的状态了。
总的来说,微信这一步很野,野的完全没道理,很难说这波南山必胜客会不会阴沟翻船,落得根蚂蚁一个下场。
最后给个截图,这个截图是针对2.,也就是群聊诈骗客服的系统实现。只需要线下给客户一个二维码,就可以轻松的点对点触达客户,而且不存在任何的账户风控、聊天内容审查、身份信息KYC等等。能够快速的实现匿名的走进各种中老年群体的手机微信。很难想象这套体系如果运转起来,会带来多大的冲击。



中文

得知微信为了兼容openclaw专门把`微信插件`生态专门加了一个openclaw的接入方案并去人民日报买了个广之后。
就在考虑,这开出来的口子能做的东西估计会很多,包括但不限于广阔的TG Bot生态一众移植。
所以检查了一下人民日报里提到的SDK,然后扒拉下来重写打包了一遍,对标`node-telegram-bot-api` 封装了一下。
做了一个 `weixin-bot-sdk`,把微信 iLink Bot 的登录、长轮询、消息收发和媒体能力封成了一个可直接用的 TypeScript npm SDK。
它支持:
- 二维码登录建 session
- 长轮询收消息
- 事件式 Bot API
- 文本、图片、视频、文件发送
- 会话持久化
- CDN 媒体上传/下载与解密
适合拿来快速搭微信 Bot、客服助手、通知中继、知识库问答入口、私域自动化工具,或者做你自己的微信 Agent runtime。
和 Telegram Bot SDK 的体验类似,但底层更偏“会话型回复模型”,所以很适合围绕真实聊天上下文来做自动响应。
如果你也在找一个能让微信 Bot 开发从“协议细节”回到“业务逻辑”的 TS SDK,这类封装会很省时间。 当然,SDK是完全开源的。
Github :
github.com/carzygod/wecha…
NPM包地址和具体用法 : npmjs.com/package/weixin…

Sea@Sea_Bitcoin
快讯:微信的 OpenClaw = ClawBot 正式来了 1. 更新到 iOS 微信最新版 8.0.70 2. 进入设置 - 插件 3. 在运行 OpenClaw 的设备安装插件,与微信连接 4. 使用微信扫描二维码,启用 ClawBot 插件
中文

@lu_spread 确实还行。
缺点是听不懂人话。
Wan 2.1 / 2.2这个大类有太多成熟的流了,所以支持动作迁移、文图约束、首尾帧生成,之类的东西。
但是LTX2.3目前还没有。
中文

尝试了一下开源模型 `LTX2.3` ,同时不得不感慨,那么多年过去了还是再用 comfyUI ,而那么多年过去了依旧暗病不断。这张被我从矿场赎身🤡的3060也是糟了老罪了。
由于是久违的折腾本地方案,所以挂了一宿机,同时测试了Wan 2.2 本地渲染和 Ltx 2.3本地渲染,想做个简易的横向测评。
但是横向测了一下后发现Wan 2.2 根Ltx2.3 无论从耗时性价比,还是产出视频质量、画面稳定性、场景一致性,都完全不是一个水准的。所以感觉没有办法做对比,干脆都拿出来说说吧。
先说本地环境:
🐔
I5 12400F
DDR4 2667MT/s 32GB
3060 12 G
Windows 11
整体来说, Wan 2.2 在画面一致性上尚有欠缺。但是核心的硬伤是每秒 16 帧提不了,使得整体成片质感,与其说是视频,不如说是GIF。5s 视频耗时12分钟,考虑到是3060甜品卡,也能接受,不过倒是能把我本就不多的核心全部吃满,GPU内核温度一度稳定在 86°,使得我不得不担心直接炸锅。但是不得不说, Wan2.2 在构建一些中低端的AI漫剧方便还是足够的,持续抽卡,成本相对可控,考虑到已经是服役半年+的模型了,这个表现还算堪堪可接受。
而LTX2.3 则整体上产出结果稳定不少,测试用例是仅做了 ITV (image to video) ,没有应用文字约束(别问,问就是选错了),导致了最终产物背景一致性上做的很是糟糕。但是可以看到整体音画同步以及口型校对上还是做的不错的,由于文本约束没有起效,所以根据单图进行的自由派生、衍生,产物还算可以。 10s 视频耗时20分钟 。 速度上比Wan 2.2 相对更好一些,但是不知为何,GPU没吃满。考虑到模型存放地是我的外置机械,慢的堪比网速的HDD 读取速度( 150M/s ,还真不如我的千兆网😇) ,瓶颈可能不在GPU而是本地存储调度。
整体下来,令我比较震惊的是 32G 运存 + 12G 显存居然能跑的动ITV类的模型,原本按照我的预估,即便是蒸馏的小模型,也不应该是这种配置能碰瓷的。
测试产出demo 说明:
第一个是Wan 2.2 的产物
其余均为 Ltx 2.3的产物
#AIGeneration #Aiart️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️️
中文

实测了一圈,我也来做模型推荐了。
建议手里有卡有运算能力的可以尝试跑一下 `HauhauCS/Qwen3.5-35B-A3B-Uncensored-HauhauCS-Aggressive` 。整体来讲是一个相对不错的无审查模型,35B的体量+支持视觉输入两大特性让他弥补了无审查模型中瑞士军刀的生态位。
跟过往的非审查模型比,该模型的和新特性应该在 多模态感知。无论是跟之前的 Venice 或 Dolphin-Mistral-24B-Venice-Edition 等模型比起来,35B的体量摆在这,整体产出会更多元,效果会好不少。
而支持视觉输入的特性则意味着能够像个瑞士军刀一样的塞到各种犄角旮旯角落里。做很多有意思的事情。
目前感觉这个模型会被快速应用的场景:
1.无底线的TG Ai酒馆。
本身TG的各类AI酒馆就是无审查模型重灾区,轻度解锁审查模型一直都是TG酒馆的心头宝。
现在解锁了无下限模型,很难想象会有多少人拿来做CP或更多不符合基础道德限制的酒馆BOT。
以及,现在应该能应对 “用户向bot遛鸟”这种场景了,快进到有人出个”遛鸟“测评bot,锐评bro的生殖器。
2.Kali-agent类
即自动渗透、黑入、攻击类agent,正常情况由于有道德审查的存在,所以大部分Claude code或 codex等agent都无法正常的去做网络渗透、侵入式攻击等内容
但是由于有无审查模型,且是35B模型,估计会有跟强烈的自动化网络攻击风暴。
总的来说。还是会带来不小影响的。
模型地址 : huggingface.co/HauhauCS/Qwen3…
carzygod@carzygod
加上支持图像识别的特性。这个35B的模型还蛮全能的。 很难想配合这种无审查无道德底线的模型,那批AI小酒馆会出现多少无底线的变态玩意儿😈 而换个场景来讲,自动化渗透和AI类的攻防模型还得进一步升级。这下Kali-Qwen 类的模型又要变异咯。
中文

推荐使用Qwen3.5-35B-A3B的未删减版,有视觉理解能力,我目前本地5090龙虾就跑这个模型,多的不解释了,成人版龙虾想当震撼。
huggingface.co/HauhauCS/Qwen3…
中文














