梦瑶 发自 凹非寺
量子位 | 公众号 QbitAI
不是,谁也没跟我说今年的AI春节大战搞得这么猛猛猛啊!?!
年还没到呢,可灵就超绝不经意甩出一个「过大年计划」:推出可灵3.0多模态全家桶。
让每个人,都能上桌当——大导演

大明星猫猫一个眼神给出去,直接现场教学啥叫“身体成了一个X型”,别说这小身材搭配这小眼神整的还挺曼妙:
角色情绪和眼神动作都完全拿捏到位,而且猫猫的特写镜头给的特别好,看来这AI是懂点镜头语言的。
唯一的小bug出现在了台词上。
原本提示词里明确是小狗说“老师”,但模型在生成时把这句台词顺带分给了小猫,导致角色说话的对应关系被打乱,整体台词逻辑出现了点偏差~
(我猜可能跟我提示词的动词太多有关系……)
总的来说,智能分镜本身是靠谱的,多镜头结构基本不会出大问题,只是在台词和音频分配上偶尔会冒出一些小bug~
人物一致性更稳了咱平日里只要生成涉及「主体角色」的AI视频,有个几乎90%都会遇到的问题——
角色明明只是换了个动作,结果上一秒和下一秒长得就已经不是同一个人了……

咱先来看对复杂文本指令的遵循能力如何~
这次我喂给AI一段同时考察主体一致性、连续加减速的运动理解,以及多区域切换时的镜头跟随与时序控制的提示词:
然后我就会得到一个香蕉猫和优雅企鹅在纽约街头盘算着吃豆腐脑的「抽象抓马」大戏:暴露出来的问题也不少:第一帧背景白底直接出错,后半段香蕉猫的嘴形没对上,角色和背景的融合度也偏低,整体看下来,这是这轮里生成效果最差的一个……
(我是觉得不如智能分镜的效果好)
而且说实话,对我来说这种需要自定义镜头的方式也略微麻烦。
既要上传参考图,又要自己拆分镜头、逐一标注每个镜头的主体,如果折腾这么一圈,最后生成效果还不理想,u1s1,多少会有点难受……
感觉「自定义分镜」功能还是更适合对提示词和分镜脚本比较熟的朋友去用。
如果需求没那么高、又像我一样对提示词不算精通的话,还是更推荐大家直接用「智能分镜」。

突然想起来,我上一次用可灵还是在测试O1模型,这次实测下来,能明显感觉到3.0相比O1好用、也好玩了不少。
bug确实也有,但大部分也是现在多模态模型的通病,模型对于咱日常工作娱乐来说足够用了。
可灵的黑金会员可以先在Web端体验一波,非黑金用户也不用急,感觉全面开放应该很快就会来~
(期待一下叭)
— 完 —
量子位 QbitAI · 头条
关注我们,第一时间获知前沿科技动态号
相关文章


猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113750