AI 生图器具,仍是多得泛滥了,但 Google 最新推出的 Whisk,照旧找到了一种很新的玩法ady映画,让见过世面的网友也直呼好玩。
只需输入三张图片,subject(主题)、scene(场景)、style(立场),Whisk 就可以生成一张共同努力的图片。
▲ 图片来自:Google
举个例子,主题是老东说念主,场景是藤蔓,立场是 90 年代复旧动漫,写上「扮装骑着航行自行车」的领导词,恭候转眼,一张近似吉卜力画风的新图片出身了。
▲ 图片来自:Google
老东说念主照旧阿谁老东说念主,戴帽子,穿西装,拿着书,但他骑上了领导词里的车,场景和立场也都形成了参考图片的样式。
Whisk 的所长便在这里——让咱们少写、不写领导词的同期,交接玩转多样立场,姆妈再也不回来我不会写领导词了。
别写复杂的领导词了,奏凯把图片端上来就行
别看只需要几张图片,Whisk 的玩法浅薄,却又取之不尽。
刷刷刷上传三张图片——主题图片,麦当劳薯条;场景图片,莫奈画作《睡莲》;立场图片,像素风游戏《星露谷物语》。
不写领导词,奏凯生成,Whisk 给出的截止,一张更比三张强。
除了上传我方的图片,咱们也可以掷骰子,让 Whisk 随即生成主题、场景、立场。
其实,Whisk 为咱们提供的预设立场仍是很够用,徽章、贴纸、刺绣、黏土、好意思漫、马赛克拼贴等等,特色廓清,效劳立竿见影。
唯有有脑洞和念念象力,无需一个字,只是通过不同图片的陈列组合,咱们可以不休地作念完形填空的游戏——主题+场景+立场,而且不是每个空都必须填。
▲ 1.主题图片,熏鸡;2.场景图片,梵高《星月夜》画作;3.立场图片,日本木版画
▲ 1.主题图片,《戴珍珠耳饰的仙女》;2.场景图片,电影《千与千寻》剧照;3.立场图片,蒙德里安抽象画
▲ 1.主题图片,微信「物化笑容」方式包;2.场景图片,电影《星际穿越》剧照;3.立场图片,史努比漫画截图
▲ 1.主题图片,冲浪默许头像粉色恐龙 momo;2.立场图片,Jellycat 玩偶
另外,Whisk 的每一次生成,场景和立场只可采用一个参考图片,但主题可以采用多个。这意味着什么?咱们可以让多个扮装同框了!
比如,让马斯克、奥特曼、扎克伯格通通形成搪瓷徽章。
三位的服装、遮拦、热诚都收复得挺好,扎克伯格的发话器和项链都没漏掉,但东说念主脸没法保持一致性,全部形成了大众脸。
虽然 Whisk 减少了写领导词的需求,但你需要写的话,Whisk 也饱读舞。
在对话框加上一句「扮装们都举着一块秘书牌,上头写着 AGI」,徽章庸东说念主们轻交接松地罢黜了领导词。
若是咱们需要某个场景或者某种立场,但一时找不到参考图,Whisk 的预设也莫得提供呢?
科罚方式很浅薄,莫得图片,那就写领导词,让 Whisk 临场表现一个。
就像我需要一个让扮装站上去的、像素立场的底座当作场景,就让 Whisk 帮我生成了。
然后,再把猫猫方式包当作主题图片,把像素小鸡当作立场图片,就可以得到一个有底座的像素猫猫。
总之,Whisk 就长短常解放,像橡皮泥相通,奈何持都可以。
既生图又识图,把复杂的责任流包装成理由的「打蛋器」
Whisk,其实是 Google 多模态模子秀肌肉的一种方式。
为了让咱们少写领导词,Whisk 整合了视觉理会和图片生成才智。
Gemini 模子识别图片,自动生成详备的描摹,然后这些描摹会被输入到 Google 的图片生成模子 Imagen 3,由 Imagen 3 生图。
Whisk 是这么的,用户唯有上传和生成图片就可以了,但它我方要磋议的事情就许多了。
Whisk 的每张图片,无论是上传的照旧生成的,都写了很长的底层领导词,况兼不藏着掩着,咱们点开图片就能看,也可以上手修改。
若是把一个东说念主当作主题图片,Whisk 会详备地描摹他的外貌特征,场景图片亦然近似的。
▲ Whisk 对奥特曼的描摹:「一个肤色较浅的须眉,有着短而深棕色的鬈发,从胸部以上展示。他有着淡色的眼睛。他穿戴一件浅米色的竭诚圆领毛衣。布景是一面斑驳的灰色混凝土墙。须眉的方式严肃而中性。清明有些阴暗,他的右脸有狭窄的暗影。」
立场图片略有些不同,若是把一张动画截图当作立场参考,Whisk 不会说,画面里有三个东说念主,而是描摹这幅画的颜色、清明、线条......
▲ Whisk 对史努比画风的描摹:「这张图片以卡通立场呈现,具有粗鲁的空洞和平面着色。颜色调色板有限,主要使用原色和柔软的次要脸色。清明均匀,衰退浓烈的暗影或高光,给东说念主一种浅薄、险些孩童般的质感。线条明晰且一致,带有狭窄不均匀的质感,走漏手绘的效劳。举座好意思学让东说念主联念念到经典的连环漫画或儿童动画。」
是以,Whisk 不是精确地复制图片,而是索求图片的秉性和精髓,将主题、场景、立场天然地交融在一都,各司其职,互不侵扰。
同期,Whisk 也叠了甲——只从图片索求极少关节特征,截止可能和预期不同。这也讲解了,为什么 Whisk 作念不到东说念主脸的精确收复。
是以,哪怕采用不那么抽象的复旧胶片立场,三位大佬的脸亦然和本尊都不挨着,但其他细节都很准确。
物体亦然相通,特斯拉的赛博皮卡,经过特征索求再生成之后,变得相配庸碌。
但若是是麦当劳薯条这种素材丰富的超等 IP,效劳倒还可以,可以拿来当告白图了。试过一些迪士尼的扮装,Whisk 复刻得也原模原样,但图就不放上来了。
另外,Whisk 还存在一个问题——没法作念很精熟的立场参考,师法不了某种特定的画风。
尤物皇后当我让 Whisk 生成蒙娜丽莎的乐高庸东说念主,出来的截止让我两眼一黑,但多加一句领导词,「让扮装更像乐能手物」,Whisk 又能师法个七或者。
某个漫画家的画风就更难师法了,上传漫画截图让 Whisk 参考,它最终给出的是一个相配庸碌的漫画立场图片,就算通过领导词强调作品、扮装、漫画家,也不起什么作用。
其实,Whisk 好玩就够了,它更合乎作念一些不追求精确的创意探索,俗称整活。
Whisk 可以翻译为「搅动」或者「打蛋器」,Google 的这个名字得到即视感很强,可不即是把食材都混搭在一都吗?
Whisk 的不精确,也让它的定位和传统的图片裁剪器不同,更像是一种创意器具。有了什么脑洞,由它达成低能的视觉效劳。
▲ Whisk 生成,1.主题图片,《火影忍者》截图;2.立场图片,毛绒玩物
夙昔达成 Whisk 这种立场化的效劳,跑通一悉数图像生成的历程,咱们可能需要在 ComfyUI 搭建责任流。
但当今有了 Whisk,好像就在玩抽卡游戏或者开盲盒,而且唯有能登录(限好意思国地区),刻下还免费。
体验指路https://labs.google/fx/zh/tools/whisk
Google 擢升的模子才智天然是前提和基础,但贪图出被大众需要的产物,仍然需要创造力和审好意思。
很心爱 Whisk 的 slogan:「prompt less, play more.」(少写领导词,多玩耍。)
Whisk 出自 Google labs,之前爆火的 AI 播客 NotebookLM,亦然出自这里,自后冉冉发展为熟练的样子。这个践诺室,本人即是这句 slogan 的最佳注解。
重大的模子才智,有新意的产物,怒放的心态,也曾似乎被 OpenAI 恫吓的 Google,风轻云淡地展现出了王者归来的姿态。