AI+计算机视觉-1

尝试一些开源的AI CV方案。基础架构使用Azure GPU VM。

一、静图生动图

使用i2vgen-xl模型验证效果

原静图:

生成的动图(下面视频是录制的动图,并且录制了三遍):

效果还可以,但现目前现有的开源模型都无法生成复杂的、长时间连续的Video,比Sora差距还是很大的。

stable-diffusion-webui
使用如下开源项目:

https://github.com/AUTOMATIC1111/stable-diffusion-webui/wiki/Command-Line-Arguments-and-Settings

LoRA  (Low-Rank Adaptation) 模型,称为小稳定扩散模型,在传统检查点模型中进行了细微调整。LoRA模型的链接包括:像素艺术、幽灵、Barbicore、赛博格以及受Greg Rutkowski启发的风格。LoRA模型不能独立运作,它需要与模型checkpoints协同工作。LoRA通过对相应模型文件引入微妙变化,带来风格上的差异。此外,随着SDXL的发布,StabilityAI已经确认,他们期望在SDXL v1.0基础模型上,LoRA将成为增强图像最流行的方式。LoRA模型可以在https://civitai.com/ 或 https://huggingface.co/ 上找到。

例如我们可以下载下面的LoRA。

https://civitai.com/models/331116?modelVersionId=464939

运行stable-diffusion-webui,验证文字生图。

接下来,验证图生图,在原图上增加个眼镜,图别的部分不变:

资源利用率如下:

使用相同的prompt和超参,换一个模型ponyFaetality_v11.safetensors,生成的结果如下:

根据图生图,给原图女孩增加一顶红色的帽子:

接下来,定位置修图,将帽子换成黄色(我故意把mask的图留一点红边以验证像素的准确性)。

效果很不错。

下一篇验证LoRA的效果。


本文由“公众号文章抓取器”生成,请忽略上文所有联系方式或指引式信息。有问题可以联系:五人工作室,官网:www.Wuren.Work,QQ微信同号1976.424.585