给人一条鱼,他可以吃一天。教一个人使用 ChatGPT,他将征服世界!
追溯机器创造力的历史

一种先进的机器学习技术已经变得非常擅长从零开始或从现有图像生成新图像(如今甚至包括视频)。这被称为图像合成,已成为生成 AI 领域最受欢迎的用例之一。图像合成在很多方面都有应用,例如……
广告——制作逼真的产品或环境图像
计算机视觉——为模型训练生成合成图像
数字艺术——创作新颖的图形、绘画和照片
时尚——为设计和新产品激发灵感

只要在 DALL-E、Stable Diffusion 或 Midjourney 中输入一些文本提示,您就能创造出逼真的不存在的角色和事物的图像。多么精彩的时代啊。

在这篇文章里,我们会探讨:
* 生成人工智能艺术背后的机器学习技术;
* DALL-E、Midjourney 和 Stable Diffusion 的工作原理;
* 现在您可以用这些工具完成令人惊叹的事情。
泡一杯茶,坐下来,让我们开始吧!
1.生成人工智能艺术背后的机器学习
在过去的十年里,已经研发出各种适用于图像合成的 ML 技术。它们主要可以分为四类:
1.生成对抗网络(GAN)
2.变分自编码器(VAE)
3.流模型
4.扩散模型

所有这些方法都涉及在大型图像数据集上训练模型,然后该模型学会生成内容和风格与训练集中的图像相似的新图像。

用于图像合成的不同类型生成模型的简介
当然——也许并非意外——这些不同的方法各有优缺点。这些可以用生成学习三难困境来概述,它描述了实现三个相互冲突的目标所面临的挑战——在以下方面进行三方面的权衡:
高质量样本——生成的图像非常好,类似于训练模型的图像。
快速采样——模型能够迅速生成图像。当前的 AI 平台,如 DALL-E、Midjourney 和 Stable Diffusion,现在只需不到一分钟的时间就可以制作出由提示
驱动的艺术作品!
模式覆盖和多样性——该模型能够生成广泛且多样化的图像,涵盖图像分布的所有变化,而不是偏向于某些样本。例如,在人类数据集上训练的 AI 应该能够生成所有不同种族和性别的人(覆盖率),并在每个人中产生差异(多样性)。
生成学习三难困境。资料来源:NVIDI
技术进步正在飞速发展。
目前最先进的方法是使用稳定扩散模型,这只是对应用于高分辨率图像的潜在扩散模型的重新命名,同时使用 CLIP 作为文本编码器。
这些模型保留了扩散模型在图像合成方面优于 GAN 的性能,同时改善了训练 GAN 所面临的众所周知的问题。
在未来,随着技术的持续进步,我们可以期待生成 AI 领域会有更多惊人的成果。而现在,DALL-E、Midjourney 和 Stable Diffusion 等工具已经为我们提供了一个创造梦幻般图像的奇妙平台。从广告到数字艺术,从时尚到计算机视觉,这些强大的 AI 技术正在改变我们的生活和工作方式。让我们拭目以待,看看这些工具将为我们带来什么样的创新和惊喜。
* DALL-E,由OpenAI打造
* Midjourney,出自Midjourney, Inc.之手
* Stable Diffusion,由Stability AI研发

这三款生成艺术类人工智能产品在市场上占据着显著的份额。
DALL-E的初代版本(2021年1月)采用了GAN技术,随后OpenAI的研究团队发现了扩散模型的优越性并开发出夹子(CLIP)。

DALL-E 2 的工作原理。资料来源:AssemblyAI
DALL-E 2由两个神经网络模型组成:一个(称为Prior)将用户的文本提示转换为图像的表征(图像嵌入),另一个将该表征转换为实际图像(称为解码器)。
训练过程如下:Prior接受训练,以获取文本标签并创建CLIP图像嵌入。解码器利用LDM对CLIP图像嵌入进行训练,以生成学习到的图像。训练完成后,DALL-E 2为用户提供的后端工作流程如下:
1.将文本提示转换为CLIP文本嵌入。
2.Prior使用PCA将文本嵌入的维度降低。
3.根据文本嵌入创建图像嵌入。
4.扩散模型将图像嵌入转换为图像。
5.利用卷积神经网络(CNN)将图像从64×64放大至256×256,再放大至1024×1024。
从GAN转向稳定扩散带来了实质性的变化。
DALL-E生成的图像仅限于卡通风格,通常背景较为简单。
相较之下,DALL-E 2的适应性更强,能生成逼真的照片级图像,展示了其将各种想法转化为现实的新能力。输出的图像更大、更为细致。
此外,DALL-E具备修复功能,可智能地替换图像中的特定区域。例如,在一张照片中的杂物堆积的桌子周围画一个方框,输入自然语言指令进行修改,让DALL-E施展其魔力。DALL-E 2则将此提升至一个新的高度,让用户能够扩展输入图像并围绕它构建一个世界。人工智能将运用初始图像中的数据,如氛围、光线和阴影,创作出超越边界的扩展作品。这是一段视频链接 https://youtube/3m2N0e8TYNY,展示了DALL-E 2如何扩展梵高著名的《星夜》画作。

同样地,Midjourney V5也实现了重大突破,能生成极为逼真的图像,而“艺术性”相对较弱——如果这正是你所需。与此同时,用户对最终结果拥有更多控制权,因为图像的细节对用户提示高度敏感。

Midjourney V5 中的艺术输出,您可以使用正确的参数进行自定义。资料来源:Henrique Centiero
Midjourney V5的艺术输出,您可以使用合适的参数进行定制。资料来源:Henrique Centiero
Midjourney选择了一种专有的商业模式来处理所有事务:模型开发、训练、调整和用户界面,而Stable Diffusion则选择拥抱开源生态系统,模型和训练数据随时可用。
因此,Stable Diffusion更适合技术水平较高的用户,他们可以在此基础上进行构建、定制模型和微调设置以实现他们想要的效果。
Midjourney则提供了一种更接近Apple的用户体验——开箱即用,简单易用。你只需告诉模型你想要什么,它就会呈现给你。
3.生成式 AI 艺术有哪些应用?
我们可以将其分为两类:
1.Text-to-images 文字到图像:通过文本提示生成艺术作品、图形和照片。
2.Text-to-videos 文本到视频:这个领域刚刚起步,成果尚不理想。请密切关注这个领域的发展。
想要一幅将拉斐尔的麦当娜与吃披萨的孩子结合的即兴画作吗?在过去的一年里,以用户提示为基础,按需生成美丽而奇特图像的生成式艺术 AI 可谓竞争激烈。从 OpenAI 的 DALL-E 到 Midjourney,再到 Stability AI 的 Stable Diffusion——如今我们拥有各种优秀的 AI 网络应用程序,能够根据简单的文本提示生成任何你想要的图像。
这个逼真的科幻项目机器人怎么样?

在 Midjourney V5 中,通过清晰的提示获得令人难以置信的结果。资料来源:MLQ.ai
或者与老鲍里斯共度一段难忘的时光?

令人愉快。我相信鲍里斯会同意的!
为艺术图书项目创作一些插图怎么样?

Midjourney V5 中的艺术输出,您可以使用正确的参数进行自定义。资料来源:Henrique Centiero
或者,快速拍摄一些库存照片?

摄影将被 AI 颠覆。来源:Christian Maté Grab
为你的杂志制作一张完整的封面怎么样?

《经济学人》2022 年 6 月的封面是在 Midjourney V2 中创建的。资料来源:经济学人
甚至在非同质化代币(NFT)领域,AI 已开始利用区块链捕捉去中心化所有权的技术,将 NFT 创作民主化为大众。MOOAR 是一款由流行的“移动和赚取”应用程序 STEPN 的创作者打造的创新性 NFT 发行平台,最近推出了名为 FairMint 的端到端服务,让用户能够使用生成 AI 创作图像集并将其作为 NFT 直接发布到区块链。
FairMint 通过让艺术创作(某些人可能不具备的技能)和区块链部署(通常需要开发人员)变得像做馅饼一样简单,从而让创作者有更多时间专注于市场营销和为 NFT 持有者构建实用功能等事项。
文字到视频这是一个新兴的应用场景,与文字到图像的惊人成果相比,目前的成果尚未达到完美。
这是可以预见的,因为生成一组从未存在过的动态图像比仅仅创建一个图像要困难得多。
在 2023 年 3 月 GPT-4 宣布发布时,我们迅速看到 AI 创新者和实验者尝试将其与 Midjourney 等 AI 工具结合,制作视频。
这包括将不同的 AI 工具与真实电影镜头相结合,产生一些新颖的效果。

仅仅一个月后,NVIDIA 的新视频潜在扩散模型(VLDM)已经改变了游戏规则。现在,您可以直接从文本提示中生成相当不错的视频。
虽然我们距离好莱坞质量的成果还有很长一段距离,但正如我们在 AI 领域所看到的那样,一瞬间,你就会突然看到昨天的技术变得过时。
我预测,在未来两年内,文字到视频的性能会迅速提高。
或许有一天,我们不再需要等待动画制作公司和电影制片厂创作内容来满足我们对冒险和逃避现实的渴望。每个人都将能够随心所欲地创造身临其境的视觉叙事或整个虚拟世界,并可能通过 AR 和 VR 等元宇宙技术进行体验。
随着全球数百万人开始思考如何更好地将思维与机器联系起来并生成他们想要的精确图像,提示工程已成为一项需要磨练、改进和掌握的关键技能。
用户已经开始将 AI 技术叠加在一起,例如 GPT-4,以帮助为 Midjourney V5 编写更好的提示。

将 GPT-4 与 Midjourney V5 相结合。资料来源:TheLatestNow
这是 SonyAlphaRumors 网站所有者的一个视频 https://www.youtube.com/watch?v=jreeF9zC4SM,解释了他如何轻松训练 ChatGPT 来帮助他在 Midjourney 上随心所欲地生成自己的摄影风格。他所做的只是向 ChatGPT 提供了一个由其他用户创建的,生成他想要的照片类型的提示列表。
我们看到越来越多的生成式 AI 先驱者发现了更好提示的秘密,并记录了他们的发现和经历。我预计,在未来几年里,编写有效提示的挑战将刺激整个大师级行业的发展。
随着生成式 AI 技术的普及和不断进步,越来越多的用户开始尝试利用这些工具来创造各种艺术作品和应用。通过深入研究和实践,用户不断优化提示工程技巧,以便更好地利用 AI 技术实现他们的目标。
在未来,随着技术的进一步发展和应用范围的不断扩大,我们有望看到更多令人惊叹的生成式 AI 艺术作品和应用,为人类带来更多创意和乐趣。而提示工程将成为一个重要的技能领域,需要不断学习和完善。
总之,生成式 AI 艺术在未来将会成为一个越来越重要的领域,不仅可以为个人创作者提供更多的灵感和创意工具,还可以为整个社会带来更加丰富多彩的艺术体验。而随着技术的不断发展,我们可以期待这个领域会取得更多的突破和成就。
AI 已经民主化了为大众生成顶级图像的能力。您不再需要成为专业艺术家、平面设计师、画家或摄影师才能创作出专业水准的作品。登录 DALL-E 或 Stable Diffusion 的网站,或跳转到 Midjourney 的 Discord,将措辞良好的提示串起来,然后观看魔法在一分钟内发生。可以想象,这在技术能力和颠覆潜力方面都令人难以置信。事实上,生成式 AI 艺术已经打开了围绕知识产权、艺术过程和艺术价值的蠕虫罐头。像 GPT 这样的模型是在真实艺术家的作品上训练的,导致 AI 艺术的价值无法与使之成为可能的辛勤工作的艺术家分享。问题是,随着 AI 生成的作品从这些艺术家手中夺走金钱、认可和机会,他们会继续创作艺术吗?当 AI 将传统上费力的艺术过程——经过多年专注实践磨练——颠倒过来时,艺术的价值会变成什么样子?单击几个按钮并输入一些提示是否会破坏艺术概念对人类意义的真实性?我可以想象,随着 AI 的采用和能力的不断提高,这场激烈的辩论只会更加激烈。另一个担忧源于现在任何人都可以轻松点击几个按钮来创建深度造假来煽动假新闻和欺诈。巴拉克奥巴马最近回顾了他的总统任期,认为他是第一个完全设定在数字时代的人,这使他成为人类历史上被记录最多的人(多汁的数据!)。
“今天你可以让我在视频中的任何设置中,当然在录音中,可以说任何话。除非你是米歇尔,否则你很有信心是我。
为了维护民主,我们将不得不花更多的时间来弄清楚我们如何教育我们的孩子来理清事实、观点、谎言、看似真实的事实之间的差异。我们将不得不训练我们的大脑来赶上这些新技术。”— Barack Obama, 2023

互联网专家拿时事开玩笑。资料来源:EliotHiggins(推特)
最近,我们看到了大量关于唐纳德·特朗普即将被捕前的起诉书的Deepfake艺术和模因在互联网上流传。
对于一些人来说,这些都是娱乐和游戏,但这种技术可能会无意间或故意地引发不和、假新闻和两极分化,这需要我们深思如何管理。
最后,一直以机会主义著称的生成人工智能艺术已经渗透到色情行业,一些无耻的初创公司利用这项技术制作了以著名女演员面孔为主题的剪辑。
无论您是否喜欢埃隆·马斯克,这都是一个有趣的模因,对吧?

随着文本到图像的生成AI技术日益成熟,最新的平台能够生成让绝大多数人难以分辨的照片级逼真图像。
这使得许多创意产业面临颠覆性的挑战。
同时,机器学习技术正以惊人的速度不断创新。预计在未来三年内,文本到视频的技术将逐渐受到关注。我们还可以期待,随着新的旗舰模型的推出,企业家和技术机会主义者将迅速寻找方法来扩展他们的能力,通过……
个性化(例如训练您自己的Stable Diffusion模型);
扩展(例如插件);
堆叠。
如今,我们已经看到多种AI技术“堆叠”在一起,形成端到端服务,例如使用GPT-4为Midjourney V5生成丰富的文本提示。
预计AI初创公司将出现爆炸式增长,每家都在特定领域表现出色,创造专门的AI。技术人员和用户将在AI微服务的模块化网络中堆叠在一起,以创建新的端到端AI产品。
顶尖企业家将扩展他们的产品,成为独角兽企业。
这种技术堆叠的趋势反映了过去十年中更广泛的技术运动,即从单体架构(一个平台可以做所有事情)向灵活的超专业微服务的网格或网络迁移。
END
AIGC这么火热的时代,怎么才能不落伍,我最近也很焦虑,直到发现了一个大佬创立的AI社区 : ChatGPT&AI破局俱乐部 ,这个社区是360前技术总监、曾经的连续创业者 findyi 创建的。
我们已经1.5万会员了,目前是全国第一大AI学习&实践社群。

不光是规模大,我们的内容和会员活跃度更是首屈一指。
30天内,AI破局俱乐部共产生了3300篇帖子,日均100篇;精华帖子90篇,日均3篇。作为圈主,我贡献了84篇帖子,占比2.5%,其中精华帖贡献20篇,占比22%。
我们的周活更是恐怖,达到了75%,而星球平均数据是18%-55%:



(如果优惠券失效,请扫码私信好巴,备注说明来意)
code/s?__biz=Mzk0NjQ3NDQ3NA==&mid=2247483716&idx=1&sn=ce196971d2450733a7ce1c2ced9799e6&chksm=c304ddc1f47354d7d569c39ce5eb108b53f7c12910d1d2b6ae11ba6a61d22580e97d023783f5#rd