最近发现文生视频的工具大家总会提Runway,激发了我对Runway多模态产品的探索欲,决定分析一下这款工具。
分析后,我突然想明白了,总会被问到:你是如何生成用户想要的东西?在我的视角,通过prompt和微调就解决了,因为我也是这么做和设计产品的。当我看到Runaway这个产品的时候,对方可能是在说这类通用型的AI Native产品工具。
AI视角结论:
我们离AGI还很远...现阶段重点考虑怎么把AI工具用在实际业务的工作流程,不管是嵌进去还是单独部署。
当一个产品只是解决中间某一个环节的降本问题,比如优化了编辑环节,那么我认为后面会有更能降本增效的产品出现,比如直接制作,直接影响整个工作流环节。
具体Runway的产品测评、细节体验总结:
1)短视频,单个镜头效果不错,prompt建议用英文。更适合专业的视频剪辑师使用。生成效果还是很好的,作为视频生成和编辑工具,基本功能还是有的,总体体验下来,简单的场景大家还是可以使用的,是一个好的工具。
2)没有明确使用场景,是一个通用工具。那么用户需要自己了解视频的因素有哪些,比如风格等。想要什么场景,场景里有什么东西,全靠用户写提示词,如果用户不会写提示词怎么办?写的提示词不是自己想要的。第一步的基础上做可视化,设置明确的场景,确定风格,比如综艺、短视频等,甚至再细分,使用户生成的视频更准。
3)只是一个基础功能,缺少很多基于行业knowhow的差异化功能,比如在制作视频中,要去水印,那么只需要输入去水印提示词或者点击一下按钮,就可以完成。综艺行业的去水印,就知道要突出产品的重点,去掉其他不重要的信息。
4)不同风格下,视频里的细节需要优化
下面来详细分析一下:
内容创作-视频创作
Runway Gen-2 是一款强大的AI视频制作工具,它通过将文本转化为视觉内容,为用户提供了一种全新的表达方式,并在广告制作、品牌宣传、游戏开发等领域具有广泛的应用前景。
Runway 的产品哲学很清晰:一直站在 AI 技术演进的前沿,始终基于 AI 新技术的边界,寻找视频和图像编辑的全新方法。他们不希望做一个更好的 Photoshop 或 Premiere,而是希望借助云计算和 AI 的力量塑造全新的工作流。
视频创作和编辑的整个产业链涉及多个环节和众多参与者,构成了一个复杂的生态系统。以下是视频创作和编辑产业链的上下游主要参与者和工作流程的概述:
创意开发与策划:包括编剧、导演和制片人,他们负责构思故事、制定拍摄计划和预算。
资金筹集:投资者、电影公司或众筹平台,为项目提供必要的资金支持。
选角与演员管理:选角导演负责挑选合适的演员,管理演员的合同和日程。
场地与设备租赁:提供拍摄所需的场地和设备,如摄影棚、摄像机、灯光等。
拍摄制作:导演、摄影师、灯光师、美术指导等专业人员,负责实际的拍摄工作。
后期制作:
剪辑:剪辑师负责将拍摄的素材剪辑成连贯的故事,包括初剪和精剪。
视觉特效:特效师使用专业软件添加视觉效果。
音频制作:包括配音、音效和音乐制作。
调色:调色师调整影片的色调和风格。
审查与修改:根据反馈进行必要的修改和调整。
发行与销售:发行商负责将作品推广到市场,包括电影院、电视台、网络平台等。
营销与宣传:营销团队负责宣传推广,吸引观众关注和观看。
版权管理:处理作品的版权问题,包括授权和保护。
观众:最终的消费者,观看并评价作品。
这里先以电视栏目为传播渠道、其实还有电商平台、短视频等平台。可以看出视频生成属于产业链的中游,主要在后期制作部分。
那么视频生成工具主要应用于后期制作部分,因为视频生成只需要输入prompt,那么其实真正的用户是专业点的流程需要用AIGC视频设计师来编辑视频,当然导演、商家、自媒体人也可以直接生成视频。
Runway产品更适用于后期制作师。
用户画像:高度专业的技术技能,熟悉各种视频编辑软件和后期制作工具。
用户痛点:时间压力:在紧迫的截止日期下完成高质量的工作。技术限制:受限于当前软件和硬件的性能,可能无法实现创意愿景。素材管理:需要有效管理和快速访问大量视频素材。
补充下视频编辑流程及必备要素,便于我们后面分析产品:
后期制作是视频制作流程中非常关键的一步,它涉及到将拍摄的原始素材转换成一个连贯、有吸引力的故事。后期制作的具体步骤可能因项目而异,但通常包括以下几个阶段:
素材导入与管理:将拍摄的原始视频素材导入到计算机中。对素材进行分类和标记,以便快速查找。
剪辑:初剪:根据剧本和拍摄计划,剪掉不需要的部分,形成初步的故事线。精剪:进一步细化剪辑,调整节奏,确保故事连贯。
调色:调整视频的色彩,使其风格统一,增强视觉效果。
视觉特效(VFX):添加或修饰画面中的元素,如移除穿帮镜头、添加CGI(计算机生成图像)等。
音频编辑:调整和混合对话、音效和音乐,确保音频清晰且与画面同步。
配音:如果需要,录制或编辑旁白、解说词等。
音效设计:添加或编辑环境声、动作声等,增强场景的真实感。
音乐配乐:选择合适的背景音乐,增强情感表达。
字幕和图形:添加字幕、标题、图表、动画等视觉元素。
合成:将所有元素(视频、音频、特效、字幕)合成为最终的视频。
视频生成、通用世界模型。
因为视频生成的平台不多,我这里先说下与文生图平台的区别:
与SD最大的不同点、底模是通用模型,不可选其他底模,也不能加lora微调,导致生成不准。可能因为这个是生成视频的软件?
使用过即刻设计的文生图,是有具体的使用场景,虽然不多,但图片能看也能用。操作也很简单,输入文字或图片,选择场景,直接输出图片,降低用户教育成本。这种形式是我很想做的,现在很多的产品,用户教育成本太高了。
像Runway、SD,我之前看的coze这种工作台(需要用户自己动手微调部署、自己搭建Agent的产品)。正如上面所说,真正的用户是专业人士。
2.1)文本/图像转视频:
使用文本到视频生成功能创建您可以想象的任何风格的视频。如果你能想象它,你就能生成它。(这几个功能影响,比如选风格,需要先选风格,再传照片,先传照片则改不了风格。所以在这里最后传照片比较好)
使用步骤:
1)输入文字提示:想象一个原始文本提示,或者开始编写一个并从我们的自动提示建议中获得灵感。
2)调整设置:使用网页上的高级设置来微调生成。为后代保存种子数,启用升级以增强视频分辨率,或使用插值来平滑帧。
常规设置:插值来平滑帧、增强分辨率、去水印、种子
相机运动:指定摄像机的移动和强度,就像您在拍摄一样。水平、旋转、前后倾斜、左右倾斜、垂直、飞涨
通用运动:增加或减少视频中的运动强度。值越高,运动越多。
运动画笔:

自定义模型(您的输出将与您的图像风格相匹配。要使用自定义模型,请删除您的图像)。训练的自己的模型
风格:(在这能看到风格了,下拉列表是看不到的)

横纵比

3)生产:单击“生成此”以生成您的定制 Gen-2 创建。从这里,将各版下载到您的计算机,或将它们保存在您的 Runway 资产中以供以后使用。
存在问题:
1)从这里可以看出,没有明确使用场景,就是一个通用工具。
2)只是一个基础功能,缺少很多基于行业knowhow的差异化功能,比如在制作视频中,要去水印,电商行业的去水印,就知道要突出产品的重点,去掉其他不重要的信息。
2.2)视频到视频
使用文字和图像从现有视频中生成新视频。
使用步骤:
1)选择视频:从桌面或 iPhone 中选择要用作输入的视频。如果您使用的是移动设备,您还可以选择直接在应用程序中拍摄新视频。
2)选择您的风格参考:可以通过三种方法来转换输入视频。选择现有图像、编写文本提示或从 Runway 的预设样式之一中进行选择。
3)预览并生成:解锁高级设置,例如结构一致性、重量或框架一致性,以微调您的生成。在提交之前预览各个版本。然后,只需单击“生成”即可观看魔术的展开。
风格:结构一致性,值越高,输出的结构与输入视频的差异越大。推荐:0 到 5。
权重:值越高,越强调匹配风格而不是输入视频。建议:7.5 至 12.5。
种子
帧一致性:低于 1 的值会降低随时间的一致性;高于 1 的值会增加帧与先前帧的相关程度。建议:1.0 至 1.25。
自动增强图像分辨率(可能会稍微增加生成时间)。
去除水印
仅影响前景:只会影响前景主体,而背景不受影响
仅影响背景:只会影响背景而不会影响前景主体。
预览、生成
2.3)人物模型训练(训练lora模型可视化了,等于把这步让用户自己完成了,学习人物特征)
轻松训练您自己的 AI 图像生成器,以实现无尽的定制肖像、动物及风格等
1)上传图片:
选择 15-25 张图像来创建数据集。模型的结果将直接受到您上传的图片的影响,所以请谨慎选择!确保您的主题清晰,提供不同的背景和照明情况,并裁剪图像以仅包含主题。
2)训练
为您的模型提供一个名字——使其简单易记,以便将来使用。等待大约 30 分钟以处理训练结果。
3)生成模型
通过打开“文本到图像”并在其中选择您的模型,探索自定义图像的新方法。(将其视为您的个人人工智能艺术生成器!)
2.4)文本到图像生成
通过输入描述性文本,使用我们的 AI 图像生成器轻松从头开始创建图像。
1)写一个提示:发挥你的想象力来制作一行原创文字。为了获得最佳结果,您需要提供尽可能多的细节 - 逗号是您的朋友!——还是写提示词的问题。
2)调整设置:
基础设置:更改比例(长宽比)像素(720P、4K)、风格(3D卡通、3D渲染、蒸汽波、广告、日本动画片、建筑、雕像、电影镜头等)、输出数量(1、2等)
高级设置:提示权重((也称为无分类器指导)确定在生成过程中考虑多少提示。较高的值可能会产生更精确的结果,而较低的值可能会产生更有创意的输出。)种子(噪声)、负面提示(不能出现什么)\媒介、情绪,以根据您的喜好自定义文本到图像 AI。想想:像素艺术、水彩画、生动、素描以及更多风格。(这里的设计做的很好)

3)生成:选择完所有设置后,请选择要生成的图像数量 - 从一张图像到一批 500 张图像。
建议提示词用英文,中文识别效果不太好。
2.5)图生图
使用我们的 AI 图像生成器从文本轻松将现有图像转换为修改后的图像。(其实我之前不是很理解SD的图生图,现在基本理解了)
1)选择图像:上传您想要修改或转换的图像。您将能够调整图像的风格,调整主题,或创建新的情绪,但原始图像是魔术工具将要处理的内容。
2)提示词:描述图像,包括您想要进行的任何调整或编辑。
像素、输出数量、种子、风格(与文生图一样)、提示权重(较低的提示权重将产生更有创意的结果,而较高的提示权重将更紧密地遵循您的文本提示。)、力量( 控制原始图像结构的变换程度。)、负面提示。
3)生成:使用高级设置进行进一步的优化,选择所需的输出数量,然后借助我们的 AI 图像生成器轻松生成新图像!
七、参考资料
code/s?__biz=Mzg2OTUzODkxMQ==&mid=2247483926&idx=1&sn=08b1f1d0d6d9d7475c3f6111724196ea&chksm=ce9acf26f9ed4630f9800ff99d898a584cd85ca37f897c20740bd13b6b32bbd14170e463750c#rd