最新动态
AI视频解决方案汇总
2024-12-26 21:54

本文作者为 360 奇舞团前端开发工程师

随着人工智能技术的不断发展,AI生成视频的领域也在不断壮大。从基于大规模数据的深度学习方法到创新的算法和工具,各种解决方案正在不断涌现,为视频制作带来了新的可能性,从最开始的、到一经问世就惊艳众人的,可以说大模型在多模态,特别是视频模态的发展速度远超我们的想象。不过就文生视频而言,目前市面上仍然没有像这样的现象级产品出现。经过对目前主流文生视频解决方案的调研,我整理了以下内容供大家参考。

基于的动画插件方案
  • 是一种技术,用于在创建最终的 或视频时,精确调整正面提示,以精确控制特定时间帧内的具体细节。当与 和 结合时, 允许更大程度地影响 和视频的视觉美学,包括风格、背景、服装选择等元素。在中,如果使用这种方式来制作动画,那么我们的提示词就能使用 的撰写方式。他主要分为三个部分:开头提示词指定帧数提示词结尾提示词例如正常的提示词为

  • 使用 的撰写方式的提示词可以这样写

    头部提示

    头部或基本提示充当基础输入,用于确定生成的视频或 GIF 的整体外观

    帧提示

    帧提示遵循“帧编号:帧prompt”模式,确保您的帧编号按顺序排列。这些提示显示在特定时间范围内将发生的修改。并且对每一个“帧prompt”都可以添加单独的权重规则.

    尾部提示

    案例中的最后一行代表尾部提示,不是必须的。您可以灵活地包含单行或者多行提示,也可以不写。

    1.2 插件安装

    插件有多种安装方式,这里介绍其中的两种

    1.3 模型下载
    1.4 填写prompt、设置插件、生成视频

    设置

  • 开启

  • 选择输出格式为和

  • 设置生成的总帧数以及FPS帧率

  • 设置首尾帧是否相同: : :N意味着绝对没有闭环 – 如果的值小于且不为0 ,这是唯一可用的选项。

  • 其他参数保持默认不变

  • 设置

    • 开启,选择对应的预处理模型

    • 上传参考图片或是视频

  • 修复模型默认选中第一个

  • 点击生成后,等待片刻会生成相应是Gif或是MP4视频

    安装有两个目的,一是如果输入视频的分辨率,对于您的 GPU 来说太高,可以利用缩小视频.

    上面的命令会将视频的高度调整为 720 像素,并自动调整宽度以保持宽高比。

      • 设置采样器和步数

      • 设置正向提示词/否定提示词。您可以像往常一样使用 嵌入,但界面不会在此选项卡上提供列表,因此需要复制模型名称到选项卡

      • 可以开启并使用(边缘检测)预处理器,这一步是可选的

      • 生成视频

        生成每一帧的预览会输出到 目录下,如果您没有强大的 GPU,预计 720p 的 30 秒视频需要数小时才能渲染完成。最终渲染完成的mov2mov 视频是没有声音的,生成的视频会输出到 这个目录下

      • 利用从原始视频恢复音轨

      对比自带的批量图生图,更推荐插件。直接通过提示词控制、生成最终视频,省去了用其他视频产品将多张图片转成视频的过程。但比起,的能力比较单一,生成视频的闪烁也较大,胜在操作十分简单,这是它的项目地址:https://github.com/Scholar01/sd-webui-mov2mov.

      可以直接从参考视频逐帧处理,处理完成后打包成视频,或是可以自定义选择关键帧或者自动生成关键帧

      2.2 插件

      进入界面进行设置,主要需要设置的就是采样器、采样迭代步数、宽度、高度以及输出目录(Batch name,不同的设置对后期生成的视频影响较大,可以参考这篇文章:https://civitai.com/articles/5506/deforum-everything-you-need-to-know,了解相关参数设置,这里不再涉及。

      2.3  EbSynth

      还有一些其他插件如等,笔者没有过多研究这里不再涉及,感兴趣的同学可以自行.

      独立的AI动画方案

      是由的插件作者基于项目技术基础做的一套工作流优化和整合的扩展项目,这个项目是独立部署,独立运行的,项目地址:https://github.com/s9roll7/animatediff-cli-prompt-travel,相比的插件有以下优势

      • 视频生成时人物一致性较高,且可控,据说动画模型后续可以自己训练。

      • 视频转绘时人物和环境融入很自然。在实际应用中,表现出了极高的灵活性和效率。用户可以通过命令行界面,轻松地设置各种参数,如生成时间、控制网络、提示词信息等,从而生成高质量的动画。此外,由于其开放源代码的特性,开发者可以根据自己的需求进行定制和扩展,进一步丰富其功能和应用场景。

      项目有2种使用方法:

      • 参考图视频生成:类似或,即的基础用法,根据参考图片(1张或多张)来生成视频或GIF图或视频。

        • 项目目前没有UI界面,部署和运行都需要进行代码层级编辑和配置,需要至少一点点的代码基础。

        • 硬件要求高:目前这个项目建议显卡的显存为12GB以上。

        • 要有稳定的科学上网方式和流量,项目运行过程中需要连接外部下载资源,而且后续运行也会访问一些配置文件。

        开源的文生视频大模型
        1.

        是专为生成视频而设计的 模型。您可以使用它为生成的图像添加动画,从而产生令人惊叹的视觉效果。它是由 推出的首个基础视频模型,与是同一开发者。这是一个开源模型,其代码和模型权重都已经完全开源项目地址:https://github.com/xx025/stable-video-diffusion-webui,你可以在线体验:体验地址:https://huggingface.co/spaces/multimodalart/stable-video-diffusion。

        在上使用

          • 上传初始图像

          打开链接,拖放您希望用作视频第一帧的图像。

          2. 模型

          上有作者发布了一个文生视频模型,它基于17亿参数量的模型进行二次开发。相比于原版本,生成的视频没有水印,并且流畅度和分辨率都得到了提升,适配16:9的宽高比。包括两个版本,其中 567w可以快速生成576x320像素分辨率、帧率为30帧/秒的视频,可用于视频概念的快速验证,只需要约7.9GB的显存即可运行。可以生成1024x576分辨率的高清视频,大约需要15.3GB的显存,还可以与音乐生成工具一起使用,快速制作一个纯原创短视频。

          在上使用

          • 打开 Colab 笔记本的 Colab链接 :https://colab.research.google.com/drive/1TsZmatSu1-1lNBeOqz3_9Zq5P2c0xTTq?usp=sharing.

          3.Rerender A Video

          项目是一个零样本文本引导视频到视频翻译框架,旨在实现高质量和时间上连贯的视频生成。该框架包括两个关键部分:关键帧处理和完整视频处理。

          关键帧处理阶段使用改进的扩散模型生成视频的关键帧,而完整视频处理阶段将这些关键帧传播到整个视频,以确保全局样式和局部纹理的时间一致性。为了实现这一目标,引入了创新的帧间约束方法,涵盖了全局样式、形状、纹理和颜色的一致性。本框架的关键特点包括零样本训练、兼容性以及灵活性,可以与现有的图像扩散技术相结合,以实现各种定制化的视频生成任务,项目地址: https://github.com/williamyang1991/Rerender_A_Video.

          安装

          要使用项目,您可以按照以下步骤进行安装

          1. 克隆项目仓库,并确保使用选项来获取所有必要的子模块

          1. 使用pip安装所需的Python依赖

          1. 或者,您还可以创建一个新的conda环境

          请注意,这里安装此项目需要至少24GB的VRAM。如果内存消耗较大,您可以参考项目文档中的说明进行降低内存消耗的操作。

          运行

          1. 支持使用新颖的视觉条件并行去噪方案进行无限长度生成,不会再有误差累计的问题,尤其适用于固定相机位的场景。

          2. 提供了基于人物类型数据集训练的虚拟人视频生成预训练模型。

          3. 支持图像到视频、文本到图像到视频、视频到视频的生成。

          4. 兼容 文图生成生态系统,包括 、、 等。

          5. 支持多参考图像技术,包括 、、、。

          体验

          其他
          1. 文生视频AI工具——Viggle: https://viggle.ai/.

          2. 文生视频工具——MagicVideo-V2: https://magicvideov2.github.io/,这就是字节跳动最近推出的文生视频模型

          3. 生成式AI视频讲故事平台——LTX Studio: https://ltx.studio/.

          最后

          目前,无论是使用 插件还是文生视频大模型,生成的视频都是“无声电影”。如果想要让它们更富有表现力,就需要为其配上音效。你可以利用剪映或者快剪辑来对生成的视频进行二次加工。当然,你也可以借助 AI 自动配音工具,比如 ElevenLabs: https://elevenlabs.io/ ,或者结合文字转语音的工具为你生成的视频进行配音。

          需要了解的是,当前 AI 视频生成领域仍面临着生成质量不稳定导致的不同帧之间的“闪烁”现象,以及动作扭曲不连贯、细节表现不足等技术难题。而且,当前的 AI 视频生成仍远未达到简单、便捷和可控的程度,上手成本也在不断增加。不过相信随着 AI 能力的不断增强,AI 视频生成技术和可交互性会越来越成熟。

          引用

          https://civitai.com/articles/5506/deforum-everything-you-need-to-know

          https://myaiforce.com.cn/stable-diffusion-adetailer/

          https://www.bilibili.com/read/cv23190880/

          https://sspai.com/post/83102

          https://ebsynth.com/

          https://juejin.cn/post/7308536984028807194

          https://github.com/Scholar01/sd-webui-mov2mov/blob/master/README_CN.md

          - END -

          如果您关注前端+AI 相关领域可以扫码进群交流

          扫码进群2或添加小编微信进群1😊

          奇舞团是 360 集团最大的大前端团队,非常重视人才培养,有工程师、讲师、翻译官、业务接口人、团队 Leader 等多种发展方向供员工选择,并辅以提供相应的技术力、专业力、通用力、领导力等培训课程。奇舞团以开放和求贤的心态欢迎各种优秀人才关注和加入奇舞团。

              以上就是本篇文章【AI视频解决方案汇总】的全部内容了,欢迎阅览 ! 文章地址:http://www78564.xrbh.cn/quote/27866.html 
               动态      相关文章      文章      同类文章      热门文章      栏目首页      网站地图      返回首页 迅博思语移动站 http://www78564.xrbh.cn/mobile/ , 查看更多