解决了现有文本到视频(T2V)生成模型未能充分编码现实世界物理知识的问题。
在传统的T2V生成中,生成的视频往往具有有限的动作和变化较差的问题
MagicTime通过引入变形时间延迟视频的概念,旨在克服这些限制,提高视频生成的质量和动态性。
主要解决的问题:
?物理知识编码不足: 现有的T2V模型生成的视频缺乏对现实世界物理规律的准确反映。?有限的动作和变化: 生成的视频动作单一,变化不足,难以反映复杂的变形过程。
主要功能:
1.变形时间延迟视频生成: MagicTime专注于生成包含物理知识、长期持续性和强烈变化的变形视频,这些视频比常规视频包含更丰富的物理知识和变形过程。
2.MagicAdapter方案: 通过设计MagicAdapter方案,MagicTime能够解耦空间和时间训练,从变形视频中编码更多的物理知识,并转换预训练的T2V模型以生成变形视频。
3.动态帧提取策略: 引入动态帧提取策略来适应变化范围更广的变形时间延迟视频,更好地体现物理知识。
4.Magic Text-Encoder: 改进了对变形视频提示的理解,提高文本到视频生成的准确性和质量。
5.ChronoMagic数据集: 创建了专门的时间延迟视频文本数据集ChronoMagic,为解锁变形视频生成能力提供支持。
实现目标:
MagicTime通过生成高质量和动态的变形视频,证明了其对生成时间延迟视频的优越性和有效性,为构建物理世界的变形模拟器开辟了一条有希望的道路。
集成DiT-based架构:
该项目的使命是帮助复现Sora,并提供高质量的视频文本数据和数据注释管道,以支持Open-Sora-Plan或其他基于DiT的T2V模型。MagicTime计划将额外的变形景观时间延迟视频集成到同一注释框架中,以获得ChronoMagic-Landscape数据集,然后使用该数据集微调Open-Sora-Plan v1.0.0,得到MagicTime-DiT模型。
项目及演示:https://github.com/PKU-YuanGroup/MagicTime…
论文:https://arxiv.org/abs/2404.05014
GitHub:https://github.com/PKU-YuanGroup/MagicTime/tree/main…
产品发布(蓝)、产品上线(红)、成立机构(黄)、其它(绿)
从2月26日央视发布《千秋诗颂》开始,从总台到上海台、芒果台,各地广电密集发布了13部AI作品。
各家媒体切入AIGC一般以一场动员作为起点 ,媒体们一般会成立一个“工作室”,负责统筹AIGC应用。我们看到的电视台AIGC片段大多以静态图片为基础,再加上动态效果如简单的缩放和移动。
2024 年 4 月 9 日东部时间——今天,微软宣布将在未来两年内投资 29 亿美元,以增加其在日本的超大规模云计算和 AI 基础设施。它还将扩大其数字技能培训计划,目标是在下一年内为 300 万人提供 AI 技能培训,在日本开设#first微软亚洲研究院实验室
来源:https://news.microsoft.com/apac/2024/04/10/microsoft-to-invest-us2-9-billion-in-ai-and-cloud-infrastructure-in-japan-while-boosting-the-nations-skills-research-and-cybersecurity/
现已在180多个国家提供
新增对原生音频(语音)理解能力、文件API、系统指令、JSON模式等功能
现在Gemini模型能够直接处理音频输入,而不需要将音频先转换为文本。
新的使用案例解锁:音频和视频模态
Gemini 1.5 Pro扩展了输入模态,包括在Gemini API和Google AI Studio中理解音频(语音)。
此外,Gemini 1.5 Pro能够对上传到Google AI Studio中的视频进行图像(帧)和音频(语音)的同时推理,意味着这个模型具备了理解和处理视频内容的能力,不仅限于视频的视觉部分(如图像帧),也包括音频部分(如对话、背景音乐等)。
应用潜力包括:
1.多模态理解:Gemini 1.5 Pro能够综合视频中的视觉信息和音频信息,进行更全面的内容理解。例如,它可以通过分析视频帧中的场景和物体,同时听取视频中的对话或声音,来更准确地识别和解释视频内容。
2.内容索引和搜索:通过对视频图像和音频的深入理解,Gemini 1.5 Pro可以帮助创建更详细的内容索引,使用户能够基于视频内容的视觉和听觉信息进行搜索。
3.增强的交互体验:利用对视频的综合理解,可以开发更丰富的交互式应用,比如自动生成视频摘要、基于内容的推荐系统,或者创建互动式学习和娱乐体验。
4.视频内容分析:Gemini 1.5 Pro可以用于视频监控、内容审查、情感分析等场景,通过同时理解视频和音频内容,AI可以自动识别视频中的关键事件、情感倾向或者特定的内容标签。
5.创意内容生成:对视频图像和音频的综合理解也使得Gemini 1.5 Pro能够在内容创作领域发挥作用,如自动生成视频字幕、配音或者根据给定的脚本制作动画视频。
Gemini API改进
1.系统指令:通过系统指令引导模型响应,现已在Google AI Studio和Gemini API中提供。定义角色、格式、目标和规则来指导模型的行为,以适应特定用例。
2.JSON模式:指示模型仅输出JSON对象。该模式支持从文本或图像中提取结构化数据。可以使用cURL开始,并且Python SDK支持即将推出。
3.函数调用的改进:现在可以选择模式来限制模型的输出,提高可靠性。选择文本、函数调用或仅函数本身。
新的嵌入模型,性能得到提升
从今天开始,开发者将能够通过Gemini API访问Gemini下一代文本嵌入模型。这个新模型,text-embedding-004(在Vertex AI中为text-embedding-preview-0409),在MTEB基准测试中取得更强的检索性能,超过了具有可比维度的所有现有模型。
详细:https://goo.gle/3xxaUH1
音频理解能力:https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb…
Google Vids 集多种功能于一体,它可以一键帮助你创作故事板,还会通过AI协助你编辑内容,选择适合的场景、图片和音乐,自动帮你生成一个完整的类似PPT的宣讲视频。
你还可以给视频加上自己或预设的配音。
Google Vids 的目的是生成各种工作宣讲或者销售视频,无论是 HR 介绍公司文化,培训团队创建数字学习经验,还是销售人员向新客户推销产品。
6月份Google Vids将登陆Google Workspace...
带有视觉能力,上下文 128k 主要信息包括
全面开放,可通过“gpt-4-turbo”来使用此模型,最新版本为“gpt-4-turbo-2024-04-09”
基础能力更新,按官方说法:Majorly improved GPT-4 Turbo model
128k 上下文
Vision 请求现在也可以使用 JSON 模式和函数调用。
训练数据截止至 2023 年 12 月 这里查阅接口信息:https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4…
以下是它与 NVIDIA H100 的比较
- 训练时间 1.7倍
- 推理 1.5倍
- 电源使用省电50%
- 性能效率提升50%
详细:https://intel.com/content/www/us/en/newsroom/news/vision-2024-gaudi-3-ai-accelerator.html#gs.7q3dlc…