永利博彩案件万博体育app官网登录(www.huangguantiyuvip.vip)

皇冠现金
你的位置:皇冠现金 > 皇冠足球 > 永利博彩案件万博体育app官网登录(www.huangguantiyuvip.vip)
永利博彩案件万博体育app官网登录(www.huangguantiyuvip.vip)
发布日期:2026-06-23 13:25    点击次数:199
永利博彩案件万博体育app官网登录(www.huangguantiyuvip.vip)

机器之心发布重庆时时彩娱乐城

机器之心剪辑部

不久前 OpenAI Sora 以其惊东谈主的视频生成成果飞快走红,在一众文生视频模子中隆起重围,成为全球得当的焦点。继 2 周前推出资本直降 46% 的 Sora 查考推理复现进程后,Colossal-AI 团队全面开源全球首个类 Sora 架构视频生成模子「Open-Sora 1.0」,涵盖了统统查考进程,包括数据处理、通盘查考细节和模子权重,联袂全球 AI 爱好者共同股东视频创作的新纪元。

先睹为快,咱们先看一段由 Colossal-AI 团队发布的「Open-Sora 1.0」模子生成的都市高贵掠影视频。

新2会员投注

Open-Sora 1.0 生成的都市高贵掠影

这只是是 Sora 复现期间冰山的一角,对于以上文生视频的模子架构、查考好的模子权重、复现的通盘查考细节、数据预处理过程、demo 展示和详备的上手教程,Colossal-AI 团队依然全面免费开源在 GitHub,同期笔者第一时期推敲了该团队,了解到他们将不断更新 Open-Sora 的关系处分决策和最新动态,感趣味的一又友不错陆续热心 Open-Sora 的开源社区。

Open-Sora 开源地址:https://github.com/hpcaitech/Open-Sora

皇冠现金官网hga2021

全面解读 Sora 复现决策

接下来,咱们将深远解读 Sora 复现决策的多个要道维度,包括模子架构遐想、查考复现决策、数据预处理、模子生成成果展示以及高效查考优化政策。

zh皇冠体育如何注册

模子架构遐想

模子选拔了现在火热的 Diffusion Transformer (DiT) [1] 架构。作家团队以雷同使用 DiT 架构的高质料开源文生图模子 PixArt-α [2] 为基座,在此基础上引入时期珍想法层,将其膨胀到了视频数据上。具体来说,统统架构包括一个预查考好的 VAE,一个文本编码器,和一个期骗空间 - 时期珍想法机制的 STDiT (Spatial Temporal Diffusion Transformer) 模子。其中,STDiT 每层的结构如下图所示。它选拔串行的花样在二维的空间珍想法模块上访佛一维的时期珍想法模块,用于建模时序关系。在时期珍想法模块之后,交叉珍想法模块用于对都文本的语意。与全珍想法机制比较,这么的结构大大裁汰了查考和推理支拨。与雷同使用空间 - 时期珍想法机制的 Latte [3] 模子比较,STDiT 不错更好的期骗依然预查考好的图像 DiT 的权重,从而在视频数据上连续查考。

STDiT 结构显露图

统统模子的查考和推理进程如下。据了解,在查考阶段最初选拔预查考好的 Variational Autoencoder (VAE) 的编码器将视频数据进行压缩,然后在压缩之后的潜在空间中与文本镶嵌 (text embedding) 通盘查考 STDiT 扩散模子。在推理阶段,从 VAE 的潜在空间中随即采样出一个高斯噪声,与领导词镶嵌 (prompt embedding) 通盘输入到 STDiT 中,得到去噪之后的特征,终末输入到 VAE 的解码器,解码得到视频。

模子的查考进程

万博体育app官网登录

查考复现决策

咱们向该团队了解到,Open-Sora 的复现决策参考了 Stable Video Diffusion (SVD)[3] 责任,共包括三个阶段,区分是:

1) 大边界图像预查考;

2) 大边界视频预查考;

3) 高质料视频数据微调。

每个阶段都会基于前一个阶段的权重连续查考。比较于从零动手单阶段查考,多阶段查考通过徐徐膨胀数据,更高效地达成高质料视频生成的主张。

www.huangguantiyuvip.vip

查考决策三阶段重庆时时彩娱乐城

永利博彩案件

第一阶段:大边界图像预查考

第一阶段通过大边界图像预查考,借助闇练的文生图模子,有用裁汰视频预查考资本。

作家团队向咱们领会,通过互联网上丰富的大边界图像数据和先进的文生图期间,咱们不错查考一个高质料的文生图模子,该模子将行为下一阶段视频预查考的启动化权重。同期,由于现在莫得高质料的时空 VAE,他们选拔了 Stable Diffusion [5] 模子预查考好的图像 VAE。该政策不仅保险了启动模子的优厚性能,还权贵裁汰了视频预查考的举座资本。

第二阶段:大边界视频预查考

第二阶段实践大边界视频预查考,增多模子泛化智商,有用掌执视频的时期序列关联。

咱们了解到,这个阶段需要使用大都视频数据查考,保证视频题材的各样性,从而增多模子的泛化智商。第二阶段的模子在第一阶段文生图模子的基础上加入了时序珍想法模块,用于学习视频中的时序关系。其余模块与第一阶段保持一致,并加载第一阶段权重行为启动化,同期启动化时序珍想法模块输出为零,以达到更高效更快速的料理。Colossal-AI 团队使用了 PixArt-alpha [2] 的开源权重行为第二阶段 STDiT 模子的启动化,以及选拔了 T5 [6] 模子行为文本编码器。同期他们选拔了 256x256 的小分辨率进行预查考,进一步增多了料理速率,皇冠代理裁汰查考资本。

第三阶段:高质料视频数据微调

许多很多网友表示,大S真的是高手,躺在床上都不受影响她起诉,估计又想用前夫的钱来给她孩子买纸尿布了吧。真的是人心不足蛇吞象,这类恶行大牌明星怎么还没被禁?

第三阶段对高质料视频数据进行微调,权贵提高视频生成的质料。

作家团队提收用三阶段用到的视频数据边界比第二阶段要少一个量级,然而视频的时长、分辨率和质料都更高。通过这种花样进行微调,他们终显豁视频生成从短到长、从低分辨率到高分辨率、从低保真度到高保真度的高效膨胀。

作家团队显露,在 Open-Sora 的复现进程中,他们使用了 64 块 H800 进行查考。第二阶段的查考量一共是 2808 GPU hours,约合 7000 好意思元,第三阶段的查考量是 1920 GPU hours,大致 4500 好意思元。经过初步估算,统统查考决策告成把 Open-Sora 复现进程限制在了 1 万好意思元驾驭。

数据预处理

为了进一步裁汰 Sora 复现的门槛和复杂度,Colossal-AI 团队在代码仓库中还提供了浅薄的视频数据预处理剧本,让各人不错松驰启动 Sora 复现预查考,包括公开视频数据集下载,长视频凭证镜头一语气性分割为短视频片断,使用开源大言语模子 LLaVA [7] 生成精采的领导词。作家团队提到他们提供的批量视频标题生成代码不错用两卡 3 秒标注一个视频,况且质料接近于 GPT-4V。最终得到的视频 / 文本对可径直用于查考。借助他们在 GitHub 上提供的开源代码,咱们不错松驰地在我方的数据集上快速生成查考所需的视频 / 文本对,权贵裁汰了启动 Sora 复现花样的期间门槛和前期准备。

基于数据预处理剧本自动生成的视频 / 文本对

模子生成成果展示

底下咱们来看一下 Open-Sora 本体视频生成成果。比如让 Open-Sora 生成一段在陡壁海岸边,海水拍打着岩石的航拍画面。

再让 Open-Sora 去捕捉山川瀑布从陡壁上彭湃而下,最终汇入湖泊的宏伟俯视画面。

在博彩行业中,如何正确地控制风险是至关重要的,否则会导致巨大的财务损失和信誉受损。因此,对于博彩公司而言,实施有效的风险管理策略是非常必要的,这也是他们能够持续经营和获得成功的关键之一。

除了上天还能入海,毛糙输入 prompt,让 Open-Sora 生成了一段水中叶界的镜头,镜头中一只海龟在珊瑚礁间酣畅游弋。

皇冠信用盘代理

Open-Sora 还能通过延时影相的手法,向咱们展现了繁星精明的星河。

要是你还有更多视频生成的风趣风趣念念法,不错拜访 Open-Sora 开源社区取得模子权重进行免费的体验。相连:https://github.com/hpcaitech/Open-Sora

值得珍视的是,作家团队在 Github 上提到现在版块仅使用了 400K 的查考数据,模子的生成质料和罢黜文本的智商都有待提高。举例在上头的乌龟视频中,生成的乌龟多了一只脚。Open-Sora 1.0 也并不擅永生成东谈主像和复杂画面。作家团队在 Github 上列举了一系列待作念野心,旨在不断处分现存流毒,提高生成质料。

高效查考加持

皇冠hg86a

除了大幅裁汰 Sora 复现的期间门槛,提高视频生成在时长、分辨率、内容等多个维度的质料,作家团队还提供了 Colossal-AI 加快系统进行 Sora 复现的高效查考加持。通过算子优化和混杂并行等高效查考政策,在处理 64 帧、512x512 分辨率视频的查考中,终显豁1.55 倍的加快成果。同期,收成于 Colossal-AI 的异构内存管理系统,在单台干事器上(8*H800)不错无禁锢地进行 1 分钟的 1080p 高清视频查考任务。

此外,在作家团队的汇报中,咱们也发现 STDiT 模子架构在查考时也展现出不凡的高效性。和选拔全珍想法机制的 DiT 比较,跟着帧数的增多,STDiT 终显豁高达 5 倍的加快成果,这在处理长视频序列等试验任务中尤为要道。

柬埔寨菠菜公司

一览 Open-Sora 模子视频生成成果

终末,让咱们一睹Open-Sora模子在视频生成上的精彩施展。

视频相连:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650911307&idx=1&sn=a7f96f7af740a62e862db62230c05fc6&chksm=84e47635b393ff23a9046643078eae23a3170a4c8d34c6248ba2df795f2e10388527c0086a47&token=1135948699&lang=zh_CN#rd

皇冠客服飞机:@seo3687

宽宥陆续热心 Open-Sora 开源花样:https://github.com/hpcaitech/Open-Sora

作家团队显露,他们将会连续珍贵和优化 Open-Sora 花样,瞻望将使用更多的视频查考数据,以生成更高质料、更永劫长的视频内容,并复古多分辨率特点,切实股东 AI 期间在电影、游戏、告白等边界的落地。

[1] https://arxiv.org/abs/2212.09748 Scalable Diffusion Models with Transformers

[2] https://arxiv.org/abs/2310.00426 PixArt-α: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis

中奖

[3] https://arxiv.org/abs/2311.15127 Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

[4] https://arxiv.org/abs/2401.03048 Latte: Latent Diffusion Transformer for Video Generation

[5] https://huggingface.co/stabilityai/sd-vae-ft-mse-original

[6] https://github.com/google-research/text-to-text-transfer-transformer

[7] https://github.com/haotian-liu/LLaVA

[8] https://hpc-ai.com/blog/open-sora-v1.0