# RunningHub-API copy ## Docs - [开始](https://qpsnl2kplc.apifox.cn/doc-8417463.md): - [更新日志](https://qpsnl2kplc.apifox.cn/doc-8417464.md): - 指引 [关于nodeInfoList](https://qpsnl2kplc.apifox.cn/doc-8417465.md): - 指引 [原生ComfyUI接口支持](https://qpsnl2kplc.apifox.cn/doc-8417466.md): - 指引 [接口错误码说明](https://qpsnl2kplc.apifox.cn/doc-8417467.md): - 接入示例 [AI应用完整接入示例](https://qpsnl2kplc.apifox.cn/doc-8417468.md): - 接入示例 [AI应用完整接入示例高阶版](https://qpsnl2kplc.apifox.cn/doc-8417469.md): - 接入示例 [任务进度显示示例](https://qpsnl2kplc.apifox.cn/doc-8417470.md): - 接入示例 [工作流完整接入示例](https://qpsnl2kplc.apifox.cn/doc-8417471.md): - 快捷创作 [关于快捷创作调用](https://qpsnl2kplc.apifox.cn/doc-8417472.md): ## API Docs - 快捷创作 [获取快捷创作-模型库风格参数数据](https://qpsnl2kplc.apifox.cn/api-435315350.md): 该接口用于快捷创作菜单下的文生图模块,目的是获取模型库风格数据,用于调用快捷创作API接口时候的参数填充 - 快捷创作 [发起快捷创作任务](https://qpsnl2kplc.apifox.cn/api-435315351.md): 在快捷创作菜单下选择需要调用的模块页中点击调用API可查看示例,可以获取到webappId、quickCreateCode、nodeInfoList等入参信息,详细请看“关于快捷创作调用”说明 - 标准模型API > 视频生成与处理 > image-to-video > Vidu [Vidu-图生视频-q3-pro-fast](https://qpsnl2kplc.apifox.cn/api-435315353.md): Vidu Q3-pro-fast 图生视频模型,以参考图片作为首帧生成高质量视频。支持音画同步,生成速度极快,效果对标 Q3-pro,适用于角色动画、产品展示等图片驱动的视频创作。 - 标准模型API > 视频生成与处理 > image-to-video > Vidu [Vidu-首尾帧生视频-q3-pro-fast](https://qpsnl2kplc.apifox.cn/api-435315354.md): Vidu Q3-pro-fast 首尾帧生视频模型,通过指定首帧和尾帧图片生成平滑过渡的视频。支持音画同步,极速生成,效果对标 Q3-pro,适用于场景转换、变装等需要精确控制起止画面的创作。 - 标准模型API > 视频生成与处理 > image-to-video > Vidu [Vidu-首尾帧生视频-q2-turbo](https://qpsnl2kplc.apifox.cn/api-435315355.md): 专注于在极短时间内实现首尾帧之间的逻辑衔接。通过“首尾双向引导”技术,它能精准锁定两张图片中的主体身份、光影与构图。Turbo 版通过优化的推理管线,在保持画质与时间流平稳的同时,显著提升了生成速度。它具备敏锐的人体与物体感知能力,能保护面部及手部细节不发生扭曲,并遵循视差规律处理前后景深。作为平衡速度与连贯性的典范,它是快速迭代动态分镜与商业叙事桥接镜头的理想工具。 - 标准模型API > 视频生成与处理 > image-to-video > Vidu [Vidu-首尾帧生视频-q2-pro](https://qpsnl2kplc.apifox.cn/api-435315356.md): 核心主打“首尾帧双向锚定”技术。通过输入起始帧与结束帧,模型能智能推导并补全两者间的自然运动轨迹,完美解决了视觉叙事中镜头衔接与状态转换的难题。它具备极强的人物与物体感知力,能精准保护面部、手部及微小细节,并遵循深度与透视规律进行空间插值。无论是模拟复杂的电影级推拉镜头,还是捕捉衣物发丝的自然摆动,该模型都能在保持光影一致性的同时,呈现出细腻、无闪烁且极具质感的动态画面。 - 标准模型API > 视频生成与处理 > image-to-video > Vidu [Vidu-图生视频-q2-pro](https://qpsnl2kplc.apifox.cn/api-435315357.md): Vidu Q2 Pro 是一款顶级的 AI 图生视频工具,致力于将静态瞬间转化为流动的电影画卷。它通过先进的布局感知算法,让单一图像呈现出自然的景深推拉与丝滑的动态效果。该模型的核心竞争力在于其惊人的“细节还原度”:能够完美保留原图中的面部特征、发丝纹理及复杂微小结构,彻底告别以往 AI 视频常见的扭曲感。无论是追求极致视效的专业创作者,还是社交媒体达人,都能通过它快速生成光影一致、逻辑真实的动态视觉作品,赋予静态作品全新的生命力。 - 标准模型API > 视频生成与处理 > image-to-video > Vidu [Vidu-图生视频-q2-turbo](https://qpsnl2kplc.apifox.cn/api-435315358.md): Vidu Q2 Turbo 是一款专为高效创作而生的图生视频引擎,旨在实现速度与质量的完美平衡。它能将静态图像瞬间转化为 720p 电影级视频,极大地缩短了渲染周期。该版本特别强化了“时间轴平滑技术”,能有效消除画面闪烁,并在高速生成中精准锁定人像细节、发丝及复杂背景。其具备的深度感知动效,能呈现真实的物理遮挡与空间位移,非常适合快节奏的广告转场、产品演示及短视频创意迭代,是追求极致产出效率的团队首选。 - 标准模型API > 视频生成与处理 > image-to-video > Vidu [Vidu-图生视频-q3-pro](https://qpsnl2kplc.apifox.cn/api-435315359.md): Vidu Q3 图生视频模型赋予静态图像以“声命力”。它不仅能继承原图的任何比例与视觉风格,更在生成动态的同时,智能补全与之匹配的音效与环境对白。其核心亮点在于对静态构图的深度理解,通过智能切镜技术,让单张图片也能延展出具有叙事深度的 16 秒长镜头。无论是复杂的文字渲染还是高精度的 2K 画质表现,Vidu Q3 都能确保生成的动态视频在物理逻辑与听觉感受上与原图保持像素级的和谐。 - 标准模型API > 视频生成与处理 > image-to-video > Vidu [Vidu-图生视频-q2-pro-fast](https://qpsnl2kplc.apifox.cn/api-435315360.md): 一款兼顾卓越画质与极致效率的图生视频模型。它继承了 Q2 Pro 的影视级视觉基因,通过大幅优化的生成速度,助力创作者在瞬息之间将静态图像转化为动态大片。该模型具备敏锐的角色一致性与复杂的运镜控制力,无论是细腻的人物神态还是宏大的场景推移,都能精准呈现,是快速迭代与专业制作的理想之选。 - 标准模型API > 视频生成与处理 > image-to-video > Vidu [Vidu-首尾帧生视频-q2-pro-fast](https://qpsnl2kplc.apifox.cn/api-435315361.md): 一款专为时空过渡设计的智能视频生成模型。它能够精准识别起始帧与结束帧的关键元素,在保持人物主体、光影布局及场景构图高度一致的前提下,自动补全流畅的动态过程。凭借 Q2 Pro 的高质感基因与显著提升的生成效率,该模型能有效消除画面闪烁,完美呈现细腻的肢体动作与电影感运镜,是转场设计与叙事补全的效率利器。 - 标准模型API > 视频生成与处理 > image-to-video > Vidu [Vidu-图生视频-q3-turbo](https://qpsnl2kplc.apifox.cn/api-435315362.md): 专注于将静态灵感转化为具备高度一致性的长时段叙事。依托 Vidu Q3 的原生多模态架构,该模型不仅能完美继承原图的主体细节,更能通过 16 秒的长度赋予画面逻辑严密的因果关系。它解决了传统图生视频中背景闪烁或主体形变的痛点,实现了极高稳定性的镜头流转。配合同步生成的音效与对白,它能将单张海报或剧照瞬间扩展为一段具备电影质感的独立叙事段落。 - 标准模型API > 视频生成与处理 > image-to-video > Vidu [Vidu-首尾帧生视频-q3-turbo](https://qpsnl2kplc.apifox.cn/api-435315363.md): 主打高效生产的轨迹受控生成模型。它支持 16 秒声画同步直出,通过定义起始与结束帧,赋予了创作者“手术刀级”的剪辑能力。该型号在保持 Vidu Q3 系列电影级质感的同时,极大优化了生成速度,能够流畅补全两点间的动作演变路径。无论是快速的场景流转还是连贯的人物动作,它都能以工业级的响应效率实现逻辑严密的叙事闭环,并确保毫秒级的口型与音效对齐。 - 标准模型API > 视频生成与处理 > image-to-video > Vidu [Vidu-首尾帧生视频-q3-pro](https://qpsnl2kplc.apifox.cn/api-435315364.md): 生数科技推出的旗舰级受控生成模型,代表了目前 AI 视频物理仿真与视觉保真度的巅峰。它支持 16 秒超长叙事直出,在处理首尾帧间极其复杂的演变逻辑(如光影剧变、物质形态转化)时表现出卓越的控制力。该模型深度集成了“导演级镜头思维”,能根据补全路径自动生成细腻的环境音与对白,实现端到端的专业视听盛宴。Pro 版本专注于极致的画质还原,是打造专业级广告和影视样片的理想之选。 - 标准模型API > 视频生成与处理 > image-to-video > 可灵图生视频o1 [可灵图生视频o1](https://qpsnl2kplc.apifox.cn/api-435315365.md): 专为工业级生产设计的图生视频模型,旨在将静态图像转化为高质量的动态影像。该模型的核心优势在于极高的人物/主体身份保持力,以及卓越的视觉与时间轴一致性。通过引入自然的运动规律与真实物理反馈,它能赋予静止画面平滑的场景动态。此外,该模型针对 REST API 调用进行了深度优化,具备响应快、无冷启动及价格可预测等特性,是在保障成本效益的同时实现稳定、高频视频产出的理想方案。 - 标准模型API > 视频生成与处理 > image-to-video > 可灵首尾帧生视频o1 [可灵首尾帧生视频o1](https://qpsnl2kplc.apifox.cn/api-435315366.md): 只需上传起始图与结束图,模型便能通过强大的时空推理引擎,自动补全中间逻辑严密的运动轨迹与状态演变。该功能彻底解决了 AI 视频生成中“结尾不可控”的痛点,无论是人物从起跑到冲刺、物体从完整到破碎,还是复杂的镜头调度转场,都能在 5-10 秒的时长内实现丝滑、自然的物理衔接。它将随机的视觉生成转化为可预测的叙事工具,是广告创意、动画分镜及精准视觉叙事的理想方案。 - 标准模型API > 视频生成与处理 > image-to-video > 万相2.6 [万相2.6-图生视频Flash](https://qpsnl2kplc.apifox.cn/api-435315367.md): 阿里巴巴推出的极速图生视频旗舰模型,专为追求高效生产与复杂叙事的创作者打造。该模型不仅能将静态图像转化为长达 15 秒的 1080p 高清动态影像,更引入了灵活的音频方案:支持原生音画同步生成或用户自主上传音轨。其最具竞争力的“多镜头模式”支持在单一片段中实现场景转场,结合内置的提示词增强器,能以极短的响应时间产出符合物理逻辑且极具电影感的视觉作品,是商业短片与快速原型设计的首选方案。 - 标准模型API > 视频生成与处理 > image-to-video > 万相2.6 [万相2.6-图生视频](https://qpsnl2kplc.apifox.cn/api-435315368.md): 通义万相2.6图生视频模型是一款先进的图像到视频生成工具,用户只需提供一张静态图像和一段文本提示,即可生成5至15秒的电影感短视频。模型以输入图像为视觉锚点,智能解析提示内容,在保留人物身份、服装及场景风格一致性的基础上,实现自然流畅的动态演绎。支持多镜头叙事功能——开启后可自动将单一创意拆解为多个连贯镜头,并确保关键元素跨镜头统一。输出分辨率最高达1080p,提供720p/1080p等多档画质选择,适配社交媒体、广告预演、创意短片等多样化应用场景。 - 标准模型API > 视频生成与处理 > image-to-video > 万相2.6 [万相2.6-参考生视频](https://qpsnl2kplc.apifox.cn/api-435315369.md): 万相2.6-参考生视频是阿里通义万相2.6系列的参考生视频模型,支持多模态输入(文本/图像/视频)。支持720P/1080P分辨率。模型可基于参考图像或视频还原角色形象,支持单人表演或多角色互动,同时具备多镜头智能调度能力。 - 标准模型API > 视频生成与处理 > image-to-video > 万相2.6 [万相2.6-参考生视频Flash](https://qpsnl2kplc.apifox.cn/api-435315370.md): 万相2.6-参考生视频Flash是阿里通义万相2.6系列的快速参考生视频模型,支持上传最多5个URL,每个URL可以指向一张图像或一段视频,基于参考图的角色身份、风格和场景布局生成新视频。该版本生成速度更快,支持720P/1080P两种分辨率,视频时长可选2-10秒,可生成带音频或无声视频,支持单镜头和多镜头叙事模式。 - 标准模型API > 视频生成与处理 > image-to-video > 可灵图生视频2.5 [可灵图生视频2.5-turbo-std](https://qpsnl2kplc.apifox.cn/api-435315371.md): Kling V2.5 Turbo Standard 是一款高性价比的图生视频模型,在速度、画质与成本之间实现优异平衡。用户仅需一张图像和简短提示,即可生成风格、光影与情绪高度还原的流畅电影感视频。尽管输出分辨率为720p,但其优化的动态建模与运动合成技术确保画面细节丰富、运镜稳定、光照自然,满足大多数创作场景需求。模型采用高效推理架构,生成速度快,适合批量内容生产。在文本理解与叙事连贯性上,它与高端版 Turbo Pro 表现相当,能精准解析提示并生成节奏合理的动态镜头,是预算敏感型创作者的理想选择。 - 标准模型API > 视频生成与处理 > image-to-video > 可灵图生视频2.5 [可灵图生视频2.5-turbo-pro](https://qpsnl2kplc.apifox.cn/api-435315372.md): Kling 2.5 Turbo Pro 图生视频模型能将单张图像与文本提示转化为电影感十足的动态视频,动作流畅、意图精准。其全新文本-时序引擎可解析多步骤指令,生成节奏合理、叙事连贯的镜头。模型支持首尾帧控制——用户可同时提供起始图与结束图,模型自动生成平滑过渡动画。通过优化动态建模与训练数据,即使在高速运动或复杂运镜下,也能减少抖动、撕裂等伪影。增强的图像条件控制有效保留色彩、光影、笔触与氛围,确保激烈动作中画面风格高度统一,适用于创意短片、广告预演等高要求场景。 - 标准模型API > 视频生成与处理 > image-to-video > 可灵图生视频2.6 [可灵图生视频2.6-pro](https://qpsnl2kplc.apifox.cn/api-435315373.md): 业界领先的视听原生同步生成模型。它能够以单张静态图像为起始点,在赋予画面自然动态与电影级运镜的同时,同步合成出高度契合的环境音、物理音效及角色配音。该模型的核心突破在于“视听协同演化”,确保角色的口型、动作节奏与声音输出在生成瞬间即达成完美对齐。无论是品牌宣传还是沉浸式叙事,用户仅需一张原图和一段描述,即可一键产出音画合一、具备高度叙事完整性的高质量视频片段。 - 标准模型API > 视频生成与处理 > image-to-video > seedance [seedance-v1.5-pro-image-to-video-fast](https://qpsnl2kplc.apifox.cn/api-435315374.md): 字节跳动推出的高效图生视频引擎,专为追求极速响应与电影级质感的创作者设计。该模型以“首帧锚定”为核心,能完美继承输入图像的主体身份、光影布局与视觉风格,并根据指令注入流畅、连贯的动态效果。它对摄像机轨迹(如环绕、推拉、手持感)有着极佳的操控力,且支持原生音频生成与随机种子锁定。凭借其偏向真人实拍的细腻质感,它是快速产出商业短片预览、动态分镜及社交媒体素材的效能利器。 - 标准模型API > 视频生成与处理 > image-to-video > seedance [seedance-v1.5-pro-image-to-video](https://qpsnl2kplc.apifox.cn/api-435315375.md): 字节跳动专为“激活关键帧”打造的专业图生视频模型。它能以单张参考图为基准,在高度保留原图构图与主体身份的同时,根据文字指令注入自然流畅的动态。该模型对摄像机运镜(如推拉、手持感、固定机位)有着极佳的操控力,非常适合人像微动、产品展示及电影感空镜的创作。通过灵活的画幅选择与参数调节,它为社交 feeds、故事及广告横幅等全平台内容产出提供了兼顾高保真度与生成效率的实效方案。 - 标准模型API > 视频生成与处理 > image-to-video > 海螺 [海螺-02-图生视频-标准](https://qpsnl2kplc.apifox.cn/api-435315376.md): 海螺 AI 推出的一款卓越图生视频模型,依托于 MiniMax 持续进化的技术架构。该模型专注于将静态图像转化为原生 768p 的高清动态影像,无需二次放大即可呈现锐利画质。其核心优势在于对复杂动作与混乱物理场景的强大掌控力,无论是细碎的残骸飞溅、织物的自然摆动,还是极具冲击力的撞击与手持摄影的随机抖动,都能展现出极高的真实感。凭借出色的提示词响应能力和流畅的镜头连续性,它能够精准执行复杂的构图指令,同时大幅减少画面伪影,是动作影像创作的理想选择。 - 标准模型API > 视频生成与处理 > image-to-video > 海螺 [海螺-02-标准](https://qpsnl2kplc.apifox.cn/api-435315377.md): MiniMax 技术框架下的全能型视频生成模型,支持纯文本生成(T2V)与图像引导生成(I2V)双模式切换。该模型提供原生 768p 的高清画质,确保每一帧画面都清晰锐利而非后期放大。其核心优势在于强大的物理仿真能力,能够自然地模拟碎屑飞溅、织物摆动及水流动态,并配合逼真的手持摄像机抖动增强代入感。凭借极高的指令遵循度与出色的时间轴稳定性,它可输出 6 秒或 10 秒的连贯片段,是快速迭代创意与打造高一致性影像的理想选择。 - 标准模型API > 视频生成与处理 > image-to-video > 海螺 [海螺-2.3-图生视频-标准](https://qpsnl2kplc.apifox.cn/api-435315378.md): MiniMax 推出的最新一代图生视频大模型,旨在将静态图像转化为流畅且具电影感的动态影像。该模型将自然运动合成技术与高度真实的物理模拟相结合,能够赋予静止画面生动的视觉生命力。它支持包括平移、追踪及缩放等专业摄像机运镜,并能精确模拟风动、光影反射及运动模糊等物理动态。核心优势在于其极强的结构稳定性,在生成过程中能完美保留原图的构图、光照与角色细节。无论是 6 秒还是 10 秒的片段,均能展现出适用于叙事、广告或产品演示的专业级电影质感。 - 标准模型API > 视频生成与处理 > image-to-video > 海螺 [海螺-2.3-fast-图生视频](https://qpsnl2kplc.apifox.cn/api-435315379.md): MiniMax 推出的最新一代高效率视频生成模型。作为该系列的极速版本,它在保持画面稳定、细节清晰及光影平衡的基础上,将生成速度提升了 30% 至 50%,最高可达标准版模型速度的两倍。该模型专为快节奏内容创作而设计,能以更低的成本实现大规模内容产出、预览及方案迭代。它内置了安全检测与提示词自动增强功能,并支持 768p 分辨率下的 6 秒或 10 秒灵活时长输出。对于在保障电影级质感的同时,对创作周转率有极高要求的专业创作者而言,Hailuo 2.3 Fast 是理想的效能工具。 - 标准模型API > 视频生成与处理 > image-to-video > 海螺 [海螺-2.3-fast-pro-图生视频](https://qpsnl2kplc.apifox.cn/api-435315380.md): MiniMax 视频生成家族中的高性能旗舰,专为追求极致效率与 1080p 全高清画质的创作者设计。作为极速专业版,它在保持画面高度稳定、细节锐利及光影均衡的同时,生成速度较标准模型提升了 30% 至 50%,最高可实现两倍速产出。该模型特别适用于高强度的批量内容创作与快速方案迭代,大幅降低了创作成本。凭借内置的提示词自动增强与安全检测机制,Fast Pro 能够在保障合规性的前提下,稳定输出 6 秒时长的电影级影像,完美平衡了“快”与“精”的双重需求。 - 标准模型API > 视频生成与处理 > image-to-video > 海螺 [海螺-2.3-图生视频-pro](https://qpsnl2kplc.apifox.cn/api-435315381.md): Hailuo 2.3 Pro 是 MiniMax 视频生成技术的旗舰之作,专为追求极致视觉品质的创作者与专业工作室打造。该模型能将静态图像转化为原生 1080p 全高清电影级视频,无需后期放大即可在大型屏幕上呈现惊人的清晰度与细节。其核心突破在于将新一代运动渲染与精确的物理模拟相结合,无论是光影的细微偏移、织物的有机流动,还是复杂的空间深度过渡,都能表现得自然且真实。仅需 5 秒即可产出具有高度色彩一致性与构图稳定性的专业影像,是数字叙事与高端广告创作的终极工具。 - 标准模型API > 视频生成与处理 > image-to-video > 海螺 [海螺-02-图生视频-pro](https://qpsnl2kplc.apifox.cn/api-435315382.md): Hailuo 02 (I2V Pro) 是 AI 视频生成领域的突破性之作,专为追求电影级写实感与物理精确性的创作者打造。该模型支持原生 1080P 全高清输出,无需后期放大即可确保每一帧画面的纯净质感与细腻纹理。通过大幅提升的运动与物理仿真技术,它能精准捕捉从微观粒子飞舞到宏大光影过渡的每一个动态细节。依托 5 秒时长的灵活创作机制与智能镜头转场技术,Hailuo 02 实现了极高的生成一致性与指令遵循力,能够将静态图像完美转化为极具沉浸感的专业影像片段。 - 标准模型API > 视频生成与处理 > image-to-video > 海螺 [海螺-02-fast](https://qpsnl2kplc.apifox.cn/api-435315383.md): 海螺 AI 视频引擎的极速变体版本,专为追求生产效率与快速迭代的创作者打造。该模型能将单张静态图像迅速转化为流畅的 6 秒或 10 秒动态片段,同时兼顾提示词响应能力与强劲的物理仿真效果。它在成本优化方面表现卓越,非常适合剧本分镜、视觉探索及大规模的 A/B 测试。即便在高速生成下,它依然能保持稳定的时间流表现,确保碎屑飞溅、布料飘动及手持镜头感自然且无明显闪烁,是低成本、高预测性视频创作的利器。 - 标准模型API > 视频生成与处理 > image-to-video > 悠船图生视频 [悠船图生视频](https://qpsnl2kplc.apifox.cn/api-435315384.md): 悠船的视频能力专注于捕捉静止艺术中的“灵魂瞬间”。它支持以单张图片作为起点,或通过“首尾双帧”设定精确的运动轨迹,在 5 秒的黄金时间内输出极具质感的动态序列。该功能提供 480p 与 720p 两种画质选择,确保了从微观的光影流转到宏大的镜头位移都能保持原图的顶级审美。无论是追求细腻的氛围渲染,还是富有冲击力的视觉转换,它都能在极短的时间内实现美学与动效的完美融合。 - 标准模型API > 视频生成与处理 > image-to-video > 可灵图生视频o3 [可灵图生视频o3-pro](https://qpsnl2kplc.apifox.cn/api-435315385.md): 快手视频生成技术的顶峰之作,代表了目前业界顶级的视觉质量与电影级动态表现。依托创新的 MVL(多模态视觉语言)技术,该模型不仅能完美保持主体一致性,更引入了真实的物理仿真与无缝场景动态,让静态图像焕发出极具生命力的真实感。模型支持 3 至 15 秒的超长自定义时长,并提供精准的首尾帧引导及同步音效合成。无论是追求极致细节的商业大片,还是复杂的叙事短片,它都能以 Pro 级的专业水准,将静态灵感转化为震撼视听的视觉杰作。 - 标准模型API > 视频生成与处理 > image-to-video > 可灵图生视频o3 [可灵图生视频o3-std](https://qpsnl2kplc.apifox.cn/api-435315386.md): 图生视频模型是快手 O3 系列中的高性价比旗舰方案。它在保留 O3 架构卓越的动态流畅度与视觉保真度的基础上,大幅降低了创作门槛。该模型不仅支持 3 至 15 秒的超长自定义视频时长,还引入了精准的首尾帧引导功能,让静态图像向动态影像的演变过程更加丝滑且可控。配合可选的同步音效生成,创作者能以更优的价格,将单张素材转化为极具叙事张力与电影质感的长时段短片。 - 标准模型API > 视频生成与处理 > image-to-video > 可灵图生视频3.0 [可灵图生视频3.0-pro](https://qpsnl2kplc.apifox.cn/api-435315387.md): 快手目前最顶尖的图生视频模型,专为对画质有极致追求的专业创作而设计。作为 Pro 级别型号,它在视觉细节保真度、动作平滑度以及电影级渲染效果上均大幅超越标准版,能够完美复刻静态原图的每一个像素质感。其独特优势在于支持首尾帧引导,允许用户精准定义视频的起始与终结画面,实现极具掌控力的动态流转。配合可选的同步音效生成与双角色自定义配音,它能将一张简单的图片转化为声画一体、极具工业美感的短片杰作。 - 标准模型API > 视频生成与处理 > image-to-video > 可灵图生视频3.0 [可灵图生视频3.0-std](https://qpsnl2kplc.apifox.cn/api-435315388.md): 快手推出的新一代图生视频旗舰模型,旨在将静态图像转化为具有生命力的电影级叙事影像。相比 V2.6 版本,V3.0 在动态质量与视觉保真度上实现了质的飞跃。其核心突破在于引入了首尾帧引导功能,允许用户通过上传起始与结束图像,精准控制视频的流转与演变过程。模型同时支持同步音效生成与双角色自定义配音,实现了从视觉到听觉的高度一致性。配合 CFG 引导系数微调,创作者能在遵循原图意图的同时,探索更具张力的动态表现力。 - 标准模型API > 视频生成与处理 > image-to-video > 全能视频S [全能视频S-图生视频-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315389.md): 图生视频,可将单张参考图转化为画面连贯、音频同步匹配的视频片段。依托全能视频S核心技术升级,该图生视频流程能完整保留主体身份、光影效果与画面构图,同时智能合成逼真的动态效果与专业镜头运镜,呈现极致惊艳的视觉表现。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 视频生成与处理 > image-to-video > 全能视频S [全能视频S-图生视频-pro-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315390.md): 它能够将单张静态图像精准转化为具备原生音画同步的高保真视频。该模型核心优势在于极致的“身份锁定”与“物理感知”,能完美保留原图的人物特征、光影布局与材质纹理。通过对 3D 结构的智能推理,它能实现真实的视差深度与平滑的背景扩展,彻底解决传统模型在运镜时的扭曲问题。作为专业版,它支持最高 1080p 级别的超清分辨率及长达 20 秒的输出,配合强大的提示词可控性,让创作者能以导演视角精准定义每一个物理动效与声效,是目前最接近真实电影工业水准的图生视频工具。本接口采用官方原生 API 协议,该协议目前未开放对 Web/App 端个人角色库(Cameo)的访问,暂不支持通过 @ 语法引用角色。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 视频生成与处理 > image-to-video > 全能视频S [全能视频S-图生视频-pro-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315391.md): 图生视频专业版,可将单张参考图转化为流畅连贯、音画高度同步的视频片段。依托全能视频S核心进阶算法,能完整保留参考图的主体身份、光影与构图,同时合成超逼真的动态轨迹与专业电影级镜头运镜,实现高品质视频输出。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 视频生成与处理 > image-to-video > 全能视频S [全能视频S-文生视频-pro-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315392.md): 它不仅是一个视觉生成器,更是一个深度集成了音频同步的“时空物理模拟器”。该模型基于初代架构实现质变,能够精准模拟动量、惯性和碰撞等物理法则,彻底消除视觉伪影。其独有的音画同步技术可实现完美的口型对齐与环境音渲染。通过对高频细节的精细保留和复杂场景推理,能在 20 秒的长镜头中维持极高的主体一致性。支持 720p/1080p 级横竖屏输出及多档时长选择,赋予专业创作者前所未有的导演级操控力。本接口采用官方原生 API 协议,该协议目前未开放对 Web/App 端个人角色库(Cameo)的访问,暂不支持通过 @ 语法引用角色。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 视频生成与处理 > image-to-video > 全能视频S [全能视频S-图生视频-支持真人-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315393.md): 可将单张参考图转化为连贯极致的写实视频片段,音画完美同步。全面整合全系列产品核心优势,涵盖身份锁定、物理精准、3D景深感知、电影级运镜、细节保真及强可控性;专属支持官方直连,性能稳定,可生成真人主体,动态自然、视觉效果高度还原真实。本接口采用官方原生 API 协议,该协议目前未开放对 Web/App 端个人角色库(Cameo)的访问,暂不支持通过 @ 语法引用角色。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 视频生成与处理 > image-to-video > 全能视频S [全能视频S-图生视频-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315394.md): 将单张参考图转化为具备同步音效的高保真视频,核心优势在于极其精准的“身份锁定”,能完美继承原图的人物特征、光影布局与艺术风格。该模型具备深层空间感知力,能通过推断 3D 结构实现逼真的视差与深度感。结合标志性的物理感知引擎,发丝、衣物的次生运动与物体的惯性碰撞均符合自然规律。支持 4s/8s/12s 多档时长及横竖屏720P高清分辨率切换,配合强力的提示词操控性,为创作者提供了稳定且可预测的电影级产出。本接口采用官方原生 API 协议,该协议目前未开放对 Web/App 端个人角色库(Cameo)的访问,暂不支持通过 @ 语法引用角色。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 视频生成与处理 > image-to-video > 全能视频G [全能视频X-图生视频-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315395.md): 专注于将静态灵感转化为极具动感的视觉现实,其最大的突破在于主体身份(Identity)的绝对锁定。通过深度解析原图的几何结构与材质属性,模型能自动推演出最符合逻辑的动态演变,无论是微细的纹理抖动还是大幅度的空间流转,都能确保核心元素不产生形变。它在时空稳定性与光影继承方面表现卓越,能将单张参考图平滑扩展为一段充满张力的影视级长镜头。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 视频生成与处理 > image-to-video > 全能视频G [全能视频X-图生视频-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315396.md): 全能视频X强大的图生视频生成模型,旨在让静态图像焕发生机。用户只需上传一张参考图并输入动作描述,即可生成具备平滑自然动态、完美场景连贯性以及同步音效的电影级视频。它能将静止的瞬间无缝转化为动态的视觉故事,满足多样化的创作需求。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 视频生成与处理 > image-to-video > 全能视频V3.1 [全能视频V3.1-pro-首尾帧生视频-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315397.md): 不仅能将单张静态图转化为长达 8 秒的 720P 动态画面,更突破性地支持“首尾帧插值”技术,实现两个不同场景间的无缝平滑过渡。该模型最大的亮点在于原生音效合成,能根据画面动作自动生成匹配的环境音或背景音乐。无论是构图层面的镜头推拉,还是叙事层面的时空转换,都能提供极具真实感与情感深度的视觉表达。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 视频生成与处理 > image-to-video > 全能视频V3.1 [全能视频V3.1-fast-图生视频-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315398.md): 高速、低成本图生视频模型。该模型在保持电影级画质与自然动态的同时,生成速度相比标准版提升了 30%。它不仅能将单张静态图片转化为拥有逼真光影和运镜的动态视频,还具备强大的原生音频生成能力,支持环境音效及人物对话(含精准口型同步)。特别值得一提的是,它全面支持从 720p 到 4K 的多分辨率输出,在快速迭代中依然保持极高的构图与风格一致性。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 视频生成与处理 > image-to-video > 全能视频V3.1 [全能视频V3.1-fast-图生视频-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315399.md): 全能视频V3.1图生视频高性价比速享版,新一代高级 AI 图生视频模型,支持静态图片转影院级动态视频,极速生成且比标准版快 30%,还原原图构图与视觉风格,原生音画同步生成,兼具影院级真实光影与流畅运镜,支持人物对话唇形同步,适配社交创作、创意叙事轻量需求,成本优化,性价比拉满。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 视频生成与处理 > image-to-video > 全能视频V3.1 [全能视频V3.1-pro-图生视频-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315400.md): 最新的图生视频模型,致力于将静态图像转化为充满电影感的动态序列。该模型支持从单张图片生成视频,或通过起始帧与结束帧进行流畅的插值过渡(Morphing)。它不仅能精准还原图像的风格与构图,还能生成逼真的运镜、自然的光影变化以及同步的原生音频。支持从 720p 到 4K 的高分辨率输出及多种画幅,是故事板制作、概念动画和场景开发的理想工具。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 视频生成与处理 > image-to-video > 全能视频V3.1 [全能视频V3.1-fast-首尾帧生视频-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315401.md): 专为追求“效率与迭代”的创作者打造的高性能版本。在首尾帧模式下,它展现了极速的推理能力,能在几秒钟内完成两张静态锚点图之间的动态连接。该版本特别适合需要快速出样、低延迟交互或在大批量生产环境中使用。尽管追求速度,它依然能精准捕捉首尾帧之间的逻辑联系,实现自然的物体形变与运镜。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 视频生成与处理 > image-to-video > 全能视频V3.1 [全能视频V3.1-pro-参考生视频-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315402.md): 专为高保真视觉转换设计。它能将最多三张静态参考图转化为生动的 8 秒电影级视频,支持 720p/1080p/4k 分辨率。该模型的核心优势在于卓越的视觉一致性,能精准保持角色、物体及光影在运动中的统一,并自动生成同步的原生音频,实现从静态图像到动态叙事的完美跃迁。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 视频生成与处理 > image-to-video > kling [kling-elements](https://qpsnl2kplc.apifox.cn/api-435315403.md): 快手可灵推出的服务于视频生成的元素锁定功能,支持同时锁定1-4个不同类别的视觉元素——包括人物角色、动物、物体道具和场景环境。上传参考图后,系统提取各元素的核心特征,在视频生成中严格保持其视觉身份,无论镜头如何运动、光线怎样变化,元素的外观始终统一。通过提示词指定"Figure 1/2/3"等标签控制元素间的交互关系,实现角色对话、动物表演、物品操作等复杂叙事。适合需要跨镜头保持多元素统一的AI短剧、虚拟IP运营、产品展示和创意叙事。 - 标准模型API > 视频生成与处理 > image-to-video > kling [kling-video-o3-pro/reference-to-video](https://qpsnl2kplc.apifox.cn/api-435315404.md): 快手 O3 家族中针对“身份一致性”打造的顶级生成方案。该模型支持通过多达 7 张参考图(或 4 张图结合 1 段视频)深度提取角色、道具或场景的多视角特征,确保在复杂的动态叙事中主体形象始终稳定,彻底告别“掉脸”现象。借助 Pro 级的电影画质与运动真实感,模型不仅能通过参考视频进行精确的动作迁移与风格指引,还能灵活处理原声保留或 AI 音效合成。它是目前将特定 IP、定制角色或精密产品推向工业级视频创作的最强利器。 - 标准模型API > 视频生成与处理 > image-to-video > kling [kling-video-o3-std/reference-to-video](https://qpsnl2kplc.apifox.cn/api-435315405.md): 一款专注于高一致性视觉叙事的进阶生成模型。它的核心突破在于能够通过上传参考图像(甚至是参考视频),在生成过程中精准锁定人物特征、视觉风格及场景元素,确保角色在动态演绎中“不掉脸”且风格统一。该模型支持多参考输入,允许创作者将不同的角色或元素无缝融合在同一场景内,并提供可选的参考视频进行运动轨迹引导。配合 3 至 15 秒的灵活时长与自定义音效方案,它为 IP 动画化和品牌短片创作提供了极具工业掌控力的生产力支持。 - 标准模型API > 视频生成与处理 > image-to-video > 万相2.2 [万相2.2-图生视频](https://qpsnl2kplc.apifox.cn/api-435315406.md): 核心能力是将一张静态参考图结合提示词快速转化为动态视频,支持480P/720P/1080P分辨率,生成5/10秒流畅片段。亮点在于极强的运动生成(复杂动作丝滑自然、无穿模)、高内容一致性(主体/风格/细节忠实保留)、电影级美学控制(光影、构图、色彩可通过关键词精准调节)。相比传统方法,运动真实感、物理合理性和语义遵从显著提升,适合创意动画、产品展示、短视频特效等场景。 - 标准模型API > 视频生成与处理 > image-to-video > 万相2.2 [万相2.2-首尾帧生视频](https://qpsnl2kplc.apifox.cn/api-435315407.md): Wan 2.2 是一款专为打造电影级画质而生的图生视频大模型。它能够输出极其清晰、可直接用于最终交付的专业级视频。除了基础的图生视频,它还具备强大的“首尾帧插值”功能,让画面过渡平滑自然,完美契合科幻场景与精细的影视制作。搭配极简的参数工作流与负向提示词支持,创作者可以轻松剔除多余元素,实现对视频内容的高效、精准控制。 - 标准模型API > 视频生成与处理 > image-to-video > SkyReels V4 图生视频 [SkyReels V4 图生视频](https://qpsnl2kplc.apifox.cn/api-435315408.md): SkyReels V4 图生视频模型可将静态图片转化为生动的短视频,支持 JPG/PNG/GIF/BMP 多种格式输入,1080p 画质输出。结合文字提示精准控制运动方向与镜头表现,适合快速将设计图、产品图或创意素材动态化呈现。 - 标准模型API > 视频生成与处理 > image-to-video > ltx [ltx-2.3/image-to-video](https://qpsnl2kplc.apifox.cn/api-435315409.md): Lightricks推出的新一代图生视频基础模型,在LTX-2系列基础上实现全方位画质跃升。全新重制的VAE架构显著增强毛发、文字和边缘细节的锐度,大幅减少画面冻结和静态平移现象,带来更真实的动态表现。原生支持9:16竖屏格式,无需裁剪即可直接生成社交媒体原生内容。单一路径同步生成匹配的环境音效与画面运动,5-20秒时长内实现音画完美对齐,让静态照片真正"活"起来。 - 标准模型API > 视频生成与处理 > image-to-video > ltx [ltx-2.3/image-to-video-lora](https://qpsnl2kplc.apifox.cn/api-435315410.md): 为需要个性化视觉风格的图生视频用户打造的LoRA推理版本。在LTX-2.3基础能力之上,支持同时加载最多三个自定义LoRA适配器,将品牌特定美学、角色形象或镜头语言直接注入生成流程。无论是固定产品视觉风格、保持角色跨镜头一致性,还是实现特定的电影级运镜,均可通过轻量级LoRA模块精准控制,无需重新训练整个模型。适合品牌内容规模化生产、IP角色动画和风格化商业视频制作。 - 标准模型API > 视频生成与处理 > image-to-video [PixVerse V5.6 图生视频](https://qpsnl2kplc.apifox.cn/api-435315352.md): PixVerse V5.6 图生视频模型,将单张图片转化为流畅自然的视频短片。相较 V5.5 在主体一致性、细节保真和运动自然度上显著提升,支持 360p-1080p 多分辨率,5/8/10 秒灵活时长,内置 AI Thinking 模式优化提示词,并可同步生成音频,适用于角色动画、产品展示与社交内容创作。 - 标准模型API > 视频生成与处理 > reference-to-video [SkyReels V3 参考图生视频](https://qpsnl2kplc.apifox.cn/api-435315411.md): SkyReels V3 参考图生视频模型支持 1-4 张参考图输入,通过多图引导精准控制主体角色与场景风格,生成高度贴合参考素材的短视频。特别适合品牌一致性营销内容、角色一致性动画创作和 IP 形象动态化。 - 标准模型API > 视频生成与处理 > reference-to-video [Vidu-参考生视频-q2](https://qpsnl2kplc.apifox.cn/api-435315412.md): 旗舰级参考生视频模型,擅长将单张或多张(最高 7 张)参考图转化为极具表现力的电影级动态影像。其核心突破在于对“微表情”的细腻还原,能够精准呈现眨眼、眼球转动及自然的呼吸起伏。模型不仅提供了强大的运动幅度控制功能(从微动到大动作可选),还集成了专业的摄影机运镜指令。凭借对多图参考的支持,它能更好地捕捉角色的多角度特征与光影氛围,是肖像活化、虚拟数字人及概念视觉开发的顶尖生产力工具。 - 标准模型API > 视频生成与处理 > reference-to-video [可灵参考生视频o1](https://qpsnl2kplc.apifox.cn/api-435315413.md): 快手推出的突破性统一多模态视频大模型。该模式的核心在于强大的“身份锁定”技术,能够从角色、道具或场景的多角度参考中提取核心特征,确保在全新的创意场景中完美保持主体的一致性。它赋予了创作者极高的自由度,支持在更换背景、调整视角或赋予主体全新动作的同时,精确还原人物面部、服装及配饰细节。无论是多视角主体构建还是复杂剧情的延续,该模型都能提供工业级的主体稳定性,是角色驱动型视频创作的理想引擎。 - 标准模型API > 视频生成与处理 > reference-to-video [seedance-v1-lite-reference-to-video](https://qpsnl2kplc.apifox.cn/api-435315414.md): 支持同时上传最多 4 张参考图。该模型能够精准提取不同人物、动物或物体的特征,并让它们在同一视频场景中根据指令产生自然的交互。凭借卓越的身份保持技术,生成内容能高度忠于原图的外观细节。配合内置的 AI 提示词增强器和精准的相机锁定功能,用户可以轻松创作出构图稳定、逻辑连贯的多角色叙事片段。无论是复杂的创意广告还是多主体动态演示,它都提供了一个高效且可复现的专业级方案。 - 标准模型API > 视频生成与处理 > reference-to-video [SkyReels V4 Omni Reference](https://qpsnl2kplc.apifox.cn/api-435315415.md): SkyReels Omni Reference 是一款全能型 AI 视频生成模型,支持关键帧引导、角色一致性、运动参考、主体替换、背景替换、物体删除等多种高级创作模式。通过 @tag 引用机制灵活组合图片与视频参考,实现精准的多模态视频生成,适用于创意广告、角色动画、视频编辑等专业场景。 - 标准模型API > 视频生成与处理 > text-to-video > Vidu [Vidu-文生视频-q3-pro-fast](https://qpsnl2kplc.apifox.cn/api-435315417.md): Vidu Q3-pro-fast 文生视频模型,效果对标 Q3-pro,生成速度显著提升。支持音画同步与视频分镜,可生成 1-16 秒高质量视频,适用于需要快速迭代的创意场景。 - 标准模型API > 视频生成与处理 > text-to-video > Vidu [Vidu-文生视频-q2](https://qpsnl2kplc.apifox.cn/api-435315418.md): Vidu 是一款专为创作者打造的顶尖 AI 文生视频工具。它能够将简单的文字指令转化为 720p 高清电影级画面,具备极佳的动态光影效果与自然摄像机运镜。Vidu 的核心优势在于极高的“时空一致性”,有效解决了视频生成中的闪烁与变形问题。无论是细腻的人物神态还是复杂的动作序列,它都能精准捕捉语义,呈现出富有表现力的视觉叙事。它不仅是一个生成器,更是将创意灵感瞬间转化为专业影像的数字导演。 - 标准模型API > 视频生成与处理 > text-to-video > Vidu [Vidu-文生视频-q3-pro](https://qpsnl2kplc.apifox.cn/api-435315419.md): Vidu Q3 文生视频模型实现了从“纯视觉生成”到“音视频一体化叙事”的跨越。它支持音画同出,用户可在提示词中直接定义角色对白与环境音效,彻底解决影音异步的痛点。该模型具备卓越的“智能切镜”能力,可根据语义自动规划专业摄影级别的镜头语言。支持最高 2K 高清分辨率及 16 秒超长时长的自由配置,配合原生字幕渲染功能,Vidu Q3 正在重塑从创意剧本到电影级成品短片的工业流程。 - 标准模型API > 视频生成与处理 > text-to-video > Vidu [Vidu-文生视频-q3-turbo](https://qpsnl2kplc.apifox.cn/api-435315420.md): “为剧而生”的高效叙事模型。它打破了 AI 视频仅能生成短片段的限制,率先实现 16 秒超长视频直出,足以支撑一个完整的叙事闭环。该模型具备独特的“导演思维”,能根据提示词自动切换镜头,并同步生成对白、环境音与情绪呼吸点,实现端到端的声画对齐。q3-turbo 版本在保持电影级质感的同时,极大优化了生成速度,是短剧、广告及高时效性内容生产的工业化利器。 - 标准模型API > 视频生成与处理 > text-to-video > 可灵文生视频o1 [可灵文生视频o1](https://qpsnl2kplc.apifox.cn/api-435315421.md): 快手科技推出的统一多模态视频生成引擎,旨在为专业生产环境提供高稳定性与高性价比的创作解决方案。该模型依托先进的多模态视觉语言(MVL)技术,能够精准理解自然语言指令、视觉上下文及主体身份,确保生成的视频在运动连贯性、语义准确度及视觉一致性上达到工业级标准。它不仅支持文生视频,还集成了图生视频、视频编辑、镜头扩展等全流程创作能力,是平衡画质、速度与成本的理想生产力工具。 - 标准模型API > 视频生成与处理 > text-to-video > 万相2.6 [万相2.6-文生视频](https://qpsnl2kplc.apifox.cn/api-435315422.md): 通义万相 2.6 是阿里巴巴通义实验室推出的专业级 AI 视频生成模型,核心定位为 “支持角色扮演 + 多镜头叙事的电影级视频生成工具”,赋能全场景创作。 - 标准模型API > 视频生成与处理 > text-to-video > 可灵文生视频2.5 [可灵文生视频2.5-turbo-pro](https://qpsnl2kplc.apifox.cn/api-435315423.md): Kling 2.5 Turbo Pro 是一款高性能文生视频模型,能从文本提示生成流畅、电影感十足的动态视频。其创新的文本-时序控制器可解析多步骤指令,将静态描述转化为连贯可控的叙事场景。模型在高速运动下仍保持高稳定性,显著减少抖动、撕裂或掉帧等伪影。通过优化推理流程,生成速度更快,同时不牺牲画质。增强的风格控制机制能精准保留色彩、光影、笔触与氛围,在激烈动态中也确保画面风格高度一致,适用于广告、短剧、创意预演等对质量与时效要求高的场景。 - 标准模型API > 视频生成与处理 > text-to-video > 可灵文生视频2.6 [可灵文生视频2.6-pro](https://qpsnl2kplc.apifox.cn/api-435315424.md): 快手推出的划时代视听大模型,首次实现了视频与音频的原生同步生成。不同于后期配音,该模型在生成画面时同步构建声场,确保镜头运动、人物动作与环境音效、对白完美契合。其具备“角色感知”技术,能根据画面主体匹配相应的音色与语调,并让环境音随镜头深度动态变化。无论是社交广告、短片预演还是产品演示,创作者只需一段脚本,即可一步到位产出包含配音、环境音与配乐的电影级片段,极大地提升了创作效率与沉浸感。 - 标准模型API > 视频生成与处理 > text-to-video > seedance [seedance-v1.5-pro-text-to-video-fast](https://qpsnl2kplc.apifox.cn/api-435315425.md): 专为工业级生产设计的极速文生视频模型。它致力于将自然语言指令快速转化为具备电影质感的短片,特别强调对主体、动作、环境及光影的高保真还原。该模型在保持稳定美学表现的同时,能够呈现极具感染力的动态效果,并支持原生音频合成与精确的随机种子控制。无论是社交媒体短视频还是广告创意初稿,它都能提供多比例适配的高效迭代方案,是追求“即时创意”的专业首选。 - 标准模型API > 视频生成与处理 > text-to-video > seedance [seedance-v1.5-pro-text-to-video](https://qpsnl2kplc.apifox.cn/api-435315426.md): 生产力级文生视频模型,专为追求电影感写实与商业质感的创作流设计。该模型具备极强的指令遵循力,能精准捕捉复杂的镜头调度与细腻的情感基调。其核心突破在于对微表情与肢体动律的深度刻画,使其在短剧创作与高端广告领域表现尤为出色。支持 4-12 秒灵活时长切换及多种专业画幅,凭借其稳定的美学表现与原生的视觉特效处理,无需繁琐后期即可产出具备实拍质感的顶级影像。 - 标准模型API > 视频生成与处理 > text-to-video > 海螺 [海螺-02-文生视频-标准](https://qpsnl2kplc.apifox.cn/api-435315427.md): Hailuo 02 是由 MiniMax 推出的一款兼顾高品质与生产效率的 AI 文生视频模型。依托其不断进化的底层框架,该模型能够将纯文本指令精准转化为具有电影质感的 768p 高清影像。Hailuo 02 在物理规律的模拟上表现卓越,无论是碎屑飞溅、织物飘动还是水流动态,均能呈现极其自然的视觉反馈。此外,其强大的镜头一致性与低随机性特点,使得创作者能够以较低成本进行高质量的创意迭代。无论是 6 秒的快速构思还是 10 秒的精彩片段,它都是追求真实动态与稳定产出的理想选择。 - 标准模型API > 视频生成与处理 > text-to-video > 海螺 [海螺-02-pro](https://qpsnl2kplc.apifox.cn/api-435315428.md): MiniMax 视频生成体系中的专业级旗舰模型,专为追求极致视觉品质与物理真实的创作者打造。该模型支持原生 1080p 超清输出,在色彩深度与微观纹理表现上远超标准版本。其核心突破在于增强的运动与物理引擎,能够精准还原碰撞、碎屑飞溅及织物形变等复杂动态,并显著减少画面闪烁与形变。无论是纯文本驱动还是图像引导(支持首尾帧控制),它都能以极高的指令遵循度实现丝滑的镜头连续性,是影视级创意落地的终极选择。 - 标准模型API > 视频生成与处理 > text-to-video > 海螺 [海螺-2.3-文生视频-标准](https://qpsnl2kplc.apifox.cn/api-435315429.md): MiniMax 推出的新一代 AI 视频生成模型,代表了当前文生视频领域的顶尖水准。该模型以先进的物理渲染技术为核心,能够精准模拟水流、碎屑及摄像机抖动等复杂动态,确保画面符合物理规律。其独特的电影级转场技术,实现了镜头间如行云流水般的自然过渡,消除了视觉上的突兀感。凭借极高的生成一致性与可重复性,它为专业创作者提供了精准的创意掌控力。在保障 6 至 10 秒高清输出质感的同时,Hailuo 2.3 以极具竞争力的成本优势,打破了高端影像创作的门槛,是影视预演与品牌广告的理想工具。 - 标准模型API > 视频生成与处理 > text-to-video > 海螺 [海螺-2.3-文生视频-pro](https://qpsnl2kplc.apifox.cn/api-435315430.md): Hailuo 2.3 Pro 是 MiniMax 旗下的顶级文生视频模型,专为对电影感纪实、动态表现及视觉连贯性有极致要求的专业创作者打造。该模型能将文本指令直接转化为 1080p 超高清的 5 秒影像,将专业级的画面质感与尖端的物理模拟技术深度融合。其核心优势在于能够精准模拟物体动态、光影反射及复杂的镜头语言,并具备卓越的语义理解力,确保生成的画面高度遵循提示词描述。凭借对角色身份的一致性维护与电影级的调色深度,它已成为追求高保真数字叙事的首选工具。 - 标准模型API > 视频生成与处理 > text-to-video > 海螺 [海螺-02-文生视频-pro](https://qpsnl2kplc.apifox.cn/api-435315431.md): MiniMax 打造的高端文生视频大模型,旨在将纯文本指令转化为具有 1080p 原生全高清质感的电影镜头。该模型专注于为创作者提供无需手动动画或脚本分镜的专业级视效,核心优势在于极其精准的指令遵循力与真实物理仿真。无论是复杂的织物动态、碰撞碎屑,还是细腻的手持摄像机抖动,它都能呈现出符合物理规律的自然运动。通过显著增强的时间一致性,它消除了画面闪烁与幻灯片感,以低随机性与高重现性,成为影视预演与高质量创意生产的可靠引擎。 - 标准模型API > 视频生成与处理 > text-to-video > 可灵文生视频o3 [可灵文生视频o3-std](https://qpsnl2kplc.apifox.cn/api-435315432.md): 快手 O3 家族的高阶成员,代表了文生视频技术的又一次跨越。它在视觉精细度与动态真实感上全面超越了之前的 V3.0 系列,能够生成具有呼吸感的电影级画面。模型支持 3 至 15 秒的跨度,允许创作者精准把控叙事节奏。结合可选的同步音效与多画幅适配(16:9, 9:16, 1:1),它在保证顶级品质的同时,实现了极高的性价比,是构建高品质视觉叙事的专业利器。 - 标准模型API > 视频生成与处理 > text-to-video > 可灵文生视频o3 [可灵文生视频o3-pro](https://qpsnl2kplc.apifox.cn/api-435315433.md): 快手旗下最强悍的文生视频模型,核心搭载了革命性的 MVL(多模态视觉语言)技术。它将 AI 视频从单纯的像素堆砌提升到了电影级叙事的高度,不仅能实现极具生命力的自然物理模拟,更在长达 15 秒的镜头中保持极高的人物与环境主体一致性。该模型具备极其精准的语义理解力,支持从 16:9 到 9:16 的全比例画幅控制。配合可选的同步音效生成,O3 Pro 为专业创作者提供了目前 Kling 家族中视觉保真度与运动真实感的巅峰体验。 - 标准模型API > 视频生成与处理 > text-to-video > 可灵文生视频3.0 [可灵文生视频3.0-pro](https://qpsnl2kplc.apifox.cn/api-435315434.md): 快手视频生成技术的顶峰之作,专为追求极致视觉艺术与工业级精度的专业创作而设计。作为 Pro 级别型号,它在 Standard 版本的基础上实现了画质保真度与运动平滑度的跨越式质变,能够精准捕捉复杂的物理动态与微小的光影变幻,呈现出真正的电影级大片质感。该模型深度集成了声画一体化能力,支持同步音效生成与双角色自定义配音。配合负向提示词精准规避与 CFG 引导系数的深度控制,V3.0 Pro 赋予了创作者前所未有的掌控力,让文字瞬间转化为具备生产力价值的高端视觉杰作。 - 标准模型API > 视频生成与处理 > text-to-video > 可灵文生视频3.0 [可灵文生视频3.0-std](https://qpsnl2kplc.apifox.cn/api-435315435.md): 快手最新发布的顶尖文本生成视频模型,代表了 AI 视频创作的又一里程碑。相比前代 V2.6,V3.0 在运动质量与视觉保真度上实现了显著跃升,能够生成极具质感的电影级画面。其最具竞争力的创新在于支持同步音效生成以及多达两个席位的自定义角色配音,彻底解决了 AI 视频“无声”的痛点。配合负向提示词精准规避、CFG 引导系数微调以及多比例画幅支持,它为创作者提供了前所未有的自由度,让每一个创意都能以声画合一的完美姿态呈现。 - 标准模型API > 视频生成与处理 > text-to-video > 全能视频S [全能视频S-文生视频-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315436.md): 文生视频,是一款顶尖的音视频一体化生成模型,基于初代全能视频S技术底座打造。相较前代视频模型实现全面升级,具备更精准的物理运动效果、超高清的写实画质、音画同步匹配、更强的可控性,以及更丰富的风格表达维度,可满足多元创作需求。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 视频生成与处理 > text-to-video > 全能视频S [全能视频S-文生视频-pro-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315437.md): 文生视频专业版,是基于初代全能视频S框架打造的行业顶尖音视频生成模型。实现超精准物理模拟、极致写实画质、音画无缝同步、可控性全面提升与风格范围拓展的突破性升级,为全场景创作提供顶级的视频生成表现。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 视频生成与处理 > text-to-video > 全能视频S [全能视频S-文生视频-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315438.md): 新一代音视频生成巅峰之作。它在初代模型的基础上,通过引入物理感知运动算法,实现了对惯性、动量和碰撞逻辑的精确模拟,彻底告别了画面的“果冻感”。最大的突破在于音画同步技术,能够自动匹配环境音效与角色的口型动作。凭借对高频细节(如皮肤纹理、织物纤维)的精细保留,以及在长镜头运镜中极高的时间轴一致性,它不仅能处理多主体间的复杂遮挡关系,还能在写实、动画等多种风格间自由切换。极强的可控性让创作者能精准调整镜头节奏,是真正具备“世界模型”雏形的生产力工具。4s/8s/12s可选。本接口采用官方原生 API 协议,该协议目前未开放对 Web/App 端个人角色库(Cameo)的访问,暂不支持通过 @ 语法引用角色。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 视频生成与处理 > text-to-video > 全能视频G [全能视频X-文生视频-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315439.md): 它的核心优势在于能够极其精准地解析复杂的长文本逻辑,不仅能还原画面的视觉美感,更在因果关系模拟与电影级镜头调度上展现出深厚的“大模型底蕴”。该模型在处理光影演变、复杂物理交互及环境叙事时,能保持极低的语义损耗,让每一帧都符合逻辑直觉,是追求高叙事精度与视觉真实感创作者的理想之选。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 视频生成与处理 > text-to-video > 全能视频G [全能视频X-文生视频-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315440.md): 纯文本到视频生成模型,能够仅凭文字描述从零构建动态世界。用户只需输入所需的场景、动作与视觉风格,模型即可生成具备逼真物理运动与细腻氛围感的电影级画面。该模型支持高度自定义,包括灵活的视频时长、16:9 或 9:16 等多种常见画幅,以及 480p 和 720p 的分辨率选项,全面赋能创作者将想象力转化为高质量的视频内容。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 视频生成与处理 > text-to-video > 全能视频V3.1 [全能视频V3.1-pro-文生视频-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315441.md): 最新顶级人工智能文生视频模型,全能视频V3.1 高质量模式,原生文生视频 + 全维度同步音画,支持对话唇形同步、主体跨帧一致、视频帧插值,还原电影级光影与运镜,叙事连贯,画质极致、功能全量拉满,适配专业创作场景,仅定价偏高,按需选用即可。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 视频生成与处理 > text-to-video > 全能视频V3.1 [全能视频V3.1-pro-文生视频-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315442.md): 旗舰级文生视频模型,旨在通过文本重新定义电影级叙事。该模型能生成高达 4k 的高保真视频,并具备行业领先的原生音频同步能力,支持环境音效、配乐及角色对话(含精准口型)。结合角色一致性与视频插帧技术,Veo 3.1 能够精准控制光影、运镜与物体动态,提供 4s/6s/8s 多种时长及横竖屏选择,是目前最通用的生成式视频系统之一。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 视频生成与处理 > text-to-video > 全能视频V3.1 [全能视频V3.1-fast-视频扩展-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315443.md): 专为高效迭代设计的视频续写模型。它在保持标准版核心能力的基础上,重点优化了生成速度与低延迟性能。该模型能基于现有的 Veo 视频无缝追加 7 秒 的新内容,并自动合并为单一文件。它同样支持高达 20 次的连续扩展(最长 148 秒),非常适合快速验证剧情走向、制作多版本广告创意或在紧迫的制作周期中快速响应修改需求。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 视频生成与处理 > text-to-video > 全能视频V3.1 [全能视频V3.1-pro-视频扩展-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315444.md): 专为突破视频时长限制而设计,支持对现有的生成片段进行无缝续写。该模型并非简单的重新生成,而是基于原视频的视觉逻辑,精准追加 7 秒 的全新内容。它能确保扩展部分在风格、动作和构图上与原片完美融合,支持连续扩展多达 20 次,最终自动合并生成最长 148 秒 的单文件视频。这一功能极大地提升了叙事连贯性,是制作电影长镜头和社交媒体短视频的理想工具。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 视频生成与处理 > text-to-video > 全能视频V3.1 [全能视频V3.1-fast-文生视频-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315445.md): 最新高级人工智能文生视频模型,全能视频V3.1 快速模式,原生支持文生视频 + 同步音画生成,具备基础影院级真实感与流畅动态效果,画质优质且定价极低,音画同步精准,是日常创作、轻量需求的高性价比优选,核心文生视频功能全覆盖。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 视频生成与处理 > text-to-video > 全能视频V3.1 [全能视频V3.1-fast-文生视频-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315446.md): 专为高效创作打造的高速、低成本视频生成模型。它能在保持 4k 电影级画质、自然动态和逼真光影的前提下,以比标准版快 30% 的速度将文本转化为视频。该模型的一大突破是原生音频同步生成,不仅包含环境音效,还支持角色对话与口型同步(Lip-Sync),确保视觉与听觉的完美统一。这使其成为短视频营销、快速叙事和高频内容生产的首选工具。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 视频生成与处理 > text-to-video > 全能视频sd2.0体验版 [超能视频2.0体验版](https://qpsnl2kplc.apifox.cn/api-435315447.md): 电影级视频生成器(Cinematic Video Generator)是一款专为高端创意制作打造的双模态 AI 大模型。它能输出好莱坞电影级视频,具备极高的视觉保真度、专业的色彩分级和戏剧性光影效果。无论是纯文本生成(T2V),还是最多支持 4 张参考图引导的图生视频(I2V),该模型都能提供流畅、自然的导演级运镜与主体动态。适配多种主流画幅比例,是实现专业电影感视觉叙事的理想引擎。 - 标准模型API > 视频生成与处理 > text-to-video > 万相2.2 [万相2.2-文生视频](https://qpsnl2kplc.apifox.cn/api-435315448.md): 基于Wan-2.2架构的图生视频模型,支持上传首尾帧图片生成5秒或8秒动态视频,支持多种分辨率输出。采用MoE双专家系统(高噪声专家处理结构布局、低噪声专家优化细节),在保持输入图像主体特征、光影和构图的同时,生成自然流畅的摄像机运动与物体动态。特别适合人像照片动态化、产品展示动画和创意概念可视化,单张图片即可启动专业级视频叙事。 - 标准模型API > 视频生成与处理 > text-to-video > SkyReels V4 文生视频 [SkyReels V4 文生视频](https://qpsnl2kplc.apifox.cn/api-435315449.md): SkyReels V4 文生视频是新一代 AI 视频创作引擎,支持最长 15 秒的 1080p 高清视频生成。凭借灵活的多画幅比例、AI 音效生成和多质量模式,轻松将文字描述转化为电影级视觉内容,适用于创意短片、广告素材和社交媒体内容制作。 - 标准模型API > 视频生成与处理 > text-to-video > ltx [ltx-2.3/text-to-video](https://qpsnl2kplc.apifox.cn/api-435315450.md): Lightricks 2026年3月发布的开源文生视频基础模型。全新4倍大文本连接器显著提升复杂提示词的理解精度,多主体、空间关系和风格指令的还原准确度大幅改善。重制的VAE带来更锐利的细节表现,升级的声码器实现更清晰的同步音效生成。支持1080p原生竖屏与横屏双画幅,24/48fps多帧率可选,5-20秒时长内一次性输出完整音画内容,无需后期配音即可直接交付。 - 标准模型API > 视频生成与处理 > text-to-video > ltx [ltx-2.3/text-to-video-lora](https://qpsnl2kplc.apifox.cn/api-435315451.md): 面向专业创作者和品牌的文生视频LoRA定制版本,在LTX-2.3强大文本理解基础上开放深度个性化能力。支持最多三个LoRA适配器同时工作,可将特定视觉风格、标志性角色或专属运镜手法固化到生成流程中。通过"文本描述+LoRA风格"的双驱动模式,实现创意意图与品牌视觉的精准统一。适合需要保持视觉一致性的系列内容生产、跨项目角色运营和风格化广告战役,让文本驱动的视频生成真正服务于品牌资产积累。 - 标准模型API > 视频生成与处理 > text-to-video [PixVerse V5.6 文生视频](https://qpsnl2kplc.apifox.cn/api-435315416.md): PixVerse V5.6 是新一代文生视频模型,相较 V5.5 在画面质感、运动流畅性与细节保真度上全面升级。支持 360p-1080p 多分辨率输出,5/8/10 秒灵活时长,内置 AI Thinking 模式自动优化复杂提示词,并可一键同步生成音频,适用于短视频创作、广告制作与创意概念可视化。 - 标准模型API > 视频生成与处理 > video-edit [kling-video-o3-pro/video-edit](https://qpsnl2kplc.apifox.cn/api-435315452.md): 快手视频编辑技术的巅峰之作,专为追求极致精度与电影级质感的专业后制而生。它彻底颠覆了传统的剪辑逻辑,无需遮罩或关键帧,仅通过自然语言即可实现物体替换、场景重构与风格迁移。作为 Pro 级别型号,它支持多达 4 张参考图输入,为目标元素提供精准的视觉引导。凭借深层的场景语义理解与工业级的时空一致性,该模型能确保编辑后的内容完美融入原视频的运动轨迹与结构,实现稳定、无频闪的视觉重塑。 - 标准模型API > 视频生成与处理 > video-edit [可灵视频编辑o1](https://qpsnl2kplc.apifox.cn/api-435315453.md): 快手科技推出的颠覆性视频编辑模型,实现了通过自然语言进行像素级语义重构的跨越。基于强大的 MVL(多模态视觉语言)系统,该模型能够精准理解创作者的修改意图,无论是移除背景路人、更换角色服装,还是将白昼切换为黄昏、为场景添加降雪,都能在保持画面连贯性的前提下完成内容、风格及环境的深度修改。它打破了传统视频编辑的繁琐流程,支持局部元素替换与全局氛围重塑,是视频二次创作与后期修正的智能化生产力工具。 - 标准模型API > 视频生成与处理 > video-edit [kling-video-o3-std/video-edit](https://qpsnl2kplc.apifox.cn/api-435315454.md): 基于自然语言指令的专业级视频编辑工具。它专注于实现 3-15 秒视频的局部化转换,能够精准执行移除或替换物体、更换背景、重塑场景风格以及动态调整天气与光影等复杂任务。依托强大的强时空一致性算法,该模型确保了编辑后的画面在动态序列中依然自然流畅。 - 标准模型API > 视频生成与处理 > video-edit [全能视频X-编辑视频-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315455.md): 一款创新的视频编辑模型,允许用户通过自然语言指令轻松改造现有视频。只需上传源视频并输入期望的风格或修改建议,模型即可在全视频范围内进行无缝的 AI 编辑。无论是将真实画面转换为动漫、卡通,还是赋予其电影般的质感,该模型都能在所有帧之间保持卓越的时空一致性,确保生成平滑、无闪烁的高质量画面,并提供 480p 与 720p 分辨率选项,让视频重塑变得直观且高效。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 视频生成与处理 > motion-control [可灵动作控制V3.0-pro](https://qpsnl2kplc.apifox.cn/api-435315456.md): 可灵V3.0系列的动作控制专业版本,在Std基础上实现画质与动作精度的全面跃升。通过上传角色图片与驱动视频,即可让图片中的角色精准复现视频中的舞蹈、手势或运动轨迹,并在角色细节保持、动作流畅度和物理真实感方面显著增强。支持1080p高分辨率输出,精确还原服装纹理、面部表情和复杂手势。双模式支持(图片模式10秒/视频模式30秒)配合音频保留功能,可直接生成声画同步的完整视频。适合需要电影级质感的专业制作、高端商业广告和IP角色动画。 - 标准模型API > 视频生成与处理 > motion-control [可灵动作控制V3.0-std](https://qpsnl2kplc.apifox.cn/api-435315457.md): 快手可灵V3.0系列的动作控制基础版本,专为需要将参考视频中的动作迁移到静态图片的用户设计。通过上传角色图片与驱动视频,即可让图片中的角色精准复现视频中的舞蹈、手势或运动轨迹。采用3D时空联合注意力机制,在保持角色身份特征的同时实现物理真实的动作转移。支持"图片模式"(最长10秒,保持原图视角)与"视频模式"(最长30秒,跟随驱动视频视角)双模式,为社交媒体内容、虚拟主播和创意短视频提供高性价比的动作生成方案。 - 标准模型API > 视频生成与处理 > motion-control [kling-v2.6-pro-动作控制](https://qpsnl2kplc.apifox.cn/api-435315458.md): 快手推出的顶尖动作迁移(Motion Transfer)模型,专为将动态灵魂注入静态图像而设计。该模型能够精准提取 3 至 30 秒参考视频中的复杂位移、姿态及肢体轨迹,并将其丝滑地应用到目标角色上,同时确保角色身份(Identity)与时空逻辑的高度一致。它支持灵活的构图控制(图像比例优先或视频构图优先),并允许保留原视频音效。配合提示词引导功能,创作者可以在维持动作核心的同时,对场景光影、材质及氛围进行深度重塑,实现从“静态立绘”到“高精度动态表演”的质变。 - 标准模型API > 视频生成与处理 > motion-control [kling-v2.6-std-动作控制](https://qpsnl2kplc.apifox.cn/api-435315459.md): 一款专注于高效动作迁移的影像生成工具,旨在赋予静态图像以动态灵魂。通过上传角色原图与参考视频,该模型能够精准提取视频中的姿态、律动与手势逻辑,并将其 1:1 映射至目标角色身上。其核心优势在于卓越的身份保真度,确保角色在执行复杂动作时外观始终如一。此外,它突破性地支持长达 30 秒的超长动态生成,并提供原声保留与朝向控制功能,是短视频创作、虚拟偶像演出及动作特效开发的理想生产力方案。 - 标准模型API > 视频生成与处理 > motion-control [即梦/动作模仿2.0](https://qpsnl2kplc.apifox.cn/api-435315460.md): 作为字节跳动最新一代视频动作捕捉与迁移模型,它彻底颠覆了静态图像的边界。只需提供一张任意风格的图像与一段参考视频,即可让图片中的角色完美复刻视频中的肢体运动、面部微表情与精准口型。模型不仅支持全画幅真人驱动,更首次突破性地兼容多人同框、二次元动漫及宠物动作迁移。它具备极致的特征锁定能力,在生成流畅自然、高度同步的复杂动作时,能完美保持原图的画幅、姿态及背景细节,实现零门槛的电影级动画演绎。 - 标准模型API > 视频生成与处理 > video-tools [全能视频S-角色上传-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315461.md): 全能视频S角色上传功能的官方稳定版。上传一段2-4秒的短视频并指定角色名称,系统自动提取角色身份特征并生成可复用的角色 ID。生成的角色 ID 可在全能视频S文生视频中引用,确保跨场景、跨镜头的角色外观一致性。适用于系列短剧制作、品牌虚拟形象运营和多场景叙事内容创作。官方稳定版,稳定性高。 - 标准模型API > 视频生成与处理 > video-tools [全能视频S-角色上传-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315462.md): 根据视频创建对应的形象。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 视频生成与处理 > video-effects [SkyReels V3 视频风格化](https://qpsnl2kplc.apifox.cn/api-435315463.md): SkyReels V3 视频风格化模型可将任意视频一键转换为多种艺术风格,涵盖赛博朋克、动漫、梵高油画、乐高、像素艺术等 8 种预设风格。最长支持 30 秒输入视频,在保持原始运动轨迹的同时赋予全新视觉美学,为视频创作注入独特艺术气息。 - 标准模型API > 视频生成与处理 > video-extend [SkyReels V3 视频续写(单镜头)](https://qpsnl2kplc.apifox.cn/api-435315464.md): SkyReels V3 单镜头视频续写模型可在原视频基础上自然延续画面,支持 5-10 秒续写时长。通过文字提示控制续写方向和内容,保持场景与角色的高度连贯性,适用于短视频创作、镜头时长扩展和叙事内容延伸。 - 标准模型API > 视频生成与处理 > video-extend [SkyReels V3 视频续写(镜头切换)](https://qpsnl2kplc.apifox.cn/api-435315465.md): SkyReels V3 镜头切换视频续写模型在续写视频的同时引入专业的镜头切换技巧,支持推近、拉远、正反打、多角度切换等 6 种运镜方式。为视频创作注入电影级的叙事节奏和镜头语言,适用于短剧、广告和创意内容制作。 - 标准模型API > 视频生成与处理 > audio-to-video [可灵对口型-人脸识别](https://qpsnl2kplc.apifox.cn/api-435315466.md): 可灵推出的专为人脸特征提取与身份一致性保持设计的底层模型。可对视频进行人脸检测,返回视频中的人脸数据(人脸ID、人脸截图URL、可对口型时间区间),以及会话ID,用于后续对口型视频生成中的身份锁定。 - 标准模型API > 视频生成与处理 > audio-to-video [可灵对口型-视频生成](https://qpsnl2kplc.apifox.cn/api-435315467.md): 可灵AI对口型视频生成模型,基于输入的人物识别结果视频与音频,实现人物口型与声音内容的帧级同步。支持真实人物、3D及2D动画角色,可处理本地音频上传或在线合成配音。采用音频对齐插帧策略,确保发音难度较高的音节也能准确还原口型状态,生成时长支持延伸至分钟级。 - 标准模型API > 3D 生成与处理 > text-to-3D [混元文生3D模型v3.1](https://qpsnl2kplc.apifox.cn/api-435315468.md): 面向生产力场景的超高清几何生成模型。其核心优势在于拥有 1536³ 的极致几何分辨率与 36 亿体素规模,彻底告别了早期模型常见的表面模糊问题。该版本引入了 PartGen 1.5 组件化生成技术,能够自动实现语义拆解(如车辆轮子可独立旋转),极大简化了下游的游戏绑定工作流。通过几何与纹理的深度解耦,模型在生成复杂结构(如机械零件或高精手办)时,展现出了工业级的结构精准度与材质还原力。 - 标准模型API > 3D 生成与处理 > image-to-3D [hitem3d-v15/image-to-3d](https://qpsnl2kplc.apifox.cn/api-435315469.md): 数美万物推出的图像转3D通用模型,支持单张图片重建高分辨率3D模型。提供512³、1024³、1536³及1536³ Pro四种分辨率选项,其中Pro模式可获取更精细的几何结构。支持纯几何生成或几何+纹理一次性生成两种输出模式,适用于游戏开发、3D打印、影视制作等多场景。 - 标准模型API > 3D 生成与处理 > image-to-3D [混元图生3D模型v3.1](https://qpsnl2kplc.apifox.cn/api-435315470.md): 目前业界领先的工业级图像转三维模型工具。该版本最大的突破在于支持 8 视图同步输入,通过覆盖顶视、底视及多角度侧视,彻底消除了生成过程中的视觉盲区,实现了对复杂、非对称物体近乎完美的几何还原。配合 1536³ 的超高清分辨率,它能够精准复刻原图中的纹理细节与材质光泽。无论是为电商打造高精度商品模型,还是为游戏开发快速构建 3D 资产,其卓越的多视角一致性算法都能确保模型在任何角度下都经得起专业审视。 - 标准模型API > 3D 生成与处理 > image-to-3D [hitem3d-v2/image-to-3d](https://qpsnl2kplc.apifox.cn/api-435315471.md): Hitem3D v1.5的架构升级版,采用改进的纹理合成管线,在几何保真度、纹理一致性和材质生成方面均有提升。针对全彩3D打印场景优化了色彩还原与表面质量。与v1.5共享相同的四档分辨率选项,但生成结果在结构细节和视觉真实感上更为出色。 - 标准模型API > 3D 生成与处理 > image-to-3D [hitem3d-v15/multi-image-to-3d](https://qpsnl2kplc.apifox.cn/api-435315472.md): 基于v1.5架构的多视图重建版本,支持输入2-4张同物体不同角度的图片生成3D模型。通过多视角信息融合提升360度几何一致性,解决单图重建中遮挡区域和背面结构的推断不确定性。提供与单图版相同的四档分辨率及两种生成模式选项。 - 标准模型API > 3D 生成与处理 > image-to-3D [hitem3d-v2/multi-image-to-3d](https://qpsnl2kplc.apifox.cn/api-435315473.md): 基于v2.0架构的多视图重建版本,结合改进的纹理管线与多视角输入优势。在v1.5多图版基础上进一步提升了几何结构保真度和纹理表面一致性,特别优化了复杂物体在多视角下的材质连贯性。支持2-4张图片输入及全彩3D打印场景。 - 标准模型API > 3D 生成与处理 > image-to-3D [hitem3d-portrait-v21/image-to-3d](https://qpsnl2kplc.apifox.cn/api-435315474.md): 数美万物推出的专为人物肖像生成优化的单图重建模型,基于v2.0通用架构升级。针对面部结构、头发丝级细节和睫毛等微结构进行专门训练,在高分辨率模式下可重建高精度人像几何。适用于数字人、手办、虚拟头像等需要高保真面部还原的场景。 - 标准模型API > 3D 生成与处理 > image-to-3D [hitem3d-portrait-v21/multi-image-to-3d](https://qpsnl2kplc.apifox.cn/api-435315475.md): 数美万物推出的Portrait v2.1的多视图版本,支持2-4张人像照片输入。结合多视角信息与肖像专用架构,提升头部360度几何一致性和面部特征准确度。特别适用于需要精确还原特定人物肖像/形象定制的委托手办制作,通过多角度输入减少面部特征推断误差。 - 标准模型API > 3D 生成与处理 > image-to-3D [hitem3d-portrait-v20/image-to-3d](https://qpsnl2kplc.apifox.cn/api-435315476.md): 数美万物推出的第二代肖像专用单图重建模型,基于v2.0通用架构。针对人物头部和面部比例进行基础级重建优化,支持头发和面部细节生成。作为v2.1的前代版本,提供可靠的肖像生成能力,适用于头像、胸像等人物3D资产创作。 - 标准模型API > 3D 生成与处理 > image-to-3D [hitem3d-portrait-v20/multi-image-to-3d](https://qpsnl2kplc.apifox.cn/api-435315477.md): 数美万物推出的第二代肖像 Portrait v2.0的多视图版本,支持2-4张人像照片输入。通过多视角信息补充提升头部几何完整性和面部特征准确度,适用于需要更稳定面部重建结果的场景。结合v2.0架构的多视角融合能力,为人物3D化提供更可靠的几何基础。 - 标准模型API > 3D 生成与处理 > image-to-3D [hitem3d-portrait-v15/image-to-3d](https://qpsnl2kplc.apifox.cn/api-435315478.md): 数美万物推出的首个肖像专用模型,基于v1.5通用架构开发。专为面部和胸像生成优化,提供与通用版相同的四档分辨率选项。针对人物头部结构进行专门训练,可生成带纹理的逼真面部模型,适用于数字人、雕塑、虚拟形象等场景。 - 标准模型API > 3D 生成与处理 > image-to-3D [hitem3d-portrait-v15/multi-image-to-3d](https://qpsnl2kplc.apifox.cn/api-435315479.md): Portrait v1.5的多视图版本,支持2-4张人像照片输入。通过多角度信息融合提升面部360度一致性和几何稳定性,解决单图肖像重建中侧面和背面结构的推断难题。适用于需要高一致性头部模型的创作场景,提供与单图版相同的分辨率选项。 - 标准模型API > 音频生成与处理 > text-to-audio [minimax/speech-2.8-hd](https://qpsnl2kplc.apifox.cn/api-435315480.md): 一款专为追求极致听感而设计的录音室级文本转语音模型。相较于 Turbo 版本,它专注于高保真(HD)处理,能够精准还原真实语气中的细微细节,并全面提升音色相似度,使合成语音几乎不可区分于真人录音。该模型不仅拥有 17+ 种覆盖全年龄段的丰富音色库,更赋予了 AI 深度情感驱动力。通过支持(笑声)、(叹息)等拟人化助词以及多维度的音频参数精调,它为高端广告、有声书及专业广播提供了卓越的语音解决方案。 - 标准模型API > 音频生成与处理 > text-to-audio [minimax/music-2.5](https://qpsnl2kplc.apifox.cn/api-435315481.md): MiniMax Music 2.5是音乐生成领域的里程碑式升级,主打**“高保真”与“强控制”的深度融合。该模型在编曲混音、人声表现、结构精度及声音设计四大维度实现了跨越式突破。通过引入拟人化音色模拟与 Flow 表现力优化,它产出的歌声具备物理意义上的“真声感”,彻底告别了早期的电子合成痕迹。最显著的优势在于其结构精度**:精准支持包含前奏、间奏、升华(Build-up)等 14 种以上的音乐段落控制。配合风格化声音滤镜,无论是摇滚的失真还是爵士的温暖,都能实现 Studio 级的成品产出。 - 标准模型API > 音频生成与处理 > text-to-audio [minimax/speech-02-hd](https://qpsnl2kplc.apifox.cn/api-435315482.md): 一款录音室级别的旗舰文本转语音模型,其核心优势在于出色的韵律表现与稳定性。它不仅能精准捕捉人类语言中的情感细微差别,更在复刻相似度上表现优异,音质表现极为突出。该模型支持中、英、日、韩、西等多种主流语言,并具备毫秒级的流式输出能力。无论是 10,000 字的长文本处理,还是对语速、音高的精细微调,它都能提供如真人配音演员般的自然听感,是专业内容创作的理想之选。 - 标准模型API > 音频生成与处理 > text-to-audio [minimax/speech-02-turbo](https://qpsnl2kplc.apifox.cn/api-435315483.md): 一款兼具出色韵律与稳定性的高效能语音合成模型。它在继承 02 系列拟人化语调的基础上,显著加强了小语种处理能力,使其在全球化内容创作与跨境业务中拥有出色的性能表现。通过内置 17+ 种跨度极广的音色预设及自定义克隆技术,用户可以精准控制情感起伏与音频参数。无论是快节奏的视频配音还是复杂的播客生产,它都能以极速响应提供稳定、流畅且富有生命力的音频输出。 - 标准模型API > 音频生成与处理 > text-to-audio [minimax/speech-2.6-hd](https://qpsnl2kplc.apifox.cn/api-435315484.md): 一款主打高自然度与超低延时的专业级语音模型。通过深度“归一化升级”,该模型实现了极其丝滑的发音韵律与清晰吐字,能够精准复刻不同年龄段的音色与地域口音。它在 40 多种全球语种(如马来语、希伯来语等)的相似度与准确性上较前代有显著飞跃,完美适配跨国会议与本地化营销。凭借其强大的实时流式输出能力,它能为交互式应用提供近乎零延迟的听觉体验,让 AI 沟通如同真人般流畅。 - 标准模型API > 音频生成与处理 > text-to-audio [minimax/speech-2.6-turbo](https://qpsnl2kplc.apifox.cn/api-435315485.md): 一款专为极速响应与高性价比设计的“性能级”语音模型。它在 Speech 02 的基础上实现了多语种能力的跨越式升级,支持包括保加利亚语、马来语在内的 40 多种全球语言,且发音韵律更加精准。作为针对语音聊天和数字人场景深度优化的极速版本,它不仅能提供清晰自然的吐字,更具备领先的实时流式输出能力。无论是跨语种口音的复刻,还是特定年龄段音色的拟真,2.6 Turbo 都能以极低延迟为全球化业务提供丝滑的互动体验。 - 标准模型API > 音频生成与处理 > text-to-audio [minimax/speech-2.8-turbo](https://qpsnl2kplc.apifox.cn/api-435315486.md): 一款重新定义人机交互的广播级文本转语音模型。它不仅能提供极其自然、丝滑的听感,更赋予了 AI 情绪的深度——从欢快的语调到冷静的叙述,皆可精准驾驭。通过内置的 17+ 种多元音色库和独特的拟人化语气助词(如笑声、叹息),它让语音合成告别“机械感”,实现更具生命力的表达。无论是品牌播报、有声书创作还是实时语音助手,其精细的参数控制和自定义词典功能,都能为你提供量身定制的顶级听觉盛宴。 - 标准模型API > 音频生成与处理 > text-to-audio [minimax/voice-clone](https://qpsnl2kplc.apifox.cn/api-435315487.md): 基于 Speech-02 与最新 Speech 2.6 HD/Turbo 系列打造的尖端声纹克隆引擎。它仅需数秒音频样本即可实现高保真的零样本克隆,精准复刻目标说话人的音色、口音与独特的叙事风格。该系统不仅支持全球 40 多种语言的跨语言流畅合成,更在情感表达力上实现了质的飞跃,允许开发者对语速、音高及情感色彩进行细粒度调节。凭借 Turbo 版本低于 250ms 的极低延迟性能,它成为了实时交互、沉浸式游戏及全球化品牌播报的理想音频解决方案。 - 标准模型API > 音频生成与处理 > text-to-audio [可灵对口型-语音合成](https://qpsnl2kplc.apifox.cn/api-435315488.md): 可灵推出的支持文本到语音转换的生成模型,提供多语言、多方言的合成能力。可基于文本描述生成在线配音,或结合自定义音色功能复刻特定人声。支持语速调节(0.8-2倍速)、多种情感风格选择,并能与对口型模型联动,实现音画同步的口型驱动。 - 标准模型API > 图像生成与处理 > reference-to-image [Vidu-参考生视频-q2-pro](https://qpsnl2kplc.apifox.cn/api-435315489.md): 在“参考生视频”领域实现了跨越式进化,不仅支持 1-7 张图像参考,更突破性地支持 1-2 个视频片段作为参考源。该模型主打“AI 演技”,能在保持角色细节、服饰和场景高度一致的同时,精准捕捉细腻的微表情。它支持 1080P 高清输出,并具备强大的视频编辑与替换能力,是专业视频创作者追求“素材可控性”的终极利器。 - 标准模型API > 图像生成与处理 > text-to-image > 悠船文生图 [悠船文生图-niji6](https://qpsnl2kplc.apifox.cn/api-435315490.md): 专为二次元审美定制的大规模模型,深度融合了日式动漫画风与插画技巧。它对光影的二次元处理(如丁达尔效应、赛璐璐风格)具有极强的表现力,不仅能处理简单的立绘,更能构建宏大的动漫叙事场景。 - 标准模型API > 图像生成与处理 > text-to-image > 悠船文生图 [悠船文生图-v61](https://qpsnl2kplc.apifox.cn/api-435315491.md): V6.1 是对 V6 架构的精细化重构,主要提升了图像的清晰度和处理速度。它在保持 V6 强大语义理解能力的基础上,显著减少了画面中的噪点,尤其在渲染微距摄影和极简主义设计时,表现出极高的纯净度和锐利感。 - 标准模型API > 图像生成与处理 > text-to-image > 悠船文生图 [悠船文生图-v6](https://qpsnl2kplc.apifox.cn/api-435315492.md): V6 是迈向“精准指令”的重要里程碑。它摒弃了冗余的提示词技巧,支持自然语言输入。V6 首次实现了在图像中准确嵌入长句短语,并建立了更为严肃、真实的写实风格审美基调,是商业摄影和写实创作的基石。 - 标准模型API > 图像生成与处理 > text-to-image > 悠船文生图 [悠船文生图-v7](https://qpsnl2kplc.apifox.cn/api-435315493.md): V7 标志着 AI 绘画进入“物理真实”时代。它彻底解决了复杂人体结构(如手部、足部)的畸变问题,并引入了全新的全局光照算法,使其生成的图像在动态范围和材质肌理上与 4K 摄影机拍摄无异。 - 标准模型API > 图像生成与处理 > text-to-image > 全能图片PRO [全能图片PRO-文生图-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315494.md): 全能图片PRO是行业领先的前沿文本生图模型,可生成画质出众的 4K 高清图像,且针对移动设备完成全面适配优化,保障运行流畅度。内置开箱即用的 REST 推理接口,性能表现稳居行业顶尖,无任何冷启动问题,定价更是极致亲民。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 图像生成与处理 > text-to-image > 全能图片PRO [全能图片PRO-文生图-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315495.md): 全能图片PRO是一款前沿文本生图模型,可生成高清图像,且针对移动端完成专项优化。提供即用型 REST 推理接口,性能表现行业领先,无冷启动延迟,定价经济亲民。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 图像生成与处理 > text-to-image > 全能图片PRO [全能图片PRO-文生图Ultra-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315496.md): 原生 4K/8K 级工业素材。它不仅能理解复杂的艺术风格,更支持通过自然语言对画面进行深度语境编辑。最引人注目的是其多语言文字渲染能力,能够自动翻译并完美排版图片内的文字。配合专业的摄影机视角、焦距及景深控制,它能确保在不同画幅下维持角色与品牌风格的高度一致,是社交媒体、广告创意及专业排版领域的全能型解决方案。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 图像生成与处理 > text-to-image > 全能图片V2 [全能图片V2-文生图-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315497.md): 专为高并发场景与极速响应设计的轻量级文生图接口。作为全能图片V2家族的核心能力,该端点(Endpoint)完美平衡了生成质量与极高的吞吐量,能够将自然语言指令瞬间转化为高保真视觉资产。特别适合需要快速迭代、实时预览或大规模批量生成图像的应用场景。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 图像生成与处理 > text-to-image > 全能图片V2 [全能图片V2-文生图-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315498.md): 专为创作者打造的“闪电级”影像旗舰。它在保持极速响应的同时,实现了 4K 超高清画质与电影级光影表现的完美平衡。该模型不仅能精准还原复杂的文本意图,更在多角色一致性、精准文字渲染及长宽比兼容性上取得了突破,是追求高效率与专业视觉品质的理想 AI 创作引擎。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 图像生成与处理 > text-to-image > 全能图片G [全能图片G-1.5-文生图-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315499.md): 一款兼顾低延迟与高性价比的多模态文生图模型。具备出色的提示词理解能力,可快速生成高保真图像,适用于UI设计、概念艺术、产品原型及创意可视化等场景。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 图像生成与处理 > text-to-image > 全能图片G [全能图片G-1.5-文生图-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315500.md): 基于欧喷爱·鸡皮提图像技术的高性价比多模态文本生成图像模型,具备强大的提示词理解与优化合成能力,可从自然语言生成高质量视觉内容,适用于 UI 设计、概念艺术、产品原型等场景。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 图像生成与处理 > text-to-image > 全能图片G [全能图片G-1.5-图生图-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315501.md): 一款高性价比的图像编辑模型,可通过文字指令调整现有图片。它能理解复杂描述,在保留画面原有光线、色调和结构的基础上,完成从细节修饰到整体风格转换的多种操作,同时支持多张图片参考比对。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 图像生成与处理 > text-to-image > seedream [seedream-v4.5-文生图](https://qpsnl2kplc.apifox.cn/api-435315502.md): 字节跳动推出的新一代超高清文生图大模型。通过大规模架构优化与训练,该模型在视觉美学与逻辑理解上实现了质的飞跃。其最显著的突破在于卓越的文字渲染与海报排版能力,能够精准呈现清晰、易读的品牌标识与市场视觉素材。无论是复杂的 UI 界面设计,还是具有严谨层级关系的商业海报,Seedream 4.5 都能提供设计师级别的构图表现。凭借对复杂提示词的高度遵循及最高 4K 的自定义分辨率输出,它已成为品牌创意与视觉设计的强力引擎。 - 标准模型API > 图像生成与处理 > text-to-image > seedream [seedream-v5-lite-文生图](https://qpsnl2kplc.apifox.cn/api-435315503.md): 基于豆包大模型的新一代智能视觉创作引擎。它不仅支持通过纯文本指令快速生成高精度的单张图像,更具备突破性的“文生组图”能力。借助先进的思维链(CoT)推理与实时联网检索(RAG)技术,该接口能够深刻理解复杂的长文本上下文,精准生成风格统一、逻辑连贯的系列插图或包含实时数据的时效性海报,为开发者提供极具扩展性的内容自动化解决方案。 - 标准模型API > 图像生成与处理 > text-to-image > seedream [seedream-v4-文生图](https://qpsnl2kplc.apifox.cn/api-435315504.md): 字节跳动为平面设计与社媒创意量身打造的布局感知型文生图模型。它在传统生成算法的基础上,深度集成了空间布局逻辑,擅长生成多格海报、九宫格、三联画及漫画分镜,并能精准规划留白区域以适配标题和正文排版。该模型最核心的优势在于“系列一致性”,能够确保多张视觉图(Series KV)在色调、光影及相机视角上高度统一。支持最高 4096×4096 的 4K 级超清输出,凭借对边缘细节的细腻处理和极低的画面伪影,它是设计师产出工业级营销素材与概念设计的理想工具。 - 标准模型API > 图像生成与处理 > text-to-image > 全能图片V1 [全能图片V1-文生图-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315505.md): 全能图片V1是一款尖端的文本生图模型,可根据多样化的自然语言提示词,灵活智能生成高品质图像,覆盖多类视觉风格与场景需求。配备开箱即用的 REST 推理接口,保障顶级运行性能,彻底规避冷启动延迟问题,面向全用户推出超高性价比的亲民定价方案。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 图像生成与处理 > text-to-image > 全能图片V1 [全能图片V1-文生图-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315506.md): 一款轻量级且功能强大的 AI 图像生成模型。它专为寻求快速、高质量视觉效果的创作者设计,只需简单的文字提示,即可在数秒内将创意转化为富有表现力、清晰逼真的图像。该模型具备卓越的构图能力和广泛的风格适应性(写实、插画、动漫及绘画等),能精准理解文本语境中的主体与背景关系,呈现自然平衡的光影效果。其快速高效的特性非常适合快速原型制作和社交媒体内容创作。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 图像生成与处理 > text-to-image > 全能图片X [全能图片X-文生图-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315507.md): 全能图片X 的纯文本生成模式赋予了创作者从零构建宏大视觉世界的能力。只需输入自然语言描述,模型便能精准解析语意,生成具备极高清晰度、丰富细节和完美光影的图像。无论是高难度的文字排版渲染、逼真的摄影级画面,还是天马行空的奇幻场景,都能通过一行提示词瞬间化为现实。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 图像生成与处理 > text-to-image > 千问2.0Pro [千问2.0Pro-文生图](https://qpsnl2kplc.apifox.cn/api-435315508.md): 阿里巴巴通义千问团队开发的专业级文生图模型,支持根据文字描述生成高质量图像。在文字渲染、真实质感和语义遵循能力方面表现卓越,擅长复杂中英文文本渲染、多行布局和段落级文本生成,可直出专业PPT、海报和信息图。输出分辨率高达2K(2048×2048),支持1-6张批量输出,适合海报设计、商业视觉素材创作和高品质内容制作。 - 标准模型API > 图像生成与处理 > text-to-image > 千问2.0 [千问2.0-文生图](https://qpsnl2kplc.apifox.cn/api-435315509.md): 阿里巴巴通义千问团队推出的高效文生图模型加速版,在保证图像生成质量的同时大幅提升响应速度。支持复杂中英文文字渲染和多种艺术风格,输出分辨率高达2K(2048×2048),支持1-6张批量输出。兼顾效果与性能的最佳平衡,适合需要快速迭代出图的创意设计和内容生产场景。 - 标准模型API > 图像生成与处理 > text-to-image > 千问2512 [qwen-image/text-to-image-2512](https://qpsnl2kplc.apifox.cn/api-435315510.md): Qwen Image 2512 是阿里巴巴通义千问家族最新推出的图文生成大模型。它拥有卓越的自然语言理解力,能够精准解析复杂的空间布局与主体关系。其最核心的优势在于突破性的文本渲染能力,能在图像中准确、清晰地生成多语言与多字体的可读文本,是海报设计、Logo 制作等强排版需求的理想工具。此外,它支持灵活自定义图像尺寸,并在写实、插画等多种艺术风格中均能保持极高且稳定的输出质量。 - 标准模型API > 图像生成与处理 > text-to-image > qwen [qwen-image/text-to-image-2512-lora](https://qpsnl2kplc.apifox.cn/api-435315511.md): Qwen-Image-2512的LoRA定制版本,支持加载自定义适配器实现个性化风格。在保持基础模型真实感和文字能力的同时,可通过轻量级LoRA模块注入特定艺术风格、品牌视觉或角色形象。适合需要跨项目保持视觉一致性的品牌团队、IP内容开发者和风格探索者,让高质量生成与个性化需求完美结合。 - 标准模型API > 图像生成与处理 > text-to-image > z [z-image/turbo-lora](https://qpsnl2kplc.apifox.cn/api-435315512.md): 阿里巴巴通义实验室推出的Z-Image Turbo的文生图LoRA推理版本,支持加载自定义LoRA适配器实现个性化视觉生成。在保持亚秒级生成速度的基础上,通过轻量级LoRA模块(18-150MB)注入特定风格、角色或品牌美学,无需修改60亿参数基础模型。适合需要快速迭代特定视觉概念、保持角色跨场景一致性、建立品牌专属生成工作流的创作者与商业团队。 - 标准模型API > 图像生成与处理 > text-to-image > z [z-image/turbo](https://qpsnl2kplc.apifox.cn/api-435315513.md): 阿里巴巴通义实验室推出的极速文生图基础模型,以60亿参数实现亚秒级图像生成。采用创新的S3-DiT单流架构,仅需8步采样即可输出媲美大参数模型的摄影级真实感画面。专注解决双语文字渲染难题,中英文内嵌文字生成准确率远超同类模型。16GB显存即可流畅运行,为高频内容生产、实时交互应用和规模化商业部署提供极致性价比。 - 标准模型API > 图像生成与处理 > text-to-image > wan [wan-2.2/text-to-image-lora](https://qpsnl2kplc.apifox.cn/api-435315514.md): Wan-2.2生态中的文生图LoRA定制版本,支持通过自定义适配器实现个性化图像生成。在保持MoE架构高效推理的基础上,允许用户注入特定艺术风格、品牌视觉语言或专属角色形象,实现文本描述与个性化美学的精准结合。支持多LoRA模块叠加使用,为需要快速迭代视觉概念、保持跨项目风格一致性的创意团队提供灵活的定制化解决方案。 - 标准模型API > 图像生成与处理 > text-to-image > f [f-krea-dev-lora](https://qpsnl2kplc.apifox.cn/api-435315515.md): Black Forest Labs 与 Krea AI 合作开发的特别版本,基于 FLUX.1-dev架构针对美学质量进行调优。专注于消除 AI 图像常见的塑料质感、过饱和色彩和过度平滑纹理,输出具有胶片摄影感的自然光影和真实细节。支持完整 LoRA 生态,兼容 FLUX.1-dev的所有适配器,同时提供更具辨识度的美学风格,适合追求真实感和电影级视觉的商业创意项目 。 - 标准模型API > 图像生成与处理 > text-to-image > f [f-dev-lora](https://qpsnl2kplc.apifox.cn/api-435315516.md): 在 FLUX.1-dev基础上集成 LoRA 支持的版本,允许用户通过预训练适配器实现个性化生成而无需重新训练全部 120 亿参数。支持多 LoRA 权重叠加使用,可快速切换不同风格、角色或品牌视觉。 - 标准模型API > 图像生成与处理 > text-to-image > f [f-2-dev/text-to-image-lora](https://qpsnl2kplc.apifox.cn/api-435315517.md): FLUX.2 Dev的文生图LoRA定制版本,在320亿参数极致画质基础上支持深度个性化定制。通过LoRA适配器固化特定艺术风格、品牌视觉或角色形象,结合多参考图一致性保持能力,实现"高保真生成+个性化风格"的完美结合。适合需要保持品牌资产一致性、进行角色跨场景运营和高端定制化内容生产的创意团队与商业品牌。 - 标准模型API > 图像生成与处理 > text-to-image > f [f-2-dev/text-to-image](https://qpsnl2kplc.apifox.cn/api-435315518.md): Black Forest Labs 最新推出的 320 亿参数开源文本生成图像模型。flux-2-dev是基于 FLUX.2 base模型的 32B 开源权重版本,是目前最强的开源图像生成与编辑模型,可在单一checkpoint 下同时完成文本生成图像和多输入图片编辑任务。该模型能够根据文本指令生成、编辑和组合图像,并且具有性价比优势。 - 标准模型API > 图像生成与处理 > text-to-image > f [f-2-klein-9b/text-to-image-lora](https://qpsnl2kplc.apifox.cn/api-435315519.md): FLUX.2 Klein 9B的文生图LoRA定制版本,在90亿参数高质量生成基础上开放深度个性化能力。支持通过LoRA适配器注入特定艺术风格、品牌视觉语言或专属角色形象,实现创意意图与视觉美学的精准统一。亚秒级生成速度配合多参考图输入,为需要保持跨项目风格一致性的专业团队、IP内容开发者和高端商业品牌提供灵活的定制化解决方案。 - 标准模型API > 图像生成与处理 > text-to-image > f [f-2-klein-9b/text-to-image](https://qpsnl2kplc.apifox.cn/api-435315520.md): Black Forest Labs推出的90亿参数的极速文生图模型。Klein作为专业级 FLUX.2 的衍生系列,通过架构优化与蒸馏在保持接近顶级生成质量的同时,大幅降低硬件门槛和推理延迟。应用覆盖实时创意设计、社交媒体内容生成、快速 UI/UX 原型迭代、游戏美术预览、教育可视化等领域,尤其适合对低延迟和成本友好硬件有要求的交互型应用。 - 标准模型API > 图像生成与处理 > text-to-image > f [f-2-klein-4b/text-to-image](https://qpsnl2kplc.apifox.cn/api-435315521.md): FLUX.2 Klein家族的极速文生图基础模型,采用40亿参数流式Transformer架构,4步蒸馏实现亚秒级推理。Klein作为专业级 FLUX.2 的衍生系列,通过架构优化与蒸馏在保持接近顶级生成质量的同时,大幅降低硬件门槛和推理延迟。通过自然语言描述能够快速生成高质量图片,性价比极高。 - 标准模型API > 图像生成与处理 > text-to-image > f [f-2-klein-4b/text-to-image-lora](https://qpsnl2kplc.apifox.cn/api-435315522.md): Black Forest Labs推出的40 亿参数的极速文生图LoRA定制版本。Klein作为专业级 FLUX.2 的衍生系列,通过架构优化与蒸馏在保持接近顶级生成质量的同时,大幅降低硬件门槛和推理延迟。该模型支持加载自定义LoRA适配器实现个性化风格注入。开源协议允许商业使用,仅需13GB显存即可流畅运行。适合需要快速迭代特定视觉风格、保持品牌一致性的创作者和中小团队。 - 标准模型API > 图像生成与处理 > image-to-image > 悠船文生图 [悠船文生图-niji7](https://qpsnl2kplc.apifox.cn/api-435315523.md): 基于 V7 架构开发的 Niji 7 将二次元创作提升到了“剧场版”级别。它不仅支持更复杂的透视和动态构图,还引入了多画风融合功能。其最大的突破在于动态感的捕捉,仿佛每一张静态图都是从高画质动画长片中截取的帧。 - 标准模型API > 图像生成与处理 > image-to-image > seedream [seedream-v4.5-图生图](https://qpsnl2kplc.apifox.cn/api-435315524.md): 字节跳动推出的一款专业级 AI 图像编辑大模型。它突破了传统 AI 滤镜的局限,致力于提供“修图师级别”的精准编辑。该模型的核心优势在于对原图的高度忠实,能完美保留人物面部特征、姿态、光影及色调,仅根据指令进行精准微调。它支持多图联调,可一次性对最多10张图片应用相同风格,确保视觉的一致性。凭借最高 4K 的超清输出和极强的指令理解力,无论是修改服装、背景还是调整整体氛围,它都能呈现出纹理细腻、边缘锐利的专业质感。 - 标准模型API > 图像生成与处理 > image-to-image > seedream [seedream-v4-图生图](https://qpsnl2kplc.apifox.cn/api-435315525.md): 字节跳动专为高精度图像编辑打造的专业级模型。它擅长在保持主体身份、原有光影及构图完全一致的前提下,对局部元素进行精准重构。无论是人像摄影中的服装与妆造切换、电商产品的材质与配色更替,还是室内设计中的墙面与家具饰面翻新,Seedream 4.0 都能呈现出极高的还原度。模型对皮肤质感、织物细节及品牌 Logo 的处理尤为出色,能够确保多版本生成的工业级一致性。凭借结构化的提示词指令,它已成为品牌营销、电商测款及人像工作流中不可或缺的效能工具。 - 标准模型API > 图像生成与处理 > image-to-image > seedream [seedream-v5-lite-图生图](https://qpsnl2kplc.apifox.cn/api-435315526.md): 专注于极致的视觉控制与深度图像编辑。它不仅支持基础的单图重绘,更开放了强大的多图特征融合与“参考图生组图”功能。无论是提取多张图片的风格、材质与元素进行无缝重塑,还是基于单张/多张参考图横向扩展出具有完美一致性的视觉系列,该接口都能在保持原始参考特征的前提下,实现极高自由度的艺术加工与工业级设计交付。 - 标准模型API > 图像生成与处理 > image-to-image > 全能图片PRO [全能图片PRO-图生图-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315527.md): 全能图片PRO编辑版,支持专业级图像编辑并实现 4K 超清画质输出,视觉效果极致出色。提供开箱即用的 REST 推理接口,达成行业领先性能,全程无冷启动延迟,全场景定价亲民且高性价比。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 图像生成与处理 > image-to-image > 全能图片PRO [全能图片PRO-图生图-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315528.md): 全能图片PRO编辑版,支持高清输出的图像编辑功能。提供即用型 REST 推理接口,性能表现行业领先,无冷启动延迟,定价经济亲民。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 图像生成与处理 > image-to-image > 全能图片PRO [全能图片PRO-图生图Ultra-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315529.md): 进化级影像编辑与生成模型。它将复杂的后期处理简化为直观的自然语言对话,凭借深度的语义感知能力,模型能精准识别场景结构、物体关联及光影逻辑,实现无痕的局部修改或全局重塑。除了具备原生 4K/8K 工业级输出外,其核心亮点在于强大的多语言文字自动翻译与排版功能,以及摄影级的摄像机参数控制(如焦距、景深及色调)。无论是维护品牌角色的一致性,还是跨画幅的比例适配,它都能在数秒内交付生产级别的专业视觉稿。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 图像生成与处理 > image-to-image > 全能图片V2 [全能图片V2-图生图-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315530.md): 基于高能效视觉引擎的图生图与图像编辑接口。允许开发者通过输入“参考图像+文本指令”的组合,实现极速的风格迁移、局部重绘或背景替换。全能图片V2强大的特征提取能力确保了在大幅度修改画面的同时,依然能精准保留原图的核心结构与参考物特征,是打造动态交互式设计工具的理想选择。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 图像生成与处理 > image-to-image > 全能图片V2 [全能图片V2-图生图-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315531.md): 该模型具备卓越的上下文感知能力,支持高达 4K 的精细化输出。它不仅能精准执行自然语言修改指令,更突破性地支持多达 14 张参考图的复杂合成。无论是精准的局部重绘、图像内文字转译,还是在编辑过程中保持主体高度一致,它都能以“闪电级”的速度提供专业级影像解决方案。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 图像生成与处理 > image-to-image > 全能图片G [全能图片G-1.5-图生图-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315532.md): 依托欧喷爱·鸡皮提图像技术的高性价比图像编辑模型,支持通过自然语言指令优化、修改现有图像,精准匹配编辑意图,同时保留原图风格、构图与视觉完整性,适用于快速原型、设计迭代等场景。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 图像生成与处理 > image-to-image > 全能图片V1 [全能图片V1-图生图-官方稳定版](https://qpsnl2kplc.apifox.cn/api-435315533.md): 一款前沿的 AI 图像编辑与生成模型,将复杂的视觉修改转化为直观的自然语言指令。依托顶尖的计算机视觉技术,它具备极强的场景语义感知力,能在精准执行“物体替换”、“色彩微调”或“构图重构”的同时,完美锁定原图的光影、材质与整体氛围。无论是专业摄影修图、概念美术设定还是日常创意生产,它都能提供“无痕级”的专业编辑体验。官方稳定版,稳定高效,价格低于直接模型官方。 - 标准模型API > 图像生成与处理 > image-to-image > 全能图片V1 [全能图片V1-图生图-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315534.md): 全能图片V1是一款高阶图像生成与编辑模型,可生成照片级写实或风格化视觉内容,同时支持精准的图像修复、外延生成与背景替换功能。提供即用型 REST 推理接口,性能表现行业领先,无冷启动延迟,定价经济亲民。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 图像生成与处理 > image-to-image > 全能图片X [全能图片X-图生图-低价渠道版](https://qpsnl2kplc.apifox.cn/api-435315535.md): 在参考图与提示词结合的垫图模式下,全能图片X成为了高度可控的视觉设计辅助引擎。它允许用户上传基础线稿、构图草图或现有图片作为视觉锚点,在严格保留原图核心特征与空间结构的前提下,通过文字指令实现精准的风格迁移、局部重绘和画面质感升级,大幅提升创作效率。低价渠道版,价格远低于官方稳定版,不稳定。 - 标准模型API > 图像生成与处理 > image-to-image > 千问2.0Pro [千问2.0Pro-图像编辑](https://qpsnl2kplc.apifox.cn/api-435315536.md): 阿里巴巴通义千问团队开发的专业级图像编辑模型,在2.0编辑系列中提供最高处理品质。该版本在理解复杂编辑指令和输出质量上较标准版进一步提升,支持高至2K分辨率的精细调整,适合需要精确控制修改效果的专业图像处理与商业视觉生产工作流。 - 标准模型API > 图像生成与处理 > image-to-image > 千问2.0 [千问2.0-图像编辑](https://qpsnl2kplc.apifox.cn/api-435315537.md): 阿里巴巴通义千问团队推出的智能图像编辑模型,用户上传图片后可通过文字指令对图像进行修改。该模型在理解编辑意图和保持图像质量方面有所增强,支持最高2K分辨率处理,适用于基于现有图像进行风格调整、元素增删或细节优化等创作场景。 - 标准模型API > 图像生成与处理 > image-to-image > qwen [qwen-image/edit-2511-lora](https://qpsnl2kplc.apifox.cn/api-435315538.md): Qwen-Image-Edit-2511的LoRA推理版本,支持加载自定义LoRA适配器进行个性化编辑。在继承基础模型200亿参数架构与人物一致性的基础上,可通过自定义LoRA注入特定风格、角色或视觉概念。支持最多三模块叠加,实现风格组合与精细控制,同时保持双语文字渲染能力。 - 标准模型API > 图像生成与处理 > image-to-image > qwen [qwen-image/edit-2511](https://qpsnl2kplc.apifox.cn/api-435315539.md): 阿里巴巴通义千问团队发布的200亿参数图像编辑模型,基于MMDiT架构。相比2509版本,2511在人物一致性、多主体场景稳定性和编辑可控性方面实现显著提升。支持语义编辑与外观编辑双模式,内置社区热门LoRA能力,可执行换背景、风格转换、服饰修改等操作,同时保持面部结构与身份特征不变。 - 标准模型API > 图像生成与处理 > image-to-image > z [z-image-turbo/image-to-image-lora](https://qpsnl2kplc.apifox.cn/api-435315540.md): 阿里巴巴通义实验室推出的面向风格定制化需求的图生图LoRA版本,在图像变换基础上支持最多三个自定义LoRA适配器同时加载。通过调节变换强度(0.0-1.0)实现从细微增强到彻底重绘的连续控制,叠加LoRA模块注入特定艺术风格、品牌视觉或角色形象。适合需要保持输入图结构同时进行风格迁移、品牌内容系列化生产、角色一致性变体生成的创意工作流。 - 标准模型API > 图像生成与处理 > image-to-image > z [z-image-turbo/image-to-image](https://qpsnl2kplc.apifox.cn/api-435315541.md): 阿里巴巴通义实验室推出的Z-Image Turbo的图生图基础版本,通过单一强度参数实现从画质增强到创意重绘的全频谱控制。低强度(0.0-0.3)模式下作为智能增强器,锐化细节、提升质感而不改变内容;高强度(0.8-1.0)则将输入图作为灵感参考进行艺术再创作。8步采样实现亚秒级响应,支持自定义输出尺寸与双语文字渲染,为摄影师修图、设计师概念迭代和快速原型制作提供极简而强大的工具。 - 标准模型API > 图像生成与处理 > image-to-image > wan [wan-2.2/image-to-image](https://qpsnl2kplc.apifox.cn/api-435315542.md): Wan-2.2系列中的图像到图像转换模型,基于140亿参数MoE架构实现高质量图像重绘与风格迁移。支持通过文本提示词精确控制生成结果,在保持输入图像结构信息的同时,实现画质增强、风格转换、元素替换等多种创意效果。采用双专家协同机制,确保输出图像在细节丰富度与语义一致性之间达到最佳平衡,为设计师提供高效的视觉迭代工具。 - 标准模型API > 图像生成与处理 > image-to-image > f [f-kontext-dev-lora](https://qpsnl2kplc.apifox.cn/api-435315543.md): 专为开发者、研究人员和高级用户打造的开源图像编辑模型,支持 LoRA 适配器。Kontext 能够同时处理文本和图像输入,可通过自然语言指令对现有图像进行精确编辑,无需微调即可保持角色和物体在多轮修改中的一致性。支持风格迁移、背景替换、局部重绘等操作。 - 标准模型API > 图像生成与处理 > image-to-image > f [f-2-dev/edit-lora](https://qpsnl2kplc.apifox.cn/api-435315544.md): FLUX.2 Dev编辑版本的LoRA定制模型,结合320亿参数高精度编辑能力与轻量级适配器灵活性。支持通过LoRA模块注入特定风格或品牌视觉,在保持多参考图一致性和4MP高分辨率的同时实现个性化编辑。适合需要批量处理产品图风格化、维护角色跨项目一致性、进行季节性营销活动素材更新的专业团队,提供"高精度+高效率+个性化"三位一体的编辑解决方案。 - 标准模型API > 图像生成与处理 > image-to-image > f [f-2-dev/edit](https://qpsnl2kplc.apifox.cn/api-435315545.md): FLUX.2 Dev的图像编辑专用版本,基于320亿参数架构实现高精度的提示词驱动编辑。支持单参考图和多参考图编辑工作流,可在保持角色核心身份、产品几何结构和材质纹理的同时,精准执行服装更换、色彩调整、姿态微调和元素替换。4MP分辨率输出配合专业级控制能力,为游戏、电商产品变体和营销素材迭代提供生产级解决方案。 - 标准模型API > 图像生成与处理 > image-to-image > f [f-2-klein-9b/edit](https://qpsnl2kplc.apifox.cn/api-435315546.md): FLUX.2 Klein家族的90亿参数图像编辑旗舰模型。相比4B版本在细节丰富度和编辑精度上显著提升,支持更复杂的多参考图融合与高级语义编辑。4步蒸馏仍保持亚秒级推理,适合对画质要求极高的专业设计工作流、电影级概念艺术和高端商业广告制作。 - 标准模型API > 图像生成与处理 > image-to-image > f [f-2-klein-4b/edit](https://qpsnl2kplc.apifox.cn/api-435315547.md): FLUX.2 Klein 4B的图像编辑基础版本,统一架构支持文生图与图生图编辑任务。通过文本提示词精确控制编辑方向,在保持原图主体特征、光影和构图的同时实现风格迁移、元素替换和细节增强。4步蒸馏实现亚秒级响应,为设计师提供高效的视觉迭代工具。 - 标准模型API > 图像生成与处理 > image-to-image > f [f-2-klein-4b/edit-lora](https://qpsnl2kplc.apifox.cn/api-435315548.md): 基于FLUX.2 Klein 4B的图像编辑LoRA版本,专为需要保持原图结构同时进行风格改造的用户设计。支持单参考图与多参考图编辑工作流,通过LoRA适配器注入特定艺术风格或品牌视觉,在亚秒级速度内完成精准编辑。适合电商产品图批量风格化、品牌素材快速迭代和创意概念探索,实现"原图结构+定制风格"的灵活组合。 - 标准模型API > 其他 [模型 API 价格预览](https://qpsnl2kplc.apifox.cn/api-435315549.md): #### 本接口 URL 路径、入参和对应的模型 API 接口保持一致 - 任务查询 & webhook [查询任务状态](https://qpsnl2kplc.apifox.cn/api-435315550.md): - 任务查询 & webhook [查询任务生成结果](https://qpsnl2kplc.apifox.cn/api-435315551.md): - 任务查询 & webhook [获取webhook事件详情](https://qpsnl2kplc.apifox.cn/api-435315552.md): 此接口旨在帮助调试用户的webhook,通过taskId查询到当前webhook事件的详细状态,拿到事件的id后可以发起重试 - 任务查询 & webhook [重新发送指定webhook事件](https://qpsnl2kplc.apifox.cn/api-435315553.md): webhookId 为 获取webhook事件详情中返回的id - 任务查询 & webhook [查询任务生成结果 V2](https://qpsnl2kplc.apifox.cn/api-435315554.md): - 资源上传 [文件上传](https://qpsnl2kplc.apifox.cn/api-435315555.md): # 资源文件上传说明 - 资源上传 [上传资源(弃用)](https://qpsnl2kplc.apifox.cn/api-435315556.md): # RunningHub 资源上传说明(图片、音视、视频、压缩包) - 资源上传 [上传Lora-获取Lora上传地址](https://qpsnl2kplc.apifox.cn/api-435315557.md): # RHLoraLoader 专用 LoRA 上传接口说明 - AI 应用 [发起AI应用任务](https://qpsnl2kplc.apifox.cn/api-435315558.md): 在AI应用详情页中可查看示例nodeInfoList - AI 应用 [获取AI应用API调用示例](https://qpsnl2kplc.apifox.cn/api-435315559.md): 提供AI应用接口请求调用示例demo,可以参考示例快速发起接口调用 - ComfyUI 工作流 [发起ComfyUI任务1-简易](https://qpsnl2kplc.apifox.cn/api-435315560.md): 该方式运行 workflow,相当于在不改变原有workflow的任何参数的情况下,直接点了一下"运行"按钮。 - ComfyUI 工作流 [发起ComfyUI任务2-高级](https://qpsnl2kplc.apifox.cn/api-435315561.md): # 发起 ComfyUI 任务(高级) - ComfyUI 工作流 [获取工作流Json](https://qpsnl2kplc.apifox.cn/api-435315562.md): - ComfyUI 工作流 [取消ComfyUI任务](https://qpsnl2kplc.apifox.cn/api-435315563.md): - 账户相关 [获取账户信息](https://qpsnl2kplc.apifox.cn/api-435315564.md): - 账户相关 [查询 APIKEY 列表](https://qpsnl2kplc.apifox.cn/api-435315565.md): - 账户相关 [查询指定 APIKEY 下队列状态](https://qpsnl2kplc.apifox.cn/api-435315566.md): ## Schemas - [RTaskCreateResponse](https://qpsnl2kplc.apifox.cn/schema-258806206.md): - [获取工作流Json Request](https://qpsnl2kplc.apifox.cn/schema-258806207.md): - [获取工作流Json Response](https://qpsnl2kplc.apifox.cn/schema-258806208.md): - [TaskRunWebappByKeyRequest](https://qpsnl2kplc.apifox.cn/schema-258806209.md): - [发起ComfyUI任务 Request 1](https://qpsnl2kplc.apifox.cn/schema-258806210.md): - [NodeInfo](https://qpsnl2kplc.apifox.cn/schema-258806211.md): - [发起ComfyUI任务 Request 2](https://qpsnl2kplc.apifox.cn/schema-258806212.md): - [发起ComfyUI任务 Request-webhook](https://qpsnl2kplc.apifox.cn/schema-258806213.md): - [发起ComfyUI任务 Response](https://qpsnl2kplc.apifox.cn/schema-258806214.md): - [TaskCreateResponse](https://qpsnl2kplc.apifox.cn/schema-258806215.md): - [查询任务状态 Request](https://qpsnl2kplc.apifox.cn/schema-258806216.md): - [节点输入信息](https://qpsnl2kplc.apifox.cn/schema-258806217.md): - [获取账户信息 Request](https://qpsnl2kplc.apifox.cn/schema-258806218.md): - [上传资源Request](https://qpsnl2kplc.apifox.cn/schema-258806219.md): - [获取webhook事件详情Request](https://qpsnl2kplc.apifox.cn/schema-258806220.md): - [重新发送指定webhook Request](https://qpsnl2kplc.apifox.cn/schema-258806221.md): - [R?](https://qpsnl2kplc.apifox.cn/schema-258806222.md): - [RWorkflowDuplicateResponse](https://qpsnl2kplc.apifox.cn/schema-258806223.md): - [RAccountStatusResponse](https://qpsnl2kplc.apifox.cn/schema-258806224.md): - [WorkflowDuplicateResponse](https://qpsnl2kplc.apifox.cn/schema-258806225.md): - [AccountStatusResponse](https://qpsnl2kplc.apifox.cn/schema-258806226.md): - [WorkflowDuplicateRequest](https://qpsnl2kplc.apifox.cn/schema-258806227.md): - [ApiUploadLoraRequest](https://qpsnl2kplc.apifox.cn/schema-258806228.md): - [RString](https://qpsnl2kplc.apifox.cn/schema-258806229.md): - [RTaskUploadResponse](https://qpsnl2kplc.apifox.cn/schema-258806230.md): - [TaskUploadResponse](https://qpsnl2kplc.apifox.cn/schema-258806231.md): - [生成任务提交结果](https://qpsnl2kplc.apifox.cn/schema-258806232.md):