关注我们 - 数字罗塞塔计划 -
- 精彩视频请在公众号中观看 -
本片采用AIGC(Artificial Intelligence Generated Content,人工智能生成内容)技术制作,内容来自于已列入第三批《中国档案文献遗产名录》的“浙江省抗日军民救护遇险盟军档案”,这份珍贵的档案包含两部分内容,一部分是去年被方励导演制作成纪实电影《里斯本丸沉没》的“舟山渔民营救英军战俘档案”(相关介绍参见本号文章“《里斯本丸沉没》:档案重现历史悲歌”),另一部分就是本片故事的来源——“浙江军民救助‘杜立特行动’美国飞行员档案”。
借助AIGC技术,我们高效完成了包含100余个镜头的影视级制作,涵盖文生图、图生视频及AI语音、配音等核心环节,其中AI技术的使用率高达80%,大幅提升了制作效率,为档案文献遗产的内容挖掘和传播提供了全新的展现形式和更多的可能性。
一、AIGC平台工具
本次制作主要依赖线上AIGC平台相关工具,包括豆包、即梦、海螺等,覆盖从画面到声音的全链条需求,实现低成本高效创作。
豆包(文生图)
提供图像编辑功能,包括图像区域修改(如更换服装颜色、白天变成黑夜、调整人物姿势等)、抠图、扩图、高清放大、风格转换等。
即梦(图生视频)
生成速度快,能够根据视频中内容自动生成音效(如雨声、枪声、爆炸声等)。
海螺(配音)
通过提示词设计音色,支持多国语言和情绪调整。
可灵/混元/绘想
补充对口型、视频生成等功能。
二、制作流程拆解
1、故事脚本
由于郑伟勇的《降落中国》一书已经对“杜立特行动”进行了深入研究和实地考证,并与“浙江军民救助‘杜立特行动’美国飞行员档案”中的记载完全相符,本次制作就以书中记载的“杜立特行动”15号机组迫降与营救的真实历史事件作为故事脚本,通过提炼原著关键信息节点,构建起完整的叙事框架。
视频架构:
1.事件背景 - 交代杜立特行动的战略意义;
2.突袭东京 - 展现轰炸任务的惊险过程;
3.中国迫降 - 描述机组在浙江的紧急降落;
4.军民营救 - 记录中国百姓的英勇救助;
5.历史影响 - 总结事件的历史价值。
2、分镜设计
分镜决定视频的叙事逻辑,合理规划镜头语言和台词,需要将所有的文字剧本转化为可执行的镜头语言,确保叙事逻辑的连贯性。
如在"村民救助飞行员"场景中,特写镜头聚焦包扎细节传递温情,以正反打的中景镜头捕捉村民商议时的表情变化。让每个镜头都成为推动故事、传递情感的有效载体。
3、文生图
文生图通过AI技术将自然语言描述自动生成对应的视觉图像。我们使用豆包的文生图工具,通过撰写AI绘画提示词(Prompt)生成图像。
如通过提示词来生成视频中的角色史密斯:
AI绘画提示词:
史密斯是中年白人男性,短白发、身材适中,手腕戴手表,无帽,身穿1942 年美军飞行员深褐色皮夹克,内搭浅卡其色衬衫,下身同色系长裤配深棕色皮带,鞋子是二战美军飞行员皮靴,深棕色光面牛皮,高帮系带,黄铜鞋孔,厚橡胶底,侧面金属扣带,粗缝线,轻微做旧磨损,军事复古风格,40年代航空装备。
生成的图像质量高度依赖于输入的文本描述,模糊或不准确的描述可能导致图像质量下降。
同理,通过AI绘画提示词描述各个人物、动作、表情、场景等关键信息来生成所有分镜画面。
在提示词撰写过程中,如果仅依赖纯人工输入自然语言描述,不仅效率很低,还可能遗漏关键细节。对此可以借助AI技术优化这一流程,主要有以下两种方式:
(1)图片反推提示词
AI通过分析图片内容,自动识别其中的视觉特征(如主体、风格、色彩、构图等),并生成对应的文本提示词,大幅提升创作效率。
(2)AI辅助生成提示词
提供关键信息点(如主题、风格、细节要求等),AI即可基于这些信息自动补全、优化提示词,使描述更精准、完整,减少人工撰写的工作量。
这两种方法还可以结合使用,不仅能提高提示词的质量,还能让创作过程更加高效智能。
4、图生视频
使用即梦的图生视频工具将静态图像转化为动态视频内容。AI本身就可以分析出图像中的元素和场景,并预测合理的动态变化。再通过AI动态视频提示词来强化精确控制画面中的动画跟运镜,包含场景的动态,人物的动作、表情,相机的运动轨迹等来实现让静态画面动起来的效果。
如分镜中人物从地窖爬出的场景:
AI动态视频提示词:
昏暗房间场景,镜头、从下往上摇起。左侧皮夹克组动作连贯:前方者跨步欲扶,中间者俯身拉人,后方者攀爬出洞;右侧蓝衣组身体前倾向前一步搀扶,面部流露紧张。
首尾帧动画:
首尾帧动画是指通过定义动画的起始帧(首帧)和结束帧(尾帧),由AI自动生成中间过渡帧(补间动画)的技术。
在即梦中可以通过上传图片指定视频中的开始和结束画面来更精准的控制动画,如分别使用:
图1、图2作为首尾帧,再加上提示词的描述来更精确地控制动画。
AI动态提示词:两个人雨中奔跑来到房子的门前。
图2、图3分别作为首尾帧。
AI动态提示词:两人走进门内,进屋坐了下来。
然后再将两段视频进行拼接。
另外即梦中的AI音效也是非常方便、高效的一个功能,可以自动识别出视频中需要产生的音效,自动添加环境音效如脚步声、雨声、爆炸声等等。
而AI动态视频提示词也可以借助AI辅助来生成。通过分析输入的主题、风格和镜头语言等关键信息,自动优化并扩展成专业级的视频创作指令,大幅提升视频内容的生产效率和质量。
5、配音与音效
海螺AI可以进行高质量的语音合成(TTS),并能通过提示词来设计独有音色,在自然度、情感表达和多国语言方面都非常优秀,可以应用在视频中的角色配音、旁白。
如输入提示词:“讲述悬疑故事的播音员,声音低沉富有磁性,语速快时,营造紧张神秘的氛围。”然后进行“抽卡”生成自定义的角色语音。
6、后期处理
在完成所有制作视频所需的素材后,就进入后期制作阶段:首先对各片段进行精确的时长调整和转场处理,确保画面衔接流畅自然;接着进行统一调色与音频同步,使整体风格协调一致,最后经过渲染输出成品。
三、常见问题分析
在AIGC微视频制作过程中,经常会遇到两个关键的技术挑战:多人物一致性问题和场景一致性问题。
1、多人物一致性问题
当画面中同时出现多个主要角色时(超过3人),人物特征(如服装、发型、面容等)容易相互干扰,导致角色设定错乱。例如这个场景中,人物角色贝尔的造型发生了明显混淆,不符合原始设计。
笔者提供几种解决方法供参考:
(1)局部修正+合成
将画面中错误的部分单独裁剪,利用豆包的图像区域修改功能重新生成正确的人物形象,再通过Photoshop进行后期合成。
(2)背景分离+重绘
使用豆包的智能抠图功能,先移除问题人物并保留背景,随后单独生成角色图像,最后在PS中合成。如果人物与背景的光影不匹配,可在图生视频阶段通过光线控制提示词进行调整。
(3)AI换脸修正
直接使用Photoshop或其他AI换脸工具对错误的面部特征进行替换,确保角色形象的一致性。
2、场景的一致性问题
当同一个场景需要呈现不同视角时,AI往往难以保持背景元素的连贯性,导致画面切换时出现明显的断裂感。如下图中的窗户、橱柜、桌子等都发生了明显的变化。
针对这一问题,一种简便可行的解决方法是利用图生视频的特性,通过设定动态提示词让镜头在场景中旋转一圈(如AI动态视频提示词:人物不动;镜头以主角为中心,急速环绕旋转360度至身后,使其背后正对镜头),让AI自动生成多角度的场景画面,从而提取理想视角。
当然,从微视频创作者的角度来看,这些问题的根本性解决仍需期待AIGC技术的进一步突破。
四、结 语
AIGC技术正在重塑内容创作的方式,让曾经需要专业团队和巨额预算的影视效果变得不再那么遥不可及。但与AI沟通的过程依然令人困扰,主要原因在于AI往往难以准确理解创作者发出的指令,这种理解上的偏差会导致反复的修正和拉锯,非常消耗时间精力。
而从视频的创作层面来说,除了依赖技术工具,更重要的是“把故事讲好”,对内容进行深入挖掘和细致考证,不仅要真实、清晰、完整还原历史事件,更需凸显出故事的核心主题,在剧情编排、人物塑造和情感表达上投入更多精力,这样才能让作品更具感染力。
虽然AIGC目前在使用上还存在一些问题,但随着技术不断的更新迭代相信这些问题都会逐步得到解决。今后人机协同创作将成为常态,AI负责高效实现技术基底,创作者专注设计、表达,二者优势互补,这不是替代,而是微视频创作模式在AI时代的升级。
<<< END >>>
◀特别提醒▶
大家学习本期文章过程中如有任何问题,欢迎8月15日 14:00 来直播间寻求答案,本期视频制作及文章作者罗塞塔首席设计师陆欢老师将细致讲解“大片”的制作过程和技术要点。
数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明,我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见,共同为人类文明的传承而努力奋斗!
关注我们 - 数字罗塞塔计划 -