【EnglishPod】英语口语听力阅读学习视频(365期全对话文本持续更新)【上】
EnglishPod官方只放出了100多集的对话文本,而整套视频有365集,导致B站上大部分UP主制作的视频都缺失了很多集,并且由于手工制作视频成本过高,最终基本上都烂尾了……
所以我以Java为主要语言写了一套视频生成的代码,将365集视频全部自动化制作出来。
项目的主体是一个网络应用 框架是SpringBoot,Swagger作为前端 使用了JDK17+ZGC的组合 使用Apache POI框架实现了PDF到txt文本的转换 音视频处理方面主体框架为JavaCV 底层调用OpenCV和FFmpeg完成音频的转码和视频的制作 另外文本生成方面 字幕srt文件的制作使用到了Python的aeneas
对于缺失的200余集视频对话文本,我使用了OpenAI新发布的语言识别翻译工具Whisper,选择了效率更高的英语专用模型 在我的3060mobile显卡中 生成一期10分钟左右的视频的文本需要2~3分钟 (单精度会比半精度快一些)
早期的视频均为CPU编码,码率很低,生成速度很慢,由于是4K分辨率一级的视频大概要生成十多分钟,我的笔记本CPU是5800H,有时候跑一晚上都完成不了100集的制作。后期切换到了英伟达NVENC硬件编码,一级视频制作时间缩短至3分钟,效率大幅提升,我也对应提高了码率,使得理论上后期的视频画质更好。