博主头像
小雨淅沥

Some things were meant to be.

总结汇报:2025/12/02

总结汇报 2025/12/02

为了统一与其他组员统一进度,这次撰写延后一周,因此本周撰写 3 周汇报

1 第一周

详细周报链接

1.1 REDS 训练

由于最开始没有拿到 NVDEC x2 的数据集,所以暂时用 REDS 数据集进行训练,实行了以下步骤

  1. 从 hugging face 镜像站下载 REDS 数据集
  2. 下载 spynet 预训练模型
  3. 撰写配置文件,并在 REDS 数据集上跑通 BasicVSR 模型

虽然这一次没有拿到真正的训练结果,但是作用是熟悉 BasicVSR 训练流程,为后续在私有数据集上训练做好准备

1.2 NVDEC 训练

后来 NVDEC 的 2 倍下采样数据集已经取得,所以将 BasicVSR 在私有的 NVDEC 数据集上训练,并观察训练结果

通过监测 GPU 占用发现 BasicVSR 的训练对与 CPU 和 IO 的要求较高,显存以及 GPU 功耗并不稳定,这也是后续实验进展缓慢的一部分原因

最后阶段性检查 loss 如图所示,下降程度并不显著,因此经过商量后可能需要对网络中的光流模块进行简化

不稳定的 loss
不稳定的 loss

2 第二周

详细周报链接

2.1 训练分析

本次商讨对于上一次的训练失败进行分析,并尝试进行优化,尝试了以下工作

  1. 检查初始图像的 PSNR 指标,并检查经过训练后的 PSNR 考察训练结果
  2. 检查项目源代码,发现光流模块较多,随后检查 Ground Truth 和 Low Resolution 的光流是否发生了显著变动,导致光流模块不能够对模型做出贡献
  3. 检查光流后发现数据集中的 GT 失真严重,更换了 GT 数据集为 vimeo_long 的数据,暂时认为主要错误出现在这里

2.2 新一轮训练

在更换了 GT 数据集后进行了新一轮的训练,主要修改了以下配置,对于网络模型没有进一步更改

# gt 使用 原图修改数据集
dataroot_gt: /mount/share/datasets/vimeo_long/sequences
dataroot_lq: /mount/share/datasets/PrePost/NVDEC_HEVC_OUT/200K_2xlanczos/vimeo_long
meta_info_file: /mount/yangsh/Code/my-basic-sr/my_tools/meta_info_vimeo_long_clean.txt

# 其他可能的关键数值
num_worker_per_gpu: 6
batch_size_per_gpu: 8
lr: !!float 4e-4 # batch size 4 -> 2e-4

2.3 理论学习

在查看了项目的源代码后,认为有必要深入系统地概览一下 PyTroch 深度学习框架的应用,因此跟着网络视频教学快速补充了一下背景知识

项目过程中撰写代码仓库也已经公开放置在 GitHub 上,详情参考链接: GitHub 仓库

具体的笔记内容较长,放置在另外一篇文章中,详情参考链接:PyTorch 笔记

3 第三周

详细周报链接

3.1 实验结果

这周经历了服务器机房断电问题,导致训练中断,耽搁了 2 天的时间

另外后来发现个人硬盘已满导致的训练中断(因为我最初把 REDS 数据集放在个人存储服务器下,后面已经移植到了共有的 share 文件夹下)

检查目前效果更好的一版迭代数据,通过部署推理,并输出结果

计算 SR 后相对于原图的指标,以及 NVDEC 解码后相对于原图的指标,并逐帧统计综合指标

性能指标
性能指标

下图展示了列表展示了每一帧的效果,图中显著的谷点是 Subdir 切换的位置(每个视频有 64 帧)

PSNR 逐帧可视化
PSNR 逐帧可视化

SSIM 指标
SSIM 指标

3.2 理论学习

理论学习继续推进,学习深度学习经典项目,详情可以参见链接

D2l:03 线性网络

总结汇报:2025/12/02
https://rainerseventeen.cn/index.php/Summary-Report/43.html
本文作者 Rainer
发布时间 2025-12-02
许可协议 CC BY-NC-SA 4.0
发表新评论