总结汇报 2025/01/27
进度报告 2025/01/27
最近两周实习相对忙碌,工作量并不多,将两周的报告与总结报告合并一下
1 基础知识
学习有关 CNN 的基础神经网络知识,具体笔记参考:CNN 笔记
2 服务器更新
实验室的服务器更新了存储系统,需要把内容移动一下,将旧的代码移动到了 gpfs 存储上
而后又遇到了问题:无法拉取到服务器的 docker 镜像,询问管理员后了解到可能是防火墙被更改了,于是只能搁置做实验的方向,转为搜索文献,并先确定好下一个实验工作
3 其他
最近找文献,发现想要追踪一个领域内最新的文章比较麻烦,打算部署一个文献追踪工具,持续观察并自动推送最新领域内文章
检索 GitHub 实际上已经有了一些相关的工作,例如
考虑到时间成本,目前打算直接部署 2 & 3
考虑到 arxiv 可能不能完全覆盖,如果后续有追踪 IEEE 或其他 CCF 会议的需求可 fork 一份修改一点
4 文献阅读
阅读并确认了一下打算先跑通这个相对较新的文章,使用 VAE 技术
4.1 DCVC-RT1
来自 CVPR 2025
上一回阅读了关于 ELIC2 的端到端文献,其中提到了 DVC 已经有超越 VCC 这种编码器的实力了,在本文的背景介绍中已经是完全超过了传统编码器
作者提出了目前瓶颈已经不再是压缩的能力问题,而是部署复杂度问题,而且不是传统意义上的计算量(MACs),而是被长期忽视的操作复杂度,包括 latent 的内存 I/O 开销和大量模块带来的函数调用成本。
基于这一关键洞察,DCVC-RT 采用两项核心设计:
- 使用 1/8 单尺度低分辨率 latent 取代传统多尺度下采样,大幅降低内存访问成本
- 放弃显式运动估计与补偿,改用 隐式时序建模,以更少模块完成时间冗余建模,从而显著加速编码
本文提出 module-bank 码率控制 以提升 hyperprior 分布匹配精度,并通过 16-bit 模型整数化 实现跨设备编码一致性。
作者实验结果发现,DCVC-RT 在 1080p 视频上可达 125 fps 编码速度,同时较 H.266/VTM 节省约 21% 码率,是首个兼顾高压缩率与实时性的实用型神经视频编码器。
5 计划
- 待实验室恢复后,尝试跑通 DCVC-RT 的流程,GitHub 仓库
- 打算 fork 一个文献追踪器的仓库,写一个推送文章的工具