博主头像
小雨淅沥

Some things were meant to be.

总结汇报 2025/01/27

进度报告 2025/01/27

最近两周实习相对忙碌,工作量并不多,将两周的报告与总结报告合并一下

1 基础知识

学习有关 CNN 的基础神经网络知识,具体笔记参考:CNN 笔记

2 服务器更新

实验室的服务器更新了存储系统,需要把内容移动一下,将旧的代码移动到了 gpfs 存储上

而后又遇到了问题:无法拉取到服务器的 docker 镜像,询问管理员后了解到可能是防火墙被更改了,于是只能搁置做实验的方向,转为搜索文献,并先确定好下一个实验工作

3 其他

最近找文献,发现想要追踪一个领域内最新的文章比较麻烦,打算部署一个文献追踪工具,持续观察并自动推送最新领域内文章

检索 GitHub 实际上已经有了一些相关的工作,例如

  1. Arxiv-tracker
  2. zotero-arxiv-daily
  3. daily-arXiv-ai-enhanced

考虑到时间成本,目前打算直接部署 2 & 3
考虑到 arxiv 可能不能完全覆盖,如果后续有追踪 IEEE 或其他 CCF 会议的需求可 fork 一份修改一点

4 文献阅读

阅读并确认了一下打算先跑通这个相对较新的文章,使用 VAE 技术

4.1 DCVC-RT1

来自 CVPR 2025

上一回阅读了关于 ELIC2 的端到端文献,其中提到了 DVC 已经有超越 VCC 这种编码器的实力了,在本文的背景介绍中已经是完全超过了传统编码器

作者提出了目前瓶颈已经不再是压缩的能力问题,而是部署复杂度问题,而且不是传统意义上的计算量(MACs),而是被长期忽视的操作复杂度,包括 latent 的内存 I/O 开销和大量模块带来的函数调用成本。

基于这一关键洞察,DCVC-RT 采用两项核心设计:

  1. 使用 1/8 单尺度低分辨率 latent 取代传统多尺度下采样,大幅降低内存访问成本
  2. 放弃显式运动估计与补偿,改用 隐式时序建模,以更少模块完成时间冗余建模,从而显著加速编码

本文提出 module-bank 码率控制 以提升 hyperprior 分布匹配精度,并通过 16-bit 模型整数化 实现跨设备编码一致性。

作者实验结果发现,DCVC-RT 在 1080p 视频上可达 125 fps 编码速度,同时较 H.266/VTM 节省约 21% 码率,是首个兼顾高压缩率与实时性的实用型神经视频编码器。

5 计划

  1. 待实验室恢复后,尝试跑通 DCVC-RT 的流程,GitHub 仓库
  2. 打算 fork 一个文献追踪器的仓库,写一个推送文章的工具

  1. Towards Practical Real-Time Neural Video Compression
  2. ELIC: Efficient Learned Image Compression With Unevenly Grouped Space-Channel Contextual Adaptive Coding
总结汇报 2025/01/27
https://rainerseventeen.cn/index.php/Summary-Report/60.html
本文作者 Rainer
发布时间 2026-01-25
许可协议 CC BY-NC-SA 4.0
发表新评论