X-Cache · 跨段块级缓存

城市

密集车流、行人、临街商铺。

城市片段——画面里的静态细节是测试集里最多的（车道线、临街招牌、远处楼房）。这种场景下门控几乎一直放行，跳过率稳定在 71.4%，残差只在车道线和远景树叶上看得到。

7 段
每段 264 帧
PSNR 51.4 dB
跳过 71.4%
加速 2.7×

frame 0 / 264

跳过 71.4%

加速 2.7×

Baseline · 无缓存 X-Cache · 2.7× 加速

0:00 / 0:22

拖动分隔条 · 拖动时间轴 · ←/→ 单帧步进 · 空格播放/暂停。右上的横条是实时 DiT 块状态：金色 = 不跳、蓝色 = 这次重算、绿色 = 复用上一段、靛蓝 = KV 更新阶段强保护。

高速公路

城市高架与城际高速。

高速片段——景深远、前向运动很快、画面里没什么近物。门控跳过了 71.6%，PSNR 反而比城市还高，到了 54.7 dB——因为大部分像素是天空和路面，本身就比较平整，那点缓存带来的扰动一吸就没了。

3 段
PSNR 54.7 dB
跳过 71.6%
加速 2.7×

frame 0 / 264

跳过 71.6%

加速 2.7×

Baseline · 无缓存 X-Cache · 2.7× 加速

0:00 / 0:22

拖动分隔条 · 拖动时间轴 · ←/→ 单帧步进 · 空格播放/暂停。右上的横条是实时 DiT 块状态：金色 = 不跳、蓝色 = 这次重算、绿色 = 复用上一段、靛蓝 = KV 更新阶段强保护。

掉头

整组数据里跨段位移最大的场景。

掉头片段——自车在做大角度转向，相邻两段画面之间的差别是整组数据里最大的。即便如此，跨段指纹依然管用：跳过率 71.3%，逐帧 PSNR 跨过段边界时也没有任何抖动。

3 段
PSNR 52.0 dB
跳过 71.3%
加速 2.7×

frame 0 / 264

跳过 71.3%

加速 2.7×

Baseline · 无缓存 X-Cache · 2.7× 加速

0:00 / 0:22

拖动分隔条 · 拖动时间轴 · ←/→ 单帧步进 · 空格播放/暂停。右上的横条是实时 DiT 块状态：金色 = 不跳、蓝色 = 这次重算、绿色 = 复用上一段、靛蓝 = KV 更新阶段强保护。

Scenario / camera	PSNR ↑ (dB)	SSIM ↑	LPIPS ↓	Skip	DiT	Speed
Urban street · n=7
F-C	53.83	0.9988	3.6e-4	71.4 %	1.392 s	2.7×
F-W	50.27	0.9987	4.3e-4
S-FL	49.49	0.9985	5.1e-4
S-FR	48.69	0.9984	5.2e-4
S-RL	48.59	0.9985	4.8e-4
S-RR	48.07	0.9985	5.2e-4
Rear	51.77	0.9986	4.7e-4
7-cam	51.37	0.9990	3.3e-4
Highway · n=3
F-C	54.87	0.9989	2.6e-4	71.6 %	1.365 s	2.7×
F-W	54.38	0.9988	2.3e-4
S-FL	53.08	0.9987	2.8e-4
S-FR	52.20	0.9987	2.9e-4
S-RL	52.48	0.9987	2.5e-4
S-RR	51.90	0.9986	3.0e-4
Rear	53.42	0.9987	3.2e-4
7-cam	54.67	0.9991	1.9e-4
U-turn · n=3
F-C	54.60	0.9987	4.3e-4	71.3 %	1.364 s	2.7×
F-W	51.79	0.9987	3.6e-4
S-FL	49.29	0.9985	4.6e-4
S-FR	49.18	0.9985	4.7e-4
S-RL	48.87	0.9985	4.0e-4
S-RR	48.82	0.9984	4.9e-4
Rear	52.51	0.9986	4.2e-4
7-cam	52.04	0.9990	3.1e-4

X-Cache^v1.0

想做实时驾驶世界，过去的加速套路基本都用不上了。

换一个角度去想。

↦ same chunk · adjacent step

↧ same step · adjacent chunk

按位置存档

结构 + 动作双重指纹

两道关一起把守

门槛会自己调

看一段画面是怎么从噪声里长出来的。

采样噪声 · 接上上下文

取指纹

过两道关

KV 更新 · 全程保护

四道保险，把「近似」圈在它该待的地方。

KV 更新保护

首块永远不跳

第一步全算

门槛有保底

拖一下分隔线，画质没有任何下降。

密集车流、行人、临街商铺。

城市高架与城际高速。

整组数据里跨段位移最大的场景。

同一颗种子、同一组输入，跑完只用四成时间，每一帧都禁得起逐像素核对。

想做实时驾驶世界，过去的加速套路基本都用不上了。

换一个角度去想。

↦ same chunk · adjacent step

↧ same step · adjacent chunk

按位置存档

结构 + 动作 双重指纹

两道关一起把守

门槛会自己调

看一段画面是怎么从噪声里长出来的。

采样噪声 · 接上上下文

取指纹

过两道关

KV 更新 · 全程保护

四道保险，把「近似」圈在它该待的地方。

KV 更新保护

首块永远不跳

第一步全算

门槛有保底

拖一下分隔线，画质没有任何下降。

密集车流、行人、临街商铺。

城市高架与城际高速。

整组数据里跨段位移最大的场景。

同一颗种子、同一组输入，跑完只用四成时间，每一帧都禁得起逐像素核对。

结构 + 动作双重指纹