Fix use-after-free races in memory pool shrinker and DRM fence destruction #1004

neoyubi · 2026-01-17T14:07:07Z

Fix use-after-free races in memory pool shrinker and DRM fence destruction

Summary

This patch fixes two related use-after-free race conditions that cause kernel crashes under memory pressure:

Memory pool shrinker race: kswapd can invoke shrinker callbacks while nv_mem_pool_destroy() is freeing pool resources
DRM fence/GEM destruction race: Kernel drm_exec/shrinker infrastructure can access dma_resv while fence contexts are being destroyed

Both issues stem from the same root cause: cleanup callbacks not being stopped before the resources they access are released.

Issue 1: Memory Pool Shrinker Race

Problem

The shrinker is unregistered after freeing the pool's page lists:

void nv_mem_pool_destroy(nv_page_pool_t *mem_pool)
{
    // Free dirty pages, stop scrubber, free clean pages
    // SHRINKER STILL REGISTERED - CALLBACKS CAN FIRE!

    nv_mem_pool_shrinker_free(mem_pool);  // Too late
}

Race Scenario

nv_mem_pool_destroy()                kswapd
─────────────────────                ──────
Free dirty_list
                                     shrink_slab() calls shrinker callback
                                     Callback accesses freed lists
                                     USE-AFTER-FREE
shrinker_free()

Fix

Move nv_mem_pool_shrinker_free() to the start of destruction
Add synchronize_rcu() after unregistration to ensure no callbacks are in-flight (kernel iterates shrinkers under RCU)
NULL the shrinker pointer immediately after unregistration

Issue 2: DRM Fence Context Destruction Race

Problem

When a GEM object with an associated fence context is destroyed, the current code:

Calls drm_gem_object_release() (releases dma_resv)
Then stops callbacks and signals fences

This allows the kernel's drm_exec/shrinker infrastructure to access dma_resv while fences are still active.

Race Scenario

nv_drm_gem_free()                    Kernel drm_exec/shrinker
─────────────────                    ────────────────────────
drm_gem_object_release()
  → dma_resv released
                                     Iterates dma_resv for eviction
                                     Accesses fence context
                                     USE-AFTER-FREE
Stop callbacks, signal fences
Free fence context

Fix

Introduce two-phase destruction for fence contexts:

prepare_release/prepare_destroy: Stop callbacks, timers, and signal all pending fences before drm_gem_object_release()
free/destroy: Release NVKMS resources and free memory after the GEM object is fully released

This ensures fences are detached from dma_resv before the kernel can no longer safely access them.

Changes

nv-vm.c

Move shrinker unregistration to start of nv_mem_pool_destroy()
Add synchronize_rcu() after shrinker_free()/unregister_shrinker()
NULL shrinker pointer after unregistration

nvidia-drm-gem.h/c

Add prepare_release callback to nv_drm_gem_object_funcs
Call prepare_release before drm_gem_object_release() in nv_drm_gem_free()

nvidia-drm-fence.c

Add prepare_destroy callback to nv_drm_fence_context_ops
Split __nv_drm_prime_fence_context_destroy() into prepare/destroy phases
Split __nv_drm_semsurf_fence_ctx_destroy() into prepare/destroy phases
Implement __nv_drm_fence_context_gem_prepare_release() to call prepare phase

Testing

Hardware: NVIDIA RTX 5090 (Blackwell architecture)
Driver: nvidia-open 590.48.01
Kernel: 6.18.5 (Arch Linux)
Before patch: Random system freezes every few hours to days, crashes in kswapd path through nvidia shrinker/fence callbacks
After patch: Stable under sustained memory pressure and GPU workloads

Impact

These bugs affect all users of nvidia-open kernel modules under memory pressure. Symptoms include:

Random system freezes requiring hard reboot
Kernel panic in shrink_slab() or drm_exec paths
Page fault at nvidia module addresses during memory reclaim

The fixes follow established kernel conventions: unregister/stop callbacks before freeing the resources they access.

References

Linux kernel shrinker API: include/linux/shrinker.h
DRM GEM object lifecycle: drivers/gpu/drm/drm_gem.c
Affected files:
- kernel-open/nvidia/nv-vm.c
- kernel-open/nvidia-drm/nvidia-drm-gem.c
- kernel-open/nvidia-drm/nvidia-drm-gem.h
- kernel-open/nvidia-drm/nvidia-drm-fence.c

During memory pressure, kswapd invokes shrinker callbacks via shrink_slab. A race condition exists where nv_mem_pool_destroy() can free the shrinker while kswapd is still iterating, causing the kernel to call corrupted function pointers and crash. Changes: - Move nv_mem_pool_shrinker_free() to execute FIRST in destroy sequence - Add synchronize_rcu() after shrinker unregistration to ensure all RCU readers have completed before continuing destruction - Set shrinker pointer to NULL after free to prevent dangling reference - Split DRM fence context destruction into prepare + final phases to signal fences before drm_gem_object_release() Tested on RTX 5090 with kernel 6.18.5 - system stable after fix.

CLAassistant · 2026-01-17T14:10:23Z

All committers have signed the CLA.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Fix use-after-free races in memory pool shrinker and DRM fence destruction #1004

Fix use-after-free races in memory pool shrinker and DRM fence destruction #1004

neoyubi commented Jan 17, 2026

Uh oh!

CLAassistant commented Jan 17, 2026 •

edited

Loading

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Fix use-after-free races in memory pool shrinker and DRM fence destruction #1004

Are you sure you want to change the base?

Fix use-after-free races in memory pool shrinker and DRM fence destruction #1004

Conversation

neoyubi commented Jan 17, 2026

Fix use-after-free races in memory pool shrinker and DRM fence destruction

Summary

Issue 1: Memory Pool Shrinker Race

Problem

Race Scenario

Fix

Issue 2: DRM Fence Context Destruction Race

Problem

Race Scenario

Fix

Changes

nv-vm.c

nvidia-drm-gem.h/c

nvidia-drm-fence.c

Testing

Impact

References

Uh oh!

CLAassistant commented Jan 17, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

CLAassistant commented Jan 17, 2026 •

edited

Loading