2026년 2월 5일 목요일

AMD Strix Halo gfx1151 활용하기. 근데 시스템을 죽이지 않으면서.

주문해서 2주 정도를 지나고 물건을 받아 1주 정도를 굴려본 상황에서 사실 좀 후회가 된다. CUDA로는 아무 불편없이 잘만 돌아가던 로직을 ROCm으로 돌리기 위해 얼마나 시행착오를 겪는 건지.

 

첫 시도는 당연히 최신 우분투에 최신 ROCm이었다. 지금은 그나마 AMD 공식이 24.04 대응까지만 하고 있는데, ubuntu 26.04 정식 발표 때 rocm조차도 우분투 저장소 쪽에서 직접 제공할 거라는 소식이 있으니 나중엔 상황이 달라지기를 바란다.

이 첫 시도는 무참히 깨진다. amdgpu 드라이버 모듈에 이런저런 플래그를 주며 재시도를 해봤지만 꾸준히 고부하를 주고 나면 GPU 관련 작업이 먹통이 되었다.

 

그래서 AMD 공식을 믿고 아예 ubuntu 24.04.03을 깔아서 ROCm까지만 깔고 다른 플래그 설정 같은 거 없이 진행해봤다. 좀 돌다가 dmesg에 에러가 잡혀서 찾아보니 pytorch 쪽 의존성을 gfx1151에 맞춘 패키지로 바꿔야 한다는 github 이슈가 보인다. Antigravity에 이런저런 상황이라고 알려주니 뚝딱뚝딱 Dockerfile들을 고치고 몇 가지 플래그도 넣어보고 하더니 다시 nvtop에 GPU 사용률 그래프가 올라가고 냉각팬 소리가 우렁차게 돌아가는 상황이 되었다.

그래, 꼭 최신 패키지를 쓰는 게 목적이 아니고 내가 실행하고자 하는 코드가 실행이 되는 게 중요하지.

 

일단 이렇게 써보기로 한다.

 

---
라고 쓰는 와중에, GPU 그래프가 뚝 떨어지더니 이번엔 CPU를 당겨 쓰기 시작한다. 이거 이상하다고 다시 확인시켜놨다.

최소한 시스템이 갑자기 먹통이 되지는 않는다는 데서 감사함을 느낀다.

 

---

우툰부 26.04이 나와서 커널이고 ROCm이고 최신으로 맞춰지기 전까지는 다른 방법이 없어 보인다.

vulkan 기반으로 바꾸라고 제미니한테 시켜서 여러차례 결과를 보고 에러를 고치는 과정을 거친 뒤 결국 GPU가 팡팡 돌아가는 건 확인했다. CPU도 엄청나게 많이 쓰는 게 보이긴 하지만 일단 시스템이 멈추지 않는 것에 만족한다.