task #922: llmの環境構築および詳細の決定 - redmine構築/運用考察とかIT系なこと - 4be-mine

操作

リンクをコピー

task #922

未完了

« 前 | 2/4 | 次 »

task #921: ローカルAI環境の構成

llmの環境構築および詳細の決定

masaya_abe さんが2日前に追加. 2日前に更新.

ステータス:

たぶんいつかやる

優先度:

今週やれ

担当者:

開始日:

2026-06-20

期日:

進捗率:

予定工数:

(合計: 0:00時間)

説明

Phase1-1¶

ROCm導入¶

確認


lspci | grep VGA

7900GRE
6700XT
が見えること。

導入

sudo apt update

sudo apt install rocm
sudo apt install rocminfo

確認

rocminfo

確認

rocm-smi

ここで
7900 GRE
6700 XT
が表示されればOK。

Phase1-2¶

依存パッケージ

sudo apt install \
git \
cmake \
build-essential \
libcurl4-openssl-dev

Phase1-3¶

llama.cpp取得

cd ~
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

確認
ls build/bin

下記のように出力
llama-cli
llama-server
llama-bench
llama-quantize
・・・

grep GGML_HIP build/CMakeCache.txt

下記のような出力
GGML_HIP:BOOL=ON
GGML_HIP_EXPORT_METRICS:BOOL=OFF
GGML_HIP_GRAPHS:BOOL=ON
GGML_HIP_MMQ_MFMA:BOOL=ON
GGML_HIP_NO_VMM:BOOL=ON
GGML_HIP_RCCL:BOOL=OFF
GGML_HIP_ROCWMMA_FATTN:BOOL=OFF

grep GGML_CUDA build/CMakeCache.txt

下記のような出力

GGML_CUDA:BOOL=OFF
GGML_CUDA_COMPRESSION_MODE:STRING=size
GGML_CUDA_FA:BOOL=ON
GGML_CUDA_FA_ALL_QUANTS:BOOL=OFF
GGML_CUDA_FORCE_CUBLAS:BOOL=OFF
GGML_CUDA_FORCE_MMQ:BOOL=OFF
GGML_CUDA_GRAPHS:BOOL=ON
GGML_CUDA_NCCL:BOOL=ON
GGML_CUDA_NO_PEER_COPY:BOOL=OFF
GGML_CUDA_NO_VMM:BOOL=OFF
GGML_CUDA_PEER_MAX_BATCH_SIZE:STRING=128
//STRINGS property for variable: GGML_CUDA_COMPRESSION_MODE
GGML_CUDA_COMPRESSION_MODE-STRINGS:INTERNAL=none;speed;balance;size

./build/bin/llama-cli --version
下記のような出力
0.00.001.117 E ggml_cuda_init: failed to initialize ROCm: no ROCm-capable device is detected
version: 9731 (4b48a53b6) built　with GNU 15.2.0 for Linux x86_64

rocminfo | grep gfx
出力なし

Ubuntu 26.04のROCmパッケージは

HIPランタイムlibamdhip64
と
HSAランタイムlibhsa-runtime64
が分離されており

rocminfoは動くがHIPからGPUが見えないケースがあるとのこと。
確認
ls -l /dev/kfd
crw-rw---- root renderであること

ユーザーが render グループか
groups
下記の出力
username adm cdrom sudo dip plugdev users lxd

ユーザー権限の修復
sudo usermod -aG render username
sudo usermod -aG video username
reboot

確認
rocminfo | grep gfx
2枚のGPUが出てくる。OK

動作確認
./build/bin/llama-cli --help
ヘルプが出力されればOK

モデル格納
mkdir ~/models
cd ~/models
ダウンロード

テスト
./build/bin/llama-cli
-m ~/models/gemma-4-26b-a4b-q5KM.gguf
-ngl 999
--tensor-split 16,12
-c 32768
-p "こんにちは"

失敗

こんにちは
rocBLAS error: Cannot read /usr/lib/x86_64-linux-gnu/rocblas/5.1.0/library/TensileLibrary.dat: Illegal seek for GPU arch : gfx1031

6700xtが使えていない。
状況的には下記の通り。
ROCm Runtime → gfx1031認識
llama.cpp → gfx1031認識
rocBLAS → gfx1031非対応

いろいろ試したが、6700xtとの併用はかなり沼だったので、あきらめた。
いつか7800か7900GREなど増設して32GBにはしたいが、gemma-4-26b-a4b-q5KMで十分そうなので、これで行く。

HIP_VISIBLE_DEVICES=1
./build/bin/llama-cli
-m ~/models/gemma-4-26b-a4b-q5KM.gguf
-ngl 23
-fa on
-c 32768
-ctk q8_0
-ctv q8_0

子チケット 1 (1件未完了 — 0件完了)

操作

リンクをコピー

他の形式にエクスポート: Atom PDF

プロジェクト

全般

プロフィール

redmine構築/運用考察とかIT系なこと

カスタムクエリ