Folge 7: KI-Souveränität für 2700 Dollar? | Beelink GTR9 Pro, Ollama & lokale KI im Selbstversuch

By Herr Urlaub | Cockpit ✈️ March 12, 2026 · Edited March 13, 2026

Beelink GTR9 Pro, Ollama, 96 GB VRAM: 8 konkrete Life Hacks für lokale KI ohne Cloud. Kein Hochglanz-Review, ein ehrliches Tagebuch.

Folge 7: KI-Souveränität für 2700 Dollar? | Beelink GTR9 Pro, Ollama & lokale KI im Selbstversuch

Was du heute mitnimmst
8 Life Hacks — alle Befehle in den Shownotes
Alles in den Shownotes
Für wen ist diese Folge?
Value for Value
Befehle & Ressourcen

2700 Dollar für einen Mini-PC, der Cloud-Abos überflüssig machen soll. 96 GB Arbeitsspeicher, den CPU und GPU sich teilen. Kein Lüfter-Rauschen eines Server-Racks, keine monatliche Rechnung nach Kalifornien. Klingt gut — aber stimmt es auch?

Ehrliche Antwort: noch nicht ganz bekannt. Die Hardware ist noch unterwegs. Diese Folge ist kein fertiges Review, sondern ein Recherche-Tagebuch: was die Specs versprechen, wo Community-Berichte abweichen, und welche acht Einstellungen den Unterschied zwischen 20 GB nutzbarem VRAM und 96 GB machen.

Was du heute mitnimmst

Unified Memory erklärt CPU und GPU teilen sich denselben Speicherpool — kein Datentransfer über den langsamen PCIe-Bus. Was das für lokale KI-Workloads bedeutet und wo die Community-Berichte von den Papier-Specs abweichen.

96 GB VRAM vs. RTX 4090 Auf dem Papier schlägt der Beelink vier RTX 4090 in einem einzigen Gerät. Was das im Alltag bedeutet — und wo Cloud-Modelle wie Claude Opus noch vorne liegen. Ehrliche Einschätzung, keine Hochglanz-Werbung.

AMD vs. Nvidia — die Börsenperspektive Nvidia hält 80 % Marktanteil bei einer Bewertung von über vier Billionen Dollar. AMD legte 2025 rund 90 % an der Börse zu, gewann Oracle, Microsoft, Meta und eine OpenAI-Partnerschaft als Kunden. Was diese Verschiebung für die Zukunft lokaler KI-Hardware bedeutet — und warum unser kleiner Beelink ein Puzzleteil dieser Geschichte ist.

8 Life Hacks — alle Befehle in den Shownotes

Life Hack #1 — BIOS UMA Frame Buffer Size Die eine BIOS-Einstellung, die alle übersehen: UMA Frame Buffer Size auf „GPU Specified“ stellen. Ohne sie meldet Ollama Speicher voll, obwohl 96 GB da wären. Steht nicht in der Anleitung — stehen in unseren Shownotes.

Life Hack #2 — GTT Size im Bootloader Ein einziger Eintrag in der GRUB-Konfiguration gibt der KI Zugriff auf den vollen Speicher. Einmal setzen, einmal neu starten — dann gehören dir alle 96 GB. Den exakten Befehl haben wir in die Shownotes kopiert.

Life Hack #3 — ROCm Kernel-Modul aktivieren Ohne diesen einen Terminal-Befehl sieht dein System zwar die Hardware — die KI denkt trotzdem, sie hätte einen Taschenrechner. Der Schnipsel steht ganz oben in den Shownotes.

Life Hack #4 — Cursor IDE lokal betreiben Cursor erwartet eine OpenAI-API. Ollama kann diese Schnittstelle lokal emulieren. Per Cloudflare Tunnel oder NGROK verbindest du Cursor mit deinem Beelink — ohne Port-Freigabe, ohne Datenweitergabe nach Kalifornien.

Life Hack #5 — .cursorrules Vorlage Das Langzeitgedächtnis deiner lokalen KI. Eine Datei im Projektordner, in der du einmal festlegst: Programmiersprache, Stil, Konventionen. Dann weiß dein Modell bei jedem Start sofort, wo die Reise hingeht. Vorlage liegt in den Shownotes.

Life Hack #6 — Docker Compose in einem Kopiervorgang Kein manuelles Setup über drei Stunden. Unser fertiges Docker Compose Skript aus den Shownotes starten — und dein lokales KI-Rechenzentrum fährt hoch. Inklusive Web-Oberfläche für alle Modelle.

Life Hack #7 — Nur offizielle Docker Images für AMD Wer inoffizielle Images nutzt, wundert sich später, warum die KI auf der CPU läuft statt auf den 96 GB. Die GPU-Durchreichung für AMD Radeon funktioniert zuverlässig nur im offiziellen Repository.

Life Hack #8 — Cloud vs. Lokal ehrlich kalkulieren 2700 Dollar für den Beelink, fast 1000 Euro für die NVMe, 20 Euro Kühlkörper — das klingt viel. Gegen die eigenen monatlichen Cloud-Kosten gerechnet sieht das anders aus. Unsere Kalkulationsvorlage steht in den Shownotes.

Lokale RAG-Systeme Den kompletten Code-Bestand lokal indizieren. Die KI weiß, was du gestern programmiert hast — ohne Upload, ohne Datenverlust, ohne Privatsphäre-Kompromisse.

Giganten-Check — Lokal gegen Claude & GPT-4 Refactoring, Debugging, Boilerplate: bei 90 % der täglichen Aufgaben verschwindet der Unterschied zu großen Cloud-Modellen. Wo Claude Opus lokal noch besser ist — und wo nicht. Keine Schönfärberei.

Alles in den Shownotes

ROCm Kernel-Modul Befehl · GTT Size Bootloader-Eintrag · Docker Compose Skript · Cloudflare Tunnel Konfiguration · Ubuntu Schritt-für-Schritt Anleitung · BIOS UMA Screenshot · .cursorrules Vorlage · Cloud-vs-Lokal Kalkulationsvorlage · Einkaufsliste · Modell-Empfehlungen · Community-Links

Für wen ist diese Folge?

Entwickler, Vibe Coder und digitale Nomaden, die intensiv mit KI arbeiten, Datenkontrolle ernst nehmen und wissen wollen, ob lokale Hardware 2025 wirklich eine Alternative zu Cloud-Diensten ist — ohne Hochglanz-Review, ohne Versprechen die wir nicht halten können.

Value for Value

Dieser Podcast ist werbefrei. Keine Algorithmus-Optimierung, kein Sponsor-Content. Wenn dir die Folge etwas wert war: Boost via Podcasting 2.0, Zap via Lightning oder teile sie mit jemandem, dem sie nützt.

Keywords: lokale KI, Beelink GTR9 Pro, AMD Ryzen AI Max 95, Ollama, ROCm, Docker, Cursor IDE, Vibe Coding, KI-Souveränität, 96 GB VRAM, Cloudflare Tunnel, RAG lokal, KI-Agenten, lokaler KI-Server, Mini-PC KI, Claude Alternative, ChatGPT lokal, Unified Memory KI, Ubuntu KI-Setup, Open WebUI, KI Datenschutz, Value for Value, Nostr, Podcast 2.0

Befehle & Ressourcen

ROCm Kernel-Modul aktivieren

sudo modprobe amdgpu
echo 'amdgpu' | sudo tee /etc/modules-load.d/amdgpu.conf

Prüfen ob die GPU erkannt wird:

rocm-smi

GTT Size Bootloader-Eintrag

Datei öffnen:

sudo nano /etc/default/grub

Zeile GRUB_CMDLINE_LINUX_DEFAULT ergänzen:

GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amdgpu.gttsize=98304"

Bootloader neu schreiben und neu starten:

sudo update-grub && sudo reboot

BIOS UMA Frame Buffer Size

Beim Start Entf oder F2 drücken → Advanced → AMD CBS → NBIO → GFX Configuration → iGPU Configuration → UMA Frame Buffer Size → GPU Specified

Docker Compose Skript

version: '3.8'
services:
  ollama:
    image: ollama/ollama:rocm
    devices:
      - /dev/kfd
      - /dev/dri
    volumes:
      - ollama:/root/.ollama
    ports:
      - "11434:11434"
    restart: unless-stopped

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    environment:
      - OLLAMA_BASE_URL=http://ollama:11434
    volumes:
      - open-webui:/app/backend/data
    ports:
      - "3000:8080"
    depends_on:
      - ollama
    restart: unless-stopped

volumes:
  ollama:
  open-webui:

Starten:

docker compose up -d

Open WebUI dann unter http://localhost:3000 erreichbar.

Cloudflare Tunnel Konfiguration

# Cloudflared installieren
curl -L https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64.deb -o cloudflared.deb
sudo dpkg -i cloudflared.deb

# Tunnel starten (kein Account nötig für Quick Tunnel)
cloudflared tunnel --url http://localhost:11434

Die ausgegebene URL in Cursor unter Settings → Models → Base URL eintragen. API Key kann ein beliebiger String sein.

Ubuntu Schritt-für-Schritt Anleitung

# 1. System aktualisieren
sudo apt update && sudo apt upgrade -y

# 2. ROCm Repository einbinden
sudo apt install -y wget gnupg
wget -q -O - https://repo.radeon.com/rocm/rocm.gpg.key | sudo apt-key add -
echo 'deb [arch=amd64] https://repo.radeon.com/rocm/apt/6.x jammy main' \
  | sudo tee /etc/apt/sources.list.d/rocm.list

# 3. ROCm installieren
sudo apt update
sudo apt install -y rocm-hip-sdk

# 4. Nutzer zur render-Gruppe hinzufügen
sudo usermod -aG render,video $USER

# 5. Docker installieren
curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker $USER

# 6. Neu einloggen, dann Ollama starten
docker compose up -d

.cursorrules Vorlage

# Projekt-Kontext
Du arbeitest an einem Python-Projekt. Halte dich an folgende Regeln:

## Sprache & Stil
- Kommentare auf Deutsch
- Variablennamen auf Englisch
- Funktionen klein und testbar halten

## Code-Standards
- Type Hints überall
- Docstrings für alle öffentlichen Funktionen
- Keine Magic Numbers — Konstanten definieren

## Fehlerbehandlung
- Exceptions immer explizit abfangen
- Logging statt print()

## Struktur
- Eine Klasse pro Datei
- Tests neben dem Code in tests/

Cloud vs. Lokal Kalkulationsvorlage

Posten	Betrag
Beelink GTR9 Pro	2.700 €
8 TB NVMe	950 €
Kühlkörper	20 €
Einmalig gesamt	3.670 €

Cloud-Abo	pro Monat	Break-even
Claude Pro (20 €)	20 €	183 Monate
Claude Pro + ChatGPT (40 €)	40 €	92 Monate
API-intensiv (150 €)	150 €	25 Monate
Agentic / heavy use (400 €)	400 €	10 Monate

Stromkosten Beelink GTR9 Pro: ca. 35W idle, ca. 120W last — bei 8h/Tag rund 6–8 € pro Monat.

Einkaufsliste

Artikel	Anmerkung
Beelink GTR9 Pro (AMD Ryzen AI Max 95)	96 GB Unified Memory, wichtig: AI Max 95, nicht 390
8 TB NVMe M.2 2280	PCIe Gen 4 empfohlen, z.B. Seagate Firecuda 530
Kupfer-Kühlkörper für NVMe	Pflicht — das Laufwerk wird heiß unter KI-Last
USB-C Dockingstation	Optional, für Monitor + Peripherie

Modell-Empfehlungen

Modell	Größe	Eignet sich für
Llama 3.1 8B	~5 GB	Schnelle Antworten, Boilerplate, Terminal
Llama 3.1 70B	~40 GB	Refactoring, komplexe Aufgaben
Llama 3.3 70B	~40 GB	Aktuellere Version, besser für Code
Mistral Nemo	~7 GB	Deutsch sehr gut, schnell
DeepSeek Coder 33B	~20 GB	Spezialisiert auf Code
Gemma 3 27B	~17 GB	Googles Modell, gute Allround-Performance

Alle 96 GB Modelle wie Llama 3.1 405B laufen theoretisch — Praxisberichte aus der Community stehen noch aus.

Community-Links

Beelink GTR9 Pro Forum — offizielle Community
ROCm Dokumentation — AMD offizielle Docs
Ollama GitHub — Issues & Releases
Open WebUI GitHub — Web-Interface für Ollama
r/LocalLLaMA — Community-Berichte, Benchmarks
Nostr #LocalAI — Nostr-Community

🎧 Im Maschinenraum anhören

https://urlaub.codeberg.page/assets/audio/mp3/7_Herr_Urlaub_sucht_das_Glueck-Lokale_KI.mp3

Reference: https://urlaub.codeberg.page/episode/folge-7-ki-souveraenitaet-beelink-gtr9-pro-ollama-lokale-ki-selbstversuch.html

Write a comment

No comments yet.

Folge 7: KI-Souveränität für 2700 Dollar? | Beelink GTR9 Pro, Ollama & lokale KI im Selbstversuch

§Was du heute mitnimmst

§8 Life Hacks — alle Befehle in den Shownotes

§Alles in den Shownotes

§Für wen ist diese Folge?

§Value for Value

§Befehle & Ressourcen

§ROCm Kernel-Modul aktivieren

§GTT Size Bootloader-Eintrag

§BIOS UMA Frame Buffer Size

§Docker Compose Skript

§Cloudflare Tunnel Konfiguration

§Ubuntu Schritt-für-Schritt Anleitung

§.cursorrules Vorlage

§Cloud vs. Lokal Kalkulationsvorlage

§Einkaufsliste

§Modell-Empfehlungen

§Community-Links