Folge 7: KI-Souveränität für 2700 Dollar? | Beelink GTR9 Pro, Ollama & lokale KI im Selbstversuch
- Was du heute mitnimmst
- 8 Life Hacks — alle Befehle in den Shownotes
- Alles in den Shownotes
- Für wen ist diese Folge?
- Value for Value
- Befehle & Ressourcen
2700 Dollar für einen Mini-PC, der Cloud-Abos überflüssig machen soll. 96 GB Arbeitsspeicher, den CPU und GPU sich teilen. Kein Lüfter-Rauschen eines Server-Racks, keine monatliche Rechnung nach Kalifornien. Klingt gut — aber stimmt es auch?
Ehrliche Antwort: noch nicht ganz bekannt. Die Hardware ist noch unterwegs. Diese Folge ist kein fertiges Review, sondern ein Recherche-Tagebuch: was die Specs versprechen, wo Community-Berichte abweichen, und welche acht Einstellungen den Unterschied zwischen 20 GB nutzbarem VRAM und 96 GB machen.
Was du heute mitnimmst
Unified Memory erklärt CPU und GPU teilen sich denselben Speicherpool — kein Datentransfer über den langsamen PCIe-Bus. Was das für lokale KI-Workloads bedeutet und wo die Community-Berichte von den Papier-Specs abweichen.
96 GB VRAM vs. RTX 4090 Auf dem Papier schlägt der Beelink vier RTX 4090 in einem einzigen Gerät. Was das im Alltag bedeutet — und wo Cloud-Modelle wie Claude Opus noch vorne liegen. Ehrliche Einschätzung, keine Hochglanz-Werbung.
AMD vs. Nvidia — die Börsenperspektive Nvidia hält 80 % Marktanteil bei einer Bewertung von über vier Billionen Dollar. AMD legte 2025 rund 90 % an der Börse zu, gewann Oracle, Microsoft, Meta und eine OpenAI-Partnerschaft als Kunden. Was diese Verschiebung für die Zukunft lokaler KI-Hardware bedeutet — und warum unser kleiner Beelink ein Puzzleteil dieser Geschichte ist.
8 Life Hacks — alle Befehle in den Shownotes
Life Hack #1 — BIOS UMA Frame Buffer Size Die eine BIOS-Einstellung, die alle übersehen: UMA Frame Buffer Size auf „GPU Specified“ stellen. Ohne sie meldet Ollama Speicher voll, obwohl 96 GB da wären. Steht nicht in der Anleitung — stehen in unseren Shownotes.
Life Hack #2 — GTT Size im Bootloader Ein einziger Eintrag in der GRUB-Konfiguration gibt der KI Zugriff auf den vollen Speicher. Einmal setzen, einmal neu starten — dann gehören dir alle 96 GB. Den exakten Befehl haben wir in die Shownotes kopiert.
Life Hack #3 — ROCm Kernel-Modul aktivieren Ohne diesen einen Terminal-Befehl sieht dein System zwar die Hardware — die KI denkt trotzdem, sie hätte einen Taschenrechner. Der Schnipsel steht ganz oben in den Shownotes.
Life Hack #4 — Cursor IDE lokal betreiben Cursor erwartet eine OpenAI-API. Ollama kann diese Schnittstelle lokal emulieren. Per Cloudflare Tunnel oder NGROK verbindest du Cursor mit deinem Beelink — ohne Port-Freigabe, ohne Datenweitergabe nach Kalifornien.
Life Hack #5 — .cursorrules Vorlage Das Langzeitgedächtnis deiner lokalen KI. Eine Datei im Projektordner, in der du einmal festlegst: Programmiersprache, Stil, Konventionen. Dann weiß dein Modell bei jedem Start sofort, wo die Reise hingeht. Vorlage liegt in den Shownotes.
Life Hack #6 — Docker Compose in einem Kopiervorgang Kein manuelles Setup über drei Stunden. Unser fertiges Docker Compose Skript aus den Shownotes starten — und dein lokales KI-Rechenzentrum fährt hoch. Inklusive Web-Oberfläche für alle Modelle.
Life Hack #7 — Nur offizielle Docker Images für AMD Wer inoffizielle Images nutzt, wundert sich später, warum die KI auf der CPU läuft statt auf den 96 GB. Die GPU-Durchreichung für AMD Radeon funktioniert zuverlässig nur im offiziellen Repository.
Life Hack #8 — Cloud vs. Lokal ehrlich kalkulieren 2700 Dollar für den Beelink, fast 1000 Euro für die NVMe, 20 Euro Kühlkörper — das klingt viel. Gegen die eigenen monatlichen Cloud-Kosten gerechnet sieht das anders aus. Unsere Kalkulationsvorlage steht in den Shownotes.
Lokale RAG-Systeme Den kompletten Code-Bestand lokal indizieren. Die KI weiß, was du gestern programmiert hast — ohne Upload, ohne Datenverlust, ohne Privatsphäre-Kompromisse.
Giganten-Check — Lokal gegen Claude & GPT-4 Refactoring, Debugging, Boilerplate: bei 90 % der täglichen Aufgaben verschwindet der Unterschied zu großen Cloud-Modellen. Wo Claude Opus lokal noch besser ist — und wo nicht. Keine Schönfärberei.
Alles in den Shownotes
ROCm Kernel-Modul Befehl · GTT Size Bootloader-Eintrag · Docker Compose Skript · Cloudflare Tunnel Konfiguration · Ubuntu Schritt-für-Schritt Anleitung · BIOS UMA Screenshot · .cursorrules Vorlage · Cloud-vs-Lokal Kalkulationsvorlage · Einkaufsliste · Modell-Empfehlungen · Community-Links
Für wen ist diese Folge?
Entwickler, Vibe Coder und digitale Nomaden, die intensiv mit KI arbeiten, Datenkontrolle ernst nehmen und wissen wollen, ob lokale Hardware 2025 wirklich eine Alternative zu Cloud-Diensten ist — ohne Hochglanz-Review, ohne Versprechen die wir nicht halten können.
Value for Value
Dieser Podcast ist werbefrei. Keine Algorithmus-Optimierung, kein Sponsor-Content. Wenn dir die Folge etwas wert war: Boost via Podcasting 2.0, Zap via Lightning oder teile sie mit jemandem, dem sie nützt.
Keywords: lokale KI, Beelink GTR9 Pro, AMD Ryzen AI Max 95, Ollama, ROCm, Docker, Cursor IDE, Vibe Coding, KI-Souveränität, 96 GB VRAM, Cloudflare Tunnel, RAG lokal, KI-Agenten, lokaler KI-Server, Mini-PC KI, Claude Alternative, ChatGPT lokal, Unified Memory KI, Ubuntu KI-Setup, Open WebUI, KI Datenschutz, Value for Value, Nostr, Podcast 2.0
Befehle & Ressourcen
ROCm Kernel-Modul aktivieren
sudo modprobe amdgpu
echo 'amdgpu' | sudo tee /etc/modules-load.d/amdgpu.conf
Prüfen ob die GPU erkannt wird:
rocm-smi
GTT Size Bootloader-Eintrag
Datei öffnen:
sudo nano /etc/default/grub
Zeile GRUB_CMDLINE_LINUX_DEFAULT ergänzen:
GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amdgpu.gttsize=98304"
Bootloader neu schreiben und neu starten:
sudo update-grub && sudo reboot
BIOS UMA Frame Buffer Size
Beim Start Entf oder F2 drücken → Advanced → AMD CBS → NBIO → GFX Configuration → iGPU Configuration → UMA Frame Buffer Size → GPU Specified
Docker Compose Skript
version: '3.8'
services:
ollama:
image: ollama/ollama:rocm
devices:
- /dev/kfd
- /dev/dri
volumes:
- ollama:/root/.ollama
ports:
- "11434:11434"
restart: unless-stopped
open-webui:
image: ghcr.io/open-webui/open-webui:main
environment:
- OLLAMA_BASE_URL=http://ollama:11434
volumes:
- open-webui:/app/backend/data
ports:
- "3000:8080"
depends_on:
- ollama
restart: unless-stopped
volumes:
ollama:
open-webui:
Starten:
docker compose up -d
Open WebUI dann unter http://localhost:3000 erreichbar.
Cloudflare Tunnel Konfiguration
# Cloudflared installieren
curl -L https://github.com/cloudflare/cloudflared/releases/latest/download/cloudflared-linux-amd64.deb -o cloudflared.deb
sudo dpkg -i cloudflared.deb
# Tunnel starten (kein Account nötig für Quick Tunnel)
cloudflared tunnel --url http://localhost:11434
Die ausgegebene URL in Cursor unter Settings → Models → Base URL eintragen. API Key kann ein beliebiger String sein.
Ubuntu Schritt-für-Schritt Anleitung
# 1. System aktualisieren
sudo apt update && sudo apt upgrade -y
# 2. ROCm Repository einbinden
sudo apt install -y wget gnupg
wget -q -O - https://repo.radeon.com/rocm/rocm.gpg.key | sudo apt-key add -
echo 'deb [arch=amd64] https://repo.radeon.com/rocm/apt/6.x jammy main' \
| sudo tee /etc/apt/sources.list.d/rocm.list
# 3. ROCm installieren
sudo apt update
sudo apt install -y rocm-hip-sdk
# 4. Nutzer zur render-Gruppe hinzufügen
sudo usermod -aG render,video $USER
# 5. Docker installieren
curl -fsSL https://get.docker.com | sh
sudo usermod -aG docker $USER
# 6. Neu einloggen, dann Ollama starten
docker compose up -d
.cursorrules Vorlage
# Projekt-Kontext
Du arbeitest an einem Python-Projekt. Halte dich an folgende Regeln:
## Sprache & Stil
- Kommentare auf Deutsch
- Variablennamen auf Englisch
- Funktionen klein und testbar halten
## Code-Standards
- Type Hints überall
- Docstrings für alle öffentlichen Funktionen
- Keine Magic Numbers — Konstanten definieren
## Fehlerbehandlung
- Exceptions immer explizit abfangen
- Logging statt print()
## Struktur
- Eine Klasse pro Datei
- Tests neben dem Code in tests/
Cloud vs. Lokal Kalkulationsvorlage
| Posten | Betrag |
|---|---|
| Beelink GTR9 Pro | 2.700 € |
| 8 TB NVMe | 950 € |
| Kühlkörper | 20 € |
| Einmalig gesamt | 3.670 € |
| Cloud-Abo | pro Monat | Break-even |
|---|---|---|
| Claude Pro (20 €) | 20 € | 183 Monate |
| Claude Pro + ChatGPT (40 €) | 40 € | 92 Monate |
| API-intensiv (150 €) | 150 € | 25 Monate |
| Agentic / heavy use (400 €) | 400 € | 10 Monate |
Stromkosten Beelink GTR9 Pro: ca. 35W idle, ca. 120W last — bei 8h/Tag rund 6–8 € pro Monat.
Einkaufsliste
| Artikel | Anmerkung |
|---|---|
| Beelink GTR9 Pro (AMD Ryzen AI Max 95) | 96 GB Unified Memory, wichtig: AI Max 95, nicht 390 |
| 8 TB NVMe M.2 2280 | PCIe Gen 4 empfohlen, z.B. Seagate Firecuda 530 |
| Kupfer-Kühlkörper für NVMe | Pflicht — das Laufwerk wird heiß unter KI-Last |
| USB-C Dockingstation | Optional, für Monitor + Peripherie |
Modell-Empfehlungen
| Modell | Größe | Eignet sich für |
|---|---|---|
| Llama 3.1 8B | ~5 GB | Schnelle Antworten, Boilerplate, Terminal |
| Llama 3.1 70B | ~40 GB | Refactoring, komplexe Aufgaben |
| Llama 3.3 70B | ~40 GB | Aktuellere Version, besser für Code |
| Mistral Nemo | ~7 GB | Deutsch sehr gut, schnell |
| DeepSeek Coder 33B | ~20 GB | Spezialisiert auf Code |
| Gemma 3 27B | ~17 GB | Googles Modell, gute Allround-Performance |
Alle 96 GB Modelle wie Llama 3.1 405B laufen theoretisch — Praxisberichte aus der Community stehen noch aus.
Community-Links
- Beelink GTR9 Pro Forum — offizielle Community
- ROCm Dokumentation — AMD offizielle Docs
- Ollama GitHub — Issues & Releases
- Open WebUI GitHub — Web-Interface für Ollama
- r/LocalLLaMA — Community-Berichte, Benchmarks
- Nostr #LocalAI — Nostr-Community
https://urlaub.codeberg.page/assets/audio/mp3/7_Herr_Urlaub_sucht_das_Glueck-Lokale_KI.mp3
Write a comment