Einfacher lokaler (und privater) KI-Chatbot ohne besondere Hardware – ganz einfach mit LM Studio!

-

KI-Chatbots sind in aller Munde, und jeder Anbieter möchte hier mitmischen, gerade erst Microsoft mit seinem „Copilot“-System.

Aber was, wenn du dir einen privaten Chatbot wünschst, ohne dass dieser Daten an den Hersteller schickt oder du spezielle Hardware benötigst?

Ja, das ist absolut möglich und funktioniert mit LM Studio auch sehr einfach. In diesem Artikel sehen wir uns an, wie das geht!

 

Mit jeder CPU/GPU!

Prinzipiell läuft der Chatbot, den wir uns hier ansehen, auf „jedem“ System. Lediglich muss deine CPU den AVX2-Standard unterstützen (was fast alle Intel-CPUs ab Baujahr 2013 und AMD-CPUs ab 2015 tun sollten). Mehr Infos zum AVX2-Standard findst du hier: https://en.wikipedia.org/wiki/Advanced_Vector_Extensions#CPUs_with_AVX2

Was wir aber brauchen, ist recht viel RAM. 16 GB sind hier das Minimum, aber große Modelle können auch gerne mal 64 GB+ verbrauchen.

 

Die Software LM Studio

Es gibt viele Möglichkeiten, lokale KI-Chatbots auszuführen. Die vermutlich einfachste ist aber LM Studio.

https://lmstudio.ai/

LM Studio gibt es für Windows, Mac und Linux und lässt sich mit einem Klick installieren. Das Besondere an LM Studio ist, dass es keine eigene KI mitbringt, sondern öffentliche KI-Modelle, beispielsweise von Meta oder Google, herunterladen und ausführen kann.

Hierfür greift es auf https://huggingface.co/models zurück, eine Plattform, die verschiedene KI-Modelle sammelt und zum Download anbietet.

LM Studio arbeitet mit KI-Modellen auf Basis von Llama, Gemma, Phi 3, Falcon, Mistral und StarCoder zusammen.

Llama 3 ist dabei das KI-Modell von Facebook (Meta) und Gemma (2) das KI-Modell, das hinter Googles Chat-Assistenten steht.

Dabei stehen auch diverse von Nutzern modifizierte Versionen für bestimmte Zwecke zur Verfügung, welche teilweise Zensurmaßnahmen aushebeln oder besonders fürs Coden optimiert sind usw.

 

Erste Schritte

Du hast LM Studio heruntergeladen und installiert, wie geht es weiter? Im ersten Schritt solltest du dir ein KI-Modell aussuchen, mit dem du starten möchtest.

In LM Studio gibt es eine Suchfunktion, in der du ein Stichwort eingeben kannst, z. B. „Coding“, „Chat“ oder etwas Gezielteres wie „Llama“ oder „Gemma“.

Für diesen Artikel nehme ich ein auf Llama basierendes Modell. Hier werden dir dutzende Modelle dieser Art auffallen. Dies sind die angesprochenen „Versionen“, die von anderen Nutzern auf Basis der großen KI-Modelle erstellt wurden.

Hier gilt oft das Motto „Probieren geht über Studieren“.

 

Welches Modell nehmen?

Direkt auf der Startseite von LM Studio werden dir diverse Modelle angeboten, wie z. B. Llama 3 – 8B Instruct oder Google’s Gemma 2B Instruct usw.

Mit diesen Modellen machst du natürlich nichts falsch. Ich würde aber auf die Suche gehen (links das Icon mit der Lupe) und dort z. B. „Llama“ eingeben.

Hier werden dir diverse Modelle angeboten und es gibt jeweils nochmals Abstufungen. Diese sind beispielsweise mit Q4, Q5, Q6, Q8 usw. beschriftet.

Q steht hier für Quantization, was wir als eine Art Kompression von KI-Modellen ansehen können. Je kleiner die Zahl, desto stärker ist das Modell „komprimiert“ und „reduziert“. Entsprechend werden natürlich die Antworten schlechter, je kleiner die Zahl ist, aber die Modelle laufen besser und benötigen weniger RAM/Speicher.

Beispielsweise nutze ich hier jetzt das „QuantFactory/Meta-Llama-3-8B-Instruct-GGUF“-Modell, welches in der Q8-Version 8,54 GB groß ist, was auch +- dem RAM-Bedarf entspricht.

Du solltest hier kein Modell nehmen, welches den freien RAM deines PCs übersteigt, da dieses abstürzen wird.

Persönlich habe ich mit den Llama-3-Modellen die beste Erfahrung gemacht. Eine kleine verallgemeinerte Übersicht:

Llama:

  • Entwickelt von Meta (Facebook)
  • Open-Source-Modell, d. h. der Code ist öffentlich zugänglich und kann von Entwicklern angepasst werden
  • Vielseitig einsetzbar, z. B. für kreatives Schreiben, Übersetzungen, Codegenerierung, Smalltalk
  • Stark in der Anpassungsfähigkeit: Kann leicht auf spezifische Aufgaben oder Datensätze trainiert werden

Gemma:

  • Entwickelt von Google
  • Basiert auf der gleichen Technologie wie Googles Gemini-Modelle
  • Fokus auf Textverständnis und -generierung
  • Besonders gut in Aufgaben wie Fragen beantworten, Zusammenfassungen und Schreiben

Llama ist flexibler, teils kreativer und anpassungsfähiger, während Gemma Stärken besonders beim Programmieren, Sprachverständnis und -generierung zeigt. Dies ist aber natürlich stark verallgemeinert, und gerade bei Llama gibt es viele speziell für gewisse Anwendungen angepasste Modelle.

 

Im Chat-Fenster

Das Chat-Fenster ist selbsterklärend. Oben wählst du das aktuelle Modell aus, das LM Studio nutzt, und unten gibst du deine Nachrichten ein.

Fertig! Nun sollte das System eine Antwort ausgeben. Allerdings gibt es ein paar Einstellungen, die du vornehmen könntest/solltest.

System Prompt

Im Fenster „System Prompt“ kannst du eine Art allgemeine, übergreifende Anweisung einfügen, beispielsweise „Du antwortest immer auf Deutsch“ oder, falls du irgendwelche anderen Charaktereigenschaften der KI festlegen willst, wie „Antworte besonders freundlich“ oder ähnliches.

Context Length

Die „Context Length“ definiert das „Erinnerungsvermögen“ der KI. Also wie viele Wörter, Befehle usw. du ihr in einer Konversation gegeben hast, die sich die KI für weitere Interaktionen gemerkt hat. Übersteigt die Context Length das festgelegte Limit, kann es passieren, dass die KI vorherige Informationen vergisst oder allgemein nur noch Unsinn ausgibt.

Die Context Length kannst du unter „Advanced Configuration“ festlegen und sollte dort im besten Fall immer dem Maximum des jeweiligen Modells entsprechen, meist 8192.

Weitere Einstellungen

Es gibt noch weitere Einstellungen unter „Advanced Configuration“, wie die Temperatur usw., welche du aber nicht zwingend verändern musst. Diese verändern primär, wie „kreativ“ die KI ist usw.

 

Wie hoch ist die Performance?

Zwar läuft LM Studio auf fast jedem Rechner, sofern du ausreichend RAM hast, aber die Performance steht natürlich auf einem anderen Blatt.

Hast du eine fähige Grafikkarte mit viel VRAM, dann antworten auch größere Modelle prompt. Hast du nur eine integrierte GPU und vielleicht einen schwachen Prozessor, können durchaus Minuten vergehen, bis eine Antwort kommt, vor allem, wenn du größere Modelle nutzt.

Allerdings habe ich die Erfahrung gemacht, dass die meisten KI-Chatbots auf aktuellen Systemen erstaunlich gut laufen.

Hier der Vergleich vom kleineren Modell Meta-Llama-3-8B-Instruct-Q4_K_M.gguf mit dem größeren QuantFactory/Meta-Llama-3-8B-Instruct-GGUF auf meinem System mit Ryzen 7700X CPU und RTX 3070.

 

Wirklich privat?

Sendet LM Studio deine Eingaben wirklich nicht an den Entwickler? Der Entwickler schreibt hier:

„TLDR: The app does not collect data or monitor your actions. Your data stays local on your machine.“

Und dies kann ich soweit bestätigen. Es gibt bei der Eingabe von Befehlen usw. keine Netzwerkaktivität. Entsprechend werden auch keine Daten oder Eingaben an den Entwickler/Hersteller übermittelt. So ist auch eine komplette Offline-Nutzung möglich, nachdem die entsprechenden Modelle einmalig heruntergeladen wurden.

 

Wie gut sind die Antworten?

Die Qualität der Antworten schwankt natürlich massiv, je nach gewähltem Modell usw. Diese schwanken zwischen furchtbar und erstaunlich gut.

Nein, die lokale KI kann gerade bei komplexeren Themen nicht mit ChatGPT mithalten, aber dennoch bin ich positiv angetan.

Hier einfach mal ein paar Beispiele für Antworten auf zufällige Fragen:

Fazit: Lokale Chat-KI mit Standard-Hardware – kein Problem!

Ich hoffe, dieser Artikel war interessant und inspiriert dich, auch mal LM Studio auszuprobieren und damit etwas herumzuspielen.

LM Studio macht dir die Nutzung eines lokalen, privaten KI-Chat-Assistenten wirklich kinderleicht!

Damit entlasse ich dich dann mit einer von der KI erstellten Zusammenfassung dieses Artikels:

„LM Studio ermöglicht es, einen privaten Chatbot zu erstellen, ohne besondere Hardware zu benötigen. Es gibt verschiedene KI-Modelle zur Auswahl und Einstellungen, um den Chatbot zu personalisieren. Die Performance hängt von der Hardware ab, aber die Antworten können stark variieren. Der Entwickler garantiert, dass keine Daten an den Hersteller gesendet werden.“

Transparenz / Info: In diesem Artikel sind Affiliate /Werbe Links enthalten. Solltest Du diese nutzen, dann wird Techtest am Verkaufserlös beteiligt, ohne das sich für Dich der Preis verändert. Als Amazon-Partner verdiene ich an qualifizierten Verkäufen. Dies ist eine wichtige Hilfe das hier auch in Zukunft neue Artikel entstehen können. 

Michael Barton
Michael Barton
Hi, hier schreibt der Gründer und einzige Redakteur von Techtest.org. Vielen Dank für das Lesen des Beitrags, ich hoffe dieser konnte dir weiterhelfen. Mehr Informationen über den Autor

Weitere spannende Artikel

Verwirrende mAh und Wh Angabe bei Powerbanks (3,7V oder 5V)

Ich glaube das verwirrendste Thema im Bereich der Powerbanks und Akkus ist sicherlich die Kapazitätsangabe. 99,9% aller Hersteller geben die Kapazität einer Powerbank in...

Wie haltbar sind Powerbanks? Kapazitätsmessung nach 7 Jahren

Du hast dir gerade eine frische neue Powerbank gekauft und fragst dich nun, wie lange diese wohl halten wird. Genau dieser Frage versuchen wir...

DIY Off Grid Solaranlage, möglichst einfach und günstig selbst bauen, wie ich es gemacht habe!

Vielleicht hast du schon einmal mit dem Gedanken gespielt eine kleine Off Grid Solaranlage selbst zu bauen. Aber wie geht das und was brauchst...

Neuste Beiträge

Black Friday Angebote

Es geht auf Weihnachten zu und die Händler überschlagen sich mit angeboten vor und zum “Black Friday”.  Auch Amazon hat die Black Friday Woche gestartet...

INIU P63-E1 Powerbank mit TinyCells im Test (25.000 mAh / 100 W)

INIU macht weiter mit dem Schrumpfen seiner Powerbanks. So hat es nun die BI-B63 erwischt, welche mit den neuen INIU TinyCells ausgestattet wurde. Die INIU...

Reolink RLC-811A Test – 5x Zoom, 4K-Qualität, zuverlässige KI Erkennung und lokale Speicherung (PoE)

Überwachungskameras mit einem optischen Zoom sind eher selten, bieten aber eine tolle Flexibilität – besonders, wenn du auf Distanz beispielsweise Durchgänge oder Ähnliches überwachen...

Wissenswert

Was ist PPS und AVS? USB Power Delivery Ladegeräte mit PPS, Übersicht und Info

USB Power Delivery Ladegeräte sind nichts Neues mehr. Es gibt hunderte Modelle auf dem Markt, und diese sind mittlerweile der de-facto-Standard. Auch fast alle Smartphone-Hersteller...

Stromsparender und Leistungsstarker Desktop für Office, Foto und Video-Bearbeitung (Ryzen 8000)

Aufgrund der aktuellen Strompreise und Umweltbedenken ist der Stromverbrauch von Computern ein zunehmend wichtiger Faktor. Gerade dann, wenn der PC über viele Stunden im Leerlauf...

Die besten leichten Powerbanks, ideal fürs Wandern! 2024

Gerade wenn du viel unterwegs bist, ist leichtes Gepäck etwas sehr wichtiges und angenehmes. So konzentrieren wir uns bei techtest in der Regel eher...

2 Kommentare

  1. Spannender Artikel und erstaunlich, wie fortgeschritten die LM-Modelle auf einem handelsüblichen PC schon sind, das überrascht mich.

Kommentieren Sie den Artikel

Bitte geben Sie Ihren Kommentar ein!
Bitte geben Sie hier Ihren Namen ein

Diese Website verwendet Akismet, um Spam zu reduzieren. Erfahre mehr darüber, wie deine Kommentardaten verarbeitet werden.