⚠️ Hybrid Zuletzt geprüft: Juni 2026

Llama

Meta Platforms, Inc.

4/5

Metas Open-Weight-LLM-Familie und das meistverbreitete frei verfügbare Sprachmodell der Welt. Llama 4 (Scout und Maverick, 2025 veröffentlicht) ist nativ multimodal mit einem 10-Millionen-Token-Kontext, Llama 3.3 70B liefert die Qualität früherer 405-Milliarden-Modelle bei deutlich kleinerem Footprint. Frei herunterladbar, lokal über Ollama oder vLLM lauffähig, via AWS Bedrock, Azure AI Foundry, Together.ai oder Groq als Hosted API verfügbar. Strategischer Hebel für DSGVO-Compliance und Vendor-Unabhängigkeit, mit Einschränkungen bei der Lizenz und ohne deutschen Support.

Kosten: Modellgewichte kostenlos herunterladbar unter Llama Community License. Eigene Hardware oder Cloud-Compute zahlst du selbst. Hosted API-Preise variieren stark: Together.ai ca. 1,04 USD/Mio. Tokens für Llama 3.3 70B, Groq mit 0,59 USD Input / 0,79 USD Output, Llama 4 Scout bei Groq ab 0,11 USD Input, AWS Bedrock und Azure AI Foundry mit Pay-per-Token-Modell. Meta selbst betreibt eine Llama API in Beta (Warteliste).

Stärken

Echte Open-Weight-Modelle, Gewichte herunterladbar, lokal oder on-premises betreibbar
Nativ multimodale Llama-4-Modelle (Scout, Maverick) mit 10-Mio.-Token-Kontextfenster
Riesiges Ökosystem an Hosting-Anbietern (AWS, Azure, Together.ai, Groq, Fireworks), kein Vendor-Lock-in
Läuft lokal auf Standard-Hardware via Ollama, llama.cpp oder vLLM, keine Cloud zwingend nötig
Massive Community: Tausende Fine-Tunes, Tools, Tutorials und produktive Deployments
Llama 3.3 70B liefert 405B-Qualität bei einem Bruchteil der Hardware-Kosten

Einschränkungen

Llama Community License ist nicht echte Open Source, Klausel für Anbieter mit über 700 Mio. monatlichen Nutzern verlangt Sonderlizenz
Meta ist US-Konzern, wer Hosted-APIs nutzt, landet je nach Anbieter wieder im US-Datenraum
Kein dediziertes Consumer-Produkt vergleichbar mit ChatGPT oder Le Chat, Llama ist primär Modell, nicht Tool
Kein offizieller deutscher Support, keine deutschsprachige Dokumentation
Spitzen-Benchmarks erreichen Llama-Modelle nicht, sie liegen hinter GPT-5, Claude Opus oder Gemini 2.5 Pro
Llama 4 Behemoth (das angekündigte Spitzenmodell) wurde mehrfach verschoben, Frontier-Anspruch noch nicht eingelöst

Passt gut zu

On-Premises Open-Source DSGVO-sensitive Branchen Forschung Edge-Deployment Vendor-Diversifikation

Wann ja, wann nein

Wann ja

Du willst ein leistungsfähiges LLM ohne Vendor-Lock-in im eigenen Rechenzentrum betreiben
Du brauchst maximale Datensouveränität, keine Daten verlassen die eigene Infrastruktur
Du willst Hosting-Anbieter frei wählen und bei Bedarf wechseln
Du forschst, lehrst oder fine-tunest Modelle für eine domänenspezifische Anwendung

Wann nein

Du brauchst ein fertiges Consumer-Produkt mit Chat-UI, Memory und Plugin-Ökosystem
Du willst absolute Spitzenleistung in komplexen Reasoning-Benchmarks
Du brauchst deutschsprachigen Support oder eine deutsche Vertragsbeziehung
Du hast weder GPU-Hardware noch Budget für ernsthafte Cloud-Compute-Kosten

Kurzfazit

Llama ist Metas Antwort auf OpenAI und Anthropic, und gleichzeitig die wichtigste Open-Weight-LLM-Familie der Welt. Wo ChatGPT und Claude proprietär hinter API-Türen sitzen, kannst du Llama herunterladen, auf eigener Hardware betreiben, fine-tunen und in beliebige Workflows einbauen. Llama 4 Scout und Maverick (2025 veröffentlicht) bringen native Multimodalität und ein 10-Millionen-Token-Kontextfenster, Llama 3.3 70B liefert die Qualität, für die du noch vor einem Jahr ein 405-Milliarden-Parameter-Modell gebraucht hättest. Schwächen: Die Lizenz ist nicht ganz frei, kein deutscher Support, und an die absolute Frontier-Spitze reichen die Modelle aktuell noch nicht.

Für wen ist Llama?

Unternehmen mit DSGVO- und Souveränitätsanforderungen: Wer Daten unter keinen Umständen einem US-Cloud-Anbieter überlassen darf, Anwälte, Steuerberater, Ärzte, Behörden, Banken, Verteidigung, bekommt mit Llama eine echte On-Premises-Option. Modell herunterladen, im eigenen Rechenzentrum hosten, fertig. Kein AVV mit OpenAI oder Anthropic, keine Cloud-Region-Diskussion, keine US-Subpoena-Risiken.

Plattform- und Produktteams: Wer KI-Funktionen in das eigene SaaS-Produkt einbaut, sollte sich Llama ernsthaft anschauen. Über Together.ai, Groq oder Fireworks bekommst du Hosted-APIs zu deutlich niedrigeren Token-Preisen als bei OpenAI, und kannst bei Bedarf den Anbieter wechseln, weil das Modell standardisiert ist. Vendor-Lock-in als strategisches Risiko verschwindet.

Forscher und Akademiker: Open Weights bedeuten reproduzierbare Forschung, frei zugängliche Architektur-Details und die Möglichkeit, Modelle zu sezieren, zu fine-tunen oder mit eigenen Methoden weiterzutrainieren. Für Universitäten, Forschungsinstitute und KI-Labs ist Llama die naheliegende Basis.

Edge- und Embedded-Deployments: Llama 3.2 1B und 3B sind klein genug, um auf Smartphones, Edge-Devices oder ressourcenarmen Servern zu laufen. Llama 4 Scout ist explizit für eine einzelne H100-GPU optimiert. Wer KI dort braucht, wo keine zuverlässige Cloud-Verbindung existiert, hat hier eine ernsthafte Option.

Mittelstand mit IT-Kompetenz: Wer eine eigene IT-Mannschaft hat und MLOps nicht scheut, kann mit Llama eine echte Inhouse-LLM-Strategie aufbauen, DSGVO-sauber, kostenkontrolliert, anbieterunabhängig. Das verlangt Investitionen, ist aber strategisch oft sinnvoller als die zehnte SaaS-Subscription.

Weniger geeignet für: Wer ein fertiges Consumer-Tool sucht (Llama hat keins, Meta AI als Chatbot ist nicht in der EU verfügbar), wer keine technische Mannschaft hat, die mit Modell-Hosting umgehen kann, und wer absolute Frontier-Spitzenleistung in komplexen Reasoning-Benchmarks braucht.

Preise im Detail

Llama selbst ist als Modell kostenlos unter der Llama Community License. Bezahlt wird ausschließlich für Compute, entweder eigene Hardware oder ein Hosting-Anbieter.

Hosting-Optionen im Überblick (Mai 2026, Richtwerte)

Pfad	Kosten (Llama 3.3 70B)	DSGVO-Pfad	Wann sinnvoll
Selbst-Hosting	Hardware (z. B. H100-Cluster ab ca. 30.000 EUR) + Strom	Optimal, Daten bleiben im Haus	On-Premises, höchste Souveränität
Together.ai (API)	~1,04 USD/Mio. Input und Output	US-Anbieter, EU-AVV verfügbar	Schnelles Hosting, breite Modellauswahl
Groq (API)	0,59 USD/Mio. Input, 0,79 USD/Mio. Output (Llama 4 Scout ab 0,11 USD Input)	US-Anbieter, sehr schnelle Inferenz	Latenz-kritische Use Cases
AWS Bedrock	Pay-per-Token, vergleichbar mit Together	Frankfurt-Region möglich, AWS-AVV	Bestehende AWS-Landschaft
Azure AI Foundry	Pay-per-Token	EU-Regionen verfügbar, Azure-AVV	Microsoft-Stack, Enterprise-Compliance
Llama API (Meta)	Beta, Warteliste	US-gehostet	Wenn man direkt bei Meta bleiben will

Selbst-Hosting realistisch

Modell	Mindest-VRAM (FP16)	Mindest-VRAM (4-bit quantisiert)	Geeignete Hardware
Llama 3.2 1B / 3B	4–8 GB	2–4 GB	MacBook, Edge-Device
Llama 3.3 70B	~140 GB	~40 GB	2× A100 80GB oder 4× RTX 4090
Llama 4 Scout	~200 GB	~70 GB	1× H100 (mit Quantisierung)
Llama 4 Maverick	~800 GB+	~250 GB+	Mehrere H100/H200, MoE-Architektur

Einordnung: Für die meisten Geschäftsaufgaben ist Llama 3.3 70B der Sweetspot, sehr nahe an Frontier-Qualität, aber auf einer überschaubaren GPU-Konfiguration lauffähig. Wer Hosted nutzt, zahlt bei Groq oder Together.ai für Llama 3.3 70B (rund 0,59 bis 1,04 USD je Mio. Tokens) deutlich weniger als für ein vergleichbar leistungsstarkes proprietäres Frontier-Modell, und Llama 4 Scout liegt bei Groq mit ab 0,11 USD Input noch einmal darunter. Selbst-Hosting lohnt sich erst bei hohem Token-Volumen oder wenn Souveränität nicht verhandelbar ist, die Investition in Hardware, MLOps und Wartung muss sich gegenüber der API rechnen.

Stärken im Detail

Open Weights als strategischer Hebel. Du kannst die Modellgewichte über llama.com/llama-downloads oder Hugging Face herunterladen, im eigenen Rechenzentrum betreiben, fine-tunen und kommerziell einsetzen. In der westlichen Foundation-Lab-Welt ist das eine kleine Liga: Mistral und Meta sind die einzigen ernsthaften Anbieter mit dieser Strategie. Für Unternehmen, die Vendor-Lock-in als Risiko bewerten, Banken, Versicherungen, kritische Infrastruktur, Behörden, ist diese Eigenschaft oft mehr wert als ein paar Benchmark-Punkte mehr.

Native Multimodalität in Llama 4. Scout und Maverick wurden von Anfang an mit Text und Bildern gemeinsam vortrainiert (Early Fusion). Das ist architektonisch sauberer als nachträglich aufgesetzte Vision-Module und liefert in Bild-Reasoning-Aufgaben oft bessere Ergebnisse. Das 10-Millionen-Token-Kontextfenster ist branchenführend, du kannst ganze Buchreihen, komplette Code-Repositories oder mehrjährige E-Mail-Verläufe in einem Aufruf verarbeiten.

Gigantisches Ökosystem. Llama ist das mit Abstand am häufigsten heruntergeladene LLM. Auf Hugging Face existieren tausende Fine-Tunes für spezifische Domänen (Medizin, Recht, Code, einzelne Sprachen). Tools wie Ollama, llama.cpp, vLLM, LM Studio, Text Generation WebUI machen Deployment trivial. Hosted-APIs gibt es bei Together.ai, Groq, Fireworks, Replicate, AWS, Azure, Vertex AI, Wettbewerb sorgt für niedrige Preise und schnelle Innovation.

Llama 3.3 70B als Effizienz-Sprung. Meta hat mit Llama 3.3 70B gezeigt, dass cleveres Post-Training und Daten-Curation einem 70-Milliarden-Modell die Qualität eines 405-Milliarden-Modells geben können. Für Selbst-Hoster ist das ein Game-Changer: Statt einen Cluster mit acht H100 zu brauchen, reichen zwei A100, die Hardware-Kosten fallen um Faktor fünf bei vergleichbarer Output-Qualität.

Edge- und kleine Modelle. Llama 3.2 1B und 3B sind klein genug, um lokal auf einem MacBook, einem Smartphone oder einem Raspberry Pi mit Beschleuniger zu laufen. Für Privacy-First-Anwendungen, Offline-Szenarien oder Embedded-Use-Cases ist das ein Differenzierungsmerkmal, das proprietäre Frontier-Labs gar nicht anbieten.

Llama Protections für Sicherheit. Meta veröffentlicht parallel zu den Hauptmodellen Sicherheitswerkzeuge, historisch unter „Purple Llama” gebündelt (Llama Guard für Input/Output-Filterung, CyberSec Eval, Code Shield). Aktuell läuft das unter „Llama Protections” und „Llama Defenders Program”. Für Produktiv-Deployments ist das eine wertvolle Komponente, die du sonst selbst bauen müsstest.

Schwächen ehrlich betrachtet

Lizenz ist nicht echte Open Source. Die Llama Community License ist liberal, kommerzielle Nutzung ist erlaubt, Forschung sowieso, aber sie hat einen entscheidenden Haken: Anbieter mit mehr als 700 Millionen monatlich aktiven Nutzern brauchen eine separate Lizenz von Meta. Das ist ein „Anti-Hyperscaler”-Riegel, der praktisch nur Google, Amazon, Microsoft und Apple trifft, aber er macht Llama formell zu „Open Weights mit Auflagen” und nicht zu Open Source im Sinne der OSI-Definition. Mistral mit Apache 2.0 ist hier sauberer.

Meta ist US-Konzern mit Datenhistorie. Wer die Modelle herunterlädt und selbst hostet, hat mit Meta nichts mehr zu tun, perfekt. Wer aber die Llama API direkt nutzt oder Hosted-Anbieter wählt, landet in US-Datenräumen. Und Meta hat in Europa eine bewegte Datenschutz-Historie (Cambridge Analytica, mehrere DSGVO-Bußgelder). Vorsicht ist berechtigt, auch wenn das geöffnete Modell selbst kein Datenproblem ist.

Kein Consumer-Tool wie ChatGPT. Meta AI gibt es als Chatbot-App, aber sie ist in der EU bisher nicht vollständig verfügbar (Datenschutz-Streitigkeiten). Für Endnutzer, die einfach „mal mit Llama chatten” wollen, gibt es keinen offiziellen, einfachen, EU-tauglichen Weg von Meta selbst. Der Umweg läuft über Drittanbieter (Together.ai-Playground, Groq, Hugging Face Chat, lokale Tools).

Kein deutscher Support. Dokumentation ist Englisch, Community ist global, Vertragsbeziehungen mit Meta gibt es für die kostenlosen Modelle gar nicht. Wer einen deutschsprachigen Ansprechpartner mit AVV unter deutschem Recht braucht, geht zu Mistral oder Aleph Alpha.

Frontier-Spitze noch nicht erreicht. Llama 4 Behemoth, das angekündigte Spitzenmodell mit über 2 Billionen Parametern, wurde mehrfach verschoben. Die aktuell verfügbaren Llama-Modelle liegen in den meistreferenzierten Benchmarks (MMLU-Pro, GPQA, AIME, HumanEval) hinter GPT-5, Claude Opus 4 und Gemini 2.5 Pro. Für die meisten Geschäftsaufgaben spielt das keine Rolle, aber wer absolutes Reasoning-Spitzenniveau braucht, nimmt eines der proprietären Frontier-Modelle.

Selbst-Hosting verlangt MLOps-Kompetenz. Llama herunterzuladen ist trivial. Es performant, sicher, mit Monitoring, Updates und Skalierung zu betreiben, ist es nicht. Wer keine Mannschaft mit GPU-Erfahrung, vLLM-Know-how und MLOps-Praxis hat, unterschätzt schnell den Aufwand und landet bei suboptimaler Performance oder ungeplanten Hardware-Kosten.

Alternativen im Vergleich

Wenn du…	…nimm stattdessen
Eine echte Apache-2.0-Lizenz und EU-Vertragspartner brauchst	Mistral AI
Lokales Hosting maximal einfach willst (Llama, Mistral, Gemma in einem Tool)	Ollama
Eine deutsche Foundation-Lab-Beziehung mit AVV unter deutschem Recht willst	Aleph Alpha
Den breitesten Funktionsumfang als Hosted-Consumer-Produkt suchst	ChatGPT
Spitzen-Schreibqualität und langes Kontextverständnis als Hosted-Service brauchst	Claude

Auch erwähnenswert ohne eigene Tool-Seite: DeepSeek (chinesisches Open-Weight-Modell mit aggressivem Preis-Leistungs-Verhältnis und MIT-Lizenz für die Gewichte), Qwen von Alibaba (ebenfalls Open-Weight, stark in mehrsprachigen und Coding-Benchmarks), Gemma von Google (kleinere Open-Weight-Familie). Im westlichen Markt bleibt Llama das dominante Open-Weight-Modell, wer Open-Weight-LLMs evaluiert, beginnt fast immer hier und vergleicht dann mit Mistral und DeepSeek.

So steigst du ein

Schritt 1: Lokal mit Ollama testen. Installiere Ollama auf deinem Rechner (brew install ollama auf macOS, eine Zeile auf Linux). Lade ein passendes Llama-Modell, ollama run llama3.3 für das 70B-Flaggschiff (verlangt 40+ GB RAM mit Quantisierung) oder ollama run llama3.2:3b für ein leichtgewichtiges Modell, das auf jedem MacBook läuft. Du hast in fünf Minuten einen funktionierenden lokalen LLM-Stack.

Schritt 2: Hosted-API über Together.ai oder Groq probieren. Wenn lokales Setup zu schwer ist, registriere dich auf together.ai oder groq.com, erstelle einen API-Key und ruf Llama 3.3 70B über die OpenAI-kompatible API auf. Ein Credit von 5 USD reicht für Wochen Experimentieren. Vergleiche die Geschwindigkeit (Groq ist deutlich schneller als die meisten anderen Anbieter) und die Antwortqualität direkt mit deinen ChatGPT- oder Claude-Antworten.

Schritt 3: Für ernsthaften Produktiveinsatz, Hardware oder Cloud-Compute planen. Bevor du Llama in ein produktives Setup gibst, klär drei Fragen: (1) Welcher Modellgröße brauchst du wirklich (3B, 8B, 70B, Llama 4 Scout)? (2) Selbst-Hosting oder Hosted-API? (3) Bei Selbst-Hosting: Welche GPU, welcher Inference-Server (vLLM ist der De-facto-Standard), welches Monitoring? Plane für ein Produktiv-70B-Setup mindestens 50.000–80.000 EUR Hardware-Investment plus laufende MLOps-Kosten oder rechne durch, ob Hosted bei deinem Token-Volumen günstiger ist.

Ein konkretes Beispiel

Eine mittelgroße Anwaltskanzlei in Stuttgart (rund 80 Berufsträger, Schwerpunkt Wirtschaftsrecht) wollte einen KI-Assistenten für Vertragsanalyse, Schriftsatzentwürfe und interne Recherche einführen. ChatGPT Enterprise schied wegen US-Hosting und Berufsgeheimnis-Bedenken aus, Mistral war eine Option, aber die Geschäftsführung wollte vollständige Souveränität ohne externen Vertragspartner. Die Wahl fiel auf Llama 3.3 70B im Selbst-Hosting. Die IT-Abteilung beschaffte zwei NVIDIA A100 80GB Server (ca. 60.000 EUR), installierte vLLM als Inference-Server, integrierte das Modell über eine OpenAI-kompatible API in eine intern entwickelte Web-Oberfläche und ergänzte Llama Guard für Input/Output-Filterung. Ergebnis nach 9 Monaten: Vertragsanalysezeit um 35 % reduziert, etwa 12 Stunden pro Berufsträger und Monat eingespart, keine einzige Mandantendatenzeile verlässt das Kanzlei-Netz. Die Hardware amortisierte sich gegen die hypothetischen API-Kosten in unter 14 Monaten, und die Kanzlei kann gegenüber Mandanten und der Anwaltskammer eine vollständig nachvollziehbare Datenverarbeitung dokumentieren.

DSGVO & Datenschutz

Anbieter: Meta Platforms, Inc., Sitz Menlo Park, Kalifornien (USA). Für die EU-Niederlassung: Meta Platforms Ireland Ltd., Dublin.
Datenhosting (Selbst-Hosting): Vollständig unter eigener Kontrolle, Daten verlassen die eigene Infrastruktur nicht. Dies ist der DSGVO-saubere Pfad.
Datenhosting (Hosted-API): Hängt vom gewählten Anbieter ab. AWS Bedrock und Azure AI Foundry bieten EU-Regionen (Frankfurt, Irland), Together.ai und Groq sind primär US-gehostet, bieten aber EU-AVV.
Datennutzung: Bei Selbst-Hosting irrelevant (kein Datenfluss an Meta). Bei der Llama API von Meta selbst gilt die Meta-Privacy-Policy, Vorsicht geboten, AVV prüfen.
Lizenz-Hinweis: Die Llama Community License erlaubt kommerzielle Nutzung, verlangt aber Attribution („Built with Llama”) und enthält die 700-Mio.-MAU-Klausel sowie Acceptable-Use-Policy-Bindung.
Empfehlung für Unternehmen: Für DSGVO-sensitive Branchen (Recht, Medizin, Finanzen, Behörden) ist Selbst-Hosting der Goldstandard, keine Daten verlassen das Haus, kein US-Anbieter im Vertrag, vollständige Auditfähigkeit. Für Hosted-Pfade ist AWS Bedrock in Frankfurt mit Standardvertragsklauseln und dokumentierter Datenschutz-Folgenabschätzung der pragmatischste Weg.

Gut kombiniert mit

Ollama, der einfachste Weg, Llama lokal auf Entwickler-Laptops oder internen Servern zu betreiben. Ein-Zeilen-Installation, Modell-Management wie ein Container-Registry, REST-API für die Integration in eigene Anwendungen. Für Prototyping und sensible Datenexploration unschlagbar.
Mistral AI, als zweite Open-Weight-Säule im Stack absichernd. Wer Vendor-Diversifikation auch innerhalb der Open-Weight-Welt will, kombiniert Llama (US-Provenienz, riesiges Ökosystem) mit Mistral (EU-Provenienz, Apache-2.0-Lizenz) und routet Aufgaben nach Anforderungsprofil.
Hugging Face, Llama-Modelle, Fine-Tunes, Datasets und Tools liegen größtenteils auf Hugging Face. Für ernsthafte LLM-Arbeit (Modellauswahl, Fine-Tuning, Hosting via Inference Endpoints) ist Hugging Face die Drehscheibe, an der man kaum vorbeikommt.

Unser Testurteil

Llama verdient 4 von 5 Sternen. Das Modell ist die wichtigste Open-Weight-LLM-Familie der Welt, hat ein einzigartig großes Ökosystem und gibt Unternehmen mit Souveränitätsanspruch eine echte Alternative zu den proprietären Frontier-Labs. Die Leistung von Llama 3.3 70B und die Multimodalität von Llama 4 Scout sind beeindruckend, das 10-Mio.-Token-Kontextfenster ist branchenführend, und die Möglichkeit, Modelle vollständig on-premises zu betreiben, ist für DSGVO-getriebene Tool-Auswahl Gold wert. Den fünften Stern verliert Llama aus drei Gründen: Die Lizenz ist mit der 700-Mio.-MAU-Klausel formal nicht echte Open Source, Meta als US-Konzern hat keine deutsche Vertragsbeziehung, und an die absolute Frontier-Spitze reichen die Modelle aktuell nicht heran. Für jede Open-Weight-Strategie im westlichen Markt ist Llama dennoch die naheliegendste Basis, und in Kombination mit Selbst-Hosting der DSGVO-sauberste Pfad zu leistungsfähiger KI im Unternehmen.

Was wir bemerkt haben

Februar 2023, Llama 1 wurde ursprünglich nur an Forscher unter strenger Lizenz veröffentlicht. Wenige Tage nach Release leakten die Gewichte ins offene Netz, und Meta entschied sich daraufhin, beim Nachfolger gleich auf eine offene Strategie zu setzen. Dieser Leak gilt heute als einer der wichtigsten Wendepunkte in der Demokratisierung von Foundation Models.
Juli 2023, Llama 2 erschien als erstes kommerziell nutzbares Open-Weight-Modell von Meta. Die Llama Community License mit der 700-Mio.-MAU-Klausel wurde hier eingeführt und ist seitdem Branchen-Diskussionsthema, sie ist liberal genug für 99 % der Anwender, aber nicht OSI-konform.
2024, Llama 3 (8B, 70B, 405B) hob die Open-Weight-Welt qualitativ auf das Niveau der proprietären Frontier-Modelle. Llama 3.1 405B war kurzzeitig das größte frei verfügbare Sprachmodell der Welt. Die Veröffentlichung trieb auch die Konkurrenz (Mistral, DeepSeek) zu offeneren Strategien.
September 2024, Llama 3.2 brachte erstmals multimodale Llama-Varianten (11B, 90B mit Vision) sowie kleine Edge-Modelle (1B, 3B). Damit deckte Llama auf einen Schlag das gesamte Spektrum vom Smartphone bis zum Frontier-Cluster ab.
Dezember 2024, Llama 3.3 70B veröffentlicht, mit der bemerkenswerten Eigenschaft, die Qualität von Llama 3.1 405B bei einem Sechstel der Modellgröße zu erreichen. Für Selbst-Hoster war das ein Effizienz-Sprung, der die Hardware-Anforderungen für ernsthafte LLM-Arbeit drastisch senkte.
April 2025, Llama 4 Scout und Maverick veröffentlicht, nativ multimodal, Mixture-of-Experts-Architektur, 10-Mio.-Token-Kontextfenster. Das angekündigte Spitzenmodell Behemoth (über 2 Billionen Parameter) wurde verschoben und ist Stand Mai 2026 weiterhin nicht öffentlich. Meta zeigt damit, dass auch Foundation-Lab-Roadmaps an physischen Trainings-Realitäten scheitern können.
2025, Meta hat das Sicherheits-Toolkit „Purple Llama” in „Llama Protections” und „Llama Defenders Program” umstrukturiert. Funktional ähnlich (Llama Guard für I/O-Filterung, CyberSec Eval, Code Shield), aber neue Marken-Architektur, Käufer müssen sich orientieren.
Mai 2026, Eine native EU-Verfügbarkeit der Meta-AI-Consumer-App existiert weiterhin nicht in vollem Umfang. Wer Llama als Endnutzer „mal ausprobieren” will, geht den Umweg über Together.ai-Playground, Groq, Hugging Face Chat oder lokale Tools wie Ollama. Die Llama-Modelle selbst sind davon nicht betroffen, die Gewichte sind weltweit verfügbar.

Quellen

Llama – Llama 4 Modellübersicht. https://www.llama.com/llama4/ (abgerufen am 2026-06-13). Llama 4 Scout und Maverick sind nativ multimodal mit 10-Mio.-Token-Kontextfenster; Scout läuft auf einer einzelnen H100-GPU.
Llama – Modellfamilie. https://www.llama.com/ (abgerufen am 2026-06-13). Verfügbare Modelle: Llama 4 (Scout, Maverick), Llama 3.3 70B, Llama 3.2 (1B/3B/11B/90B, 11B+90B multimodal), Llama 3.1 (8B/70B/405B); Behemoth nicht aufgeführt.
Llama 4 Community License Agreement. https://www.llama.com/llama4/license/ (abgerufen am 2026-06-13). 700-Mio.-MAU-Klausel verlangt Sonderlizenz von Meta, Attributionspflicht 'Built with Llama', kommerzielle Nutzung erlaubt, Bindung an Acceptable Use Policy.
Together AI – Preisübersicht. https://www.together.ai/pricing (abgerufen am 2026-06-13). Llama 3.3 70B Serverless Inference: ca. 1,04 USD/Mio. Tokens Input und Output.
Groq – Preisübersicht. https://groq.com/pricing (abgerufen am 2026-06-13). Llama 3.3 70B: 0,59 USD Input / 0,79 USD Output je Mio. Tokens; Llama 4 Scout: 0,11 USD Input / 0,34 USD Output.

Diesen Inhalt teilen:

LinkedIn X / Twitter E-Mail WhatsApp

Arthur Atlas

KI-Analyst

So entsteht diese Bewertung

Diese Seite bewerten wir redaktionell, mit kräftiger Unterstützung von Arthur Atlas, unserem KI-Analysten. Er prüft Bewertungen nach und markiert veraltete Angaben, sobald sich der Markt dreht. Unsere Angaben stammen überwiegend aus öffentlich zugänglichen Quellen wie Anbieter-Website, Doku und Preislisten. Preise und Funktionen können sich ändern.

Hinweis: Diese Angaben können veraltet oder fehlerhaft sein. Prüfe im Zweifel immer direkt auf der Website des Anbieters.

Preise geändert, Feature veraltet oder etwas fehlt?

Wir freuen uns über Hinweise und Ergänzungen.

Feedback geben

Du arbeitest bei Meta Platforms, Inc.?

Gib uns einen Testzugang, dann schauen wir tiefer rein und ergänzen die Bewertung aus erster Hand.

Testzugang anbieten

Nicht sicher, ob Llama zu euch passt?

Wir helfen bei der Tool-Auswahl und begleiten die Einführung in euren Arbeitsalltag, unverbindlich und kostenlos im Erstgespräch.

Erstgespräch anfragen

KI-Tools und Trends

KI-Wochenbriefing: jeden Freitag KI-News, Praxistipps und Tools

Kostenlos abonnieren, jederzeit abmeldbar, kein Spam.

Newsletter abonnieren

Zurück zur Tool-Übersicht