Zum Inhalt springen
Bezahlt 🇩🇪 Deutschsprachig 🇪🇺 EU-Server Geprüft: April 2026

Azure AI Search

Microsoft

4/5
Tool öffnen

Microsofts Managed-Search-Service als Rückgrat vieler Enterprise-RAG-Architekturen. Kombiniert Volltext-, Vektor-, Hybrid- und semantische Suche mit EU-Hosting in Frankfurt, Amsterdam und Zürich — tief integriert mit Azure OpenAI, SharePoint und Microsoft Foundry. Bis Ende 2023 unter dem Namen Azure Cognitive Search bekannt.

Kosten: Free-Tier (50 MB, 1 Service pro Abonnement), Basic ab ca. 74 USD/Monat, Standard S1 ab 245 USD, S2 ab 981 USD, S3 ab 1.962 USD, Storage-Optimized L1 ab 2.802 USD, L2 ab 5.604 USD. Semantic Ranker: 1.000 Anfragen/Monat frei, dann 1 USD pro 1.000. Agentic Retrieval (Preview): 0,022 USD/1 Mio. Tokens, erste 50 Mio. Tokens/Monat frei.

Stärken

  • Echtes Hybrid Retrieval (BM25 + Vektor + semantisches Reranking) in einem Dienst
  • EU-Hosting in Frankfurt, Amsterdam, Zürich, Stockholm, Paris — voll DSGVO-tauglich
  • Nahtlose Integration mit Azure OpenAI, SharePoint, Blob Storage, Cosmos DB, OneLake
  • Enterprise-Security: Entra ID, Private Link, RBAC, dokumentbasierte Zugriffsrechte
  • Integrated Vectorization — Embeddings werden automatisch beim Indexieren erzeugt

Einschränkungen

  • Azure-Bindung — kein Multi-Cloud-Deployment, Lock-in in Microsoft-Ökosystem
  • Fixpreismodell pro Search Unit: schon der Basic-Tier kostet rund 74 USD/Monat, auch wenn leerstehend
  • Preise steigen schnell: S1 (245 USD) ist Einstieg für produktive RAG-Workloads, S3 fast 2.000 USD
  • Komplexes Azure-Portal — Ersteinrichtung (Skillsets, Indexer, Vektorisierer) braucht Einarbeitung
  • Agentic Retrieval derzeit noch Public Preview mit regionalen Einschränkungen

Passt gut zu

Unternehmen mit Microsoft-Stack (Microsoft 365, Azure, SharePoint) Produktive RAG-Anwendungen mit Azure OpenAI Wissensdatenbanken mit hohen Security- und Compliance-Anforderungen Enterprise-Suche über mehrere Datenquellen (Blob, Cosmos, SharePoint)

Wann ja, wann nein

Wann ja

  • Du baust eine produktive RAG-Anwendung auf Azure OpenAI
  • Dein Unternehmen ist ohnehin auf Azure und braucht EU-Hosting
  • Du brauchst Hybrid Search mit dokumentbasierten Berechtigungen
  • Du willst Embeddings, Chunking und Indexierung in einem Dienst

Wann nein

  • Du willst Cloud-unabhängig bleiben (dann besser Elasticsearch, Weaviate)
  • Du hast einen einfachen Vektor-Use-Case und kleines Budget (Pinecone Serverless ist günstiger)
  • Du brauchst Volltextsuche ohne Vektoren in einem kleinen Projekt (Meilisearch oder Typesense reichen)
  • Deine Infrastruktur läuft auf AWS oder GCP — Azure-Lock-in wäre Ballast

Kurzfazit

Azure AI Search ist die naheliegende Wahl, wenn dein Unternehmen ohnehin auf Microsoft setzt und du produktive RAG-Anwendungen mit Azure OpenAI bauen willst. Der Dienst kombiniert klassische Volltextsuche, Vektor-Retrieval und ein Microsoft-eigenes semantisches Reranking in einem verwalteten Paket — mit EU-Hosting in Frankfurt, Amsterdam oder Zürich. Dafür zahlst du einen Aufpreis: Schon der Einstiegstarif für produktive Workloads (Standard S1) kostet rund 245 USD pro Monat, und du bist fest im Azure-Ökosystem verankert. Wer Cloud-Neutralität will oder einen einfachen, günstigen Vektor-Store sucht, ist mit Pinecone oder Weaviate besser bedient.

Enterprise-Entwicklungsteams im Microsoft-Stack: Wenn euer Unternehmen bereits Microsoft 365, SharePoint und Azure nutzt, ist Azure AI Search die logische Suchschicht. Entra-ID-Authentifizierung, dokumentbasierte Berechtigungen und SharePoint-Indexer funktionieren ohne Custom Code.

RAG-Architekten für produktive Anwendungen: Wer einen Chatbot oder Copilot auf proprietären Unternehmensdaten aufbaut, bekommt mit Azure AI Search Hybrid Retrieval (BM25 + Vektor + semantisches Reranking) und die direkte Koppelung an Azure OpenAI. Die “Integrated Vectorization” erzeugt Embeddings beim Indexieren automatisch — ohne separates Embedding-Backend.

Compliance-getriebene Branchen: Banken, Versicherungen, Gesundheitswesen und Öffentliche Hand finden hier EU-Datenresidenz, AVV, Private Link, Customer-Managed Encryption Keys und in ausgewählten Regionen (Schweiz Nord, UK Süd, Italien Nord) auch Confidential Computing.

Plattformteams mit mehreren Datenquellen: Wer SharePoint, Azure Blob, Cosmos DB und OneLake gemeinsam durchsuchbar machen will, bekommt fertige Indexer statt selbstgebauter ETL-Pipelines.

Weniger geeignet für: Startups mit knappem Budget (Fixkosten ab ca. 74 USD/Monat ohne Nutzung), Cloud-agnostische Architekturen, einfache Semantik-Suche ohne Enterprise-Features (Pinecone oder Weaviate sind hier schlanker) und Teams ohne Azure-Erfahrung, für die die Einarbeitung ins Portal zum Stolperstein wird.

Preise im Detail

Azure AI Search rechnet nach “Search Units” (SU). Eine SU ist eine Partition plus eine Replik. Du zahlst einen festen Monatspreis pro SU — auch wenn dein Index leer steht. Skalierung erfolgt über zusätzliche Partitionen (Speicher) oder Replikas (Durchsatz/SLA).

TierPreis (USD/Monat)SpeicherPartitionen × ReplicasZielgruppe
Free050 MB, 3 IndizesGemeinsam genutztTutorials, Prototyping, Demos
Basic~73,7315 GB/Partition (max. 45 GB)bis 3 × 3Kleine Produktion, erste RAG-Apps
Standard S1~245,28160 GB/Partition (max. 1,9 TB)bis 12 × 12 (max. 36 SU)Produktive RAG mit moderatem Volumen
Standard S2~981,12512 GB/Partitionbis 12 × 12Größere Wissensdatenbanken, hohe QPS
Standard S3~1.962,241 TB/Partitionbis 12 × 12Enterprise-Workloads, hohe Relevanz-Anforderungen
Standard S3 HD~1.962,24High-Density-Modusbis 3 PartitionenMulti-Tenant-SaaS mit vielen kleinen Indizes
Storage-Optimized L1~2.802,471 TB/Partition, bis 12 TB/Servicebis 12 × 12Große, selten geänderte Indizes
Storage-Optimized L2~5.604,212 TB/Partition, bis 24 TB/Servicebis 12 × 12Massive Archive-ähnliche Workloads

Zusatzkosten:

  • Semantic Ranker: 1.000 Anfragen/Monat frei, danach 1 USD pro 1.000 Anfragen
  • Agentic Retrieval (Public Preview): 0,022 USD pro 1 Mio. Tokens, erste 50 Mio. Tokens/Monat frei
  • AI-Anreicherung / Skillsets: Custom Entity Lookup ab 0,25 USD pro 1.000 Records, Image Extraction ab 0,65 USD pro 1.000 Transaktionen
  • Bandbreite, Storage-Egress und angebundene Azure OpenAI Embeddings zusätzlich nach Azure-Standardtarifen

Einordnung: Der Free-Tier ist ein echter Sandkasten — 50 MB Speicher, 3 Indizes, ein Service pro Abonnement, und bei längerer Inaktivität wird er gelöscht. Für realistische Prototypen reicht er nicht aus. Der Basic-Tier ist die absolute Untergrenze für produktive kleine Use Cases (typisch: wenige hundert MB Index, FAQ-Chatbot). Wer semantisches Ranking oder mehrere hunderttausend Dokumente indexiert, landet schnell bei S1 — und damit bei rund 3.000 USD Jahresfixkosten, bevor ein einziger User eine Anfrage gestellt hat. Bei Azure-Enterprise-Verträgen lassen sich über EA- oder MCA-Rabatte zwischen 10 und 30 Prozent herausholen; rechne das in deine TCO ein.

Stärken im Detail

Hybrid Search aus einem Guss. Während du bei vielen Vektor-Datenbanken Lexical-Search (BM25) und Vektor-Similarity selbst kombinieren musst, liefert Azure AI Search beides nativ und fusioniert die Ergebnisse per Reciprocal Rank Fusion. Kombiniert mit dem Semantic Ranker — einem von Microsoft gehosteten Cross-Encoder-Modell — entsteht eine Retrieval-Qualität, die für viele RAG-Szenarien deutlich präziser ist als reine Vektor-Suche.

Integrated Vectorization spart eine komplette Pipeline. Du konfigurierst einmal einen “Vectorizer” (z.B. Azure OpenAI Embeddings), und der Dienst kümmert sich beim Indexieren um Chunking, Embedding-Erzeugung und Speicherung. Bei reinen Vektor-Datenbanken wie Pinecone musst du das selbst orchestrieren — mit Azure AI Search ist es ein JSON-Parameter.

Enterprise-Security ist Standard, nicht Premium. Entra-ID-Integration, Role-Based Access Control, Private Endpoints und IP-Firewall sind ab Basic dabei. Dokumentbasierte Zugriffskontrolle (“Security Trimming”) sorgt dafür, dass ein Mitarbeiter in einer RAG-Anwendung nur Dokumente sieht, die er laut SharePoint-Berechtigungen sehen darf — ein Feature, das in der Open-Source-Welt erheblichen Eigenbau bedeutet.

EU-Hosting ohne Trickserei. Germany West Central (Frankfurt), West Europe (Amsterdam), France Central (Paris), Sweden Central (Gävle) und Switzerland North (Zürich) sind alle verfügbar. In Frankfurt, Paris und Zürich steht zudem der Semantic Ranker bereit; in Zürich auch Confidential Computing auf vertrauenswürdigen Ausführungsumgebungen.

Agentic Retrieval als Ausblick. Seit Ende 2024 in Public Preview: Statt einer einzelnen Suche zerlegt ein LLM die Frage in Teilanfragen, führt diese parallel über mehrere Wissensquellen aus und liefert ein strukturiertes Antwort-Objekt zurück. Für agentische Workflows ist das architektonisch vielversprechend — auch wenn es aktuell noch regional eingeschränkt und preislich im Token-Modell abgerechnet wird.

Schwächen ehrlich betrachtet

Fixkosten schmerzen bei niedriger Nutzung. Anders als bei Pinecone Serverless oder OpenSearch-Serverless zahlst du den Service-Tarif rund um die Uhr, auch wenn dein Chatbot nachts schläft. Ein Basic-Service steht auch bei null Queries mit rund 74 USD im Monat zu Buche. Für eine Abteilungslösung mit 50 Queries/Tag wirkt das teuer.

Azure-Lock-in ist real. Indexer, Skillsets, Vectorizer und die native Azure-OpenAI-Anbindung machen es einfach, tief in Azure zu gehen — und schwer, später auf AWS oder GCP zu wechseln. Migrationspfade existieren technisch (Export zu JSON), aber die Custom Skills und Semantic-Ranker-Logik sind nicht portabel.

Das Portal ist Azure-Portal. Wer zum ersten Mal einen Index mit Indexer, Skillset und Vectorizer anlegt, kämpft sich durch drei verschiedene Blades und mehrere JSON-Dokumente. Im Vergleich zu einem Dashboard von Weaviate Cloud oder der “pip install pinecone”-Einfachheit ist das ein Onboarding-Schock. Terraform oder Bicep hilft, ist aber Pflicht für ernsthafte Deployments.

Semantic Ranker ist eine Blackbox. Microsoft gibt wenig Details preis, welches Modell im Hintergrund läuft und wie es aktualisiert wird. Für hochregulierte Branchen, die jeden Teil des Retrievals auditieren müssen, ist das unschön — Open-Source-Alternativen wie Cohere Rerank (selbst gehostet) oder bge-reranker sind transparenter.

Agentic Retrieval ist noch unfertig. Preview-Status, nicht in allen EU-Regionen (z.B. in Norway East nicht verfügbar), separates Token-basiertes Pricing, das bei intensiver Nutzung schnell zweistellige Hunderter pro Monat frisst. Produktiv einsetzen solltest du das frühestens nach General Availability.

Dokumentation ist umfangreich, aber fragmentiert. Microsoft Learn hat sich seit dem Rebrand von “Cognitive Search” mehrfach umgebaut; ältere Blog-Posts verweisen auf deprecated Features. Für Einsteiger schwerer zu navigieren als die fokussierte Docs-Landschaft von Pinecone oder Weaviate.

Alternativen im Vergleich

Wenn du……nimm stattdessen
Cloud-neutral bleiben willst und reines Vektor-Retrieval brauchstPinecone oder Weaviate
eine Open-Source-Lösung zum Selbsthosten suchstElasticsearch oder OpenSearch
auf AWS bist und tiefe AWS-Integration brauchstOpenSearch (AWS-managed)
eine Vektor-Datenbank mit GraphQL-API willstWeaviate
Volltextsuche für Dokumente ohne KI-Layer brauchstElasticsearch
nur eine RAG-Komponente zu einem bestehenden LLM-Workflow willstPinecone Serverless

Unser Rat: Wenn du nicht ohnehin im Microsoft-Ökosystem lebst, ist Azure AI Search selten die kosteneffizienteste Option. Seine Stärke liegt in der Integration — steht die, ist er konkurrenzlos komfortabel. Fehlt sie, konkurriert er gegen Spezialisten, die in ihrem Kernbereich (reines Vektor-Retrieval, reine Volltextsuche) entweder günstiger oder schlanker sind.

So steigst du ein

Schritt 1: Lege im Azure-Portal einen neuen “AI Search”-Dienst an. Wähle als Region Germany West Central (Frankfurt) oder West Europe (Amsterdam) für EU-Hosting und volle Feature-Verfügbarkeit. Starte mit dem Basic-Tarif für Prototypen — Free reicht nur für Tutorials. Aktiviere semantisches Ranking in den Service-Einstellungen (Gratis-Kontingent: 1.000 Anfragen/Monat).

Schritt 2: Erstelle einen Index mit einem Vektorfeld. Verknüpfe Azure OpenAI als Embedding-Provider über einen “Vectorizer” (typisch: text-embedding-3-small). Definiere Chunking-Parameter im Skillset (gängig: 512 Tokens, 128 Overlap). Lade Dokumente per Indexer direkt aus Azure Blob, SharePoint oder Cosmos DB — der Service kümmert sich um Extraktion, Chunking, Embedding und Indexierung.

Schritt 3: Feuere eine Hybrid Query per REST oder SDK (C#, Python, Java, JavaScript) ab: BM25-Anteil + Vektor-Anteil + Semantic Ranker. Werte die Relevanz über das Azure-Portal-Metrics-Blade aus und justiere Chunking, Scoring-Profile oder Filter. Ab diesem Punkt steckst du das Ergebnis in deinen Azure-OpenAI-Prompt — fertig ist die RAG-Pipeline.

Ein konkretes Beispiel

Ein mittelständischer Versicherer aus München baut einen internen Assistenten für Schadenregulierer: Die Fachkräfte sollen in natürlicher Sprache Fragen zu Versicherungsbedingungen, internen Richtlinien und ähnlichen Schadensfällen stellen können. Die Dokumentenbasis: rund 48.000 PDFs in SharePoint Online, dazu 12.000 historische Schadenakten in Azure Blob Storage.

Die IT-Abteilung richtet in Germany West Central einen Standard S1-Service ein (rund 245 USD/Monat) und nutzt den SharePoint-Indexer mit Berechtigungsübernahme: Ein Regulierer aus dem Kfz-Team sieht nur Dokumente, die er laut SharePoint sehen darf. Integrated Vectorization mit text-embedding-3-large erzeugt Embeddings; Semantic Ranker verfeinert die Top-50-Ergebnisse auf die tatsächlich relevanten Top-5. Die Anbindung an GPT-4o in Azure OpenAI passiert in 20 Zeilen Python.

Ergebnis: Recherchezeiten fallen von 12 Minuten (manuelles SharePoint-Suchen) auf unter 45 Sekunden. Monatskosten für Suche + LLM: rund 480 USD bei 800 täglichen Anfragen. Der Compliance-Beauftragte akzeptiert die Lösung, weil Daten Deutschland nicht verlassen, ein AVV vorliegt und Entra-ID die bestehende Berechtigungslogik spiegelt.

DSGVO & Datenschutz

  • Datenhosting: Frei wählbar innerhalb Azure-Regionen — in der EU verfügbar sind Germany West Central (Frankfurt), West Europe (Amsterdam/Niederlande), France Central (Paris), Sweden Central, Switzerland North/West (Zürich/Genf), Italy North (Mailand), Norway East, Poland Central und Spain Central
  • Datennutzung: Microsoft nutzt deine indexierten Inhalte laut Azure-Datenverarbeitungsbedingungen nicht für Modelltraining. Semantic Ranker und Agentic Retrieval verwenden gehostete Modelle, aber ohne Trainings-Weiterverwendung
  • Auftragsverarbeitung: Standardmäßig über den Microsoft Product Terms / Data Protection Addendum (DPA) abgedeckt — Azure stellt einen AVV nach DSGVO bereit
  • Verschlüsselung: Ruhe- und Transportverschlüsselung standardmäßig; Customer-Managed Encryption Keys (CMEK) über Azure Key Vault ab Basic-Tier verfügbar
  • Zugangskontrolle: Entra ID (ehem. Azure AD), RBAC, Private Link, IP-Firewall, dokumentbasierte Zugriffsrechte (“Security Trimming”)
  • Compliance-Zertifikate: ISO 27001/27017/27018, SOC 1/2/3, HIPAA/HITRUST, BSI C5 (deutscher Cloud-Computing-Compliance-Katalog), EU Cloud Code of Conduct
  • Empfehlung für Unternehmen: Region explizit auf EU festlegen (Standard ist nicht automatisch EU), Confidential Computing prüfen, wenn personenbezogene Gesundheits-, Finanz- oder Mandantendaten verarbeitet werden. Für Branchen unter Berufsgeheimnis (§ 203 StGB): zusätzliche Verträge mit Microsoft über Sub-Auftragsverarbeiter klären

Gut kombiniert mit

  • Azure OpenAI Service — die naheliegende LLM-Schicht oberhalb des Retrievals. Embeddings (text-embedding-3-small/large) und Generierung (GPT-4o, o-Modelle) laufen in denselben EU-Regionen, die Anbindung ist ein Konfigurationsparameter im Index.
  • Microsoft 365 Copilot / SharePoint — als Datenquelle über den nativen SharePoint-Indexer. Berechtigungen werden übernommen, Änderungen automatisch reindexiert.
  • LangChain oder Semantic Kernel — wenn du die Retrieval-Logik nicht im Azure-SDK, sondern in einem Orchestrator-Framework kapseln willst; beide haben vollwertige Azure-AI-Search-Retriever-Klassen.

Unser Testurteil

Azure AI Search verdient 4 von 5 Sternen. Die Integration mit dem Microsoft-Stack, das solide Hybrid-Retrieval inklusive Semantic Ranker, EU-Hosting mit Confidential-Computing-Option und die Enterprise-Sicherheitsfeatures sind in dieser Tiefe bei kaum einem Konkurrenten gebündelt zu bekommen. Den fünften Stern kostet der Dienst durch die hohen Fixkosten (Basic ab 74 USD/Monat, S1 schon bei 245 USD), die Azure-Bindung, das komplexe Portal und die für 2026 immer noch unfertige Agentic-Retrieval-Preview. Wer im Microsoft-Universum sitzt, findet keine bessere Option. Wer es nicht tut, sollte ehrlich rechnen: Pinecone oder Weaviate sind oft schneller und günstiger am Ziel.

Was wir bemerkt haben

  • November 2023 — Microsoft hat “Azure Cognitive Search” in “Azure AI Search” umbenannt. Funktional gab es zeitgleich den produktiven Rollout von Vector Search und Hybrid Search. Ältere Blog-Posts und Tutorials nutzen noch die alte Bezeichnung — beim Googeln auf den Zeitstempel achten.
  • April 2024 — Microsoft hat die Partitionsgrößen und Vektor-Kontingente auf fast allen Tiers deutlich erhöht — bei unverändertem Preis. Wer einen Service vor April 2024 angelegt hat, kann über das Portal “Upgrade service” kostenlos zur größeren Kapazität wechseln. Viele Teams wissen das nicht und zahlen effektiv zu viel.
  • Mai 2024 — Zweite Welle der Kapazitätserweiterung. Seitdem bietet fast jede Region die Higher-Capacity-Partitionen; Ausnahmen (z.B. Spain Central, Qatar Central) sind in der Regionsliste mit Fußnoten markiert.
  • Ende 2024Agentic Retrieval wurde als Public Preview eingeführt. Das System zerlegt komplexe Fragen per LLM in Teilanfragen, führt diese parallel aus und liefert eine strukturierte Antwort mit Activity-Log. Preismodell erstmals Token-basiert (0,022 USD/1 Mio. Tokens, erste 50 Mio. frei) — ungewöhnlich für Azure Search, das sonst rein SU-basiert abrechnet.
  • März 2026 — North Europe (Irland) ist weiterhin von Kapazitätsengpässen betroffen; neue Services lassen sich dort nicht anlegen. Wer historisch auf Irland gesetzt hat, sollte den Umzug nach Germany West Central oder West Europe einplanen.
  • Laufend — Der Free-Tier wird bei längerer Inaktivität automatisch gelöscht, besonders in kapazitätsbeschränkten Regionen. Für Dauer-Prototypen nicht darauf verlassen; mindestens Basic einplanen oder den Service regelmäßig anpingen.

Diesen Inhalt teilen:

Empfohlen in 1 Use Cases

Redaktionell bewertet · Preise und Funktionen können sich ändern.

Stimmt etwas nicht?

Preise geändert, Feature veraltet oder etwas fehlt? Wir freuen uns über Hinweise und Ergänzungen.

Feedback geben
Kostenloser Newsletter

Bleib auf dem neuesten
Stand der KI

Wähle deine Themen und erhalte relevante KI-News, Praxistipps und exklusive Inhalte direkt in dein Postfach – kein Spam, jederzeit abmeldbar.

Was interessiert dich? Wähle 1–3 Themen — du bekommst nur Inhalte dazu.

Mit der Anmeldung stimmst du unserer Datenschutzerklärung zu. Jederzeit abmeldbar.

Kostenlos
Kein Spam
Jederzeit abmeldbar