Emulsionsstabilität-Prognose: ML ersetzt monatelange Lagerungstests
Neue Bio-Cremes trennen sich nach dem Abfüllen, Monate später, zu spät für eine Rückrufvermeidung. ML-Stabilitätsprognose aus Formulierungsparametern erkennt Instabilität vor dem ersten Ansatz.
- Problem
- Stabilitätstests für Kosmetikformulierungen dauern 3–6 Monate (Klimakammer, Zentrifuge, Lagersimulation). Organische Emulgatoren und biozertifizierte Wirkstoffkombinationen verhalten sich unvorhersehbarer als konventionelle Formulierungen. Ein fehlgeschlagener Stabilitätstest nach 4 Monaten bedeutet: Neuformulierung, weiteres halbes Jahr Wartezeit, Markteinführung verschoben.
- KI-Lösung
- ML-Modell trainiert auf historischen Stabilitätsdaten aus Formulierungsdatenbanken. Eingabe: Emulgatorsystem, Wirkstoffkonzentrationen, pH, Wasseraktivität. Ausgabe: Stabilitätsprognose mit Konfidenzintervall, in Minuten statt Monaten.
- Typischer Nutzen
- Unstabile Formulierungen früh ausschließen reduziert Entwicklungszyklen um 2–4 Monate. Fehlansätze kosten 5.000–30.000 € je nach Batch-Größe.
- Setup-Zeit
- Eigene historische Stabilitätsdaten nötig, Aufbau dauert Jahre oder Kooperationspartner
- Kosteneinschätzung
- Plattform-Implementierung 20.000–80.000 € einmalig; SaaS-Lizenz 1.500–5.000 €/Monat laufend
Es ist März. Formulierungschemikerin Lena Bartel hat sechs Monate an der neuen feuchtigkeitsintensiven Gesichtscreme gearbeitet, Cica-Extrakt, ein Bio-Emulgator auf Zuckerester-Basis, Sheabutter im höheren Konzentrationsbereich. Das Produkt ist klinisch geprüft. Das Verpackungsdesign steht. Der Listungstermin beim Drogeriegroßkunden ist für September bestätigt.
Dann, bei der finalen Stabilitätskontrolle nach vier Monaten, die Nachricht aus dem Labor: Phasentrennung im 40°C-Klimaschrank. Die Öl-Phase scheidet sich ab. Die Emulsion ist nicht stabil.
Ursache: Das Zuckerester-System interagiert bei diesem pH-Wert und dieser Sheabutter-Konzentration anders als erwartet, eine Kombination, die so in der Formulierungsdatenbank noch nicht aufgetaucht ist. Vier Monate Laborzeit. Zwei geplante Testchargen à 8.000 Euro. Neun Monate Gesamtentwicklungszeit, verloren. Der Septemberlisting-Termin ist passé.
Das ist kein Einzelfall. In der Naturkosmetik ist es Alltag.
Für Unternehmen
Nicht nur lesen, umsetzen.
Wir entwickeln KI-Lösungen für genau deinen Anwendungsfall und begleiten dich bei der Einführung.
Das echte Ausmaß des Problems
Stabilitätstests sind keine Formalität. Sie sind nach EU-Kosmetikverordnung 1223/2009 Pflicht: Ohne nachgewiesene Produktstabilität darf kein Kosmetikum auf den europäischen Markt. Der Cosmetic Product Safety Report (CPSR) muss die Stabilitätsdaten enthalten, kein Stabilitätstest, kein Listing.
Das klingt beherrschbar, bis man die Zeitachse sieht.
Ein vollständiger Stabilitätsdurchlauf nach ICH-Leitlinien umfasst in der Regel 6 bis 12 Monate Langzeitsimulation und drei Monate Beschleunigungstest bei 40°C (nach ISO-Methodik). In der Praxis arbeiten Kosmetikentwicklungsteams mit einem Protokoll aus Lagersimulationen, Zentrifugentests und Klimakammerdurchläufen, für eine einzige Rezepturvariante. Das kostet je nach Testtiefe zwischen 600 und 2.500 Euro pro Formulierung (Quelle: Certified Cosmetics Laboratories, Preisliste 2025).
Das eigentliche Problem ist nicht der Test. Es ist die Iterationsschleife: Eine Emulsion, die nach drei Monaten durchfällt, bedeutet eine Neuformulierung, und der nächste Testdurchlauf beginnt wieder bei Woche null. Zwei oder drei Iterationen, und aus einer geplanten Markteinführung in neun Monaten wird ein 18-Monate-Projekt.
Für Naturkosmetik-Formulierungen verschärft sich dieses Problem strukturell:
- Bio-zertifizierte Emulgatoren (Zuckerester, Methylglucose-Derivate, Lecithin) sind empfindlicher auf pH-Schwankungen und Temperatur als synthetische Alternativen
- Wirkstoffkombinationen aus Pflanzenextrakten bringen natürliche Variabilität mit, die gleiche botanische Charge verhält sich von Ernte zu Ernte leicht anders
- Eingeschränkte Konservierungssysteme (COSMOS-konform ohne klassische Parabene oder Phenoxyethanol) lassen weniger Spielraum bei pH und Wasseraktivität
Unilever, kein kleiner Indie-Hersteller, berichtete 2024, dass ihre Formulierungsteams typischerweise fünf bis sechs Entwicklungsrunden für ein neues Produkt benötigt haben. Nach Einführung von ML-gestützter Stabilitätsprognose waren es noch ein bis zwei Runden (Quelle: Klover.ai, Unilever AI Strategy Report, 2024).
Mit vs. ohne KI, ein ehrlicher Vergleich
| Kennzahl | Klassischer Prozess | Mit ML-Stabilitätsprognose |
|---|---|---|
| Stabilitätsprognose für neue Rezeptur | 3–6 Monate Labortest | Stunden bis Tage (initiale Prognose) |
| Anzahl Testchargen bis stabiler Formulierung | Ø 2–4 Durchläufe | Ø 1–2 Durchläufe ¹ |
| Kosten pro gescheitertem Testdurchlauf | 600–2.500 € (Test) + ggf. 5.000–15.000 € Batchkosten | Entfällt bei durch ML ausgeschlossenen Kandidaten |
| Erkennbares Risiko | Nach dem Labordurchlauf | Vor dem ersten Laboransatz |
| Regulatorische Pflichttests | Nicht ersetzbar, Pflicht nach EU-VO 1223/2009 | Nicht ersetzbar, Pflicht bleibt |
| Begründbarkeit gegenüber Behörden | Experimentelle Daten | Experimentelle Daten + ML als Vorab-Screening |
¹ Erfahrungswert aus Praxisberichten; tatsächliche Reduktion hängt von Datenbankqualität und Modellabdeckung ab.
Die letzte Zeile ist entscheidend: ML-Stabilitätsprognose ersetzt keine regulatorisch vorgeschriebenen Labortests. Es ist ein Vorfilter, ein System, das unstabile Kandidaten aussortiert, bevor sie in teures Labor-Equipment und Klimakammerzeit gesteckt werden. Der validierende Test kommt danach, ist aber dann für einen deutlich kleineren Kandidatenpool erforderlich.
Einschätzung auf einen Blick
Zeitersparnis, sehr hoch (5/5) Kein anderer Anwendungsfall in der Beauty-Branche schlägt diesen Hebel bei der reinen Zyklusverkürzung: Vier bis sechs Monate Stabilitätstest werden auf eine initiale Prognose in Stunden reduziert. Die Zeit wird nicht aus dem Test gespart, den gibt es nach wie vor, sondern aus den Iterationen davor. Wer zwei statt vier Testdurchläufe braucht, gewinnt bis zu einem halben Jahr Entwicklungszeit. Das ist in einem Markt mit schnellen Trendzyklen und fixen Retailer-Listingterminen ein echter Wettbewerbsvorteil.
Kosteneinsparung, hoch (4/5) Ein vermiedener Fehlansatz spart je nach Batch-Größe 5.000 bis 30.000 Euro in Laborzeit, Rohstoffen und Betriebskosten. Hinzu kommen eingesparte externe Stabilitätstests: Zertifizierte Labore berechnen für Beschleunigungstests je nach Protokoll 600 bis 2.500 Euro pro Formulierung (Quelle: Certified Cosmetics Laboratories). Kein 5/5, weil der initiale Modellaufbau, Datenaufbereitung, Training, Validierung, Investitionskosten von 20.000 bis 80.000 Euro für ein Custom-Modell mit sich bringt. Die Amortisation tritt erst nach mehreren Produktionszyklen ein.
Schnelle Umsetzung, niedrig (1/5) Das ist der härteste Punkt dieser Kategorie. Um ein ML-Stabilitätsmodell zu trainieren, braucht es historische Stabilitätsdaten aus eigenen Formulierungsversuchen, systematisch dokumentiert, mit Messparametern, Ergebniswerten und Rohstoff-Chargeninformationen. Diese Datenbank wird nicht in Wochen aufgebaut. In der Praxis bedeutet das: Wer heute startet, hat in zwei Jahren ein trainiertes Modell, sofern die Datendisziplin von Anfang an stimmt. Alternativ gibt es Kooperationswege mit Datenplattformen, aber auch diese setzen Mindestdatenmengen voraus. Keine andere Anwendung in dieser Kategorie ist so abhängig von einer Datenbasis, die Jahre vorher hätte aufgebaut werden müssen.
ROI-Sicherheit, mittel (3/5) Die Prognosequalität des Modells hängt direkt von der Trainingsdaten-Abdeckung ab. Für gut repräsentierte Emulsionstypen (klassische O/W-Systeme, bekannte Emulgatorfamilien) ist die Vorhersagegenauigkeit hoch, eine 2025 publizierte Studie in Chemical Papers verzeichnete für Gradient-Boosting-Modelle eine Genauigkeit von 0,938 für Wasser-in-Öl-Emulsionen. Für neue Rohstoffklassen oder unbekannte Kombinations-Räume sinkt diese Genauigkeit unvorhersehbar. Der ROI tritt zuverlässig ein, wenn das Modell in seiner Abdeckungszone bleibt, aber die Grenze dieser Zone ist schwer von außen zu erkennen.
Skalierbarkeit, hoch (4/5) Einmal trainiert und validiert läuft ein ML-Stabilitätsmodell marginal kostenlos für jede weitere Formulierungsanfrage. Wer mit drei Produktentwicklungen pro Jahr startet, kann das Modell bei zehn Entwicklungen ohne proportionale Mehrkosten nutzen. Die laufenden Modellpflege- und Retraining-Kosten steigen nicht proportional zum Volumen, sie fallen an, wenn neue Rohstoffklassen eingeführt werden oder wenn das Modell nach einer definierten Anzahl neuer Validierungspunkte nachtrainiert wird.
Richtwerte, stark abhängig von vorhandener Formulierungsdatenbank, Rohstoffportfolio und internem Datenbankmanagement.
Was das ML-Modell konkret macht
Der Kern des Ansatzes: Ein Machine Learning-Modell lernt aus Hunderten historischer Formulierungsversuche, welche Kombination aus Emulgatorsystem, Wirkstoffkonzentration, pH-Wert, Wasseraktivität und Phasenverhältnis zu stabilen Emulsionen führt, und welche nicht.
Die relevanten Eingangsparameter
Für Emulsionen sind das typischerweise:
- HLB-Wert (hydrophile-lipophile Balance): Gibt an, ob ein Emulgator eher Öl-in-Wasser- oder Wasser-in-Öl-Emulsionen stabilisiert. Werte zwischen 8 und 18 bevorzugen O/W-Emulsionen, unter 6 bevorzugen W/O-Systeme. Das Modell lernt, welche HLB-Kombination aus Haupt- und Co-Emulgator welche Stabilitätsergebnisse produziert.
- Phasenverhältnis: Der Anteil der Ölphase zur Wasserphase in der Rezeptur bestimmt die Viskosität und Stabilität maßgeblich. Kleine Änderungen (z. B. von 20 auf 30 % Ölphase) können große Stabilitätsauswirkungen haben.
- pH-Wert und Puffersystem: Viele Emulgatoren und Wirkstoffe haben pH-abhängige Stabilitätsfenster. Das Modell lernt diese Fenster aus historischen Daten.
- Wirkstoffkonzentrationen: Insbesondere bei aktiven Inhaltsstoffen wie Vitamin C, Retinol oder AHA-Säuren, die chemisch reaktiv sind und das Emulgatorsystem beeinflussen können.
- Wasseraktivität (aw): Entscheidend für mikrobiologische Stabilität und für die Aktivität mancher Wirkstoffe.
Was das Modell daraus macht
Aus diesen Parametern berechnet das Modell eine Stabilitätsprognose, üblicherweise als Wahrscheinlichkeitswert zusammen mit einem Konfidenzintervall. Moderne Ansätze wie die Plattform Intellico (Produkt: Matilde) oder Brightrock nutzen dabei Explainable AI: Sie zeigen nicht nur das Ergebnis, sondern auch, welche Eingabeparameter am stärksten zur Vorhersage beitragen. Für die Formulierungschemikerin bedeutet das: Sie sieht nicht nur “instabil, 78 % Wahrscheinlichkeit”, sondern auch “Haupttreiber: pH-Wert-Emulgator-Wechselwirkung bei diesem Zuckerester-Anteil.”
Welche ML-Modelltypen zum Einsatz kommen
Für Stabilitätsprognosen aus Formulierungsparametern haben sich drei Ansätze etabliert:
- Random Forests und Gradient Boosting: Gut interpretierbar, robust gegenüber kleinen Datenmengen, funktionieren bereits ab 100–200 historischen Formulierungen. Der Hauptvorteil: Sie zeigen Feature Importances, welche Parameter treiben das Modell am stärksten.
- Graph Neural Networks (GNNs): Bilden Molekülstrukturen als Graphen ab und erfassen so chemische Zusammenhänge, die tabellarische Daten nicht ausdrücken können. Benötigen mehr Daten, liefern bei ausreichender Datenbasis präzisere Vorhersagen für chemisch komplexe Systeme.
- QSPR-Modelle (Quantitative Structure-Property Relationship): Der wissenschaftliche Standard aus der chemischen Forschung, mathematische Korrelation zwischen Molekülstruktur und Eigenschaft. Basis für akademische Veröffentlichungen und behördlich anerkannte Vorhersagen in der Pharma.
Wichtig: Kein Modell kann vollständig erklären, was in einem konkreten Laboransatz passiert. Modelle prognostizieren Wahrscheinlichkeiten auf Basis von Mustern aus Vergangenheitsdaten, kein Ersatz für physikalisch-chemisches Verständnis.
Regulatorische Einbettung: Was das Modell leisten darf und was nicht
Dieser Punkt wird in Marketingmaterialien zu ML-Formulierungstools häufig vage gelassen. Deshalb hier klar:
Was die EU-Kosmetikverordnung 1223/2009 verlangt: Jedes kosmetische Mittel, das auf dem EU-Markt angeboten wird, muss einen Cosmetic Product Safety Report (CPSR) vorweisen. Dieser enthält unter anderem die Stabilitätsdaten des Produkts, physikalisch-chemische Stabilitätsnachweise aus dokumentierten Labortests, keine Modellvorhersagen.
Was ML-Prognosen in diesem Kontext sind: Ein Screening-Werkzeug, kein Zulassungsersatz. Das Modell hilft dabei, vor dem regulatorisch relevanten Labortest die instabilsten Kandidaten auszusortieren. Der Test selbst, mit echten Messungen, dokumentierten Protokollen und einem Sicherheitsbewerter, bleibt Pflicht.
Was die Praxis zeigt: Kosmetikbehörden (BfR, SCCS) und Notifizierungssysteme (CPNP) akzeptieren keine ML-Prognosen als Ersatz für Stabilitätstests. Was sie nicht ausschließen: die Verwendung von Prognosen als interne Entwicklungsunterstützung. Wer sein ML-Modell als internen R&D-Filter dokumentiert, mit Validierungsprotokollen aus Back-Testing auf bekannten Formulierungen, kann das in der internen Entwicklungsdokumentation abbilden.
Die Verbindung zur regulatorischen Pflicht: Ein stabileres Produkt, das den Pflichttest auf Anhieb besteht, ist das Ziel. ML hilft, dahin schneller zu kommen. Die regulatorische Compliance (CPNP-Meldung und EU-Kosmetikverordnung) bleibt ein separater Schritt.
Konkrete Werkzeuge, was wann passt
Brightrock, spezialisierte ML-Plattform für Kosmetikformulierungen. Brightrock sagt Emulsionsbruch-Risiken, pH-Stabilität und Viskositätseigenschaften voraus, bevor die erste Laborcharge angesetzt wird. Nutzt Bayesian Optimization für die iterative Rezepturverbesserung. Benötigt eine eigene historische Formulierungsbasis als Startpunkt (Minimum laut Anbieter: 50–100 Formulierungen). EU-gehostet, Preis auf Anfrage. Empfehlung: der direkteste Einstieg für Kosmetikhersteller mit etablierter Formulierungsdatenbank.
Intellico (Matilde), nutzt Graph Neural Networks statt klassischer tabellarischer ML-Ansätze. Stärke: Explainable AI zeigt, welche Inhaltsstoffe welche Eigenschaft treiben, für Formulierungschemiker der entscheidende Unterschied zur Black Box. Verarbeitet auch unstrukturiertes Wissen aus internen Laborberichten, Patenten und Fachliteratur als Trainingsgrundlage. EU-Hosting, Preis auf Anfrage, Demo-basierter Einstieg. Empfehlung: wenn Erklärbarkeit der Vorhersagen intern wichtig ist oder Regulatoren gegenüber dokumentiert werden muss.
ChemCopilot, kein spezialisierter Emulsionsstabilitäts-Tool, aber als Formulierungsassistent für Rohstoff-Substitution nützlich: Wenn eine neue biozertifizierte Emulgatoralternative geprüft wird, kann ChemCopilot einen REACH/SVHC-Vorabcheck liefern und strukturähnliche Alternativen mit regulatorischem Screening vorschlagen. Ergänzend zu Brightrock oder Intellico, nicht ersetzend.
Uncountable, ELN/LIMS-Plattform mit integrierten ML-Vorhersagefunktionen für die Formulierungsentwicklung. Breiter als die spezialisierteren Kosmetik-Tools: deckt Chemie, Consumer Goods und Food & Beverage ab. Stärke liegt in der engen Verzahnung von Versuchsplanung, Datenerfassung und Vorhersage in einer Plattform. Sinnvoll für Unternehmen, die gleichzeitig ihr Labor-Datenmanagement (ELN) modernisieren wollen. Enterprise-Pricing, kein öffentlicher Listenpreis.
Eigenentwicklung mit Scikit-learn / Python, für Unternehmen mit Datenwissenschafts-Kapazitäten intern ist ein eigenes Modell auf Basis der eigenen Formulierungsdatenbank möglich. Random-Forest- oder XGBoost-Modelle auf 200+ historischen Formulierungen mit Stabilitätsergebnissen liefern solide Basisprognosen. Vorteil: vollständige Datenkontrolle, keine Lizenzkosten. Nachteil: Entwicklungsaufwand, Wartungsbedarf, kein produktionsfertiges Interface.
Zusammenfassung: Wann welcher Ansatz
- Kosmetikhersteller mit 50+ Formulierungen, EU-Hosting wichtig →
Brightrock - Explainability und Literaturdaten-Integration wichtig → Intellico (Matilde)
- Gleichzeitig ELN/LIMS-Modernisierung geplant → Uncountable
- Eigenes Data-Science-Team vorhanden → Eigenentwicklung (Python/Scikit-learn)
- Regulatorisches Rohstoff-Screening parallel → ChemCopilot
Datenschutz und Datenhaltung
Formulierungsrezepturen sind das Kerngeschäft eines Kosmetikherstellers, oft geschäftskritisches IP, das in keiner Cloud landen sollte, bei der die Datensouveränität unklar ist.
Die DSGVO greift bei Formulierungsdaten nicht im klassischen Sinne (keine personenbezogenen Daten), aber es gelten eigene Schutzanforderungen:
- Vertragsrechtlicher Schutz (NDA + IP-Klauseln): Jeder SaaS-Anbieter, dem Rezepturdaten übergeben werden, muss vertraglich bestätigen, dass diese Daten nicht für gemeinsame Modelle, Benchmarks oder Anbieter-Produktverbesserungen genutzt werden. Das ist ein Standardpunkt in Enterprise-Verträgen, einfordern und dokumentieren.
- EU-Hosting:
Brightrockund Intellico betreiben EU-seitige Infrastruktur. Das ist für Unternehmen in der EU die erste Anforderung, US-gehostete Formulation-Daten können im Prinzip unter US-Gerichtszuständigkeit landen. - On-Premise als Alternative: Für Unternehmen, die jegliche Cloud-Übermittlung von Formulierungsdaten ausschließen, sind selbst gehostete ML-Lösungen (eigenes Python-Modell auf firmeneigenem Server) die sicherste Option, auf Kosten des Komforts und mit Wartungsaufwand.
- Datenminimierung: Nicht die vollständige Rezeptur muss ins Modell. Feature Engineering erlaubt es, aus Rezepturen abgeleitete Parameter (HLB, pH, Phasenverhältnis) statt der vollständigen Rohstoffliste zu übergeben, das reduziert das Risiko bei gleichem Modellnutzen.
Was es kostet, realistisch gerechnet
Einmalige Projektkosten
| Ansatz | Erstkosten | Was du bekommst |
|---|---|---|
| Plattform ( | 20.000–80.000 € Implementierung + Datenprojekt | Trainiertes Modell auf deiner Datenbasis, Interface, Anbindung |
| Eigenentwicklung (Data Scientist intern) | 40.000–100.000 € (6–12 Monate Entwicklung) | Vollständig kontrolliertes Modell, kein Vendor-Lock-in |
| Kooperation mit Datenplattform (Uncountable) | Auf Anfrage (typisch 30.000–100.000 €/Jahr Enterprise) | ELN + Vorhersagemodul + Standardisierte Methodiken |
Laufende Kosten
- Lizenz SaaS-Plattform: 1.500–5.000 €/Monat je nach Volumenlizenz (Schätzung; kein öffentlicher Listenpreis)
- Eigenentwicklung Wartung: 5–10 % der Erstkosten p.a. für Modellpflege und Retraining
- Daten-Aufbereitung für Ersttraining: intern 2–4 Wochen Aufwand zur Historisierung bestehender Labordaten
Was du dagegenrechnen kannst
Ein mittelständischer Kosmetikhersteller mit vier Produktentwicklungen pro Jahr und je zwei eingesparten Fehlansätzen à 10.000 Euro spart 80.000 Euro jährlich in Batch-, Labor- und Verzögerungskosten, zusätzlich zur Zeitersparnis von je zwei Monaten Entwicklungszeit. Das sind Richtwerte, keine garantierten Zahlen: Der Hebel hängt direkt davon ab, wie oft das Modell korrekt eine instabile Formulierung vor dem Labortest ausschließt.
Wie du den ROI wirklich misst Nicht durch Projektion vor dem Rollout, sondern durch Back-Testing: Lass das Modell auf bekannten historischen Formulierungen laufen und vergleiche, wie viele der dokumentierten Fehlschläge das Modell vorab korrekt als instabil identifiziert hätte. Diese Trefferquote (und die False-Positive-Rate) ist die einzige aussagekräftige Zahl, alles andere ist Spekulation.
Was das Modell lernt, und wann es scheitert
Dieser Abschnitt verdient mehr Raum, als ihn die meisten Anbieter-Webseiten einräumen.
Wann das Modell verlässlich ist
Das Modell ist verlässlich innerhalb seiner Trainingsdomäne: für Emulsionstypen, Emulgatorfamilien und Wirkstoffklassen, die in der Trainingsdatenbank gut repräsentiert sind. Wenn du 200 O/W-Emulsionen mit Cetylalkohol-basierten Emulgatorsystemen und verschiedenen Ölphasen-Verhältnissen trainiert hast, wird das Modell neue Variationen in diesem Raum gut prognostizieren.
Wann das Modell scheitert, und warum das gefährlich ist
Das Modell scheitert bei Out-of-Distribution-Kombinationen: neue Rohstoffklassen, die nie zuvor in der Datenbasis aufgetaucht sind, neue Emulgatortechnologien oder Wirkstoff-Wechselwirkungen, die in der Trainingshistorie nicht vorkommen.
Das gefährliche daran: ML-Modelle scheitern nicht still. Sie geben weiterhin Vorhersagen aus, oft mit hoher Konfidenz, auch wenn die Trainingsdaten keine Grundlage für diese Prognose bieten. Ein Gradient-Boosting-Modell, das 500 Lecithin-basierte Formulierungen kennt, wird für eine Formulierung mit einem neuartigen Biopolymer-Emulgator trotzdem eine Stabilitätsprognose ausgeben. Diese Prognose ist strukturell unzuverlässig, aber das Modell signalisiert das nicht automatisch.
Was das konkret bedeutet:
Jedes ML-Stabilitätssystem braucht ein Unsicherheits-Monitoring: Die Frage “Liegt diese neue Formulierung im Abdeckungsbereich des Modells?” muss systematisch gestellt werden, bevor eine Prognose als Entscheidungsgrundlage gilt. Plattformen wie Brightrock und Intellico bieten Konfidenzintervalle, aber das Interpretieren dieser Konfidenzintervalle ist Aufgabe der Formulierungschemikerin, nicht des Tools. Ein Modell, das sagt “Stabilität: 73 %, Konfidenz: hoch”, für eine Formulierung außerhalb seiner Trainingsdomäne, ist gefährlicher als kein Modell.
Praktische Konsequenz: Modell-Vorhersagen für alle Formulierungen mit neuartigen Rohstoffklassen immer durch einen Labortest validieren, unabhängig davon, was das Modell prognostiziert. Die neue Rohstoffklasse liefert gleichzeitig einen neuen Trainingsdatenpunkt für den nächsten Modell-Zyklus.
Typische Einstiegsfehler
1. Das Modell auf zu wenig Daten trainieren und dann vertrauen. Fünfzig historische Formulierungen reichen aus für erste Experimente. Für produktive Entscheidungsunterstützung braucht es mindestens 150–200 Formulierungen mit vollständigen Ergebnisdaten, darunter auch Fehlschläge. Wer nur die “guten” Formulierungen dokumentiert hat, trainiert ein Modell, das nur die Stabilität erfolgreicher Produkte vorhersagt, und Instabilität systematisch unterschätzt.
2. Das Modell als letztes Sicherheitsnetz statt als Vorfilter behandeln. Ein Modell, das eine Formulierung als “stabil” prognostiziert, schließt Instabilität nicht aus. Es sagt: “In meinem Trainingsdaten-Raum sahen ähnliche Formulierungen stabil aus.” Den regulatorisch vorgeschriebenen Labortest kann und darf kein ML-Modell ersetzen. Wer das intern so kommuniziert, vermeidet Enttäuschungen beim ersten Durchfaller einer “modell-validierten” Rezeptur.
3. Die Datenbasis nach dem Modelltraining nicht weiterpflegen. Das häufigste Langzeitproblem: Das Modell wird einmalig trainiert und dann nicht mit neuen Testresultaten gespeist. Nach 12–18 Monaten führt das Team neue Rohstoffe ein und merkt, dass das Modell dafür keine verlässlichen Prognosen mehr liefert, ohne zu wissen, warum. Die Lösung ist organisatorisch, nicht technisch: Jedes neue Labortestresultat muss systematisch in die Trainingsdatenbank zurückfließen. Das muss in die Laborprozesse eingebaut werden, nicht als nachträglicher Schritt.
4. Die Modell-Grenzen nicht intern kommunizieren. Wenn das F&E-Team anfängt, Modellvorhersagen als Fakten zu behandeln, Formulierungen auf Basis einer Modellprognose in die Produktion zu geben, ohne Laborvalidierung, ist ein gefährlicher Grenzbereich erreicht. Das Modell sollte in der internen Kommunikation immer als “Prognose mit bekannter Unsicherheit” bezeichnet werden, nicht als “Stabilitätscheck”.
Was mit der Einführung wirklich passiert
Die technische Seite, Modell trainieren, Interface einrichten, erste Prognosen durchführen, ist in diesem Anwendungsfall überraschend handhabbar. Das Schwierigere ist die Datenseite.
Das Datenbasis-Problem In den meisten Formulierungsabteilungen existieren Stabilitätsdaten in verschiedenen Formaten und Systemen: Excel-Tabellen aus verschiedenen Jahren, Laborberichte als PDFs, Daten in verschiedenen LIMS-Systemen, Ergebnisse aus externen Auftragsanalysen. Das in eine konsistente, ML-trainierbare Struktur zu überführen, ist 70 % des eigentlichen Aufwands beim Erstprojekt. Unterschätze das nicht.
Widerstand aus dem Labor Formulierungschemiker, die jahrelang durch Erfahrung und Intuition sehr gute Ergebnisse erzielt haben, reagieren verständlicherweise skeptisch auf ein System, das ihre Expertise “automatisieren” soll. Das ist kein irrationaler Widerstand, er hat einen Grund. Was hilft: Das Modell nicht als Ersatz, sondern als Arbeitshilfe positionieren, die repetitive Varianten-Screenings übernimmt, damit mehr Zeit für chemisch komplexe, wirklich neue Problemstellungen bleibt. Und: Das erste Modell gemeinsam mit den Chemikern back-testen, sie sollen das System verstehen, nicht nur das Ergebnis sehen.
Die zweite Hürde: Retraining-Disziplin Das Modell ist nach dem ersten Training gut. Nach zwölf Monaten ohne neue Daten wird es schlechter, wenn neue Rohstoffe eingeführt wurden. Wer keinen definierten Retraining-Rhythmus festlegt, und eine Person benennt, die dafür verantwortlich ist, hat nach zwei Jahren ein veraltetes Modell, das niemand mehr vertraut, und niemand mehr weiß warum.
Realistischer Zeitplan mit Risikohinweisen
| Phase | Dauer | Was passiert | Typisches Risiko |
|---|---|---|---|
| Daten-Inventur und -aufbereitung | Woche 1–6 | Historische Stabilitätsdaten aus allen Quellen sichten, normalisieren, Fehlschläge explizit aufnehmen | Mehr Quellen und Formate als erwartet, 30–50 % Aufwand liegt in der Datenbereinigung |
| Modelltraining und -validierung | Woche 6–10 | Erstes Modell trainieren, Back-Testing auf bekannten Formulierungen, Genauigkeit und False-Positive-Rate dokumentieren | Genauigkeit unter Erwartung, weil zu wenige Fehlschläge in der Trainingsdatenbank dokumentiert sind |
| Pilotbetrieb | Woche 10–16 | Parallelbetrieb: Modellprognose + klassischer Labortest für dieselben Formulierungen. Abweichungen dokumentieren. | Modell ist für bestimmte Emulsionstypen gut, für andere nicht, klare Kommunikation der Anwendungsgrenzen nötig |
| Produktivbetrieb | Ab Monat 5 | Modell als Vorfilter im Entwicklungsprozess. Nur Kandidaten mit guter Prognose kommen in den Labortest. Alle neuen Testergebnisse zurück in die Datenbasis. | Retraining-Rhythmus nicht etabliert, Modell veraltet ohne feste Zuständigkeit und Trigger |
Wichtig: Vier bis sechs Monate bis zum Produktivbetrieb ist realistisch, nicht als Projektverzögerung, sondern als strukturelle Anforderung für eine belastbare Datenbasis und ein validiertes Modell.
Häufige Einwände, und was dahintersteckt
„Wir haben keine historischen Stabilitätsdaten in auswertbarer Form.” Das stimmt oft. Es stimmt aber auch oft halb: Die Daten existieren, sind aber über Excel-Tabellen, Labor-Notizbücher, PDFs und alte LIMS-Systeme verteilt. Das Projekt beginnt dann nicht mit Modelltraining, sondern mit Daten-Inventur. Das ist ein echter Aufwand, aber er entsteht nicht durch das ML-Projekt, sondern er war schon immer vorhanden. Das Modell ist oft nur der Anlass, die Datenbasis endlich in Ordnung zu bringen.
„Unser Produktportfolio ist zu speziell, da wird kein Modell ausreichend Trainingsdaten haben.” Das ist die ehrlichste Gegenrede, die es gibt. Wenn ein Unternehmen ausschließlich ein- bis zweimal pro Jahr hochspezialisierte Formulierungen entwickelt, die keine gemeinsame Basis mit dem bisherigen Portfolio haben, ist der ML-Ansatz unrealistisch. Dann ist klassische Formulierungsexpertise oder eine Kooperation mit einem Forschungsinstitut (Fraunhofer IGD, BASF Beauty Ingredients) zielführender.
„Der regulatorische Stabilitätstest kommt sowieso, was spare ich wirklich?” Du sparst die Iterationen vor dem Test. Ein Unternehmen, das früher drei Testdurchläufe brauchte, braucht mit ML-Vorfilterung noch einen. Das spart nicht den Test, aber es spart zwei Durchläufe. Bei Entwicklungszeiten von 6 Monaten pro Durchlauf ist das der Unterschied zwischen einem 9-Monats- und einem 21-Monats-Entwicklungszyklus.
„Wir sind zu klein für so ein Projekt.” Wahrscheinlich richtig, wenn “zu klein” bedeutet: unter 50 historische Formulierungen, unter drei Produktentwicklungen pro Jahr, kein internes Dateningenieur-Profil. Dann ist die sinnvollere Investition zunächst in eine systematische Labordaten-Dokumentation, und in zwei Jahren, wenn die Datenbasis steht, neu prüfen.
Woran du merkst, dass das zu dir passt
Das passt zu dir, wenn:
- Ihr habt eine systematisch dokumentierte Formulierungshistorie, mindestens 100 Formulierungen mit Stabilitätsergebnissen in auswertbarer Form. Auch Fehlschläge.
- Ihr entwickelt drei oder mehr neue Produkte pro Jahr, der ROI tritt erst ein, wenn das Modell regelmäßig eingesetzt wird.
- Ihr habt in den letzten Jahren regelmäßig Fehlansätze gehabt, die nach 3–6 Monaten Labortest gescheitert sind, das ist die Zielscheibe des Modells.
- Ihr wechselt auf neue Emulgatortechnologien (Bio-Emulgatoren, Green Chemistry) und habt noch keine Erfahrungsbasis dafür, genau hier kann ein Modell auf Basis ähnlicher Systeme orientieren.
- Ihr habt einen internen Data Scientist oder Laborinformatik-Spezialisten, der das Modell betreuen kann, oder ihr arbeitet mit einem Anbieter zusammen, der das übernimmt.
Harte Ausschlusskriterien, wann du es sein lassen solltest:
-
Unter 80–100 dokumentierten historischen Stabilitätstests mit Ergebnisangaben. Darunter ist kein ML-Modell trainierbar, das zuverlässige Prognosen liefert. Zuerst Datenbasis aufbauen, dann Modell.
-
Produkte werden weniger als zweimal pro Jahr neu entwickelt. Der Aufwand für Modellaufbau und -pflege ist nicht durch den Nutzen gedeckt. Klassische Formulierungsexpertise und ggf. externe Beratung sind effizienter.
-
Alle neuen Formulierungen nutzen Rohstoffklassen, die in der bisherigen Datenbasis nicht vorkommen (z. B. kompletter Wechsel von konventionellen zu 100 % bio-basierten Emulgatoren ohne historische Vergleichsdaten). Das Modell würde außerhalb seiner Trainingsdomäne arbeiten und hätte keine zuverlässige Vorhersagekraft, im schlimmsten Fall schafft das falsche Sicherheit.
Das kannst du heute noch tun
Beginne mit einer Datenbasis-Inventur, bevor irgendein Tool evaluiert wird.
Öffne eure Labordaten-Ablage und beantworte diese Fragen:
- Wie viele abgeschlossene Stabilitätstests existieren in dokumentierter Form, mit Ergebnisangabe?
- Sind Fehlschläge ebenso systematisch dokumentiert wie Erfolge?
- In welchem Format liegen diese Daten: Excel, LIMS, PDF, Labor-Notizbuch?
- Wer kennt die Daten gut genug, um Lücken und Widersprüche zu erkennen?
Diese Inventur gibt dir in zwei Stunden mehr Klarheit darüber, ob ein ML-Projekt realistisch ist, als jede Anbieter-Demo.
Danach: Lass dir von Brightrock oder Intellico eine Demo mit deinen eigenen Beispieldaten zeigen, und frage explizit nach dem Back-Testing: Wie gut prognostiziert das Modell bekannte historische Ergebnisse aus deiner Datenbasis? Diese Zahl ist der einzige valide Startpunkt für eine ROI-Bewertung.
Für den ersten internen Daten-Audit kannst du diesen Prompt als Strukturhilfe nutzen:
Mitarbeiter:in
KI-Assistent
Quellen & Methodik
- Unilever AI Formulation Engine (2024): Unilever berichtete, dass ML-gestützte Formulierungsunterstützung die Entwicklungsrunden von 5–6 auf 1–2 reduziert hat. Quelle: Klover.ai, „Unilever’s AI Strategy: Analysis of Dominance in Consumer Packaged Goods” (2024), https://www.klover.ai/unilever-ai-strategy-analysis-of-dominance-in-consumer-packaged-goods/
- L’Oréal und IBM AI Formulation Partnership (Januar 2025): Gemeinsames Custom-Formulation-Foundation-Model zur Produktentwicklungsbeschleunigung. Quelle: BeautyMatter, „L’Oréal Groupe and IBM’s AI Formulation Breakthrough” (2025), https://beautymatter.com/articles/loreal-groupe-and-ibms-ai-formulation-breakthrough
- ML-Genauigkeit Emulsionsstabilität: Gradient-Boosting-Modell bei 0,938 Accuracy für Wasser-in-Öl-Emulsionen. Quelle: Chemical Papers, Springer Nature, „Advances in the applications of machine learning for cosmetic formulation development” (2026), https://link.springer.com/article/10.1007/s11696-026-04696-7
- Stabilitätstestkosten (EU-Standard): 600–2.500 USD pro Formulierung für Beschleunigungstests. Quelle: Certified Cosmetics Laboratories, Preisliste (2025), https://www.certifiedcosmetics.com/product/stability-testing/
- EU-Kosmetikverordnung 1223/2009: Stabilitätstests als Pflichtbestandteil des Cosmetic Product Safety Reports (CPSR), Anhang I. Verordnung (EG) Nr. 1223/2009.
- QSPR-Modelle für Emulsionsvorhersage: Wissenschaftliche Grundlage für quantitative Struktur-Eigenschafts-Beziehungen. Quelle: MDPI Cosmetics, „Artificial Intelligence in Cosmetic Formulation” (2025), https://www.mdpi.com/2079-9284/12/4/157
- Intellico Matilde: Explainable AI für Kosmetikformulierungen mit Graph Neural Networks. Quelle: Anbieterwebseite https://intellico.ai/predictive-ai-for-cosmetics-beauty-formulation/ (verifiziert Mai 2026)
- Brightrock: EU-gehostete ML-Plattform für Kosmetikformulierungen. Mindestdatenbasis 50–100 Formulierungen laut Anbieter (verifiziert April 2026)
Du willst wissen, ob eure Formulierungsdatenbank ausreicht und wie ein ML-Pilotprojekt für euren Produktmix aussehen würde? Meld dich, das klären wir in einem kurzen Gespräch.
Diesen Inhalt teilen:
Du weißt jetzt, was möglich ist. Fehlt noch die Umsetzung?
Viele, die diesen Use Case lesen, versuchen es danach allein. Das kostet Wochen: Datenschutzfragen, Toolauswahl, Prompt-Engineering, interne Überzeugungsarbeit. Wir kennen diese Stolperstellen, weil wir das Setup schon gebaut haben. Schreib uns kurz, das Erstgespräch ist kostenlos und unverbindlich.
Weitere Use Cases
KI-Hautanalyse per Smartphone: individuelle Produktempfehlung in Sekunden
Eine KI wertet ein Selfie des Kunden in Echtzeit aus und identifiziert Hauttyp, Problemzonen und Pflegebedarf. Kosmetikstudios und POS-Teams können gezielt empfehlen, ohne lange Beratungsgespräche.
Mehr erfahrenVirtual Try-On: Make-up und Haarfarbe per AR vor dem Kauf simulieren
Kunden sehen per Smartphone- oder Webcam-Feed in Echtzeit, wie ein Lippenstift, eine Foundation oder eine neue Haarfarbe auf ihrem Gesicht wirkt, ohne Tester anzufassen. Onlineshops und Salons mit Eigenmarken senken die Kaufhemmschwelle deutlich.
Mehr erfahrenInhaltsstoff-Compliance automatisieren: CPNP und EU-Kosmetikverordnung
KI prüft Rezepturen automatisch gegen die EU-Kosmetikverordnung (EG Nr. 1223/2009), INCI-Verbotslisten und CPNP-Meldeanforderungen. Für Eigenmarken-Salons und kleinere Kosmetikhersteller ersetzt das stunden-lange manuelle Recherche.
Mehr erfahrenFrieda Funke
Konzeptentwicklerin
Ich frage nicht, was KI kann. Ich frage, was du in deinem Alltag damit anfängst. Erst wenn ich eine ehrliche Antwort habe, entsteht daraus ein konkreter Use Case. Fehlt ein Anwendungsfall, der zu dir passt? Schreib mir kurz.