Beauty & Wellness kosmetikformulierungstabilitaetstestemulsion

Emulsionsstabilität-Prognose: ML ersetzt monatelange Lagerungstests

Neue Bio-Cremes trennen sich nach dem Abfüllen, Monate später, zu spät für eine Rückrufvermeidung. ML-Stabilitätsprognose aus Formulierungsparametern erkennt Instabilität vor dem ersten Ansatz.

⚡ Auf einen Blick

Problem: Stabilitätstests für Kosmetikformulierungen dauern 3–6 Monate (Klimakammer, Zentrifuge, Lagersimulation). Organische Emulgatoren und biozertifizierte Wirkstoffkombinationen verhalten sich unvorhersehbarer als konventionelle Formulierungen. Ein fehlgeschlagener Stabilitätstest nach 4 Monaten bedeutet: Neuformulierung, weiteres halbes Jahr Wartezeit, Markteinführung verschoben.
KI-Lösung: ML-Modell trainiert auf historischen Stabilitätsdaten aus Formulierungsdatenbanken. Eingabe: Emulgatorsystem, Wirkstoffkonzentrationen, pH, Wasseraktivität. Ausgabe: Stabilitätsprognose mit Konfidenzintervall, in Minuten statt Monaten.
Typischer Nutzen: Unstabile Formulierungen früh ausschließen reduziert Entwicklungszyklen um 2–4 Monate. Fehlansätze kosten 5.000–30.000 € je nach Batch-Größe.
Setup-Zeit: Eigene historische Stabilitätsdaten nötig, Aufbau dauert Jahre oder Kooperationspartner
Kosteneinschätzung: Plattform-Implementierung 20.000–80.000 € einmalig; SaaS-Lizenz 1.500–5.000 €/Monat laufend

Eigenes Python/Scikit-learn-ModellBrightrock oder Intellico Matilde SaaSUncountable ELN+ML Enterprise

Worum geht's?

Es ist März. Formulierungschemikerin Lena Bartel hat sechs Monate an der neuen feuchtigkeitsintensiven Gesichtscreme gearbeitet, Cica-Extrakt, ein Bio-Emulgator auf Zuckerester-Basis, Sheabutter im höheren Konzentrationsbereich. Das Produkt ist klinisch geprüft. Das Verpackungsdesign steht. Der Listungstermin beim Drogeriegroßkunden ist für September bestätigt.

Dann, bei der finalen Stabilitätskontrolle nach vier Monaten, die Nachricht aus dem Labor: Phasentrennung im 40°C-Klimaschrank. Die Öl-Phase scheidet sich ab. Die Emulsion ist nicht stabil.

Ursache: Das Zuckerester-System interagiert bei diesem pH-Wert und dieser Sheabutter-Konzentration anders als erwartet, eine Kombination, die so in der Formulierungsdatenbank noch nicht aufgetaucht ist. Vier Monate Laborzeit. Zwei geplante Testchargen à 8.000 Euro. Neun Monate Gesamtentwicklungszeit, verloren. Der Septemberlisting-Termin ist passé.

Das ist kein Einzelfall. In der Naturkosmetik ist es Alltag.

Für Unternehmen

Nicht nur lesen, umsetzen.

Wir entwickeln KI-Lösungen für genau deinen Anwendungsfall und begleiten dich bei der Einführung.

Für Unternehmen

Das echte Ausmaß des Problems

Stabilitätstests sind keine Formalität. Sie sind nach EU-Kosmetikverordnung 1223/2009 Pflicht: Ohne nachgewiesene Produktstabilität darf kein Kosmetikum auf den europäischen Markt. Der Cosmetic Product Safety Report (CPSR) muss die Stabilitätsdaten enthalten, kein Stabilitätstest, kein Listing.

Das klingt beherrschbar, bis man die Zeitachse sieht.

Ein vollständiger Stabilitätsdurchlauf nach ICH-Leitlinien umfasst in der Regel 6 bis 12 Monate Langzeitsimulation und drei Monate Beschleunigungstest bei 40°C (nach ISO-Methodik). In der Praxis arbeiten Kosmetikentwicklungsteams mit einem Protokoll aus Lagersimulationen, Zentrifugentests und Klimakammerdurchläufen, für eine einzige Rezepturvariante. Das kostet je nach Testtiefe zwischen 600 und 2.500 Euro pro Formulierung (Quelle: Certified Cosmetics Laboratories, Preisliste 2025).

Das eigentliche Problem ist nicht der Test. Es ist die Iterationsschleife: Eine Emulsion, die nach drei Monaten durchfällt, bedeutet eine Neuformulierung, und der nächste Testdurchlauf beginnt wieder bei Woche null. Zwei oder drei Iterationen, und aus einer geplanten Markteinführung in neun Monaten wird ein 18-Monate-Projekt.

Für Naturkosmetik-Formulierungen verschärft sich dieses Problem strukturell:

Bio-zertifizierte Emulgatoren (Zuckerester, Methylglucose-Derivate, Lecithin) sind empfindlicher auf pH-Schwankungen und Temperatur als synthetische Alternativen
Wirkstoffkombinationen aus Pflanzenextrakten bringen natürliche Variabilität mit, die gleiche botanische Charge verhält sich von Ernte zu Ernte leicht anders
Eingeschränkte Konservierungssysteme (COSMOS-konform ohne klassische Parabene oder Phenoxyethanol) lassen weniger Spielraum bei pH und Wasseraktivität

Unilever, kein kleiner Indie-Hersteller, berichtete 2024, dass ihre Formulierungsteams typischerweise fünf bis sechs Entwicklungsrunden für ein neues Produkt benötigt haben. Nach Einführung von ML-gestützter Stabilitätsprognose waren es noch ein bis zwei Runden (Quelle: Klover.ai, Unilever AI Strategy Report, 2024).

Mit vs. ohne KI, ein ehrlicher Vergleich

Kennzahl	Klassischer Prozess	Mit ML-Stabilitätsprognose
Stabilitätsprognose für neue Rezeptur	3–6 Monate Labortest	Stunden bis Tage (initiale Prognose)
Anzahl Testchargen bis stabiler Formulierung	Ø 2–4 Durchläufe	Ø 1–2 Durchläufe ¹
Kosten pro gescheitertem Testdurchlauf	600–2.500 € (Test) + ggf. 5.000–15.000 € Batchkosten	Entfällt bei durch ML ausgeschlossenen Kandidaten
Erkennbares Risiko	Nach dem Labordurchlauf	Vor dem ersten Laboransatz
Regulatorische Pflichttests	Nicht ersetzbar, Pflicht nach EU-VO 1223/2009	Nicht ersetzbar, Pflicht bleibt
Begründbarkeit gegenüber Behörden	Experimentelle Daten	Experimentelle Daten + ML als Vorab-Screening

¹ Erfahrungswert aus Praxisberichten; tatsächliche Reduktion hängt von Datenbankqualität und Modellabdeckung ab.

Die letzte Zeile ist entscheidend: ML-Stabilitätsprognose ersetzt keine regulatorisch vorgeschriebenen Labortests. Es ist ein Vorfilter, ein System, das unstabile Kandidaten aussortiert, bevor sie in teures Labor-Equipment und Klimakammerzeit gesteckt werden. Der validierende Test kommt danach, ist aber dann für einen deutlich kleineren Kandidatenpool erforderlich.

Einschätzung auf einen Blick

Zeitersparnis, sehr hoch (5/5) Kein anderer Anwendungsfall in der Beauty-Branche schlägt diesen Hebel bei der reinen Zyklusverkürzung: Vier bis sechs Monate Stabilitätstest werden auf eine initiale Prognose in Stunden reduziert. Die Zeit wird nicht aus dem Test gespart, den gibt es nach wie vor, sondern aus den Iterationen davor. Wer zwei statt vier Testdurchläufe braucht, gewinnt bis zu einem halben Jahr Entwicklungszeit. Das ist in einem Markt mit schnellen Trendzyklen und fixen Retailer-Listingterminen ein echter Wettbewerbsvorteil.

Kosteneinsparung, hoch (4/5) Ein vermiedener Fehlansatz spart je nach Batch-Größe 5.000 bis 30.000 Euro in Laborzeit, Rohstoffen und Betriebskosten. Hinzu kommen eingesparte externe Stabilitätstests: Zertifizierte Labore berechnen für Beschleunigungstests je nach Protokoll 600 bis 2.500 Euro pro Formulierung (Quelle: Certified Cosmetics Laboratories). Kein 5/5, weil der initiale Modellaufbau, Datenaufbereitung, Training, Validierung, Investitionskosten von 20.000 bis 80.000 Euro für ein Custom-Modell mit sich bringt. Die Amortisation tritt erst nach mehreren Produktionszyklen ein.

Schnelle Umsetzung, niedrig (1/5) Das ist der härteste Punkt dieser Kategorie. Um ein ML-Stabilitätsmodell zu trainieren, braucht es historische Stabilitätsdaten aus eigenen Formulierungsversuchen, systematisch dokumentiert, mit Messparametern, Ergebniswerten und Rohstoff-Chargeninformationen. Diese Datenbank wird nicht in Wochen aufgebaut. In der Praxis bedeutet das: Wer heute startet, hat in zwei Jahren ein trainiertes Modell, sofern die Datendisziplin von Anfang an stimmt. Alternativ gibt es Kooperationswege mit Datenplattformen, aber auch diese setzen Mindestdatenmengen voraus. Keine andere Anwendung in dieser Kategorie ist so abhängig von einer Datenbasis, die Jahre vorher hätte aufgebaut werden müssen.

ROI-Sicherheit, mittel (3/5) Die Prognosequalität des Modells hängt direkt von der Trainingsdaten-Abdeckung ab. Für gut repräsentierte Emulsionstypen (klassische O/W-Systeme, bekannte Emulgatorfamilien) ist die Vorhersagegenauigkeit hoch, eine 2025 publizierte Studie in Chemical Papers verzeichnete für Gradient-Boosting-Modelle eine Genauigkeit von 0,938 für Wasser-in-Öl-Emulsionen. Für neue Rohstoffklassen oder unbekannte Kombinations-Räume sinkt diese Genauigkeit unvorhersehbar. Der ROI tritt zuverlässig ein, wenn das Modell in seiner Abdeckungszone bleibt, aber die Grenze dieser Zone ist schwer von außen zu erkennen.

Skalierbarkeit, hoch (4/5) Einmal trainiert und validiert läuft ein ML-Stabilitätsmodell marginal kostenlos für jede weitere Formulierungsanfrage. Wer mit drei Produktentwicklungen pro Jahr startet, kann das Modell bei zehn Entwicklungen ohne proportionale Mehrkosten nutzen. Die laufenden Modellpflege- und Retraining-Kosten steigen nicht proportional zum Volumen, sie fallen an, wenn neue Rohstoffklassen eingeführt werden oder wenn das Modell nach einer definierten Anzahl neuer Validierungspunkte nachtrainiert wird.

Richtwerte, stark abhängig von vorhandener Formulierungsdatenbank, Rohstoffportfolio und internem Datenbankmanagement.

Was das ML-Modell konkret macht

Der Kern des Ansatzes: Ein Machine Learning-Modell lernt aus Hunderten historischer Formulierungsversuche, welche Kombination aus Emulgatorsystem, Wirkstoffkonzentration, pH-Wert, Wasseraktivität und Phasenverhältnis zu stabilen Emulsionen führt, und welche nicht.

Die relevanten Eingangsparameter

Für Emulsionen sind das typischerweise:

HLB-Wert (hydrophile-lipophile Balance): Gibt an, ob ein Emulgator eher Öl-in-Wasser- oder Wasser-in-Öl-Emulsionen stabilisiert. Werte zwischen 8 und 18 bevorzugen O/W-Emulsionen, unter 6 bevorzugen W/O-Systeme. Das Modell lernt, welche HLB-Kombination aus Haupt- und Co-Emulgator welche Stabilitätsergebnisse produziert.
Phasenverhältnis: Der Anteil der Ölphase zur Wasserphase in der Rezeptur bestimmt die Viskosität und Stabilität maßgeblich. Kleine Änderungen (z. B. von 20 auf 30 % Ölphase) können große Stabilitätsauswirkungen haben.
pH-Wert und Puffersystem: Viele Emulgatoren und Wirkstoffe haben pH-abhängige Stabilitätsfenster. Das Modell lernt diese Fenster aus historischen Daten.
Wirkstoffkonzentrationen: Insbesondere bei aktiven Inhaltsstoffen wie Vitamin C, Retinol oder AHA-Säuren, die chemisch reaktiv sind und das Emulgatorsystem beeinflussen können.
Wasseraktivität (aw): Entscheidend für mikrobiologische Stabilität und für die Aktivität mancher Wirkstoffe.

Was das Modell daraus macht

Aus diesen Parametern berechnet das Modell eine Stabilitätsprognose, üblicherweise als Wahrscheinlichkeitswert zusammen mit einem Konfidenzintervall. Moderne Ansätze wie die Plattform Intellico (Produkt: Matilde) oder ~~Brightrock~~ nutzen dabei Explainable AI: Sie zeigen nicht nur das Ergebnis, sondern auch, welche Eingabeparameter am stärksten zur Vorhersage beitragen. Für die Formulierungschemikerin bedeutet das: Sie sieht nicht nur “instabil, 78 % Wahrscheinlichkeit”, sondern auch “Haupttreiber: pH-Wert-Emulgator-Wechselwirkung bei diesem Zuckerester-Anteil.”

Welche ML-Modelltypen zum Einsatz kommen

Für Stabilitätsprognosen aus Formulierungsparametern haben sich drei Ansätze etabliert:

Random Forests und Gradient Boosting: Gut interpretierbar, robust gegenüber kleinen Datenmengen, funktionieren bereits ab 100–200 historischen Formulierungen. Der Hauptvorteil: Sie zeigen Feature Importances, welche Parameter treiben das Modell am stärksten.
Graph Neural Networks (GNNs): Bilden Molekülstrukturen als Graphen ab und erfassen so chemische Zusammenhänge, die tabellarische Daten nicht ausdrücken können. Benötigen mehr Daten, liefern bei ausreichender Datenbasis präzisere Vorhersagen für chemisch komplexe Systeme.
QSPR-Modelle (Quantitative Structure-Property Relationship): Der wissenschaftliche Standard aus der chemischen Forschung, mathematische Korrelation zwischen Molekülstruktur und Eigenschaft. Basis für akademische Veröffentlichungen und behördlich anerkannte Vorhersagen in der Pharma.

Wichtig: Kein Modell kann vollständig erklären, was in einem konkreten Laboransatz passiert. Modelle prognostizieren Wahrscheinlichkeiten auf Basis von Mustern aus Vergangenheitsdaten, kein Ersatz für physikalisch-chemisches Verständnis.

Regulatorische Einbettung: Was das Modell leisten darf und was nicht

Dieser Punkt wird in Marketingmaterialien zu ML-Formulierungstools häufig vage gelassen. Deshalb hier klar:

Was die EU-Kosmetikverordnung 1223/2009 verlangt: Jedes kosmetische Mittel, das auf dem EU-Markt angeboten wird, muss einen Cosmetic Product Safety Report (CPSR) vorweisen. Dieser enthält unter anderem die Stabilitätsdaten des Produkts, physikalisch-chemische Stabilitätsnachweise aus dokumentierten Labortests, keine Modellvorhersagen.

Was ML-Prognosen in diesem Kontext sind: Ein Screening-Werkzeug, kein Zulassungsersatz. Das Modell hilft dabei, vor dem regulatorisch relevanten Labortest die instabilsten Kandidaten auszusortieren. Der Test selbst, mit echten Messungen, dokumentierten Protokollen und einem Sicherheitsbewerter, bleibt Pflicht.

Was die Praxis zeigt: Kosmetikbehörden (BfR, SCCS) und Notifizierungssysteme (CPNP) akzeptieren keine ML-Prognosen als Ersatz für Stabilitätstests. Was sie nicht ausschließen: die Verwendung von Prognosen als interne Entwicklungsunterstützung. Wer sein ML-Modell als internen R&D-Filter dokumentiert, mit Validierungsprotokollen aus Back-Testing auf bekannten Formulierungen, kann das in der internen Entwicklungsdokumentation abbilden.

Die Verbindung zur regulatorischen Pflicht: Ein stabileres Produkt, das den Pflichttest auf Anhieb besteht, ist das Ziel. ML hilft, dahin schneller zu kommen. Die regulatorische Compliance (CPNP-Meldung und EU-Kosmetikverordnung) bleibt ein separater Schritt.

Konkrete Werkzeuge, was wann passt

~~Brightrock~~, spezialisierte ML-Plattform für Kosmetikformulierungen. Brightrock sagt Emulsionsbruch-Risiken, pH-Stabilität und Viskositätseigenschaften voraus, bevor die erste Laborcharge angesetzt wird. Nutzt Bayesian Optimization für die iterative Rezepturverbesserung. Benötigt eine eigene historische Formulierungsbasis als Startpunkt (Minimum laut Anbieter: 50–100 Formulierungen). EU-gehostet, Preis auf Anfrage. Empfehlung: der direkteste Einstieg für Kosmetikhersteller mit etablierter Formulierungsdatenbank.

Intellico (Matilde), nutzt Graph Neural Networks statt klassischer tabellarischer ML-Ansätze. Stärke: Explainable AI zeigt, welche Inhaltsstoffe welche Eigenschaft treiben, für Formulierungschemiker der entscheidende Unterschied zur Black Box. Verarbeitet auch unstrukturiertes Wissen aus internen Laborberichten, Patenten und Fachliteratur als Trainingsgrundlage. EU-Hosting, Preis auf Anfrage, Demo-basierter Einstieg. Empfehlung: wenn Erklärbarkeit der Vorhersagen intern wichtig ist oder Regulatoren gegenüber dokumentiert werden muss.

ChemCopilot, kein spezialisierter Emulsionsstabilitäts-Tool, aber als Formulierungsassistent für Rohstoff-Substitution nützlich: Wenn eine neue biozertifizierte Emulgatoralternative geprüft wird, kann ChemCopilot einen REACH/SVHC-Vorabcheck liefern und strukturähnliche Alternativen mit regulatorischem Screening vorschlagen. Ergänzend zu Brightrock oder Intellico, nicht ersetzend.

Uncountable, ELN/LIMS-Plattform mit integrierten ML-Vorhersagefunktionen für die Formulierungsentwicklung. Breiter als die spezialisierteren Kosmetik-Tools: deckt Chemie, Consumer Goods und Food & Beverage ab. Stärke liegt in der engen Verzahnung von Versuchsplanung, Datenerfassung und Vorhersage in einer Plattform. Sinnvoll für Unternehmen, die gleichzeitig ihr Labor-Datenmanagement (ELN) modernisieren wollen. Enterprise-Pricing, kein öffentlicher Listenpreis.

Eigenentwicklung mit Scikit-learn / Python, für Unternehmen mit Datenwissenschafts-Kapazitäten intern ist ein eigenes Modell auf Basis der eigenen Formulierungsdatenbank möglich. Random-Forest- oder XGBoost-Modelle auf 200+ historischen Formulierungen mit Stabilitätsergebnissen liefern solide Basisprognosen. Vorteil: vollständige Datenkontrolle, keine Lizenzkosten. Nachteil: Entwicklungsaufwand, Wartungsbedarf, kein produktionsfertiges Interface.

Zusammenfassung: Wann welcher Ansatz

Kosmetikhersteller mit 50+ Formulierungen, EU-Hosting wichtig → ~~Brightrock~~
Explainability und Literaturdaten-Integration wichtig → Intellico (Matilde)
Gleichzeitig ELN/LIMS-Modernisierung geplant → Uncountable
Eigenes Data-Science-Team vorhanden → Eigenentwicklung (Python/Scikit-learn)
Regulatorisches Rohstoff-Screening parallel → ChemCopilot

Datenschutz und Datenhaltung

Formulierungsrezepturen sind das Kerngeschäft eines Kosmetikherstellers, oft geschäftskritisches IP, das in keiner Cloud landen sollte, bei der die Datensouveränität unklar ist.

Die DSGVO greift bei Formulierungsdaten nicht im klassischen Sinne (keine personenbezogenen Daten), aber es gelten eigene Schutzanforderungen:

Vertragsrechtlicher Schutz (NDA + IP-Klauseln): Jeder SaaS-Anbieter, dem Rezepturdaten übergeben werden, muss vertraglich bestätigen, dass diese Daten nicht für gemeinsame Modelle, Benchmarks oder Anbieter-Produktverbesserungen genutzt werden. Das ist ein Standardpunkt in Enterprise-Verträgen, einfordern und dokumentieren.
EU-Hosting: ~~Brightrock~~ und Intellico betreiben EU-seitige Infrastruktur. Das ist für Unternehmen in der EU die erste Anforderung, US-gehostete Formulation-Daten können im Prinzip unter US-Gerichtszuständigkeit landen.
On-Premise als Alternative: Für Unternehmen, die jegliche Cloud-Übermittlung von Formulierungsdaten ausschließen, sind selbst gehostete ML-Lösungen (eigenes Python-Modell auf firmeneigenem Server) die sicherste Option, auf Kosten des Komforts und mit Wartungsaufwand.
Datenminimierung: Nicht die vollständige Rezeptur muss ins Modell. Feature Engineering erlaubt es, aus Rezepturen abgeleitete Parameter (HLB, pH, Phasenverhältnis) statt der vollständigen Rohstoffliste zu übergeben, das reduziert das Risiko bei gleichem Modellnutzen.

Was es kostet, realistisch gerechnet

Einmalige Projektkosten

Ansatz	Erstkosten	Was du bekommst
Plattform (~~Brightrock~~, Intellico)	20.000–80.000 € Implementierung + Datenprojekt	Trainiertes Modell auf deiner Datenbasis, Interface, Anbindung
Eigenentwicklung (Data Scientist intern)	40.000–100.000 € (6–12 Monate Entwicklung)	Vollständig kontrolliertes Modell, kein Vendor-Lock-in
Kooperation mit Datenplattform (Uncountable)	Auf Anfrage (typisch 30.000–100.000 €/Jahr Enterprise)	ELN + Vorhersagemodul + Standardisierte Methodiken

Laufende Kosten

Lizenz SaaS-Plattform: 1.500–5.000 €/Monat je nach Volumenlizenz (Schätzung; kein öffentlicher Listenpreis)
Eigenentwicklung Wartung: 5–10 % der Erstkosten p.a. für Modellpflege und Retraining
Daten-Aufbereitung für Ersttraining: intern 2–4 Wochen Aufwand zur Historisierung bestehender Labordaten

Was du dagegenrechnen kannst

Ein mittelständischer Kosmetikhersteller mit vier Produktentwicklungen pro Jahr und je zwei eingesparten Fehlansätzen à 10.000 Euro spart 80.000 Euro jährlich in Batch-, Labor- und Verzögerungskosten, zusätzlich zur Zeitersparnis von je zwei Monaten Entwicklungszeit. Das sind Richtwerte, keine garantierten Zahlen: Der Hebel hängt direkt davon ab, wie oft das Modell korrekt eine instabile Formulierung vor dem Labortest ausschließt.

Wie du den ROI wirklich misst Nicht durch Projektion vor dem Rollout, sondern durch Back-Testing: Lass das Modell auf bekannten historischen Formulierungen laufen und vergleiche, wie viele der dokumentierten Fehlschläge das Modell vorab korrekt als instabil identifiziert hätte. Diese Trefferquote (und die False-Positive-Rate) ist die einzige aussagekräftige Zahl, alles andere ist Spekulation.

Was das Modell lernt, und wann es scheitert

Dieser Abschnitt verdient mehr Raum, als ihn die meisten Anbieter-Webseiten einräumen.

Wann das Modell verlässlich ist

Das Modell ist verlässlich innerhalb seiner Trainingsdomäne: für Emulsionstypen, Emulgatorfamilien und Wirkstoffklassen, die in der Trainingsdatenbank gut repräsentiert sind. Wenn du 200 O/W-Emulsionen mit Cetylalkohol-basierten Emulgatorsystemen und verschiedenen Ölphasen-Verhältnissen trainiert hast, wird das Modell neue Variationen in diesem Raum gut prognostizieren.

Wann das Modell scheitert, und warum das gefährlich ist

Das Modell scheitert bei Out-of-Distribution-Kombinationen: neue Rohstoffklassen, die nie zuvor in der Datenbasis aufgetaucht sind, neue Emulgatortechnologien oder Wirkstoff-Wechselwirkungen, die in der Trainingshistorie nicht vorkommen.

Das gefährliche daran: ML-Modelle scheitern nicht still. Sie geben weiterhin Vorhersagen aus, oft mit hoher Konfidenz, auch wenn die Trainingsdaten keine Grundlage für diese Prognose bieten. Ein Gradient-Boosting-Modell, das 500 Lecithin-basierte Formulierungen kennt, wird für eine Formulierung mit einem neuartigen Biopolymer-Emulgator trotzdem eine Stabilitätsprognose ausgeben. Diese Prognose ist strukturell unzuverlässig, aber das Modell signalisiert das nicht automatisch.

Was das konkret bedeutet:

Jedes ML-Stabilitätssystem braucht ein Unsicherheits-Monitoring: Die Frage “Liegt diese neue Formulierung im Abdeckungsbereich des Modells?” muss systematisch gestellt werden, bevor eine Prognose als Entscheidungsgrundlage gilt. Plattformen wie ~~Brightrock~~ und Intellico bieten Konfidenzintervalle, aber das Interpretieren dieser Konfidenzintervalle ist Aufgabe der Formulierungschemikerin, nicht des Tools. Ein Modell, das sagt “Stabilität: 73 %, Konfidenz: hoch”, für eine Formulierung außerhalb seiner Trainingsdomäne, ist gefährlicher als kein Modell.

Praktische Konsequenz: Modell-Vorhersagen für alle Formulierungen mit neuartigen Rohstoffklassen immer durch einen Labortest validieren, unabhängig davon, was das Modell prognostiziert. Die neue Rohstoffklasse liefert gleichzeitig einen neuen Trainingsdatenpunkt für den nächsten Modell-Zyklus.

Typische Einstiegsfehler

1. Das Modell auf zu wenig Daten trainieren und dann vertrauen. Fünfzig historische Formulierungen reichen aus für erste Experimente. Für produktive Entscheidungsunterstützung braucht es mindestens 150–200 Formulierungen mit vollständigen Ergebnisdaten, darunter auch Fehlschläge. Wer nur die “guten” Formulierungen dokumentiert hat, trainiert ein Modell, das nur die Stabilität erfolgreicher Produkte vorhersagt, und Instabilität systematisch unterschätzt.

2. Das Modell als letztes Sicherheitsnetz statt als Vorfilter behandeln. Ein Modell, das eine Formulierung als “stabil” prognostiziert, schließt Instabilität nicht aus. Es sagt: “In meinem Trainingsdaten-Raum sahen ähnliche Formulierungen stabil aus.” Den regulatorisch vorgeschriebenen Labortest kann und darf kein ML-Modell ersetzen. Wer das intern so kommuniziert, vermeidet Enttäuschungen beim ersten Durchfaller einer “modell-validierten” Rezeptur.

3. Die Datenbasis nach dem Modelltraining nicht weiterpflegen. Das häufigste Langzeitproblem: Das Modell wird einmalig trainiert und dann nicht mit neuen Testresultaten gespeist. Nach 12–18 Monaten führt das Team neue Rohstoffe ein und merkt, dass das Modell dafür keine verlässlichen Prognosen mehr liefert, ohne zu wissen, warum. Die Lösung ist organisatorisch, nicht technisch: Jedes neue Labortestresultat muss systematisch in die Trainingsdatenbank zurückfließen. Das muss in die Laborprozesse eingebaut werden, nicht als nachträglicher Schritt.

4. Die Modell-Grenzen nicht intern kommunizieren. Wenn das F&E-Team anfängt, Modellvorhersagen als Fakten zu behandeln, Formulierungen auf Basis einer Modellprognose in die Produktion zu geben, ohne Laborvalidierung, ist ein gefährlicher Grenzbereich erreicht. Das Modell sollte in der internen Kommunikation immer als “Prognose mit bekannter Unsicherheit” bezeichnet werden, nicht als “Stabilitätscheck”.

Was mit der Einführung wirklich passiert

Die technische Seite, Modell trainieren, Interface einrichten, erste Prognosen durchführen, ist in diesem Anwendungsfall überraschend handhabbar. Das Schwierigere ist die Datenseite.

Das Datenbasis-Problem In den meisten Formulierungsabteilungen existieren Stabilitätsdaten in verschiedenen Formaten und Systemen: Excel-Tabellen aus verschiedenen Jahren, Laborberichte als PDFs, Daten in verschiedenen LIMS-Systemen, Ergebnisse aus externen Auftragsanalysen. Das in eine konsistente, ML-trainierbare Struktur zu überführen, ist 70 % des eigentlichen Aufwands beim Erstprojekt. Unterschätze das nicht.

Widerstand aus dem Labor Formulierungschemiker, die jahrelang durch Erfahrung und Intuition sehr gute Ergebnisse erzielt haben, reagieren verständlicherweise skeptisch auf ein System, das ihre Expertise “automatisieren” soll. Das ist kein irrationaler Widerstand, er hat einen Grund. Was hilft: Das Modell nicht als Ersatz, sondern als Arbeitshilfe positionieren, die repetitive Varianten-Screenings übernimmt, damit mehr Zeit für chemisch komplexe, wirklich neue Problemstellungen bleibt. Und: Das erste Modell gemeinsam mit den Chemikern back-testen, sie sollen das System verstehen, nicht nur das Ergebnis sehen.

Die zweite Hürde: Retraining-Disziplin Das Modell ist nach dem ersten Training gut. Nach zwölf Monaten ohne neue Daten wird es schlechter, wenn neue Rohstoffe eingeführt wurden. Wer keinen definierten Retraining-Rhythmus festlegt, und eine Person benennt, die dafür verantwortlich ist, hat nach zwei Jahren ein veraltetes Modell, das niemand mehr vertraut, und niemand mehr weiß warum.

Realistischer Zeitplan mit Risikohinweisen

Phase	Dauer	Was passiert	Typisches Risiko
Daten-Inventur und -aufbereitung	Woche 1–6	Historische Stabilitätsdaten aus allen Quellen sichten, normalisieren, Fehlschläge explizit aufnehmen	Mehr Quellen und Formate als erwartet, 30–50 % Aufwand liegt in der Datenbereinigung
Modelltraining und -validierung	Woche 6–10	Erstes Modell trainieren, Back-Testing auf bekannten Formulierungen, Genauigkeit und False-Positive-Rate dokumentieren	Genauigkeit unter Erwartung, weil zu wenige Fehlschläge in der Trainingsdatenbank dokumentiert sind
Pilotbetrieb	Woche 10–16	Parallelbetrieb: Modellprognose + klassischer Labortest für dieselben Formulierungen. Abweichungen dokumentieren.	Modell ist für bestimmte Emulsionstypen gut, für andere nicht, klare Kommunikation der Anwendungsgrenzen nötig
Produktivbetrieb	Ab Monat 5	Modell als Vorfilter im Entwicklungsprozess. Nur Kandidaten mit guter Prognose kommen in den Labortest. Alle neuen Testergebnisse zurück in die Datenbasis.	Retraining-Rhythmus nicht etabliert, Modell veraltet ohne feste Zuständigkeit und Trigger

Wichtig: Vier bis sechs Monate bis zum Produktivbetrieb ist realistisch, nicht als Projektverzögerung, sondern als strukturelle Anforderung für eine belastbare Datenbasis und ein validiertes Modell.

Häufige Einwände, und was dahintersteckt

„Wir haben keine historischen Stabilitätsdaten in auswertbarer Form.” Das stimmt oft. Es stimmt aber auch oft halb: Die Daten existieren, sind aber über Excel-Tabellen, Labor-Notizbücher, PDFs und alte LIMS-Systeme verteilt. Das Projekt beginnt dann nicht mit Modelltraining, sondern mit Daten-Inventur. Das ist ein echter Aufwand, aber er entsteht nicht durch das ML-Projekt, sondern er war schon immer vorhanden. Das Modell ist oft nur der Anlass, die Datenbasis endlich in Ordnung zu bringen.

„Unser Produktportfolio ist zu speziell, da wird kein Modell ausreichend Trainingsdaten haben.” Das ist die ehrlichste Gegenrede, die es gibt. Wenn ein Unternehmen ausschließlich ein- bis zweimal pro Jahr hochspezialisierte Formulierungen entwickelt, die keine gemeinsame Basis mit dem bisherigen Portfolio haben, ist der ML-Ansatz unrealistisch. Dann ist klassische Formulierungsexpertise oder eine Kooperation mit einem Forschungsinstitut (Fraunhofer IGD, BASF Beauty Ingredients) zielführender.

„Der regulatorische Stabilitätstest kommt sowieso, was spare ich wirklich?” Du sparst die Iterationen vor dem Test. Ein Unternehmen, das früher drei Testdurchläufe brauchte, braucht mit ML-Vorfilterung noch einen. Das spart nicht den Test, aber es spart zwei Durchläufe. Bei Entwicklungszeiten von 6 Monaten pro Durchlauf ist das der Unterschied zwischen einem 9-Monats- und einem 21-Monats-Entwicklungszyklus.

„Wir sind zu klein für so ein Projekt.” Wahrscheinlich richtig, wenn “zu klein” bedeutet: unter 50 historische Formulierungen, unter drei Produktentwicklungen pro Jahr, kein internes Dateningenieur-Profil. Dann ist die sinnvollere Investition zunächst in eine systematische Labordaten-Dokumentation, und in zwei Jahren, wenn die Datenbasis steht, neu prüfen.

Woran du merkst, dass das zu dir passt

Das passt zu dir, wenn:

Ihr habt eine systematisch dokumentierte Formulierungshistorie, mindestens 100 Formulierungen mit Stabilitätsergebnissen in auswertbarer Form. Auch Fehlschläge.
Ihr entwickelt drei oder mehr neue Produkte pro Jahr, der ROI tritt erst ein, wenn das Modell regelmäßig eingesetzt wird.
Ihr habt in den letzten Jahren regelmäßig Fehlansätze gehabt, die nach 3–6 Monaten Labortest gescheitert sind, das ist die Zielscheibe des Modells.
Ihr wechselt auf neue Emulgatortechnologien (Bio-Emulgatoren, Green Chemistry) und habt noch keine Erfahrungsbasis dafür, genau hier kann ein Modell auf Basis ähnlicher Systeme orientieren.
Ihr habt einen internen Data Scientist oder Laborinformatik-Spezialisten, der das Modell betreuen kann, oder ihr arbeitet mit einem Anbieter zusammen, der das übernimmt.

Harte Ausschlusskriterien, wann du es sein lassen solltest:

Unter 80–100 dokumentierten historischen Stabilitätstests mit Ergebnisangaben. Darunter ist kein ML-Modell trainierbar, das zuverlässige Prognosen liefert. Zuerst Datenbasis aufbauen, dann Modell.
Produkte werden weniger als zweimal pro Jahr neu entwickelt. Der Aufwand für Modellaufbau und -pflege ist nicht durch den Nutzen gedeckt. Klassische Formulierungsexpertise und ggf. externe Beratung sind effizienter.
Alle neuen Formulierungen nutzen Rohstoffklassen, die in der bisherigen Datenbasis nicht vorkommen (z. B. kompletter Wechsel von konventionellen zu 100 % bio-basierten Emulgatoren ohne historische Vergleichsdaten). Das Modell würde außerhalb seiner Trainingsdomäne arbeiten und hätte keine zuverlässige Vorhersagekraft, im schlimmsten Fall schafft das falsche Sicherheit.

Das kannst du heute noch tun

Beginne mit einer Datenbasis-Inventur, bevor irgendein Tool evaluiert wird.

Öffne eure Labordaten-Ablage und beantworte diese Fragen:

Wie viele abgeschlossene Stabilitätstests existieren in dokumentierter Form, mit Ergebnisangabe?
Sind Fehlschläge ebenso systematisch dokumentiert wie Erfolge?
In welchem Format liegen diese Daten: Excel, LIMS, PDF, Labor-Notizbuch?
Wer kennt die Daten gut genug, um Lücken und Widersprüche zu erkennen?

Diese Inventur gibt dir in zwei Stunden mehr Klarheit darüber, ob ein ML-Projekt realistisch ist, als jede Anbieter-Demo.

Danach: Lass dir von ~~Brightrock~~ oder Intellico eine Demo mit deinen eigenen Beispieldaten zeigen, und frage explizit nach dem Back-Testing: Wie gut prognostiziert das Modell bekannte historische Ergebnisse aus deiner Datenbasis? Diese Zahl ist der einzige valide Startpunkt für eine ROI-Bewertung.

Für den ersten internen Daten-Audit kannst du diesen Prompt als Strukturhilfe nutzen:

Daten-Inventur für ML-Stabilitätsprojekt

Du hilfst mir bei der Inventur unserer historischen Kosmetik-Stabilitätsdaten für ein ML-Projekt. Ich beschreibe dir, was wir haben: [BESCHREIBUNG DER VORHANDENEN DATENQUELLEN: z.B. "Excel-Tabellen aus Labortests 2018–2025, ca. 80 Einträge; 3 externe LIMS-Exporte; 20 Stabilitäts-PDFs von Auftragsanalysen"] Erstelle daraus eine strukturierte Datenaudit-Checkliste mit folgenden Fragen: 1. Welche Pflichtfelder braucht ein ML-Modell für jede Formulierung? (Emulgatorsystem, HLB, Phasenverhältnis, pH, Testbedingungen, Ergebnis) 2. Wie viele unserer Datenpunkte sind wahrscheinlich vollständig verwertbar? 3. Welche Lücken müssen für ein ML-Training zuerst geschlossen werden? 4. Wie viele Fehlschläge sind dokumentiert vs. nur Erfolge? 5. Was ist der realistische nächste Schritt: Eigenes Modell bauen, SaaS-Plattform evaluieren oder zuerst Datenbasis aufbauen? [DEINE SPEZIFISCHEN ROHSTOFFKLASSEN ODER EMULSIONSTYPEN, z.B. "O/W-Emulsionen, Bio-Emulgatoren, Naturkosmetik COSMOS-Standard"]

Funktioniert mit ChatGPT, Claude, Gemini

Beispiel-Ausgabe

Mitarbeiter:in

Wir haben ca. 120 Excel-Einträge aus 2019–2025, aber nur bei 60 davon sind Fehlschläge dokumentiert. Schwerpunkt sind O/W-Emulsionen mit Lecithin und Zuckerester-Systemen. 15 Formulierungen mit neuen Polyglyceryl-Emulgatoren seit 2023.

KI-Assistent

Datenbasis-Bewertung für ML-Stabilitätsprojekt: **Verwertbare Datenpunkte:** ~60–80 (Schätzung: vollständig dokumentierte Einträge mit Fehlschlag-Information). 40–50 % der Daten sind möglicherweise verwendbar als Trainingsgrundlage. **Lücken:** • 60 Einträge ohne Fehlschlag-Dokumentation → Kritisch: Ein Modell, das nur Erfolge sieht, unterschätzt Instabilität systematisch. Priorität: Fehlschläge aus Laborberichten und Protokollen nacherfassen. • 15 Polyglyceryl-Formulierungen → Zu wenig für eine eigenständige Subdomäne. Diese Klasse wird das Modell nicht verlässlich abdecken. **Pflichtfelder pro Eintrag (zum Nacherfassen):** Emulgatorsystem + Konzentration, Ölphasen-Anteil, pH-Zielwert, Testbedingungen (40°C/8Wochen, Zentrifuge, Freeze-Thaw-Zyklen), Ergebnis (stabil/instabil/phasentrennung). **Empfehlung:** Vor Plattform-Evaluation zunächst 4–6 Wochen Daten-Nacherfassung für die Fehlschlag-Einträge. Danach Brightrock oder Intellico mit den 60–80 vollständigen Einträgen als Back-Test testen. Polyglyceryl-Klasse vorerst aus Modell-Scope ausschließen und manuell validieren. **Realistischer nächster Schritt:** Datenbereinigung vor Modellevaluierung, kein Tool kann schlechte Trainingsdaten kompensieren.

Quellen & Methodik

Unilever AI Formulation Engine (2024): Unilever berichtete, dass ML-gestützte Formulierungsunterstützung die Entwicklungsrunden von 5–6 auf 1–2 reduziert hat. Quelle: Klover.ai, „Unilever’s AI Strategy: Analysis of Dominance in Consumer Packaged Goods” (2024), https://www.klover.ai/unilever-ai-strategy-analysis-of-dominance-in-consumer-packaged-goods/
L’Oréal und IBM AI Formulation Partnership (Januar 2025): Gemeinsames Custom-Formulation-Foundation-Model zur Produktentwicklungsbeschleunigung. Quelle: BeautyMatter, „L’Oréal Groupe and IBM’s AI Formulation Breakthrough” (2025), https://beautymatter.com/articles/loreal-groupe-and-ibms-ai-formulation-breakthrough
ML-Genauigkeit Emulsionsstabilität: Gradient-Boosting-Modell bei 0,938 Accuracy für Wasser-in-Öl-Emulsionen. Quelle: Chemical Papers, Springer Nature, „Advances in the applications of machine learning for cosmetic formulation development” (2026), https://link.springer.com/article/10.1007/s11696-026-04696-7
Stabilitätstestkosten (EU-Standard): 600–2.500 USD pro Formulierung für Beschleunigungstests. Quelle: Certified Cosmetics Laboratories, Preisliste (2025), https://www.certifiedcosmetics.com/product/stability-testing/
EU-Kosmetikverordnung 1223/2009: Stabilitätstests als Pflichtbestandteil des Cosmetic Product Safety Reports (CPSR), Anhang I. Verordnung (EG) Nr. 1223/2009.
QSPR-Modelle für Emulsionsvorhersage: Wissenschaftliche Grundlage für quantitative Struktur-Eigenschafts-Beziehungen. Quelle: MDPI Cosmetics, „Artificial Intelligence in Cosmetic Formulation” (2025), https://www.mdpi.com/2079-9284/12/4/157
Intellico Matilde: Explainable AI für Kosmetikformulierungen mit Graph Neural Networks. Quelle: Anbieterwebseite https://intellico.ai/predictive-ai-for-cosmetics-beauty-formulation/ (verifiziert Mai 2026)
Brightrock: EU-gehostete ML-Plattform für Kosmetikformulierungen. Mindestdatenbasis 50–100 Formulierungen laut Anbieter (verifiziert April 2026)

Du willst wissen, ob eure Formulierungsdatenbank ausreicht und wie ein ML-Pilotprojekt für euren Produktmix aussehen würde? Meld dich, das klären wir in einem kurzen Gespräch.

Diesen Inhalt teilen:

LinkedIn X / Twitter E-Mail WhatsApp

🤝

Du weißt jetzt, was möglich ist. Fehlt noch die Umsetzung?

Viele, die diesen Use Case lesen, versuchen es danach allein. Das kostet Wochen: Datenschutzfragen, Toolauswahl, Prompt-Engineering, interne Überzeugungsarbeit. Wir kennen diese Stolperstellen, weil wir das Setup schon gebaut haben. Schreib uns kurz, das Erstgespräch ist kostenlos und unverbindlich.

Alle KI-Tools für Beauty & Wellness vergleichen

Weitere Use Cases

KI-Hautanalyse per Smartphone: individuelle Produktempfehlung in Sekunden

Eine KI wertet ein Selfie des Kunden in Echtzeit aus und identifiziert Hauttyp, Problemzonen und Pflegebedarf. Kosmetikstudios und POS-Teams können gezielt empfehlen, ohne lange Beratungsgespräche.

Mehr erfahren

Virtual Try-On: Make-up und Haarfarbe per AR vor dem Kauf simulieren

Kunden sehen per Smartphone- oder Webcam-Feed in Echtzeit, wie ein Lippenstift, eine Foundation oder eine neue Haarfarbe auf ihrem Gesicht wirkt, ohne Tester anzufassen. Onlineshops und Salons mit Eigenmarken senken die Kaufhemmschwelle deutlich.

Mehr erfahren

Inhaltsstoff-Compliance automatisieren: CPNP und EU-Kosmetikverordnung

KI prüft Rezepturen automatisch gegen die EU-Kosmetikverordnung (EG Nr. 1223/2009), INCI-Verbotslisten und CPNP-Meldeanforderungen. Für Eigenmarken-Salons und kleinere Kosmetikhersteller ersetzt das stunden-lange manuelle Recherche.

Mehr erfahren

Zurück zu Beauty & Wellness

Frieda Funke

Konzeptentwicklerin

Ich frage nicht, was KI kann. Ich frage, was du in deinem Alltag damit anfängst. Erst wenn ich eine ehrliche Antwort habe, entsteht daraus ein konkreter Use Case. Fehlt ein Anwendungsfall, der zu dir passt? Schreib mir kurz.

Fehlt dein Anwendungsfall? Mehr über das Team

Emulsionsstabilität-Prognose: ML ersetzt monatelange Lagerungstests

Das echte Ausmaß des Problems

Mit vs. ohne KI, ein ehrlicher Vergleich

Einschätzung auf einen Blick

Was das ML-Modell konkret macht

Die relevanten Eingangsparameter

Was das Modell daraus macht

Welche ML-Modelltypen zum Einsatz kommen

Regulatorische Einbettung: Was das Modell leisten darf und was nicht

Konkrete Werkzeuge, was wann passt

Datenschutz und Datenhaltung

Was es kostet, realistisch gerechnet

Solche Praxis-Analysen, regelmäßig in deinem Postfach

Was das Modell lernt, und wann es scheitert

Typische Einstiegsfehler

Was mit der Einführung wirklich passiert

Realistischer Zeitplan mit Risikohinweisen

Häufige Einwände, und was dahintersteckt

Woran du merkst, dass das zu dir passt

Das kannst du heute noch tun

Quellen & Methodik

Du weißt jetzt, was möglich ist. Fehlt noch die Umsetzung?

Weitere Use Cases

KI-Hautanalyse per Smartphone: individuelle Produktempfehlung in Sekunden

Virtual Try-On: Make-up und Haarfarbe per AR vor dem Kauf simulieren

Inhaltsstoff-Compliance automatisieren: CPNP und EU-Kosmetikverordnung

Bleib auf dem neuesten Stand der KI

Bleib auf dem neuesten
Stand der KI