Wie SRE-Outsourcing Startups beim Skalieren ihrer Infrastruktur hilft

In einem frühen Startup wirkt Infrastruktur fast immer wie ein vorübergehendes Thema. Am Anfang scheint eine Person auszureichen, die weiß, wo der Terraform-Code liegt, wie man ein Release zurückrollt und wer Zugriff auf die Produktionsumgebung hat. Dann kommen die ersten größeren Kunden, der Traffic steigt, ein zweiter oder dritter Service kommt hinzu, und plötzlich wird klar: Infrastruktur ist nicht mehr bloß Hintergrund. Sie konkurriert mit dem Produkt um die Aufmerksamkeit der Gründer.

Genau an diesem Punkt wird SRE-Outsourcing zu einem praktischen statt theoretischen Thema. Für eine vollwertige interne SRE-Funktion ist das Startup vielleicht noch zu früh. Gleichzeitig ist es schon zu teuer, weiter mit manuellen Deployments, nächtlichen Incidents und Entscheidungen im Stil von „darum kümmern wir uns später“ zu leben. Ein externer SRE ersetzt in dieser Situation nicht das Entwicklungsteam. Er hilft vielmehr dabei, grundlegende Reliability-Engineering-Praktiken schneller aufzubauen und Infrastruktur als Wachstumsengpass zu beseitigen.

Welche Infrastrukturprobleme sich in Startups typischerweise aufstauen

Infrastruktur-Schulden in einem Startup zeigen sich selten in einem einzigen dramatischen Ausfall. Meist sind es viele kleine Symptome, die nach und nach anfangen, das Tempo des Teams aufzufressen.

Zunächst hängt ein Deployment von einer oder zwei Personen ab und folgt einer mündlich überlieferten Anleitung. Dann stellt das Team fest, dass zwar Logs vorhanden sind, aber keine echte Observability: Metriken an einem Ort, Alerts an einem anderen, kein Tracing, und manchmal merken die Nutzer Probleme früher als die Engineers. Danach folgt oft eine Phase unvorhersehbarer Cloud-Kosten, in der die Rechnung schneller wächst als die Last, aber niemand schnell erklären kann, wo die Mehrkosten eigentlich entstehen.

Parallel dazu steigt die Komplexität der Werkzeuge. Laut der Grafana Observability Survey 2025 nutzen Unternehmen im Durchschnitt acht Observability-Tools, und 39 % der Befragten nennen Komplexität und Overhead als größtes Hindernis für Observability.3 Für ein Startup ist das ein wichtiges Signal: Das Problem ist nicht, dass zu wenige Tools vorhanden sind. Das Problem ist, dass ein unsystematisch zusammengestellter Stack oft mehr Rauschen als Kontrolle produziert.

Das Ergebnis ist ein operativer Kompromiss. Das Team ist nicht mehr winzig, aber immer noch zu klein für eine eigene Reliability-Funktion. Genau in dieser Phase behandeln Gründer Infrastruktur oft weiterhin als Nebenthema, obwohl sie in der Praxis längst Release-Geschwindigkeit, Support-Qualität und die Vorhersehbarkeit von Wachstum bestimmt.

Wann Gründer zu viel Zeit für Infrastruktur verlieren

In Startups gibt es selten einen offiziellen Moment, in dem jemand sagt: „Jetzt haben wir ein Reliability-Problem.“ Meist sind die Anzeichen viel prosaischer.

Wenn der CTO, ein Mitgründer oder der stärkste Backend-Engineer regelmäßig zur letzten Verteidigungslinie in der Produktionsumgebung wird, ist das keine gelegentliche Hilfe mehr für das Team. Es ist eine versteckte Geschäftsabhängigkeit von wenigen Personen. Wenn sich derselbe Incident-Typ über Monate wiederholt und das Team jeden Ausfall nur behebt und dann weitermacht, wird das System durch heroische Einzelanstrengung zusammengehalten und nicht durch technische Disziplin.

Das Google SRE Workbook liefert dafür einen nützlichen Praxiswert: Google begrenzt den operativen Anteil der Arbeit von SRE-Teams auf etwa 50 % ihrer Zeit.1 Das ist kein universeller Standard für jedes Unternehmen, aber eine sinnvolle Obergrenze. Wenn Gründer und Schlüsselpersonen im Engineering dauerhaft einen merklichen Teil der Woche für Deployments, manuelles Skalieren, laute Alerts, CI/CD-Reparaturen und Notfalländerungen in Production aufwenden, frisst Infrastruktur bereits Zeit auf, die eigentlich ins Produkt fließen sollte.

Entscheidend ist dabei nicht nur die Zahl der Stunden, sondern auch die Wirkung auf den Rhythmus des Unternehmens. DORA 2024 weist darauf hin, dass instabile Prioritäten die Produktivität spürbar senken und Burnout erhöhen.2 Für ein Startup ist das besonders schmerzhaft: Jeder Infrastrukturbrand lenkt Engineers nicht nur ab, sondern zerlegt die Produkt-Roadmap, verschiebt kundensichtbare Arbeit und macht Liefertermine unvorhersehbarer.

Ein einfacher Test lautet: Wenn das Team Produktaufgaben regelmäßig wegen Produktionsvorfällen verschiebt und die Gründer mehr über den Zustand von Monitoring, Backups und Release-Rollouts wissen, als ihnen lieb ist, dann kostet Infrastruktur bereits mehr, als es zunächst scheint.

Warum es für Startups sinnvoll sein kann, Reliability Engineering auszulagern

Ein starker externer SRE-Partner ist nicht deshalb wertvoll, weil er „für euch auf die Server schaut“. Sein eigentlicher Wert liegt woanders: Er verwandelt eine Sammlung lokaler technischer Gewohnheiten schneller in ein beherrschbares Betriebsmodell.

In der Praxis heißt das meist mehrere Dinge.

Erstens kommt ein externer SRE selten nur mit einer engen Einzelaufgabe. Meist bringt er ein Paket reifer Praktiken mit: grundlegendes Monitoring und Alerting, SLOs und SLIs, Incident Response, Disziplin bei Reviews nach Incidents, Change Management, Infrastructure as Code, Backup- und Restore-Prüfungen, Runbooks und Kostenhygiene. Ein Startup muss das nicht zwischen Feature-Arbeit und Alltag von Grund auf selbst erfinden.

Zweitens hängt Reliability Engineering fast immer ebenso stark an Prozessen wie an Technologie. Uptime Institute berichtete 2025, dass 23 % der folgenreichen Ausfälle mit IT- und Netzwerkproblemen zusammenhingen und fast 40 % der Organisationen in den vergangenen drei Jahren einen schweren Ausfall durch menschliches Versagen erlebt hatten.4 Das ist eine nützliche Erinnerung: Viele Vorfälle entstehen nicht, weil „nur noch ein starker Engineer“ fehlt, sondern weil Verfahren schwach sind, Verantwortlichkeiten verschwimmen und operative Leitplanken fehlen.

Drittens hilft ein externer SRE dabei, nicht zu früh ein Mini-Enterprise zu bauen. DORA 2024 schreibt, dass Platform Engineering und flexible Infrastruktur die organisatorische Leistungsfähigkeit verbessern können, aber sorgfältig eingeführt werden müssen.2 Für ein Startup heißt das etwas sehr Einfaches: Es braucht kein großes Platform-Team auf Vorrat, sondern eine minimal ausreichende Plattform, die wiederkehrende manuelle Betriebsarbeit reduziert und Wachstum berechenbarer macht. Ein guter externer SRE sollte genau diese Grenze ziehen können.

Schließlich passt das externe Modell gut zu einer Phase, in der ein Unternehmen noch keinen Vollzeit-Engineer braucht, der Reliability vollständig intern verantwortet, wohl aber bereits reife Expertise benötigt. Das Startup erhält Zugang zu erfahrenerem Betriebswissen, lange bevor es eine Stelle ausschreiben, einen langen Hiring-Prozess durchlaufen und auf die Einarbeitung einer neuen Person warten kann.

Was ein externer SRE in den ersten Monaten liefern sollte

Praktisch betrachtet ergibt SRE-Outsourcing nur dann Sinn, wenn es operatives Rauschen schnell reduziert und die Abhängigkeit des Teams von den Gründern verringert. In den ersten Monaten sieht das typischerweise so aus:

ein klareres Bild von Monitoring, Alerting und kritischen Abhängigkeiten;
ein sichererer Deployment- und Rollback-Prozess;
grundlegende SLOs und SLIs oder zumindest klare Reliability-Ziele für die wichtigsten Services;
überprüfte Backup-, Restore- und Incident-Response-Szenarien;
Infrastrukturänderungen, die über Peer Review und Infrastructure as Code laufen statt über manuelle Eingriffe;
Cloud-Kosten, die verständlicher und besser steuerbar werden.

Anders gesagt: Ein externer SRE sollte nicht bloß „bei AWS helfen“. Er sollte die teuersten Quellen wiederkehrender manueller Betriebsarbeit beseitigen. Google SRE empfiehlt ausdrücklich, solche Arbeit als menschlichen Aufwand zu messen und den Effekt anhand von eingesparter Zeit, weniger Kontextwechseln und weniger durch menschliche Fehler verursachten Vorfällen zu bewerten.1 Für Startups ist diese Logik besonders nützlich: Wenn externe Reliability-Expertise keine Zeit im Produktteam freiräumt, ist der Auftrag wahrscheinlich zu unscharf formuliert.

Was es kostet: eigenen SRE einstellen oder ein externes Modell nutzen

Genau hier beginnen viele Startups, sich ernsthaft in Richtung Outsourcing zu bewegen.

Auf dem westlichen Arbeitsmarkt gehört SRE schon lange zu den teuren Rollen. Laut Levels.fyi liegt die mediane Gesamtvergütung für einen Site Reliability Engineer in den USA im April 2026 bei rund 205.000 US-Dollar.6 Glassdoor nennt einen konservativeren Richtwert: etwa 153.000 US-Dollar mediane Gesamtvergütung und ungefähr 125.000 US-Dollar durchschnittliches Grundgehalt.7 Und selbst diese Gehaltszahl ist noch nicht die tatsächliche Unternehmensbelastung. Laut BLS machen Zusatzleistungen rund 29,9 % der gesamten Arbeitgebervergütung im privaten Sektor aus.8 Mit anderen Worten: Die voll belasteten Einstellungskosten liegen spürbar über dem reinen Gehalt, noch bevor Recruiting, Onboarding und Management-Aufwand hinzukommen.

Für ein frühes Startup ist das nicht nur eine Geldfrage, sondern auch eine Frage der Bindung. Ein Vollzeit-SRE ergibt Sinn, wenn das Unternehmen bereits einen konstanten Strom operativer Arbeit, ein reifes On-Call-Modell, mehrere kritische Produktionssysteme und einen klar definierten Verantwortungsbereich auf Jahre hinaus hat. Vor diesem Punkt bedeutet eine Festanstellung oft vor allem eine verfrühte Bindung an hohe Fixkosten.

Die Ökonomie des externen Modells ist anders. Im Vereinigten Königreich lag der mediane Vertragssatz für Platform Engineers oder DevOps-Spezialisten 2025 bei etwa 475 GBP pro Tag.9 In einem Vollzeit-Contractor-Modell entspricht das ungefähr 9.500 GBP pro Monat für 20 Arbeitstage. Für viele Startups geht es aber gar nicht um 20 Tage. Sie brauchen vier bis acht Tage starke Reliability-Expertise pro Monat plus Zugang zu Unterstützung bei kritischen Themen, nicht eine dauerhafte Person für jede Lage. In diesem Modell liegt das Budget für einen externen SRE in Teilzeit oft um ein Mehrfaches unter den Kosten einer westlichen Vollzeit-Anstellung im eigenen Haus, vor allem wenn das Unternehmen mit Nearshore- oder günstigeren Standorten arbeitet.

Wichtig ist, Outsourcing nicht als magische Option „immer billiger und immer besser“ zu verkaufen. Treffender ist diese Einordnung: In einer frühen Phase kauft das Startup keine Person für 40 Stunden pro Woche. Es kauft Beschleunigung in konkreten Risikozonen. Wenn Monitoring schnell aufgesetzt, CI/CD bereinigt, Infrastrukturänderungen in Terraform überführt, unnötige Cloud-Kosten gesenkt und nächtliche Eskalationen bei den Gründern beendet werden müssen, liefert ein externer SRE oft einen besseren ROI als eine frühe Vollzeit-Einstellung.

Diese Logik wird noch deutlicher, wenn man die Kosten von Fehlern berücksichtigt. Laut Uptime Institute gaben 54 % der Befragten an, dass ihr letzter schwerwiegender Ausfall mehr als 100.000 US-Dollar gekostet habe; bei 16 % lag der Wert über einer Million US-Dollar.5 Diese Zahlen lassen sich nicht eins zu eins auf ein sehr frühes SaaS-Startup übertragen. Aber die Richtung stimmt: Selbst wenn die eigenen Ausfallkosten deutlich unter Enterprise-Niveau liegen, reichen schon einige schlecht gehandhabte Vorfälle, ein misslungenes Release oder der Vertrauensverlust eines wichtigen Kunden, um die scheinbare Einsparung durch ständig verschobene Reliability-Arbeit wieder aufzuzehren.

Wann es Zeit ist, eine interne SRE-Funktion aufzubauen

SRE-Outsourcing sollte nicht zur ewigen Zwischenlösung werden. Sein Nutzen hat Grenzen.

Wenn ein Unternehmen in mehrere Produktteams, schwere dauerhafte On-Call-Verantwortung, regulatorische Anforderungen, eine tiefe interne Plattform-Roadmap und die Notwendigkeit enger täglicher Zusammenarbeit mit dem Engineering Leadership hineinwächst, wird Reliability zu einer internen Kernkompetenz. Ab diesem Punkt ist es sinnvoller, ein internes SRE- oder Platform-Team aufzubauen oder ein Hybridmodell zu wählen, bei dem externe Spezialisten bestimmte Wissensgebiete abdecken, die Verantwortung aber im Unternehmen bleibt.

Vor dieser Phase ist die Aufgabe für die meisten Startups jedoch deutlich einfacher: Sie müssen aufhören, Zeit von Gründern und Senior Engineers mit Arbeit zu verbrennen, die systematisiert, automatisiert und messbar gemacht werden sollte.

Fazit

Ein Startup braucht SRE selten aus Imagegründen.

Es braucht Reliability Engineering in dem Moment, in dem Infrastruktur beginnt, dem Produkt Zeit zu stehlen.

Genau deshalb ergibt SRE-Outsourcing Sinn: nicht als Versuch, um jeden Preis Personalkosten zu drücken, sondern als Weg, die riskante Lücke zwischen fragilen manuellen Abläufen und einer reifen internen Engineering-Funktion schneller zu überbrücken. Wenn ein externes Team wiederkehrende operative Routine reduziert, Releases sicherer macht, die Abhängigkeit von den Gründern senkt und dem Team eine berechenbarere Infrastruktur gibt, dann ist das in der Regel genau der Fall, in dem Outsourcing so funktioniert, wie es soll.