Die Geschichte von DeepSeek — Volltext

Vorbemerkung (Methodik)

Diese Chronik folgt dem wissenschaftlichen Anspruch des Projekts: Fakten werden belegt, Unsicherheit benannt, Tatsachen von Deutung getrennt. Quellenpriorität: Primärquellen (api-docs.deepseek.com, GitHub/Hugging Face, arXiv, Nature) > seriöse Tech-/Wirtschaftspresse (Reuters, CNBC, Bloomberg, The Verge, MIT Technology Review, TechCrunch) > Sekundärquellen (nur ergänzend).

Legende: ✅ Faktum (belegt) · 🟡 teilweise belegt · 🔵 Interpretation.

Roter Faden: DeepSeek zeigte, dass Spitzen-KI radikal günstiger und offen gebaut werden kann. Aus einem chinesischen Hedgefonds-Nebenprojekt wurde über Nacht ein globaler Schock — gefolgt von Bewunderung, Misstrauen und Regulierung. Die Spannung zwischen Offenheit und Effizienz einerseits und geopolitischem Misstrauen und Zensur andererseits prägt diese Geschichte.

Teil I — Die Vorgeschichte: High-Flyer

✅ DeepSeeks Wurzeln liegen im Finanzwesen. 2016 gründete Liang Wenfeng den KI-getriebenen Hedgefonds High-Flyer (幻方) in Hangzhou; bis 2021 lief der Handel vollständig über KI. Entscheidend war der frühe Aufbau eigener Rechenleistung: die Fire-Flyer-Cluster (2020–2021) mit rund 10.000 Nvidia-A100-GPUs — laut Liang beschafft, bevor die USA Chip-Exportkontrollen verhängten. Diese Hardware wurde zur Grundlage aller späteren Modelle.

Quellen: Wikipedia – High-Flyer · Fortune – Liang Wenfeng · arXiv:2408.14158 – Fire-Flyer AI-HPC

Teil II — Gründung & erste Modelle

✅ Im April 2023 kündigte High-Flyer ein eigenes AGI-Labor an; am 17. Juli 2023 wurde daraus die eigenständige DeepSeek mit Liang als CEO — finanziert allein durch High-Flyer, ohne externe Investoren. Liangs Linie: Grundlagenforschung und Open Source vor schneller Kommerzialisierung. Es folgten DeepSeek Coder (Nov 2023) und die ersten Sprachmodelle DeepSeek LLM 7B/67B (Nov 2023), die in frühen Benchmarks Llama 2 70B übertrafen.

Quellen: Wikipedia – DeepSeek · ChinaTalk – From Hedge Fund to Frontier Model Maker · arXiv:2401.02954 – DeepSeek LLM

Teil III — Architektur-Durchbrüche & V3

✅ 2024 wurde DeepSeek zum Effizienz-Pionier. DeepSeek-V2 (Mai 2024) führte Multi-head Latent Attention (MLA) und DeepSeekMoE ein und senkte die Kosten so stark, dass der API-Preis 90–95 % unter der Konkurrenz lag — Alibaba, Baidu und ByteDance zogen mit Preissenkungen von bis zu 97 % nach (Preiskrieg). Nach Coder-V2 und V2.5 folgte am 26. Dezember 2024 das 671B-MoE-Modell DeepSeek-V3 auf GPT-4o-/Claude-3.5-Niveau — mit berichteten reinen GPU-Trainingskosten von nur ~5,6 Mio. USD (Kritiker betonen, dass Gesamtkosten deutlich höher liegen).

🔵 V3 war der eigentliche Auslöser: Es zeigte der Welt, dass Spitzenleistung nicht zwingend Milliarden-Budgets braucht.

Quellen: arXiv:2405.04434 – DeepSeek-V2 · arXiv:2412.19437 – DeepSeek-V3 · Interconnects – cost of frontier models

Teil IV — Der R1-Schock & die Folgen

4.1 R1 und der Sturm

✅ Am 20. Januar 2025 erschien DeepSeek-R1 — ein Reasoning-Modell auf o1-Niveau, offen unter MIT-Lizenz, mitsamt der rein RL-trainierten Variante R1-Zero. Binnen einer Woche stürmte die App auf Platz 1 des US-App-Stores. Am 27. Januar 2025 folgte das Beben an den Börsen: Nvidia verlor rund 589 Mrd. USD an einem Tag — der größte Einzeltagesverlust der US-Geschichte. Marc Andreessen nannte es „AIs Sputnik-Moment“.

4.2 Misstrauen, Sicherheit, Regulierung

✅ Der Erfolg zog sofort Gegenwind nach sich: ein DDoS-Angriff zwang DeepSeek zum Registrierungsstopp; OpenAI/Microsoft prüften Distillations-Vorwürfe; Sicherheitsforscher fanden eine offen zugängliche Datenbank. Es folgte eine Welle von Verboten — Italien (erstes Land), US-Behörden (Navy, NASA, Texas), Taiwan, Australien, Südkorea — sowie EU-Datenschutzverfahren. Zugleich dokumentierten Recherchen die Zensur politisch sensibler Themen.

4.3 Reife & Anerkennung

✅ Über das Jahr reifte die Technik: V3-0324 (März) und R1-0528 (Mai) verbesserten Reasoning deutlich; V3.1 (August) brachte ein hybrides Denk-/Direkt-Modell, V3.2-Exp (September) halbierte per Sparse Attention die API-Preise. Im September 2025 erschien R1 auf dem Cover von Nature — das erste große Open-Weight-Modell mit Peer-Review (offengelegte R1-Trainingskosten: 294.000 USD). Symbolträchtig saß Liang im Februar 2025 beim Wirtschafts-Symposium von Xi Jinping.

Quellen: DeepSeek API – R1 · CNBC – Nvidia ~$600B loss · Nature – Secrets of DeepSeek revealed · TechCrunch – sparse attention

Teil V — V4 & Etablierung

✅ 2026 festigte DeepSeek seine Position. Am 24. April 2026 erschien DeepSeek-V4 als Preview in zwei offenen Varianten — V4-Pro (1,6 Bio. Parameter) und V4-Flash (284B) — mit 1-Mio.-Token-Kontext und MIT-Lizenz; MIT Technology Review wertete es auch als Erfolg für Chinas Chip-Industrie. Im Mai 2026 suchte DeepSeek erstmals externes Kapital bei einer Bewertung von rund 45 Mrd. USD, angeführt vom staatlichen „Big Fund“.

🔵 Damit war der Wandel vollzogen: vom radikal offenen Außenseiter zum strategisch geförderten Schwergewicht — mit allen geopolitischen Implikationen.

Quellen: DeepSeek API – V4 Preview · MIT Tech Review – why V4 matters · TechCrunch – $45B valuation

Teil VI — Kontroversen, Recht & Sicherheit

🔵 Kaum ein KI-Anbieter polarisiert so wie DeepSeek. Drei Stränge prägen die Debatte: Datenschutz/Sicherheit (Speicherung in China, offene Datenbank, Behördenverbote in den USA, der EU und Asien); Zensur politisch sensibler Themen entlang chinesischer Vorgaben; und der Distillations-Vorwurf, DeepSeek habe sich auf Ausgaben westlicher Modelle gestützt. Hinzu kommen geopolitische Fragen rund um Chip-Exportkontrollen und die berichtete Verzögerung von R2 wegen Problemen mit Huawei-Ascend-Hardware.

✅ Belegt sind u. a. das italienische Sofortverbot (Garante), die US-Behördenverbote, die südkoreanische App-Store-Entfernung und Deutschlands Aufforderung an Apple/Google. Offen bzw. nur teilweise belegt bleiben die genaue Tragweite der Distillations- und R2-Berichte.

Quellen: The Hacker News – Italy bans DeepSeek · Wiz – exposed database · CBC – censorship · Bloomberg – distillation probe

Teil VII — Einordnung (Interpretation)

🔵 DeepSeeks Bedeutung liegt weniger in einem einzelnen Modell als in einer These: dass Offenheit und Effizienz die Ökonomie der KI verschieben können. V3 und R1 zwangen die ganze Branche, über Kosten, Margen und den Wert geschlossener Modelle nachzudenken — der Nvidia-Schock war das sichtbarste Symptom. Zugleich macht DeepSeek die Doppelgesichtigkeit chinesischer Spitzen-KI greifbar: technische Brillanz und radikale Offenheit auf der einen, staatliche Einbettung und Zensur auf der anderen Seite. Ob DeepSeek seine Offenheit unter wachsendem staatlichem Einfluss bewahrt, ist die offene Leitfrage dieser noch jungen Geschichte.

Quellenverzeichnis

Anhang — Unsicherheiten & offene Fragen

Trainingskosten: Die genannten ~5,6 Mio. USD (V3) bzw. 294.000 USD (R1) sind reine GPU-Rechenkosten; Gesamtkosten (Forschung, Infrastruktur, Basismodell) liegen deutlich höher. 🟡
Distillations-Vorwurf: untersucht, aber nicht abschließend belegt. 🟡
R2 / Huawei-Chips: beruht auf Medienberichten, nicht auf DeepSeek-Primärquellen. 🟡
High-Flyer-Gründungsdatum & GPU-Zahlen: je nach Quelle leicht abweichend. 🟡
Jüngste 2026-Angaben (V4-Details, Finanzierungsrunde): teils aus Ankündigungen/Sekundärquellen. 🟡

Momentaufnahme zum 4. Juni 2026; bei neuen Releases fortzuschreiben.