Die Geschichte von DeepSeek
Vom Quant-Fonds High-Flyer über den „R1-Schock“ bis DeepSeek-V4 — Modelle, Effizienz und Kontroversen.
Konfidenz-Kennzeichnung
- ✅ Faktum (belegt)
- 🟡 teilweise belegt
- 🔵 Interpretation
Kategorien
- Unternehmen
- Forschung
- Sicherheit
- Modell
- Produkt
- Kontroverse
Zeitleiste
Fünf Kapitel von High-Flyer bis DeepSeek-V4. Filtere nach Kategorie oder durchsuche alle Ereignisse — jeder Eintrag führt seine Quellen mit.
Die Vorgeschichte: High-Flyer
Vom KI-Quant-Fonds High-Flyer zu eigenen GPU-Clustern.
Gründung des Quant-Fonds High-Flyer
Liang Wenfeng gründet mit Kommilitonen den KI-getriebenen Hedgefonds High-Flyer (幻方) in Hangzhou. Bis 2021 läuft der Handel vollständig über KI-Strategien; der Fonds verwaltet zeitweise rund 10 Mrd. USD.
Fire-Flyer: eigene GPU-Supercomputer
High-Flyer baut eigene KI-Cluster auf: Fire-Flyer I (2020, 1.100 GPUs) und Fire-Flyer II (2021) mit rund 10.000 Nvidia-A100-GPUs — laut Liang allesamt erworben, bevor die USA Chip-Exportkontrollen verhängten. Diese Rechenbasis ermöglicht später alle DeepSeek-Trainingsläufe.
Gründung & erste Modelle
DeepSeek wird eigenständig — Coder und die ersten Sprachmodelle.
High-Flyer kündigt AGI-Labor an
High-Flyer gibt die Gründung eines eigenen Forschungslabors für Artificial General Intelligence bekannt — ausdrücklich nicht für den Aktienhandel. Es ist der unmittelbare Vorläufer von DeepSeek.
Gründung von DeepSeek
Das AGI-Labor wird als eigenständige Hangzhou DeepSeek (深度求索) ausgegliedert, mit Liang Wenfeng als CEO. Finanziert allein durch High-Flyer, ohne externe Investoren. Liangs Leitlinie: Grundlagenforschung und Open Source vor schneller Kommerzialisierung.
DeepSeek Coder (erstes Open-Source-Modell)DeepSeek Coder
DeepSeeks erstes Modell erscheint quelloffen auf GitHub und richtet sich speziell an Code-Aufgaben — in mehreren Größen und unter freier Lizenz.
DeepSeek LLM 7B/67BDeepSeek LLM 67B
Die ersten allgemeinen Sprachmodelle (7B und 67B), trainiert auf 2 Billionen Tokens (Englisch/Chinesisch). Das 67B-Modell übertrifft in frühen Benchmarks Llama 2 70B bei Reasoning, Coding und Mathematik.
Architektur-Durchbrüche & V3
MLA, der Preiskrieg und das effiziente Flaggschiff V3.
DeepSeek-V2 löst Chinas Preiskrieg ausDeepSeek-V2
DeepSeek-V2 (236B gesamt, 21B aktiv) führt Multi-head Latent Attention (MLA) und DeepSeekMoE ein und senkt Kosten drastisch. Der API-Preis liegt 90–95 % unter der Konkurrenz; Alibaba, Baidu und ByteDance senken daraufhin ihre Preise um bis zu 97 % — ein Preiskrieg in Chinas KI-Branche.
DeepSeek-Coder-V2DeepSeek-Coder-V2
Ein offenes MoE-Coding-Modell (bis 236B), das 338 Programmiersprachen und 128K-Kontext unterstützt und in Code-Benchmarks GPT-4-Turbo-Niveau erreicht.
DeepSeek-V2.5DeepSeek-V2.5
V2.5 vereint Chat- und Coder-V2-Fähigkeiten in einem Modell, mit besserer Konversation und Code-Verarbeitung und stärkerer Ausrichtung an menschlichen Präferenzen.
Der stille Auslöser: Frontier-Leistung zu einem Bruchteil der üblichen Kosten.
DeepSeek-V3 — Frontier-Leistung zum Bruchteil der KostenDeepSeek-V3
Das 671B-MoE-Modell (37B aktiv, 14,8 Bio. Tokens) erreicht GPT-4o-/Claude-3.5-Niveau. Der Bericht weist nur ~5,576 Mio. USD reine GPU-Trainingskosten aus (Kritiker: Gesamtkosten viel höher). Die Effizienz wird zum Weckruf für die Branche.
DeepSeek-V3 (671B MoE, 37B aktiv) erreichte das Niveau von GPT-4o und Claude 3.5 Sonnet, kostete laut Bericht aber nur ~5,576 Mio. USD reine GPU-Trainingszeit (2,79 Mio. H800-Stunden). Kritiker betonen, dass Gesamtkosten inklusive Forschung und Infrastruktur weit höher liegen. Dennoch verschob V3 die Wahrnehmung, was Spitzen-KI kosten muss.
Im Kapitel weiterlesen →Der R1-Schock & die Folgen
R1, das Börsenbeben, Verbote — und die Reife der Modellreihe.
Offen, günstig, auf o1-Niveau — das Modell, das den Westen aufschrecken ließ.
DeepSeek-R1 — offenes Reasoning-Modell (MIT)DeepSeek-R1
R1 erreicht laut DeepSeek das Niveau von OpenAI o1 bei Mathematik, Code und Logik — und wird mitsamt Gewichten unter MIT-Lizenz freigegeben. Die Variante R1-Zero zeigt erstmals großskaliges Reasoning aus reinem Reinforcement Learning (GRPO), dazu destillierte Modelle von 1,5B bis 70B.
R1 erreichte bei Mathematik, Code und Logik OpenAI-o1-Niveau — und wurde mitsamt Gewichten unter MIT-Lizenz freigegeben. Die Variante R1-Zero zeigte, dass starkes Reasoning auch aus reinem Reinforcement Learning ohne Supervised Fine-Tuning entstehen kann. Innerhalb von Tagen stürmte die App weltweit an die Spitze der App-Stores.
Im Kapitel weiterlesen →Janus-Pro — multimodale offene ModelleJanus-Pro
Zum Mondneujahr veröffentlicht DeepSeek die multimodalen Modelle Janus-Pro (1B/7B) und JanusFlow unter MIT-Lizenz; sie übertreffen auf Bild-Benchmarks DALL·E 3 und Stable Diffusion 3 Medium.
DeepSeek-App überholt ChatGPT (Platz 1)DeepSeek-R1
Die DeepSeek-App wird zur meistgeladenen Gratis-App im US-App-Store und verdrängt ChatGPT — in 52 Ländern auf Platz 1, ~16 Mio. Downloads in 18 Tagen.
Ein Tag, an dem rund 589 Milliarden Dollar verdampften.
Nvidia verliert ~589 Mrd. USD an einem Tag
DeepSeeks Effizienz löst einen globalen Tech-Ausverkauf aus: Nvidia bricht ~17 % ein und verliert rund 589 Mrd. USD Marktwert — der größte Einzeltagesverlust der US-Börsengeschichte. Marc Andreessen nennt R1 „AIs Sputnik-Moment“.
Am 27. Januar 2025 brach Nvidia um rund 17 % ein und verlor etwa 589 Mrd. USD Marktwert — der größte Einzeltagesverlust der US-Börsengeschichte. Anleger fragten, ob teure KI-Chips im bisherigen Umfang noch nötig seien. Marc Andreessen prägte den Vergleich vom „Sputnik-Moment“ der KI.
Im Kapitel weiterlesen →Cyberangriff: DeepSeek stoppt Neuregistrierungen
Mitten im Ansturm trifft DeepSeek ein groß angelegter DDoS-Angriff in mehreren Wellen; das Unternehmen stoppt vorübergehend neue Registrierungen.
Distillations-Vorwurf von OpenAI/MicrosoftDeepSeek-R1
Microsoft und OpenAI untersuchen, ob mit DeepSeek verbundene Akteure per „Distillation“ in großem Umfang OpenAI-API-Ausgaben abgegriffen haben, um eigene Modelle zu trainieren.
Offene Datenbank: Chatverläufe & Schlüssel exponiert
Wiz Research entdeckt eine öffentlich erreichbare DeepSeek-Datenbank ohne Authentifizierung mit über 1 Mio. Log-Einträgen — inklusive Klartext-Chats und API-Schlüsseln. DeepSeek sichert sie nach der Meldung.
Italien sperrt DeepSeek (erstes Land)
Die Datenschutzbehörde Garante ordnet die sofortige Sperrung an, nachdem DeepSeek auf Fragen zu Datenpraktiken und Speicherung in China „unzureichend“ antwortete — das erste Notfall-DSGVO-Verbot gegen einen KI-Chatbot.
US-Behörden verbieten DeepSeek
US Navy (24.1.), NASA und Texas (31.1., erster Bundesstaat) untersagen DeepSeek auf Dienstgeräten; weitere Behörden und Bundesstaaten folgen — begründet mit Sicherheits- und Datenschutzbedenken.
Brillante Technik trifft auf die roten Linien der chinesischen Politik.
Zensur politisch sensibler ThemenDeepSeek-R1
Recherchen zeigen: Die DeepSeek-App verweigert rund 85 % der Fragen zu sensiblen Themen (Tiananmen, Taiwan, Xi, Uiguren) oder löscht begonnene Antworten in Echtzeit — entlang chinesischer Vorgaben.
Untersuchungen zeigten, dass die DeepSeek-App rund 85 % der Fragen zu sensiblen Themen wie dem Tiananmen-Massaker, Taiwan oder Xi Jinping verweigerte — teils, indem sie begonnene Antworten in Echtzeit wieder löschte. Taiwan wurde als „unveräußerlicher Teil Chinas“ dargestellt. Die Filter folgen chinesischen Vorgaben und gelten vielen als Preis der staatlichen Einbettung.
Im Kapitel weiterlesen →Taiwan, Australien & Südkorea verbieten DeepSeek
Taiwan untersagt den Behördeneinsatz (31.1.), Australien verbietet die App auf Regierungsgeräten (4.2.), Südkorea entfernt sie aus den App-Stores (15.2.) — wegen Datenschutz- und Sicherheitsbedenken.
Liang Wenfeng beim Xi-Symposium
Liang nimmt an Xi Jinpings Symposium mit Privatunternehmern teil — neben Jack Ma und Ren Zhengfei. Die Einladung gilt als implizite staatliche Anerkennung DeepSeeks.
DeepSeek-V3-0324 (großes Update)DeepSeek-V3-0324
Ein V3-Checkpoint mit R1-Reasoning-Techniken springt deutlich in Mathematik und Code (AIME 39,6→59,4) und gilt als erstes Open-Source-Modell, das proprietäre Nicht-Reasoning-Modelle wie GPT-4.5 dort übertrifft.
DeepSeek-R1-0528 (Reasoning-Update)DeepSeek-R1-0528
Das R1-Update verdoppelt die Denk-Tiefe (mehr Reasoning-Tokens), hebt AIME-2025 von 70 % auf 87,5 % und senkt Halluzinationen deutlich; neu sind JSON-Output und Function Calling.
EU-Untersuchungen; Deutschland fordert App-Store-Bann
Mehrere EU-Behörden (Frankreich, Irland, Belgien, Niederlande) prüfen DeepSeeks Datentransfers nach China; Berlins Datenschutzbeauftragte fordert Apple und Google auf, die App aus deutschen Stores zu entfernen.
R2 verzögert sich (Huawei-Chip-Probleme)DeepSeek-R2
Berichten zufolge verschiebt sich das erwartete DeepSeek-R2, weil ein voller Trainingslauf auf Huawei-Ascend-Chips misslingt. Als Kompromiss wird Nvidia fürs Training und Ascend für Inferenz genutzt.
DeepSeek-V3.1 (hybrides Reasoning)DeepSeek-V3.1
V3.1 (671B, 128K Kontext) lässt sich per Vorlage zwischen Thinking-Modus (Chain-of-Thought wie R1) und Non-Thinking-Modus (direkt wie V3) umschalten; Gewichte unter MIT.
Erstmals besteht ein großes offenes Modell ein wissenschaftliches Peer-Review.
DeepSeek-R1 auf dem Nature-CoverDeepSeek-R1
R1 wird in Nature publiziert — das erste große Open-Weight-Modell, das ein Peer-Review durchläuft. Offengelegt: die reinen R1-Reasoning-Trainingskosten von 294.000 USD (512 H800, ~80 Std.) auf Basis des ~6-Mio.-USD-V3.
Im September 2025 erschien R1 in Nature — das erste große Open-Weight-Modell, das ein unabhängiges Peer-Review durchlief (acht Gutachter, 64 Seiten). Offengelegt wurden u. a. die reinen Reasoning-Trainingskosten von 294.000 USD (512 H800-GPUs, ~80 Stunden), aufbauend auf dem rund 6 Mio. USD teuren Basismodell V3.
Im Kapitel weiterlesen →DeepSeek-V3.1-TerminusDeepSeek-V3.1-Terminus
Eine produktionsreife Endstufe der V3.1-Reihe: behebt Sprachmisch-Fehler, verbessert mehrsprachige Konsistenz sowie Code- und Such-Agenten.
DeepSeek-V3.2-Exp halbiert die API-PreiseDeepSeek-V3.2-Exp
Mit „DeepSeek Sparse Attention“ (Lightning Indexer + feinkörnige Token-Auswahl) sinken die API-Preise um ~50 % (unter 3 Cent je Mio. Input-Token), bei vergleichbarer Benchmark-Leistung; Gewichte unter MIT.
V4 & Etablierung
Offenes V4 mit 1-Mio.-Kontext und die erste große Finanzierungsrunde.
Das offene Flaggschiff von 2026 — 1-Mio.-Kontext, zum Spottpreis.
DeepSeek-V4-Preview (1-Mio.-Kontext, Open Source)DeepSeek-V4
V4 erscheint in zwei offenen Varianten: V4-Pro (1,6 Bio. Parameter, 49B aktiv) und V4-Flash (284B, 13B aktiv), beide mit 1-Mio.-Token-Kontext und MIT-Lizenz; Sparse Attention senkt den Inferenzaufwand weiter. MIT Tech Review wertet es als Erfolg auch für Chinas Chip-Industrie.
DeepSeek-V4 erschien als offene Preview in zwei Varianten — V4-Pro (1,6 Bio. Parameter, 49B aktiv) und V4-Flash (284B, 13B aktiv) — beide mit 1-Mio.-Token-Kontext unter MIT-Lizenz. Verbesserte Sparse Attention senkte den Inferenzaufwand weiter. MIT Technology Review wertete den Schritt auch als Erfolg für Chinas heimische Chip-Industrie.
Im Kapitel weiterlesen →Erste Finanzierungsrunde: ~45 Mrd. USD Bewertung
DeepSeek sucht erstmals externes Kapital bei einer Bewertung von rund 45 Mrd. USD; Chinas staatlicher „Big Fund“ soll die Runde anführen, Tencent und Alibaba sind in Gesprächen. Liang Wenfeng hält bislang knapp 90 %.
Sieben Teile mit Quellenkritik, Datierung und Einordnung — auf einer eigenen, ruhigen Leseseite.
