Built with anycoder

🎬 MCP Shorts-Generierungs-Protokoll

Logisches Grundgerüst für die automatisierte Erstellung von Kurzvideos

Drei-Agenten-Architektur für die Shorts-Generierung

👁️ Lese-Agent

Der Interpreter

Zweck: Nimmt die Nutzereingabe entgegen und interpretiert die Anforderungen.

Aufgaben:

  • Empfängt die Nutzeranfrage (z.B. "Bachata Reel im Pretty Babe Look")
  • Identifiziert Kernanforderungen:
    • Tanzstil (Bachata)
    • Visueller Stil (Pretty Babe Look)
    • Text-Overlay Anforderungen
    • Emotionale Ausrichtung (Vibe)
  • Wandelt den Wunsch in eine klare interne Anweisung um
  • Validiert die Eingabe auf Machbarkeit
Nutzer-Eingabe: "Bachata Reel im Pretty Babe Look mit romantischem Text-Overlay"

🧠 Denk-Agent

Der Planer/Skript-Ersteller

Zweck: Übersetzt die Absicht in ein detailliertes, ausführbares Skript.

Aufgaben:

  • Ruft den Script-Generator (LLM-Tool) auf
  • Generiert detaillierte Anweisungen:
    • Genauen Text-Overlay mit Timing
    • Kamera-Anweisungen (z.B. Eye-Level, Close-Up)
    • Choreografie-Anweisungen (z.B. "sanfte Hüftbewegung bei 0:45")
    • Stilvorgaben (Farben, Filter, Übergänge)
  • Erstellt ein strukturiertes Produktionsskript
  • Optimiert die Abfolge für maximale Wirkung
script_generator.generate(
  dance_style="bachata",
  visual_style="pretty_babe",
  text_overlay="Romantische Zitate",
  camera_angles=["eye_level", "close_up"]
)

✍️ Schreib-Agent

Der Ausführer/Renderer

Zweck: Führt die eigentliche Arbeit durch und generiert das Endprodukt.

Aufgaben:

  • Ruft sequenziell Spezial-Tools auf:

Pose-Wandler

Erstellt Posen-Daten aus dem Skript mit präzisen Bewegungsabläufen

Video-Renderer

Rendert das Video basierend auf Posen, Stil und Kameraanweisungen

Audio-Matcher

Fügt passenden Soundtrack hinzu und synchronisiert mit Bewegungen

Output:

  • Liefert die fertige Video-Datei (MP4)
  • Gibt das Ergebnis an das Gradio-Interface zurück
  • Protokolliert den Generierungsprozess
Datenbank-Modell: Shorts-Generator (MCP)
XML-Format
<datenbank_tabelle name="shorts_generierung_protokoll">
  <spalten_definition>
    <spalte>
      <name>Generierung_ID</name>
      <daten_typ>PRIMARY KEY (UUID/INT)</daten_typ>
      <beschreibung>Eindeutiger Schlüssel für jede Generierungsanfrage.</beschreibung>
      <agenten_rolle>Alle Agenten</agenten_rolle>
    </spalte>
    <spalte>
      <name>Nutzer_Prompt</name>
      <daten_typ>TEXT</daten_typ>
      <beschreibung>Die ursprüngliche Textanfrage des Nutzers.</beschreibung>
      <agenten_rolle>Lese-Agent</agenten_rolle>
    </spalte>
    <spalte>
      <name>Interpretierte_Vibes</name>
      <daten_typ>LIST/ARRAY (Tags)</daten_typ>
      <beschreibung>Herausgefilterte Kernanforderungen (z.B. BACHATA, ROMANTIC, SLOW-MOTION).</beschreibung>
      <agenten_rolle>Lese-Agent</agenten_rolle>
    </spalte>
    <spalte>
      <name>Skript_Text</name>
      <daten_typ>TEXT</daten_typ>
      <beschreibung>Das detaillierte, vom LLM generierte Storyboard und der Text-Overlay.</beschreibung>
      <agenten_rolle>Denk-Agent</agenten_rolle>
    </spalte>
    <spalte>
      <name>Bewegungs_Daten</name>
      <daten_typ>JSON/BLOB</daten_typ>
      <beschreibung>Strukturierte Posen-Keypoints oder Bewegungsvektoren.</beschreibung>
      <agenten_rolle>Schreib-Agent</agenten_rolle>
    </spalte>
    <spalte>
      <name>Audio_Track_Name</name>
      <daten_typ>VARCHAR (255)</daten_typ>
      <beschreibung>Name und Künstler des ausgewählten Hintergrund-Songs.</beschreibung>
      <agenten_rolle>Schreib-Agent</agenten_rolle>
    </spalte>
    <spalte>
      <name>Video_File_Path</name>
      <daten_typ>VARCHAR (500)</daten_typ>
      <beschreibung>Der Pfad zur fertig gerenderten Videodatei.</beschreibung>
      <agenten_rolle>Schreib-Agent</agenten_rolle>
    </spalte>
    <spalte>
      <name>Generierungs_Status</name>
      <daten_typ>ENUM</daten_typ>
      <beschreibung>Aktueller Zustand (PLANNING, RENDERING, COMPLETED, FAILED).</beschreibung>
      <agenten_rolle>Alle Agenten</agenten_rolle>
    </spalte>
    <spalte>
      <name>Erstellungs_Zeitpunkt</name>
      <daten_typ>DATETIME</daten_typ>
      <beschreibung>Zeitpunkt, zu dem die Anfrage gestartet wurde.</beschreibung>
      <agenten_rolle>Alle Agenten</agenten_rolle>
    </spalte>
  </spalten_definition>
</datenbank_tabelle>

Tabellarische Übersicht

Spaltenname Datentyp Beschreibung Agenten-Rolle
Generierung_ID PRIMARY KEY (UUID/INT) Eindeutiger Schlüssel für jede Generierungsanfrage Alle Agenten
Nutzer_Prompt TEXT Die ursprüngliche Textanfrage des Nutzers Lese-Agent
Interpretierte_Vibes LIST/ARRAY (Tags) Herausgefilterte Kernanforderungen (z.B. BACHATA, ROMANTIC, SLOW-MOTION) Lese-Agent
Skript_Text TEXT Das detaillierte, vom LLM generierte Storyboard und der Text-Overlay Denk-Agent
Bewegungs_Daten JSON/BLOB Strukturierte Posen-Keypoints oder Bewegungsvektoren Schreib-Agent
Audio_Track_Name VARCHAR (255) Name und Künstler des ausgewählten Hintergrund-Songs Schreib-Agent
Video_File_Path VARCHAR (500) Der Pfad zur fertig gerenderten Videodatei Schreib-Agent
Generierungs_Status ENUM Aktueller Zustand (PLANNING, RENDERING, COMPLETED, FAILED) Alle Agenten
Erstellungs_Zeitpunkt DATETIME Zeitpunkt, zu dem die Anfrage gestartet wurde Alle Agenten

Datenfluss zwischen Agenten und Datenbank:

  • Lese-Agent schreibt Nutzer_Prompt und Interpretierte_Vibes in die Datenbank
  • Denk-Agent liest die interpretierten Daten und schreibt das Skript_Text
  • Schreib-Agent liest das Skript und schreibt Bewegungs_Daten, Audio_Track_Name und Video_File_Path
  • Alle Agenten aktualisieren den Generierungs_Status während des Prozesses
  • Die Generierung_ID wird als Verknüpfung zwischen allen Tabellen verwendet

Gesamtprozess-Ablauf

Nutzereingabe

Der Nutzer gibt seine Wunschvorstellung für das Short ein (z.B. Tanzstil, Look, Stimmung).

Interpretation

Der Lese-Agent analysiert die Eingabe und extrahiert die wesentlichen Anforderungen.

Skriptgenerierung

Der Denk-Agent erstellt ein detailliertes Produktionsskript mit allen notwendigen Anweisungen.

Pose-Generierung

Der Pose-Wandler generiert die Bewegungsdaten basierend auf dem Skript.

Video-Rendering

Der Video-Renderer erstellt das visuelle Material mit korrekten Kameraeinstellungen.

Audio-Integration

Der Audio-Matcher fügt passende Musik hinzu und synchronisiert sie mit den Bewegungen.

Ausgabe

Das fertige Short wird an den Nutzer zurückgegeben und kann direkt verwendet werden.

Fertiges Short!

Das MCP-Protokoll hat erfolgreich ein maßgeschneidertes Kurzvideo generiert, das alle Nutzeranforderungen erfüllt.

Bereit für den Upload auf TikTok, Instagram Reels oder YouTube Shorts!