MCP Shorts-Generierungs-Protokoll

Drei-Agenten-Architektur für die Shorts-Generierung

👁️ Lese-Agent

Der Interpreter

Zweck: Nimmt die Nutzereingabe entgegen und interpretiert die Anforderungen.

Aufgaben:

Empfängt die Nutzeranfrage (z.B. "Bachata Reel im Pretty Babe Look")
Identifiziert Kernanforderungen:
- Tanzstil (Bachata)
- Visueller Stil (Pretty Babe Look)
- Text-Overlay Anforderungen
- Emotionale Ausrichtung (Vibe)
Wandelt den Wunsch in eine klare interne Anweisung um
Validiert die Eingabe auf Machbarkeit

Nutzer-Eingabe: "Bachata Reel im Pretty Babe Look mit romantischem Text-Overlay"

🧠 Denk-Agent

Der Planer/Skript-Ersteller

Zweck: Übersetzt die Absicht in ein detailliertes, ausführbares Skript.

Aufgaben:

Ruft den Script-Generator (LLM-Tool) auf
Generiert detaillierte Anweisungen:
- Genauen Text-Overlay mit Timing
- Kamera-Anweisungen (z.B. Eye-Level, Close-Up)
- Choreografie-Anweisungen (z.B. "sanfte Hüftbewegung bei 0:45")
- Stilvorgaben (Farben, Filter, Übergänge)
Erstellt ein strukturiertes Produktionsskript
Optimiert die Abfolge für maximale Wirkung

              script_generator.generate(

                dance_style="bachata",

                visual_style="pretty_babe",

                text_overlay="Romantische Zitate",

                camera_angles=["eye_level", "close_up"]

              )

✍️ Schreib-Agent

Der Ausführer/Renderer

Zweck: Führt die eigentliche Arbeit durch und generiert das Endprodukt.

Aufgaben:

Ruft sequenziell Spezial-Tools auf:

Pose-Wandler

Erstellt Posen-Daten aus dem Skript mit präzisen Bewegungsabläufen

Video-Renderer

Rendert das Video basierend auf Posen, Stil und Kameraanweisungen

Audio-Matcher

Fügt passenden Soundtrack hinzu und synchronisiert mit Bewegungen

Output:

Liefert die fertige Video-Datei (MP4)
Gibt das Ergebnis an das Gradio-Interface zurück
Protokolliert den Generierungsprozess

Datenbank-Modell: Shorts-Generator (MCP)

XML-Format

<datenbank_tabelle name="shorts_generierung_protokoll">
  <spalten_definition>
    <spalte>
      <name>Generierung_ID</name>
      <daten_typ>PRIMARY KEY (UUID/INT)</daten_typ>
      <beschreibung>Eindeutiger Schlüssel für jede Generierungsanfrage.</beschreibung>
      <agenten_rolle>Alle Agenten</agenten_rolle>
    </spalte>
    <spalte>
      <name>Nutzer_Prompt</name>
      <daten_typ>TEXT</daten_typ>
      <beschreibung>Die ursprüngliche Textanfrage des Nutzers.</beschreibung>
      <agenten_rolle>Lese-Agent</agenten_rolle>
    </spalte>
    <spalte>
      <name>Interpretierte_Vibes</name>
      <daten_typ>LIST/ARRAY (Tags)</daten_typ>
      <beschreibung>Herausgefilterte Kernanforderungen (z.B. BACHATA, ROMANTIC, SLOW-MOTION).</beschreibung>
      <agenten_rolle>Lese-Agent</agenten_rolle>
    </spalte>
    <spalte>
      <name>Skript_Text</name>
      <daten_typ>TEXT</daten_typ>
      <beschreibung>Das detaillierte, vom LLM generierte Storyboard und der Text-Overlay.</beschreibung>
      <agenten_rolle>Denk-Agent</agenten_rolle>
    </spalte>
    <spalte>
      <name>Bewegungs_Daten</name>
      <daten_typ>JSON/BLOB</daten_typ>
      <beschreibung>Strukturierte Posen-Keypoints oder Bewegungsvektoren.</beschreibung>
      <agenten_rolle>Schreib-Agent</agenten_rolle>
    </spalte>
    <spalte>
      <name>Audio_Track_Name</name>
      <daten_typ>VARCHAR (255)</daten_typ>
      <beschreibung>Name und Künstler des ausgewählten Hintergrund-Songs.</beschreibung>
      <agenten_rolle>Schreib-Agent</agenten_rolle>
    </spalte>
    <spalte>
      <name>Video_File_Path</name>
      <daten_typ>VARCHAR (500)</daten_typ>
      <beschreibung>Der Pfad zur fertig gerenderten Videodatei.</beschreibung>
      <agenten_rolle>Schreib-Agent</agenten_rolle>
    </spalte>
    <spalte>
      <name>Generierungs_Status</name>
      <daten_typ>ENUM</daten_typ>
      <beschreibung>Aktueller Zustand (PLANNING, RENDERING, COMPLETED, FAILED).</beschreibung>
      <agenten_rolle>Alle Agenten</agenten_rolle>
    </spalte>
    <spalte>
      <name>Erstellungs_Zeitpunkt</name>
      <daten_typ>DATETIME</daten_typ>
      <beschreibung>Zeitpunkt, zu dem die Anfrage gestartet wurde.</beschreibung>
      <agenten_rolle>Alle Agenten</agenten_rolle>
    </spalte>
  </spalten_definition>
</datenbank_tabelle>

Tabellarische Übersicht

Spaltenname	Datentyp	Beschreibung	Agenten-Rolle
Generierung_ID	PRIMARY KEY (UUID/INT)	Eindeutiger Schlüssel für jede Generierungsanfrage	Alle Agenten
Nutzer_Prompt	TEXT	Die ursprüngliche Textanfrage des Nutzers	Lese-Agent
Interpretierte_Vibes	LIST/ARRAY (Tags)	Herausgefilterte Kernanforderungen (z.B. BACHATA, ROMANTIC, SLOW-MOTION)	Lese-Agent
Skript_Text	TEXT	Das detaillierte, vom LLM generierte Storyboard und der Text-Overlay	Denk-Agent
Bewegungs_Daten	JSON/BLOB	Strukturierte Posen-Keypoints oder Bewegungsvektoren	Schreib-Agent
Audio_Track_Name	VARCHAR (255)	Name und Künstler des ausgewählten Hintergrund-Songs	Schreib-Agent
Video_File_Path	VARCHAR (500)	Der Pfad zur fertig gerenderten Videodatei	Schreib-Agent
Generierungs_Status	ENUM	Aktueller Zustand (PLANNING, RENDERING, COMPLETED, FAILED)	Alle Agenten
Erstellungs_Zeitpunkt	DATETIME	Zeitpunkt, zu dem die Anfrage gestartet wurde	Alle Agenten

Datenfluss zwischen Agenten und Datenbank:

Lese-Agent schreibt Nutzer_Prompt und Interpretierte_Vibes in die Datenbank
Denk-Agent liest die interpretierten Daten und schreibt das Skript_Text
Schreib-Agent liest das Skript und schreibt Bewegungs_Daten, Audio_Track_Name und Video_File_Path
Alle Agenten aktualisieren den Generierungs_Status während des Prozesses
Die Generierung_ID wird als Verknüpfung zwischen allen Tabellen verwendet

Gesamtprozess-Ablauf

Nutzereingabe

Der Nutzer gibt seine Wunschvorstellung für das Short ein (z.B. Tanzstil, Look, Stimmung).

Interpretation

Der Lese-Agent analysiert die Eingabe und extrahiert die wesentlichen Anforderungen.

Skriptgenerierung

Der Denk-Agent erstellt ein detailliertes Produktionsskript mit allen notwendigen Anweisungen.

Pose-Generierung

Der Pose-Wandler generiert die Bewegungsdaten basierend auf dem Skript.

Video-Rendering

Der Video-Renderer erstellt das visuelle Material mit korrekten Kameraeinstellungen.

Audio-Integration

Der Audio-Matcher fügt passende Musik hinzu und synchronisiert sie mit den Bewegungen.

Ausgabe

Das fertige Short wird an den Nutzer zurückgegeben und kann direkt verwendet werden.

Fertiges Short!

Das MCP-Protokoll hat erfolgreich ein maßgeschneidertes Kurzvideo generiert, das alle Nutzeranforderungen erfüllt.

Bereit für den Upload auf TikTok, Instagram Reels oder YouTube Shorts!