Tuesday Jun 03, 2025

#27 MULTIMODAL AGENTS, VOICE AI'S & UNSERE ZUKUNFT MIT EUCH

In Folge 27 sprechen wir über die nächste Evolutionsstufe von KI-Agenten – und wohin die Reise für uns als Podcast und Plattform geht.

ElevenLabs präsentiert mit Conversational AI 2.0 ein rundum erneuertes System mit Turn-Taking, Multicharacter-Dialogen, Live-RAG und Sprachwechsel in Echtzeit.

Gleichzeitig geht der Druck durch Open Source weiter: Chatterbox von Resemble AI bringt Zero-Shot Voice Cloning als öffentliches Gegenmodell. Auch Google liefert: Mit neuen Integrationen in Cloud Run lassen sich KI-Apps jetzt direkt aus AI Studio deployen – z. B. mit Gemma-Modellen.

Und bei DeepSeek gibt’s ein 8B-Modell, das sogar lokal auf dem Laptop läuft. Odyssey sorgt für Staunen mit dem Konzept interaktiver Echtzeit-Videos. Und FLUX.1 Kontext von Black Forest Labs hebt Bild-Editing auf ein neues Level: Text UND Bilder als Input – mit direkter In-Context-Bearbeitung. Zum Schluss sprechen wir offen über die Zukunft von brüderlich vernetzt, unsere Vision, neue Formate – und warum gerade jetzt der beste Moment ist, tiefer einzusteigen.

Wenn dir der Podcast gefällt, freuen wir uns über eine 5-Sterne-Bewertung – und bleib unbedingt dran, was bei uns noch alles kommt.
 
 
 

Comment (0)

No comments yet. Be the first to say something!

Copyright 2024 All rights reserved.

Podcast Powered By Podbean

Version: 20241125