Dieser Artikel liefert eine Übersicht zu unterschiedlichen Anwendungsbereichen von Generativer KI und zugehörigen Tools.
Inzwischen gibt es buchstäblich Tausende von Tools und Apps im Bereich Generative Künstliche Intelligenz. Und täglich kommen neue dazu, während andere verschwinden. Dieses Dokument fokussiert auf den „Mainstream“, soweit davon bei der Dynamik des Umfelds überhaupt die Rede sein kann.
Auf Tools mit speziellen Einsatzbereichen (z.B. Marketing) wird nicht eingegangen, da sie den Rahmen des Artikels sprengen würden.
Einsatzbereiche und Tools zu Generativer KI:
- Chatbots: Anthropic Claude, ChatGPT (von OpenAI), Google Gemini, xAI Grok, Meta AI, Microsoft Copilot (auch als Bing Chat integriert in Microsoft Bing verfügbar – siehe entsprechenden Abschnitt weiter unten), Inflection AI Pi
ChatGPT ist nach wie vor die „Königsklasse“ bei Chatbots. Er liefert sehr gute Ergebnisse und hat viele Zusatzfunktionalitäten.
Claude bietet „gefühlt“ bessere Dialoge und eine bessere Unterstützung für Programmierer als ChatGPT. Allerdings hat er nicht so viele (Zusatz-) Funktionen.
Gemini ist besonders geeignet für die Arbeit mit sehr umfangreichen Texten, liefert allerdings in der Regel schlechtere Ergebnisse als ChatGPT und Claude.
Grok ist der Chatbot von xAI (einem Unternehmen von Elon Musk, dem u.a. auch X/Twitter gehört). Er ist nur über ein kostenpflichtiges X-/Twitter-Abo verfügbar, aktuell allerdings nicht in der EU. Im Gegensatz zu anderen Chatbots hat er keine Sicherheitsfilter – ganz im Sinne von Elon Musks „Freedom of Speech“ Philosophie. Es werden auch schädliche und diskriminierende Texte und Bilder erstellt. Für die Bildgenerierung wird FLUX verwendet.
Meta AI ist der Chatbot von Meta (dem Mutterkonzern von Facebook). Er erfordert eine Facebook-Anmeldung und ist aktuell nicht in der EU verfügbar.
Microsoft Copilot und Bing Chat sind Chatbots, die sich bei Organisationen und Firmen in deren Microsoft-Umgebung integrieren lassen. Sie sind kostenfrei nutzbar, die integrierte Version erfordert allerdings ein kostenpflichtiges Abo.
Pi ist kein universeller Chatbot, sondern legt seinen Fokus auf „persönliche“ Unterstützung und Begleitung.
Die oben aufgeführten Chatbots nutzen Sprachmodelle – sogenannte Large Language Models (LLMs) – die mit sehr vielen Daten/Informationen trainiert wurden. Sie basieren – bis auf Microsoft – auf jeweils eigenen kommerziellen und proprietären LLMs. Microsoft nutzt – wie ChatGPT – die LLMs und Modelle von OpenAI.
Hinweis: es gibt neben kommerziellen LLMs sehr viele Open Source Sprachmodelle, die frei zur Verfügung gestellt werden. Sie können auch lokal auf dem eigenen Rechner installiert und verwendet werden, oder innerhalb eines Unternehmens über eigene Server oder Cloud-Services bereitgestellt werden. Sie sind in der Regel kleiner und damit weniger leistungsfähig als die hier aufgeführten Modelle. Allerdings sind sie individuell anpassbar und für spezifische Anwendungen sehr gut einsetzbar, verbrauchen weniger Ressourcen, bieten hohen Datenschutz (weil die Abfragen und Daten nur auf dem eigenen System genutzt werden und die Details der Modelle offengelegt sind), und sind ohne Kosten zu betreiben (vorausgesetzt, es wird keine dedizierte Hardware zum Betrieb der Modelle angeschafft).
Beispiele sind die LLaMA-Modelle von Meta, die Mistral-Modelle und die Falcon-Modelle.
Wer hier tiefer einsteigen möchte, dem sei die Plattform Hugging Face empfohlen. - Bildgenerierung: Adobe Firefly, Bing Image Creator, FLUX, Ideogram, Leonardo AI, MidJourney, Stable Diffusion
Je nach Anwendungsfall ist das eine oder das andere Tool besser geeignet.
Adobe Firefly ist auf Adobe-Stock-Fotos trainiert und bietet daher (laut Aussagen von Adobe) weniger/keine Probleme bzgl. Copyright-Verletzungen. Es bietet klickbare Einstellmöglichkeiten, zum Beispiel für den Stil des zu generierenden Bildes.
Es gibt die Möglichkeit für eine kostenfreie Nutzung mit einer limitierten Anzahl von Bildgenerierungen. Die kostenpflichtige Lizensierung ist gekoppelt mit Adobe Creative Cloud Abonnements – je nach Umfang des Abonnements erhält man mehr oder weniger Guthaben für Bildgenerierungen.
Bing Image Creator ist ein Tool von Microsoft, das – wie ChatGPT – Bilder auf Basis des Modells DALL-E 3 von OpenAI generiert. Es ist einfach zu bedienen und bietet passable Ergebnisse.
FLUX ist erst seit August 2024 am Start – es ist ein deutsches Modell aus Freiburg mir sehr guten Ergebnissen. Es lässt sich auch kostenfrei lokal auf dem Rechner installieren und nutzen (erfordert leistungsfähige Hardware). Es wird primär als Programmierschnittstelle (API) zur Verfügung gestellt. Allerdings gibt es Anbieter wie Krea AI oder Poe, die eine Browser-basierte Nutzung anbieten.
Ideogram bietet die besten Ergebnisse für Text in Bildern.
Leonardo AI bietet die Möglichkeit, unterschiedliche Modelle zu nutzen und sogar individuelle Modelle mit eigenen Bildern zu trainieren. Es gibt spezialisierte Modelle, zum Beispiel für Portraits, Illustrationen oder Anime. Die Bedienung ist deutlich komplizierter als bei anderen Tools.
MidJourney bietet insgesamt die besten Ergebnisse bei Bildern ohne Text, ist allerdings kostenpflichtig (bis auf die ersten 25 Bildgenerierungen zum Testen). Es bietet – im Gegensatz zu anderen Tools wie Bing Image Creator – umfangreiche Einstellungsmöglichkeiten, ist damit allerdings auch komplizierter in der Bedienung.
Stable Diffusion ermöglicht komplexe Konfigurationen und feingranulare Gestaltung von Bildern (zum Beispiel für Produktaufnahmen in der Werbung), ist dabei allerdings kompliziert zu konfigurieren und zu bedienen. Es lässt sich auch kostenfrei lokal auf dem Rechner installieren und nutzen (erfordert leistungsfähige Hardware). - Videogenerierung: OpenAI Sora, Pictory, Pika, Runway ML, Synthesia
Die angegebenen Tools ermöglichen die Generierung von Videos aus Sprachkommandos (Text-to-Video). Aktuell liegt die maximale Dauer von so generierten Videos im Sekundenbereich und es gibt noch einige Fehler, aber Dauer und Qualität werden sehr schnell besser. - Avatare: Character AI, HeyGen
Character AI bietet fiktive Dialoge mit unterschiedlichen Charakteren wie Albert Einstein und Leonardo da Vinci. Auch eigene Charaktere können erstellt werden.
HeyGen ermöglicht die Generierung eigener Avatare, die in Videos eingesetzt werden können. So können zum Beispiel Reden komplett synthetisch erzeugt und abgespielt werden, auch in unterschiedlichen Sprachen. - Musikgenerierung: Suno, Udio
Mit diesen Tools kann nach Vorgaben Musik generiert werden, wobei beliebige Stile und Texte gewählt werden können. Auch die Nutzung eigener Audio-Dateien als Basis ist möglich, ebenso wie das Covern bestehender Musik in einem anderen Stil. - Sprach-Cloning: ElevenLabs, OpenAI Voice Generator
Auf Basis eigener Sprachaufzeichnungen kann die Stimme geklont werden. Dadurch können beliebige gesprochene Texte in unterschiedlichen Sprachen mit der geklonten Stimme generiert werden. Die Ergebnisse sind nur sehr schwer bis gar nicht vom Originalsprecher zu unterscheiden. Inzwischen reichen schon 15 Sekunden Originalsprache aus für das Klonen. - Präsentationen: Beautiful AI, Gamma, Tome
Mit den genannten Tools können Präsentationen auf Basis von einfachen Kommandos, eingegebenen Texten und hochgeladenen Dokumenten generiert werden. Die Ergebnisse können weiterbearbeitet werden, und dann zum Beispiel in eine PowerPoint-Datei exportiert werden.
Inzwischen gibt es mit Copilot für Microsoft 365 auch die Möglichkeit, Präsentationen direkt in Microsoft PowerPoint KI-gestützt zu erstellen und zu bearbeiten. Gleiches gilt für Gemini für Google Slides.
Für alle Tools gilt, dass die professionelle und stringente Erstellung und Bearbeitung von Präsentationen (zum Beispiel mit durchgängigem Firmen-Layout) bisher noch zu wünschen übriglässt. - Transkription von Besprechungen/Meetings: Fireflies AI, Otter AI, OpenAI Whisper (Zugriff auf Whisper nur über Programmierung)
In Online-Meetings werden immer häufiger solche Tools eingesetzt. Sie zeichnen die Besprechung auf, liefern individuelle Zusammenfassungen und wesentliche Punkte, und ermöglichen nachträglich interaktiv Fragen an den Text der Transkription zu stellen.
Inzwischen haben auch Meeting-Plattformen wie Google Meet, Zoom und Microsoft Teams solche Funktionalitäten integriert.
Google und Microsoft haben inzwischen (kostenpflichtige) Copiloten unter anderem für ihre Office-Produkte herausgegeben. Sie sind in die entsprechenden Applikationen wie Excel oder Word integriert.
Weiterhin gibt es spezialisierte Tools – zum Beispiel für den Einsatz im Marketing-Kontext. Entsprechende Portale mit Suchmöglichkeiten sind zum Beispiel „Clever KI Tools“ (www.cleverkitools.com), Supertools (supertools.therundown.ai) und „There’s an AI for That“ (theresanaiforthat.com).