Eineinhalb Jahre ist es her, als eine Technologie, die im Deutschen recht unscharf „Künstliche Intelligenz (KI)“ genannt wird, ihren kommerziellen Durchbruch schaffte. Als „iPhone-Moment der KI“ wird jener Augenblick genannt, als der Chatbot ChatGPT im November 2022 publik wurde. Heute ist klar: die Technologie ist gekommen, um zu bleiben. Zugleich sind viele Frage offen. Vor allem jene, ob denn die milliardenschweren KI-Modelle nicht auf gigantischen Urheberrechtsverletzungen beruhen. Richtungsentscheidungen werden wohl bald erst Gerichte treffen.

Klar ist: War 2023 noch ein Jahr der Orientierung, steht 2024 im Zeichen der Nachfrage nach KI-Anwendungen. Und diese schießen wie die sprichwörtlichen Pilze aus dem Boden. „ChatGPT vor einem Jahr? Das war schon sehr cool. Aber richtigen Mehrwert bekommen die KI-Modelle erst jetzt, weil ich sie durch vielfältige Einbindungsmöglichkeiten innerhalb meiner täglich genutzten Büro-Anwendungen nahtlos verwenden kann“, sagt auch Günther Repitsch von Imendo, einem Klagenfurter IT-Dienstleister mit Fokus auf KI. Kraftvoll seien die Modelle, weil sie heute etwa auf Bedürfnisse von Unternehmen zugeschnitten und mit „Kontextdaten gefüttert“ werden können. Am Ende würden sie so die „Effizienz der Bearbeitung“ deutlich steigern.

Günther Repitsch (Imendo) © Imendo

Auf Anbieterseite nimmt das Wettrennen weiter Fahrt auf. Exemplarisch dafür: Elon Musks xAI kündigt für Mai die neue Variante des Chatbots Grok an – freilich wieder ohne ethische Leitplanken. Im selben Aufwischen lässt der Milliardär wissen, er glaube, KI-Fähigkeiten werden die menschliche Intelligenz schon im nächsten Jahr übertreffen. Die Bewertung dieser Einschätzung sei Ihnen überlassen, eine Leistungsschau als Orientierungshilfe möchten wir hier dennoch bieten.

Binnen Sekunden zum eigenen Song

Ein großes Augenmerk legen die Techkonzerne mit ihren KI-Anwendungen zurzeit auf den guten Ton. So kündigte Google jüngst an, das neueste KI-Modell, Gemini 1.5 Pro, könne aus eingetipptem Text Töne, Musik und Sprache erzeugen. Udio generiert schon heute aus wenigen Worten Songs mit künstlichem Gesang. Für besonderes Aufsehen sorgt dieser Tage aber Suno.ai. Binnen Sekunden erschafft die KI bis zu zwei Minuten lange Lieder in unterschiedlichsten Stilrichtungen. Texte werden erfunden oder selbst vorgegeben. Spannend wird freilich sein, wie sich die schwelenden Urheberrecht-Streitigkeiten auf die Text-zu-Ton-Tools auswirken.

Milliarden KI-Bilder und Ernährungs-Tipps

KI-Anwendungen, die aus Text realistische Bilder erschaffen, haben sich längst etabliert. Adobes Firefly etwa wurde vor einem Jahr vorgestellt und seitdem für die Erzeugung von 6,5 Milliarden Bildern genutzt. OpenAI setzt auf den Generator DALL-E und integrierte ihn in ChatGPT. Beim neuesten KI-Modell hinter dem Chatbot, GPT-4 Turbo, wurde zudem die Bilderkennungsfunktion Vision hinzugefügt. Verwendet wird das Modell u.a. von Healthify. Nutzern laden dort Bilder eigener Mahlzeiten hoch, die Fitness-App schlägt Ernährungs-Empfehlungen vor.

Bilderzeugung mit Adobe Firefly © Screenshot

Filmreifes und Selfies, die sich bewegen

Sora ist in aller Munde, dabei ist OpenAIs Videogenerator noch gar nicht da. Nur Ausgewählte konnten ihn bisher testen, noch heuer soll sich das ändern. Die KI generiert aus Text filmreife und bis zu einer Minute lange Videos. An Konkurrenz arbeitet Adobe. Im Gegensatz zu OpenAI verspricht Adobe aber, für das Training des KI-Modells nur zuvor bezahlte Inhalte zu verwenden. Eine weniger professionelle Zielgruppe steuert Higgsfield an. Gegründet von Alex Mashrabov, einst bei Snap, animiert die Higgsfield-App Diffuse per KI Selfies. Animierte Bilder aus Text generiert wiederum bald Googles Imagen.