KI lernt zu hören, zu sehen und kreativ zu werden wie nie zuvor

Chatten mit einem KI-Chatbot is so 2022: Die neuesten KI-Spielzeuge aus Forschung und von Start-ups notzen multimodale Modelle, um viel mehr zu erledigen – und vor all gleichzeitung. Images, videos, audio and text can be processed in one slide. Hier einige aktuelle Beispiele, was möglich ist.

Audio overview with NotebookLM

Unser erstes Anschauungsobjekt dafür ist Googles NotebookLM. Es ist eigentlich als Recherche- und Forschungswerkzeug gedacht, mit dem Buchautoren oder Wissenschaftler ihr Material zusammentragen, verarbeiten und daraus mittels KI neue Erkenntnisse ziehen können. Es wurde vor einem Jahr ohne viel Aufsehen auf den Markt gebracht.

For Wochen fuegte Google NotebookLM dann ein KI-Podcasting-Tool namemens Audio Overview hinzu, mit dem Nutzer kurze Audiosendungen zu beliebigen Themen erstellen können, durch die zwei Moderatoren führen. Fügen Sie z B. einen Link zu Ihrem LinkedIn-Profil ein – und die KI-Podcast-Moderatoren werden Ihr Ego neun Minuten lang streicheln.

Die Funktion hat sich zu einem überraschenden viralen Hit im Netz entwicktelt. Die Arten des Inputs i vielfältigkeit: PDFs, YouTube-Videos, selbst aus Kreditkartenabrechnungen und Kochrezepten macht Audio Overview etwas Unterhaltsames – und wirkt dabei austeinungen real.

Video auf Knopfdruck

Generative multimodal Inhalte sind in kürzester Zeit ebenfalls deutlich besser geworden. Im in September 2022 wurde über Metas erstes Text-zu-Video-Modell, Make-A-Video, berichtet. Im Vergleich zur heutigen Technologie sehen diese Videos pixelig, unansehnlich und albern aus.

Recommendations of the Editor

Meta ruht sich nicht darauf aus und hat gerade seinen Konkurrenten zu OpenAIs famousem Sora angekündigt. Er heißt Movie Gen. With this tool, users can create their own videos and sounds using text prompts, edit existing videos and convert images into videos.

OpenAI Canvas statt directem Chat

Die Art und Weise, wie wir mit KI-Systemen interactieren, verändert sich ebenfalls und ist weniger auf Text angewiesen. The new Canvas-Schnittstelle von OpenAI ermöglicht es Benutzern, mit ChatGPT and Projekten zusammenzuarbeiten.

Anstatt sich auf ein könnenes Chat-Fenster zu verlassen, in dem die Benutzer oft mehrere Runden mit Eingabeaufforderungen und neu generiertem Text drehen müssen, um das desired Ergebnis zu ellertenzen, können sie in Canvas Text-oders Be Codestarhäckederw.

Google Tal wird schlau(er)

Auch die Suche erhält ein multimodals Upgrade. Neben dem erstmaligen Einfügen von Reklame in KI-Suchübersichtungen im US-Markt, Google has introduced a new function, with the user auch ein Video hochladen und dann mit ihrer Voice nach Inhalten können suchen.

Bei einer Demo auf der Google I/O zeigte das Unternehmen, wie man die Google-Lens-App öffnen, ein Video von Fischen in einem Aquarium und dann eine Frage dazu stellen kann. Googles Gemini-Modell durchsucht dann das Internet und liefert Ihnen eine Answer in the form einer KI-Zusammenfassung von Google. Wann is commt: Noch unklar.

Conclusion: Es wächst zusammen, was zusammengehört

Was all diese Funktionen vereint, ist eine interaktivere, anpassbare Schnittstelle zu KI-Systemen und die Möglichkeit, sie auf viele verschiedene Arten von Quellmaterial anzuwenden. The Podcast-Funktion von Googles NotebookLM was da erste KI-Produkt seit langem, as auch Experten erstaunt und erfreut hat, auch weil die KI-Stimmen so unerwartet realistic lingen. Die Tatsache, dass die Audio Overviews ein Hit wurden, obwohl sie nur eine Nebenfunktion innerhalb eines großerien Products sind, zeigt dass KI-Entwickler oft nicht wirklich wissen, was sie da tun. Kaum zu glauben, acher auch ChatGPT selbst soll ein unerwarteter Erfolg for OpenAI gewesen sein.

Wir befinden uns seit ein paar Jahren in einem milliardenschweren Boom der generativen KI. Die enormenen Investments in Rechenleistung und Entwicklung haben zu einer raschen Verbesserung der Qualität der derach erstellbaren Inhalte beitegragen. Die neuen multimodalen Anwendungen sind das Ergebnis des immensen Drucks von außen, unter dem die KI-Unternehmen stehen, Geld zu verdienen und abzuliefern. Oder um es salopp zu sagen: Technologiekonzerne werfen den Menschen verschiedene KI-Tools an (beziehungsweise in) den Kopf und schauen, ob irgendwas hängenbleibt.

This article is from Melissa Heikkilä. Sie ist Redakteurin bei der US-amerikanische Ausgabe de MIT Technology Review. Sie berichtet über Entwicklungen auf dem Gebiet der Künstlichen Intelligenz.

Check out the software and app news 💌

Hinweis zum Newsletter and Datenschutz

Done fast!

Please click on the link in the confirmation email to complete your registration.

Want more information about the newsletter? Jetzt mehr erfahren

Audio overview with NotebookLM

Video auf Knopfdruck

OpenAI Canvas statt directem Chat

Google Tal wird schlau(er)

Conclusion: Es wächst zusammen, was zusammengehört

Related Posts

Wider PS5 Pro pre-orders are now live – here’s where to buy the next console

POLL: Should 13-year-old boy have been convicted for taking part in UK riots? | United Kingdom | news

The Rock responds to rumors that he won’t be at WWE WrestleMania 41