Kurze Zusammenfassung
Diese Woche gab es viele spannende Entwicklungen im Bereich der künstlichen Intelligenz (KI). OpenAI hat seine Deep Research-Funktion für kostenlose Nutzer zugänglich gemacht und plant die Veröffentlichung eines neuen Open-Source-Modells. Microsoft hat Updates für 365 Copilot und die Recall-Funktion vorgestellt. Grok hat Vision-Funktionen erhalten, und LTX Studio bietet nun Veo2-Videogenerierung zu günstigeren Preisen an. YouTube testet KI-gestützte Video-Overviews, und Anthropic veröffentlichte Essays über KI-Risiken. Es gab auch Updates zu KI-Avataren, Lipsync-Technologien und KI-gestützter Videobearbeitung.
- OpenAI Deep Research jetzt kostenlos verfügbar
- Microsoft 365 Copilot mit Agentenfunktionen
- Grok Vision Update
- YouTube testet AI Overviews
OpenAI Free Deep Research
OpenAI hat seine Deep Research-Funktion für Nutzer des kostenlosen Plans zugänglich gemacht. Diese Funktion ermöglicht eine tiefere Suche im Internet und liefert umfassendere Informationen zu bestimmten Themen. Kostenlose Nutzer erhalten fünf kostenlose Nutzungen pro Monat. Für Plus-, Team- und Pro-Nutzer wird eine "Lightweight"-Version von Deep Research eingeführt, um die Ratenbegrenzungen zu erhöhen. Wenn die Limits für die Originalversion erreicht sind, wird automatisch auf die Lightweight-Version umgeschaltet, die auf einer Version von O4 Mini basiert.
OpenAI New "Open" Model Details
OpenAI plant die Veröffentlichung eines neuen Open-Source-Modells, das voraussichtlich im Juni erscheinen wird. Dieses Modell soll kostenlos herunterladbar sein und nicht über eine API zugänglich sein, sodass es lokal ausgeführt werden kann. Es wird erwartet, dass die Leistung die von Open-Source-Modellen von Meta und Deepseek übertrifft. Das Modell soll in der Lage sein, bei komplexen Anfragen auf andere, geschlossene Modelle über die OpenAI-API zuzugreifen, um eine höhere Rechenleistung zu erzielen.
OpenAI and The Washington Post
Die Washington Post ist eine Partnerschaft mit OpenAI eingegangen, um Suchinhalte bereitzustellen. Wenn Nutzer die Suchfunktionen von OpenAI verwenden, darf OpenAI auf Inhalte der Washington Post zugreifen. Dies wird als präventive Maßnahme gesehen, um Klagen zu minimieren, da OpenAI Partnerschaften mit verschiedenen Nachrichtenagenturen eingeht, um die Verwendung ihrer Inhalte zu legalisieren.
Perplexity - New Agent Feature
Perplexity hat eine neue Funktion in seiner iOS-App eingeführt, den Perplexity Assistant. Dieser Assistent soll Aufgaben erledigen, die man sich von Siri erhofft hat, wie z. B. Medien abspielen, E-Mails entwerfen, Termine verschieben, Fahrten buchen, Reservierungen vornehmen und Erinnerungen einstellen. Einige Funktionen sind noch nicht ganz ausgereift, aber die ersten Tests zeigen, dass viele Aufgaben gut funktionieren, wie z. B. das Öffnen von Podcasts, das Buchen von Reservierungen und das Abrufen von Kalenderereignissen.
Microsoft 365 Agent
Microsoft hat Updates für 365 Copilot vorgestellt, die agentenähnliche Funktionen bieten. Dazu gehören eine KI-gestützte Suche, um Informationen schneller zu finden, eine neue Create-Experience, Copilot-Notebooks und ein Agent Store, um Agenten zu finden und auf sie zuzugreifen. Es gibt verschiedene Chat-Optionen wie Analyst, Researcher und Sales. Die Researcher- und Analyst-Agenten sind optimiert, um spezifische Aufgaben zu erledigen, wie z. B. tiefere Recherchen oder die Analyse von Daten aus Excel- und Word-Dokumenten.
Microsoft Recall is back
Die Recall-Funktion von Microsoft, die es ermöglicht, den gesamten Computerverlauf einzusehen, wird nun tatsächlich eingeführt. Diese Funktion ähnelt einem Browserverlauf für den gesamten Computer, mit dem man zurückgehen und sehen kann, was man in verschiedenen Anwendungen getan hat. Es gibt auch eine KI-gestützte Suche, um bestimmte Zeiten und Aktivitäten zu finden. Recall ist jetzt eine Opt-in-Funktion, und es gibt Kontrollen und Filter, um festzulegen, was gespeichert wird und was nicht. Die Daten werden lokal auf dem Gerät verarbeitet und nicht an die Cloud oder Microsoft gesendet.
Grok Vision Update
Der Grok-Chatbot von XAI verfügt nun über Vision-Funktionen, ähnlich wie die Gemini- und OpenAI-Modelle. Diese Funktion ist auch in der Grok-Mobil-App verfügbar. Nutzer können die Kamera verwenden, um die Umgebung zu erfassen und Grok Fragen dazu zu stellen. Die ersten Tests zeigen, dass Grok die Umgebung gut erkennt und beschreibt.
LTX Studio Adds Veo2
LTX Studio hat Googles Veo2-Videogenerierungsmodell in seine Plattform integriert. Dadurch ist LTX Studio die kostengünstigste Möglichkeit, Videos mit Veo2 zu generieren. Die Kosten betragen etwa 65 Cent pro 8 Sekunden Video, verglichen mit 50 Cent pro Sekunde auf Googles eigener Cloud-Plattform. Nutzer können Veo2 in LTX Studio verwenden, um Videos aus Bildern oder von Grund auf neu zu erstellen. LTX Studio wird immer modellagnostischer und bietet neben dem eigenen Open-Source-Modell LTXV nun auch Veo2 an.
Ray-Ban Meta Live Translation
Ray-Ban Meta-Brillen haben neue Funktionen erhalten, darunter Live-Übersetzungen. Die Brille kann gesprochene Sprache in Echtzeit in die bevorzugte Sprache des Nutzers übersetzen. Es ist auch möglich, ein Sprachpaket im Voraus herunterzuladen, um die Live-Übersetzung auch ohne Internetverbindung nutzen zu können.
YouTube AI Overviews
YouTube testet eine neue Funktion namens AI Overviews. Ähnlich wie bei Google Search wird bei einer Suche auf YouTube ein KI-gestützter Überblick angezeigt, der jedoch aus Videoclips besteht. Anstatt Videos zusammenzufassen, werden Clips aus Videos extrahiert, die für die Suchanfrage relevant sind. Diese Funktion wird derzeit mit einer kleinen Anzahl von YouTube Premium-Nutzern in englischer Sprache getestet.
Anthropic Essays TLDR
Anthropic hat mehrere Essays und Forschungsarbeiten veröffentlicht. Ein Blogbeitrag mit dem Titel "Our approach to understanding and addressing AI harms" betont, dass KI-Unternehmen nicht nur auf Doomsday-Szenarien achten sollten, sondern auch auf physische, psychologische, wirtschaftliche und gesellschaftliche Auswirkungen. Ein weiterer Artikel mit dem Titel "Detecting and countering malicious uses of Claude" beschreibt Fallstudien, in denen Claude für bösartige Zwecke wie politische Botnetze und das Hacken von Malware verwendet wurde. Der CEO von Anthropic, Daario, veröffentlichte einen Essay über die Dringlichkeit der Interpretierbarkeit von KI-Modellen.
OpenAI and Grok APIs
OpenAI hat sein Bildgenerierungsmodell in der API veröffentlicht, sodass Entwickler diese Technologie in ihren Anwendungen verwenden können. Es gibt auch eine neue Grok 3 Mini API, die laut Benchmarks in vielen Bereichen besser abschneidet als andere Modelle.
Adobe Firefly Update
Adobe hat eine neue Version von Firefly und seiner Web-App veröffentlicht. Es ist nun möglich, andere Modelle auszuwählen, darunter Firefly Image 4, Firefly Image 4 Ultra, Imagine 3 und GPT image.
Krea AI Updates
Krea AI hat die Möglichkeit eingeführt, Bilder im Chat mit dem Chat GPT-Bildmodell zu bearbeiten. Außerdem wurde eine neue Funktion namens Stage eingeführt, mit der 3D-Umgebungen mit KI aus Bildern oder Text erstellt werden können.
Hunyuan 3D 2.5
Das Unternehmen Tencent hat ein neues Modell namens Hunan 3D 2.5 veröffentlicht. Dieses Modell hat 10 Milliarden Parameter und bietet hochwertige Texturen und eine verbesserte Animation.
AvatarFX
Character AI, eine Plattform zum Erstellen fiktiver Charaktere, mit denen man chatten kann, hat eine neue Funktion namens Avatar Effects eingeführt. Diese Funktion generiert Visuals für die Charaktere, mit denen man chattet, um die Interaktion lebendiger zu gestalten.
Argil AI Avatars
Das Unternehmen Argil AI hat eine neue Funktion eingeführt, mit der KI-Avatare Produkte halten können. Dies ist besonders für E-Commerce-Unternehmen interessant, da sie KI-generierte Avatare als Sprecher für ihre Marke einsetzen können.
Tabus Lipsync
Das Unternehmen Tavis hat ein neues Lipsync-Modell veröffentlicht, das angeblich das beste auf dem Markt ist. Obwohl die KI-Stimme mit dem Lipsync immer noch etwas unheimlich wirkt, ist die Übereinstimmung recht gut.
Descript AI Video Editor
Descript testet neue agentenähnliche KI-Funktionen, die das Bearbeiten von Videos durch Chatten mit einem Bot ermöglichen. Nutzer können Anweisungen geben, wie z. B. "Kannst du das Video bearbeiten?" oder "Füge Kapitelüberschriften und Stock-Overlays hinzu", und die KI nimmt die entsprechenden Änderungen vor.
The Oscars on AI
Die Academy of Motion Picture Arts and Sciences hat bekannt gegeben, dass der Einsatz von KI in Filmen die Chancen auf eine Nominierung nicht beeinflusst. Die Academy wird jedoch bei der Auswahl der Preisträger berücksichtigen, inwieweit ein Mensch im Mittelpunkt der kreativen Urheberschaft stand.
OpenAI wants to buy Chrome
In einem Gerichtsverfahren gegen Google hat OpenAI erklärt, dass es Googles Chrome-Browser kaufen würde, wenn dieser zum Verkauf stünde. OpenAI möchte möglicherweise in das Browsergeschäft einsteigen und einen vollständig KI-gestützten Browser auf Basis von Chrome entwickeln.
Demis Hassabis on AI consciousness
Der CEO von DeepMind, Demis Hassabis, war in der Sendung 60 Minutes zu Gast und äußerte sich zuversichtlich, dass KI in Zukunft eine Art Selbstbewusstsein entwickeln wird.
Final Thoughts
Zusammenfassend lässt sich sagen, dass es trotz einer vermeintlich langsameren Woche viele interessante Entwicklungen im Bereich der KI gab. Die Fortschritte in den Bereichen Open Source, Agentenfunktionen, Vision, Videogenerierung und Avatare zeigen das enorme Potenzial und die vielfältigen Anwendungsmöglichkeiten von KI.