Kurze Zusammenfassung
Das Video bietet eine umfassende Zusammenfassung der neuesten Entwicklungen im Bereich der künstlichen Intelligenz (KI). Es werden Fortschritte bei humanoiden Robotern, rechtliche Auseinandersetzungen von KI-Unternehmen, neue KI-Modelle und -Funktionen sowie ethische Fragen im Zusammenhang mit KI-Technologien behandelt.
- Fortschritte bei humanoiden Robotern und deren Einsatz in Logistik und Paketzustellung.
- Rechtliche Herausforderungen für KI-Unternehmen wie Anthropic und OpenAI.
- Vorstellung neuer KI-Modelle und Funktionen von OpenAI, Google, ElevenLabs und anderen Anbietern.
- Diskussion über die gesellschaftlichen Auswirkungen von KI und die Notwendigkeit einer offenen Auseinandersetzung mit den Risiken und Chancen.
Intro
Das Video gibt einen Überblick über die aktuellen KI-Nachrichten, die sich diese Woche überschlagen haben. Es verspricht eine komprimierte Zusammenfassung der wichtigsten Updates, um Unternehmern einen Wettbewerbsvorteil zu verschaffen und Arbeitnehmern zu helfen, in der KI-Revolution erfolgreich zu sein. Leonard Schweding stellt sich vor und kündigt den Start des Videos an.
FigureAI in der Logistik
Figure AI bleibt im Gespräch, da ein Video zeigt, wie der Roboter Pakete sortiert und aussortiert, um einfache Logistikarbeiten zu übernehmen. Figure AI hat bereits ein großes Logistikunternehmen als Kunden, und auch Amazon testet den Einsatz humanoider Roboter in der Paketzustellung. Amazon hat mit dem Bau eines Testraums begonnen, um die Paketzustellung durch humanoide Roboter zu testen und plant, verschiedene Robotermodelle zu evaluieren. Zukunftsforscher prognostizieren, dass die Jahre 2026-2027 die großen Jahre der Humanoiden Roboter werden.
Amazons Tests mit humanoiden Lieferrobotern
Amazon testet den Einsatz humanoider Roboter nicht mehr nur in der Logistik, sondern auch in der Paketzustellung. In einem Testraum, der die Größe eines Cafés hat, werden elektrische Lieferwagen von Amazon platziert und die Paketzustellung durch Roboter simuliert. Amazon plant, verschiedene Humanoid-Modelle zu testen, darunter den Unitary G1 aus China. Das Szenario, dass humanoide Roboter in den Jahren 2026-2027 eine größere Rolle spielen werden, wird immer realistischer.
Anthropic-Reddit Rechtsstreitigkeiten
Reddit verklagt Anthropic, weil deren Bots mehr als 100.000 Mal auf die Reddit-Plattform zugegriffen haben, obwohl Anthropic erklärt hatte, seine Bots daran gehindert zu haben. Es besteht kein Vertrag zwischen Reddit und Anthropic, der es Anthropic erlaubt, seine Modelle mit Reddit-Nutzerdaten zu trainieren. Besonders interessant ist, dass Anthropic sich selbst als "weißen Ritter" der KI-Branche bezeichnet, der großen Wert auf Sicherheit legt. Es wird vermutet, dass Anthropic möglicherweise Daten von Reddit verwendet hat, um seine Modelle zu trainieren, was im Widerspruch zu seinem Image steht.
OpenAIs juristische Herausforderungen
Ein Gericht hat ein Urteil gegen OpenAI gesprochen und fordert die unbefristete Speicherung der ChatGBT- und API-Kundendaten auch in Verbraucher-Use-Cases. Das bedeutet, dass OpenAI alle Chats speichern muss, auch wenn Nutzer sie gelöscht haben oder über die API darauf zugegriffen haben. OpenAI hat Berufung eingelegt und ein Statement veröffentlicht, in dem sie ihre Bedenken äußern und betonen, dass sie die Daten in einem separaten, sicheren System speichern und nur zur Erfüllung gesetzlicher Anforderungen nutzen. Der Enterprise Plan ist aktuell von dieser Regelung ausgenommen.
Sam Altman über die Zukunft der KI
Sam Altman, CEO von OpenAI, stellt sich die Zukunft von KI-Modellen als ein kleines Modell mit übermenschlichen Fähigkeiten im logischen Denken vor, das über eine Billion Tokens an Kontext verfügt und Zugriff auf jedes Tool hat. Er betont, dass es nicht darum geht, dass das Modell alles inhärent wissen muss, sondern dass es durch Reasoning-Fähigkeiten und Zugriff auf Tools das benötigte Wissen selbst beschaffen kann. Altman räumt ein, dass dieses perfekte Modell in absehbarer Zeit nicht realisierbar ist, aber es gibt eine Vorstellung davon, wie eine allgemeine künstliche Intelligenz aussehen könnte.
Spekulationen zu GPT-5
Es gibt Spekulationen, dass GPT-5 möglicherweise im Juli dieses Jahres veröffentlicht werden soll. Diese Aussage stammt von einer verlässlichen Quelle, die in der Vergangenheit bereits richtige Vorhersagen getroffen hat. Ob es tatsächlich so kommen wird, bleibt abzuwarten.
OpenAIs O3 Pro Modell
Das Open AI O3 Pro Modell, die nächste Version des O1 Pro Modells, steht kurz vor der Veröffentlichung. Es gab bereits Leaks und inoffizielle Veröffentlichungen, wie z.B. eine Seite von Open AI, die den O3 Pro Plan in der Preisübersicht zeigt. Einige Nutzer haben bereits Zugriff erhalten. Ein Vortrag der Open AI Academy in Indien zeigte verschiedene Use Cases und enthüllte, dass Open AI bereits intensive Tests mit verschiedenen Modellen durchführt, darunter Alpha-, Data Campaign-, experimentelle und Mainline-Modelle.
Neue Konnektoren in ChatGPT
Es sind weitere Konnektoren in ChatGPT verfügbar geworden, mit denen man beispielsweise MCP-Server sowie Dropbox, SharePoint, Box etc. einbinden kann. Diese Funktion ermöglicht es, Quellen auszuwählen, die durchsucht werden sollen, und eigene MCP-Server einzubinden. ChatGPT unterstützt jetzt Konnektoren, die eine gründliche Recherche mit Google Drive- oder SharePoint-Dateien in Kombination mit der Deep Research Funktion ermöglichen. Es gibt auch einen neuen Aufzeichnungsmodus von ChatGBT, der im Teamsplan verfügbar ist und es ermöglicht, ChatGBT als Meeting-Partner mitzunehmen und Meetings protokollieren zu lassen.
Kostenlose und kostenpflichtige ChatGPT-Pläne
Auch Free User können sich freuen, denn in der kostenlosen Version gibt es jetzt eine Lightweight Version der Erinnerungsverbesserung von ChatGBT. Das heißt, auch im kostenlosen Plan kann sich ChatGBT jetzt ab sofort besser an vergangene Chats erinnern. Der Teamsplan ist für Unternehmen am sinnvollsten, gerade eben auch aus Compliance und Sicherheitsaspekten. Dieser Plan ist jetzt zugänglicher geworden, denn du kannst ihn ab sofort für einen Dollar austesten. Open AI Codex, also der Coding Agent von Open AI ist jetzt ab sofort ausgerollt für alle Plus Nutzer.
OpenAIs Echtzeit-API-Updates
Es gab einige Updates für die API, insbesondere eine verbesserte Realtime API, die auch im Advanced Voice Mode und im Perplexity Voice Mode integriert ist. Der große Vorteil ist, dass ChatGBT über die Realtime API nicht mehr nur Text gesprochenes Wort transkribiert, sondern auch Sprache mit all den Nuancen, Facetten, Kontext und Emotionen verstehen und wiedergeben kann. Dies ist die nächste große Stufe im Kontext von Voice AI und Voice Agenten, ist aber aktuell noch zu teuer.
Microsofts Bing Video Creator
Microsoft veröffentlicht einen Bing Video Creator, mit dem man kostenlos Videos erstellen kann. Dies könnte eine interessante Option für diejenigen sein, die die Microsoft- und Azure-Infrastruktur bevorzugen. Es ermöglicht, kostenlose Videos mit Open AI Sora zu erstellen. Ob sich dieser Video Creator durchsetzen wird, bleibt abzuwarten.
Copilot Portraits & KI-Avatare
Ein großer Trend, der aktuell noch unterschätzt wird, sind KI-Avatare. Microsoft Copilot will als nächstes solche Copilot Portraits inkludieren, also Avatare, mit denen man sprechen kann. Es wird die Frage aufgeworfen, warum nicht mehr Anbieter solche Avatare anbieten, da die Technologie bereits vorhanden ist. Es wird erwartet, dass wir immer mehr solche Avatare sehen werden, was jedoch auch zu Risiken führt, da immer mehr Menschen ihre sozialen Interaktionen über KI-Freunde steuern könnten.
Sam Altman über gesellschaftliche Auswirkungen von KI
Sam Altman von Open AI betont, dass KI eine massive Veränderung für die gesamte Welt und Menschheit sein wird. Er hält es für wichtig, die Menschen auf diese Veränderung vorzubereiten und ihnen Zugriff auf KI-Systeme und -Modelle zu geben. Er argumentiert, dass ein Verbot von KI nicht zielführend ist, sondern Aufklärung und offene Auseinandersetzung notwendig sind. Altman sagt, dass sie auch Modelle auf den Markt bringen, die noch nicht perfekt sind, um die Menschheit vorzubereiten, anstatt alles im stillen Kämmerlein zu entwickeln.
ElevenLabs Version 3 Alpha
Eines der größten Updates ist Eleven Labs Version 3 Alpha, die es ermöglicht, Emotionen in Stimmen einzuprompten. Dies ist ein Gamechanger im Bereich Voice AI und bringt uns dem Zeitpunkt näher, an dem KI-Stimmen die gläserne Decke durchbrechen und niemand mehr den Unterschied zu echten Stimmen hört. ElevenLabs Version 3 ist aktuell noch nicht über die API verfügbar, kann aber über die Webapp getestet werden.
Neue Funktionen von Eleven Labs im Test
Es wird demonstriert, wie man in einen Text Audio-Tags einfügen kann, um Emotionen wie Lachen, Spannung, Ernsthaftigkeit, Flüstern, Begeisterung usw. auszudrücken. Das Ergebnis zeigt, dass es noch kleine Fehler gibt, aber es wird auch eine Sache des Promptings sein. Man hört noch einen englischen Akzent, da eine englische Stimme ausgewählt wurde, aber theoretisch kann man auch deutsche Stimmen auswählen. Es wird angekündigt, dass es noch mehr Informationen zu Levelaps Version 3 geben wird, insbesondere wenn es über die API verfügbar sein wird.
ChatGPTs fortgeschrittener Sprachmodus
Ein verbesserter Advanced Voice Mode von Open AI wurde für die ersten Nutzer ausgerollt. Einige Nutzer haben bereits die Meldung erhalten, dass es einen verbesserten Advanced Voice Mode gibt, der sich deutlich besser anhört und Themen wie Singen beherrscht.
ChatGPT über Rufnummer wählen
Open AI greift immer weiter an im AI Voice Agent Markt und veröffentlicht eine eigene GBT Nummer. Das heißt, du kannst Chat GBT jetzt über diese Nummer auch anrufen und hast dann per Telefon einen hilfreichen Assistenten. Das funktioniert allerdings momentan nur über eine US- oder kanadische Nummer.
Googles KingFall-Modell
Googles King Fall Modell wurde kurzzeitig im AI Voice Studio gesichtet. Es handelt sich um ein vertrauliches Modell, das aber bereits wieder zurückgezogen wurde. Nutzer, die Klingfall ausprobieren konnten, bemerkten, dass das Modell nicht nur Text, sondern auch Bilder und Dateien verarbeiten kann und damit zu den neuesten multimodalen Angeboten von Google zählt. Sein Kontextfenster ist mit 65.000 Tokens relativ klein. Es hat zwei Betriebsmodi: Denken und Nichtdenken.
Vorschau auf Gemini 2.5 Pro
Es gibt eine neue Version von Gemini 2.5 Pro, die auch schon wieder die alte Version schlägt in der LM Arena. Es gibt jetzt ein neues Flagschiff, ein neues führendes Modell von Gemini mit Gemini 2.5 Pro, auf welches du ab sofort auch Zugriff hast.
Play AIs Open-Source-Projekt Play Diffusion
Play AI veröffentlicht Open Source Play Diffusion, mit dem man Sprache editieren kann. Wenn du eine Audiospur hast und einzelne Wörter verändern möchtest in dieser Audiospur und die Stimme soll exakt gleich bleiben, dann kannst du das mit Play AI jetzt open source nutzen. Dies bietet gigantische Möglichkeiten, z.B. um beschädigte Audiodateien zu korrigieren oder Versprecher zu beheben. Auf der anderen Seite ist es heikel, wenn man jedes Audio editieren kann, weil man dann nicht mehr glauben kann, was echt ist.
Fish Audio's neues Sprachmodell
Fischaudio veröffentlicht auch ein neues Modell, Open Audio S1, das es ermöglicht, Emotionen im Audio Output zu kontrollieren. Dies ist ein klarer Trend, der wahrscheinlich von allen Audio-Anbietern ausgerollt wird.
Bland.ai's Stimmklonung
Bland AI veröffentlicht ein neues Feature, Voice Cloning, das in extrem erschreckend einfacher Natur ist. Du kannst ein 5 Sekunden Audio hochladen und auf Basis dessen eine perfekten Klon darstellen inklusiver Emotionen. Bland AI wirbt damit, dass man beispielsweise die Stimmen Aufzeichnung deiner Vertriebler nutzen könntest oder deiner Customer Service Mitarbeiter und auf Basis dessen einfach einen perfekten Klon herstellen kannst.
Mirage Studios KI-Influencer
Mirage Studio geht in eine ähnliche Richtung wie Hay Chen und bietet eine Lösung, um Schauspieler und Podcaster zu prompten. Es geht in Richtung KI-Influencer und KI-Avatare. Du kannst Mirage kostenlos testen, aber in der Praxis erstellt Mirage dir nur 4 Sekunden Sequenzen und du musst extrem viele Jumpcuts machen, um ein fertiges Video zu erstellen. Nach den Free Credits liegt Mirage bei 400$ im Monat.
Video-"Reimagine" mit LumaLabs
Von Lumlabs gibt's mal wieder ein Update im Bereich KI Video und zwar reimagine any Video. Du kannst jetzt jedes Video, welches du aufgenommen hast, in einem anderen Style ziemlich einfach umprompten.
Neue Features von Higgsfield AI
Hickfield AI macht mit VO3 absoluten Druck und zieht jetzt eben nach mit Hickfield Speech. Die Videoqualität ist seit jeher von Hixfield extrem stark und jetzt eben auch mit Sounds und mit Voice und Emotionen und das alles eben im cinematischen Style für den Hickfield bereits bekannt ist.
Gestensteuerung bei HeyGen
Haychen hat ein neues Feature, Gestenkontrolle. Du kannst mit einfachen Text Promps die Gesten deiner Avatare kontrollieren. Das war in der Vergangenheit noch nicht möglich, aber könnte jetzt auch geprompted sein, denn das geht jetzt eben ab sofort mit AG Version 4 eben, dass du Gest prompten kannst und deine AI Avatare dadurch dramatisch menschlicher und natürlicher machen kannst.
Videogenerierung mit Manus
Manus veröffentlicht eine neue Funktion im Bereich Videogenerierung. Manus ist ja so der universelle KI Chat Agent und der im Hintergrund eben diverse Arbeiten für dich ausfühen kann und mittlerweile jetzt eben auch Video.
Outro
Es wird darauf hingewiesen, dass auf kiberatung.de Demos veröffentlicht wurden, wie sich KI Telefonassistenten momentan anhören. Es wird wahrscheinlich bald ein Update geben müssen, spätestens mit der Version 3 von 11 Labs. Es wird empfohlen, sich diese Demos anzusehen, um sich ein eigenes Bild zu machen, wie solche Lösungen gerade aussehen und funktionieren. Am Donnerstag wurde ein Video veröffentlicht, wie du alles über KI lernst mit einer kompletten Mindmap, einer kompletten Übersicht über all die Dinge, die aktuell funktionieren.