Falls Sie es noch nicht getan haben ein Zeuge Bei der gestrigen OpenAI-Veranstaltung habe ich dringend empfohlen, genau das zu tun. Die Schlagzeile lautete, dass das neueste GPT-4o nahtlos mit jeder Kombination aus Text, Audio und Video funktioniert.
Dazu gehört die Möglichkeit, einer GPT-4o-App die Bildschirmaufzeichnung, die Sie für eine andere App aufzeichnen, „zu zeigen“ – und diese Fähigkeit hat das Unternehmen mit einer beeindruckenden iPad-KI-Guru-Demo demonstriert …
GPT-4o
OpenAI sagte, dass das „o“ für „omni“ steht.
GPT-4o („o“ für „omni“) ist ein Schritt hin zu einer natürlicheren Mensch-Computer-Interaktion – es akzeptiert jede Kombination aus Text, Audio und Bild als Eingabe und generiert jede Kombination aus Text, Audio und Bild als Ausgabe.
Es kann in nur 232 Millisekunden auf Spracheingaben reagieren, mit einem Durchschnitt von 320 Millisekunden, was der menschlichen Reaktionszeit (öffnet sich in einem neuen Fenster) in einem Gespräch ähnelt. […] GPT-4o versteht Bild und Ton besonders besser als aktuelle Modelle.
Sogar der Audioaspekt ist eine große Sache. Bisher konnte ChatGPT Spracheingaben akzeptieren, wandelte diese jedoch vor der Arbeit damit in Text um. Im Gegensatz dazu versteht GPT-4o tatsächlich Sprache und überspringt daher die Konvertierungsphase vollständig.
Wie wir gestern festgestellt haben, erhalten kostenlose Benutzer auch viele Funktionen, die bisher nur zahlenden Abonnenten vorbehalten waren.
KI-iPad-Lehrerdemo
Eine der von OpenAI demonstrierten Fähigkeiten ist die Fähigkeit von GPT-4o, zu sehen, was Sie auf dem iPad-Bildschirm tun (im Split-Screen-Modus).
Das Beispiel zeigt eine KI, die einen Schüler unterrichtet, der ein Mathematikproblem hat. Man hört, dass GPT-4o das Problem zunächst verstanden hat und es sofort lösen wollte. Das neue Formular kann jedoch unterbrochen werden. In diesem Fall wird er gebeten, dem Schüler bei der Lösung selbst zu helfen.
Eine weitere Fähigkeit, die hier zum Vorschein kommt, besteht darin, dass das Modell behauptet, Emotionen in der Sprache zu erkennen und auch Emotionen selbst ausdrücken zu können. Für meinen Geschmack war das in der Beta etwas übertrieben, und das spiegelt sich auch hier wider – die KI ist vielleicht etwas herablassend. Aber das ist alles einstellbar.
Tatsächlich kann jeder Student auf der Welt einen Privatlehrer mit dieser Fähigkeit haben.
Wie viel davon wird Apple integrieren?
Wir wissen, dass KI ein Hauptschwerpunkt von iOS 18 ist und dass derzeit ein Deal abgeschlossen wird, um OpenAI-Funktionen auf Apple-Geräte zu bringen. Während es damals als ChatGPT-spezifisch beschrieben wurde, scheint es heute sehr wahrscheinlich, dass es sich bei dem eigentlichen Angebot um den Zugang zu GPT-4o handelt.
Wir wissen aber auch, dass Apple an eigenen KI-Modellen arbeitet und seine eigenen Rechenzentren mit eigenen Chips betreibt. Apple hat es zum Beispiel entwickelt König Eine Möglichkeit, Siri die App-Bildschirme verstehen zu lassen.
Wir wissen also nicht genau, welche GPT-4o-Funktionen das Unternehmen auf seine Geräte bringen wird, aber diese Funktion scheint für Apple so perfekt zu sein, dass ich davon ausgehen muss, dass sie enthalten sein wird. Hier wird wirklich Technologie eingesetzt, um Menschen zu stärken.
Bild: OpenAI. Benjamin Mayo hat zu diesem Bericht beigetragen.
FTC: Wir nutzen automatische Affiliate-Links, um Einnahmen zu erzielen. mehr.
„Web-Fan. Neigt zu Apathieanfällen. Bierfanatiker. Möchtegern-Denker.“