Willkommen bei der Rubrik „AI-Tagesbericht“! Hier finden Sie täglich einen Überblick über die Welt der Künstlichen Intelligenz. Wir präsentieren Ihnen täglich die wichtigsten Themen aus dem KI-Bereich, mit Fokus auf Entwickler, um Ihnen zu helfen, Technologietrends zu verstehen und innovative KI-Produktanwendungen kennenzulernen.

Neue KI-Produkte hier entdecken:https://top.aibase.com/

1. OpenAI veröffentlicht zwei multimodale Inferenzmodelle: o4-mini und die Vollversion von o3

OpenAI hat in einem technischen Livestream seine neuesten multimodalen Modelle o4-mini und die Vollversion von o3 vorgestellt. Diese beiden Modelle können gleichzeitig Text, Bilder und Audio verarbeiten und externe Tools für die Bearbeitung komplexer Aufgaben aufrufen. o4-mini zeigte in verschiedenen Tests hervorragende Leistungen, mit einer höheren Genauigkeit als o3 und einem Spitzenplatz in Programmierwettbewerben.

image.png

【AiBase Zusammenfassung:】

🛠️ o4-mini und o3 verfügen über multimodale Verarbeitungsfähigkeiten, können gleichzeitig Text, Bilder und Audio verarbeiten und rufen automatisch externe Tools auf.

📊 o4-mini erreichte bei den AIME2024- und 2025-Tests Genauigkeiten von 93,4 % bzw. 92,7 % und übertraf damit die Vollversion von o3.

💻 Im Programmierwettbewerb erreichte o4-mini 2700 Punkte und platzierte sich damit unter den Top 200 Programmierern weltweit, was seine beeindruckenden Programmierfähigkeiten unter Beweis stellt.

2. WeChats erster KI-Assistent „Yuanbao“ ist offiziell online und kann als WeChat-Freund hinzugefügt werden

Tencents „Yuanbao“ ist der erste KI-Assistent, der auf der WeChat-Plattform läuft. Benutzer können ihn direkt in WeChat suchen und als Freund hinzufügen, um ein realistischeres Chat-Erlebnis zu genießen. Yuanbao kann nicht nur WeChat-公众号-Artikel, Bilder und Dokumente analysieren, sondern auch intelligent interagieren und die weiterführenden Fragen der Benutzer beantworten. Dieser Assistent achtet auf die Privatsphäre der Benutzer und verfügt über eine automatische Kennzeichnungsfunktion für Ausweisfotos, unterstützt aber derzeit keine Sprach- oder Videoanrufe.

image.png

【AiBase Zusammenfassung:】

🌟 WeChats erster KI-Assistent „Yuanbao“ ist online, Benutzer können ihn direkt in WeChat suchen und hinzufügen.

📊 Yuanbao unterstützt die Analyse von公众号-Artikeln, Bildern und Dokumenten und bietet intelligente Interaktion.

🔒 Verfügt über Datenschutzfunktionen, unterstützt die automatische Kennzeichnung von Ausweisfotos.

3. ByteDance veröffentlicht Doubao 1.5 Deep Thinking Modell: Multimodales tiefes Denken, geringe Latenz

Auf der Vulkan Engine AI Innovations Roadshow in Hangzhou am 17. April stellte ByteDance das Doubao 1.5 Deep Thinking Modell vor und zeigte seine herausragenden Fähigkeiten in Mathematik, Programmierung, wissenschaftlichem Denken und kreativem Schreiben. Das Modell verwendet eine MoE-Architektur, verfügt über eine hervorragende Parameterkonfiguration und niedrige Inferenzkosten. In Kombination mit visueller Verständnistechnologie kann das Modell Fotos analysieren, Reisen und Projektmanagement unterstützen, und die Video-Suchfunktion wurde deutlich verbessert, wodurch die Benutzer den Zugriff auf Informationen vereinfachen können.

image.png

【AiBase Zusammenfassung:】

📈 Das Doubao 1.5 Modell zeigt hervorragende Leistungen in Mathematik, Programmierung usw., verwendet eine MoE-Architektur und verfügt über eine hervorragende Parameterkonfiguration.

🌍 Das neue Modell kombiniert visuelle Verständnistechnologie, kann Fotos analysieren, Reisen und Projektmanagement unterstützen und ist sehr leistungsstark.

🎥 Die Video-Suchfunktion wurde deutlich verbessert, Benutzer können schnell relevante Informationen in Videos abrufen, und die Nutzung steigt kontinuierlich.

4. Kimi veröffentlicht das Open-Source-Modell für den mathematischen Satzbeweis Kimina-Prover

Das Kimi-Team hat eine Vorschauversion von Kimina-Prover veröffentlicht und mehrere Modelle und Datensätze als Open Source zur Verfügung gestellt, die eine hervorragende Leistung im Bereich des formalen Satzbeweises zeigen. Kimina-Prover kombiniert massives Reinforcement Learning mit formalem Schließen und verbessert so die Inferenzfähigkeit und die Stichprobeneffizienz des Modells deutlich. Es erreicht eine Durchlaufrate von 80,7 % und übertrifft damit die bisherigen besten Ergebnisse.

image.png

【AiBase Zusammenfassung:】

🔍 Kimina-Prover erreichte im miniF2F-Benchmark eine Durchlaufrate von 80,7 % und übertraf damit die bisherigen besten Ergebnisse.

🚀 Das Modell kombiniert massives Reinforcement Learning mit formalem Schließen und verbessert so die Inferenzfähigkeit und die Stichprobeneffizienz deutlich.

📚 Kimina-Prover ist gut erklärbar, Benutzer können den Ableitungsprozess einsehen, was das Verständnis des Modellverhaltens erleichtert.

Detaillierter Link:https://arxiv.org/abs/2504.11354

5. OpenAI veröffentlicht Open-Source Superagent: Codex CLI, innerhalb von fünf Stunden über 5000 Sterne

OpenAI hat kürzlich Codex CLI veröffentlicht, ein leichtgewichtiges Tool für intelligente Code-Agenten. Nach der Veröffentlichung erlangte es schnell große Aufmerksamkeit und erreichte innerhalb von nur fünf Stunden über 5000 Sterne. Es wird erwartet, dass es noch am selben Tag die 10.000-Sterne-Marke überschreiten wird. Codex CLI verfügt über leistungsstarke Funktionen wie automatische Codegenerierung, Codeausführung, Refactoring und Tests und steigert die Arbeitseffizienz von Entwicklern erheblich.

image.png

【AiBase Zusammenfassung:】

🌟 Codex CLI erhielt innerhalb von nur 5 Stunden nach der Veröffentlichung 5000 Sterne und wird voraussichtlich heute die 10.000-Sterne-Marke überschreiten.

💻 Das Tool kann Code automatisch generieren, ausführen, refaktorieren und testen. Es ist leistungsstark und praktisch.

📈 OpenAI plant, weiterhin weitere intelligente Agenten-Produkte auf den Markt zu bringen und erforscht die Übernahme von KI-Programmierplattformen, um seine Wettbewerbsfähigkeit zu stärken.

Detaillierter Link:https://github.com/openai/codex?tab=readme-ov-file

6. Die Gemini Live-Funktion von Google wird vollständig für Android-Benutzer freigegeben, neue Erfahrungen für Android-Benutzer

Google hat kürzlich angekündigt, die Gemini Live-Funktion in seiner Gemini-App kostenlos für alle Android-Benutzer freizugeben. Bisher war diese Funktion nur für Pixel 9- und Samsung Galaxy S25-Benutzer verfügbar. Die Stärke von Gemini Live liegt in seiner Fähigkeit, den Inhalt von Kamera und Bildschirm in Echtzeit zu erkennen und den Benutzern sofortiges Feedback und Informationen zu liefern, wodurch das interaktive Erlebnis erheblich verbessert wird. Aufgrund des positiven Feedbacks der Benutzer hat Google beschlossen, diese Funktion zu erweitern und plant, sie in den nächsten Wochen vollständig einzuführen.

image.png

【AiBase Zusammenfassung:】

🌟 Die Gemini Live-Funktion ist jetzt kostenlos für alle Android-Benutzer verfügbar, zuvor war sie nur für Pixel 9- und Galaxy S25-Benutzer verfügbar.

📸 Diese Funktion kann den Inhalt von Kamera und Bildschirm in Echtzeit erkennen und liefert sofortige Informationen und Feedback, wodurch das interaktive Erlebnis der Benutzer verbessert wird.

🚀 Microsoft hat am selben Tag ein ähnliches KI-Tool, Copilot Vision, vorgestellt, was die schnellen Fortschritte in der Echtzeit-Informationserkennungstechnologie zeigt.

7. OpenAI plant die Übernahme des KI-Programmiertools Windsurf für 30 Milliarden US-Dollar

OpenAI führt Übernahmegespräche mit dem KI-Programmiertool Windsurf, der Deal beläuft sich auf etwa 30 Milliarden US-Dollar. Diese Übernahme wäre die größte Übernahme von OpenAI und markiert eine wichtige strategische Positionierung im Markt für KI-Entwicklertools. Windsurf ist ein beliebter KI-Programmierassistent, der Code generieren und interpretieren kann und bereits über 200 Millionen US-Dollar an Finanzmitteln erhalten hat.

【AiBase Zusammenfassung:】

💰 OpenAI führt Übernahmegespräche mit Windsurf über einen Deal im Wert von 30 Milliarden US-Dollar. Wenn er zustande kommt, wäre dies die größte Übernahme des Unternehmens.

🚀 Windsurf ist ein beliebter KI-Programmierassistent, der Code generieren und interpretieren kann und bereits über 200 Millionen US-Dollar an Finanzmitteln erhalten hat.

📈 Diese Übernahme würde die Programmierfähigkeiten von OpenAI stärken und ihm helfen, im wettbewerbsintensiven Markt für KI-Tools eine führende Position einzunehmen.

8. JetBrains bringt den Coding-Agenten Junie AI heraus, der eine neue Erfahrung beim Programmieren und Debuggen ermöglicht

JetBrains hat kürzlich angekündigt, dass sein neuer Coding-Agent Junie AI produktionsreif ist und Entwicklern helfen soll, effizienter zu programmieren und zu debuggen. Die Einführung von Junie AI markiert einen wichtigen Fortschritt von JetBrains im Bereich der KI-Tools. Darüber hinaus hat JetBrains seinen alten KI-Assistenten aktualisiert, der jetzt die neuesten KI-Modelle unterstützt und ein verbessertes Benutzererlebnis bietet. Um dem Wettbewerb auf dem Markt zu begegnen, plant JetBrains die Einführung eines kostenlosen Pakets, um mehr Entwickler für die Nutzung seiner Tools zu gewinnen.

【AiBase Zusammenfassung:】

🤖 Junie AI ist produktionsreif und konzentriert sich auf die Bearbeitung komplexer Aufgaben und das Debuggen.

📈 Der aktualisierte KI-Assistent unterstützt verschiedene neueste KI-Modelle und bietet eine neue Funktion zur Bearbeitung mehrerer Dateien.

🌐 JetBrains wird ein kostenloses Paket mit unbegrenzter Code-Vervollständigung anbieten, um die Bedürfnisse verschiedener Entwickler zu erfüllen.

Detaillierter Link:https://blog.jetbrains.com/blog/2025/04/16/jetbrains-ides-go-ai/

9. Der Open-Source-Humanoidroboter Reachy2 ist offiziell erhältlich

Reachy2 von Pollen Robotics ist ein Open-Source-Humanoidroboter, der für 70.000 US-Dollar erhältlich ist und bereits an mehreren Top-Universitäten und Forschungseinrichtungen eingesetzt wird. Sein modulares Design und seine leistungsstarken KI-gesteuerten Fähigkeiten machen ihn zu einem Vorreiter im Bereich der Humanoidroboter und eignen sich für verschiedene Forschungs- und Bildungsumgebungen. Die Open-Source-Natur von Reachy2 und die flexible Programmierunterstützung bieten Entwicklern einen großen Raum für Innovationen und fördern den Fortschritt der Robotertechnologie.

image.png

【AiBase Zusammenfassung:】

🤖 Hochgradig humanoides Design, mit 7-Freiheitsgrad-Armen, die Bewegungen natürlich und präzise ausführen können und für verschiedene Anwendungsszenarien geeignet sind.

🔄 Modulare und Open-Source-Architektur, unterstützt Python SDK-Programmierung, Entwickler können Funktionen nach Bedarf erweitern und technologische Innovationen vorantreiben.

🌍 Bereits in über 20 Ländern weltweit eingesetzt, Kunden sind namhafte Institutionen, was das breite Anwendungspotenzial in den Bereichen Medizin, Einzelhandel und Bildung zeigt.

10. Das Shanghai Artificial Intelligence Laboratory bringt das aktualisierte multimodale große Sprachmodell „Shusheng · Wanxiang 3.0“ heraus

Das vom Shanghai Artificial Intelligence Laboratory entwickelte „Shusheng · Wanxiang 3.0“ ist ein neues multimodales großes Sprachmodell mit verbesserten Fähigkeiten zur Verarbeitung von Text- und multimodalen Eingaben und zeigt hervorragende Leistungen. Das Modell weist sowohl in Bezug auf die Leistung als auch auf die Benutzerfreundlichkeit deutliche Verbesserungen auf, mit schnellerer Reaktionszeit, stärkerem Verständnis und der Fähigkeit, die vielfältigen Bedürfnisse der Benutzer zu erfüllen.

【AiBase Zusammenfassung:】

🚀 Das aktualisierte „Shusheng · Wanxiang 3.0“ weist deutliche Verbesserungen in der multimodalen Verarbeitungsfähigkeit auf und eignet sich für verschiedene Anwendungsszenarien.

💡 Das Modell weist sowohl in Bezug auf die Leistung als auch auf die Benutzerfreundlichkeit deutliche Verbesserungen auf, mit schnellerer Reaktionszeit und stärkerem Verständnis.

🌐 Open-Source-Initiativen bieten Entwicklern eine neue Plattform, fördern Innovationen und Anwendungen und treiben die Entwicklung der Branche voran.

11. Die Doubao Deep Thinking und die Text-zu-Bild-Modelle 3.0 werden über die API für Unternehmenskunden freigegeben

Doubao hat kürzlich die Doubao 1.5 Deep Thinking Modelle und das Doubao Text-zu-Bild-Modell 3.0 veröffentlicht und diese über die Vulkan Engine API für Entwickler und Unternehmenskunden zugänglich gemacht. Diese beiden Modelle zeigen herausragende Leistungen bei Inferenz- und Bildgenerierungsaufgaben und fördern die Anwendung und Entwicklung der KI-Technologie. Das Deep Thinking Modell zeichnet sich durch seine Leistung bei professionellen Inferenzaufgaben aus, während das Text-zu-Bild-Modell eine deutliche Verbesserung der Bildgenerierungsqualität aufweist.

【AiBase Zusammenfassung:】

🧠 Das Doubao 1.5 Deep Thinking Modell zeigt hervorragende Leistungen bei professionellen Inferenzaufgaben und erreicht fast das Niveau der globalen Top-Spieler.

🎨 Das Doubao Text-zu-Bild-Modell 3.0 ermöglicht die Generierung von hochauflösenden Bildern, verbessert die Erstellungseffizienz und verfügt über kommerzielle Designfähigkeiten.

🚀 Die offenen APIs der beiden Modelle bieten Unternehmenskunden effizientere und universellere Inferenz- und Bildgenerierungsfunktionen und fördern die Entwicklung der KI-Technologie.

Detaillierter Link:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5