Willkommen bei der Rubrik „AI-Tagesbericht“! Hier finden Sie täglich Ihren Wegweiser durch die Welt der Künstlichen Intelligenz. Wir präsentieren Ihnen täglich die wichtigsten Neuigkeiten aus dem KI-Bereich, mit Fokus auf Entwickler, damit Sie technologische Trends erkennen und innovative KI-Produktanwendungen verstehen.
Neue KI-Produkte hier entdecken: https://top.aibase.com/
1. OpenAI präsentiert neue Bildgenerierungs-API für ChatGPT: Entwickler können KI-Zeichenfunktionen einfach integrieren
OpenAI hat kürzlich die Bildgenerierungs-API gpt-image-1 vorgestellt. Entwickler können diese fortschrittliche Technologie problemlos in verschiedene Anwendungen integrieren. Diese Funktion hat seit ihrer Einführung eine große Anzahl von Nutzern angezogen und über 700 Millionen Bilder generiert. gpt-image-1 unterstützt nicht nur verschiedene Bildstile, sondern enthält auch integrierte Sicherheitsvorkehrungen, um sicherzustellen, dass die generierten Inhalte den Unternehmensrichtlinien entsprechen. Darüber hinaus ermöglicht die günstige Preisgestaltung Entwicklern die kostengünstige Generierung hochwertiger Bilder – ein wichtiger Fortschritt im Bereich der KI-Bildgenerierung.
【AiBase Zusammenfassung:】
🌟 OpenAI präsentiert die Bildgenerierungs-API gpt-image-1, die Entwickler einfach in Anwendungen integrieren können.
🖼️ Nutzer haben in der ersten Woche nach der Einführung über 700 Millionen Bilder generiert und Millionen neuer Nutzer gewonnen.
💰 Die Bildgenerierung mit gpt-image-1 ist kostengünstig, mit nur 2 Cent pro Bild.
2. Google Gemini knackt 350 Millionen monatlich aktive Nutzer, liegt aber immer noch hinter ChatGPT zurück
Googles KI-Chatbot Gemini verzeichnete im vergangenen Jahr ein deutliches Nutzerwachstum und erreichte 350 Millionen monatlich aktive Nutzer. Die täglich aktiven Nutzer stiegen von 9 Millionen auf 35 Millionen. Im Vergleich zu ChatGPT, dem Marktführer mit 600 Millionen monatlich aktiven Nutzern, besteht jedoch immer noch eine Lücke. Die Zusammenarbeit mit Samsung und die Produktintegration haben das schnelle Wachstum von Gemini vorangetrieben und zeigen die steigende Nachfrage nach KI-Chat-Tools. Wie Google die Nutzererfahrung und die Funktionen von Gemini weiter verbessern kann, wird entscheidend dafür sein, ob der Abstand zu den Wettbewerbern verringert werden kann.
【AiBase Zusammenfassung:】
🌟 Gemini hat 350 Millionen monatlich aktive Nutzer und 35 Millionen täglich aktive Nutzer erreicht.
🤖 ChatGPT hat 600 Millionen monatlich aktive Nutzer und liegt damit immer noch vor Gemini.
📈 Google hat durch die Zusammenarbeit mit Samsung und die Produktintegration das schnelle Wachstum von Gemini vorangetrieben.
3. OpenAI prognostiziert Umsatzanstieg auf 125 Milliarden US-Dollar bis 2029
Eine kürzlich veröffentlichte Umsatzprognose von OpenAI zeigt, dass der Gesamtumsatz bis 2029 voraussichtlich 125 Milliarden US-Dollar erreichen wird. Dabei werden das KI-Agenturgeschäft und die Vertriebseinnahmen die Haupttreiber sein. 2023 erzielte OpenAI einen Umsatz von 3,7 Milliarden US-Dollar und über 500 Millionen wöchentlich aktive Nutzer, was ein deutliches Wachstum zeigt. Das Unternehmen rechnet damit, in den nächsten vier Jahren einen positiven Cashflow zu erreichen und die Bruttomarge auf fast 70 % zu steigern. Diese Prognosen haben die Aufmerksamkeit von Investoren auf sich gezogen und dürften das schnelle Wachstum von OpenAI fördern.
【AiBase Zusammenfassung:】
🌟 Der Umsatz von OpenAI wird bis 2029 voraussichtlich 125 Milliarden US-Dollar erreichen, wobei das KI-Agenturgeschäft der wichtigste Wachstumstreiber ist.
📈 Der Umsatz 2023 betrug 3,7 Milliarden US-Dollar, mit über 500 Millionen wöchentlich aktiven Nutzern, was ein deutliches Wachstum zeigt.
💰 Es wird erwartet, dass in den nächsten vier Jahren ein positiver Cashflow erzielt wird und die Bruttomarge auf fast 70 % steigt.
4. Ostris veröffentlicht Flex.2-Preview, ein 8B-Parameter-Diffusionsmodell, das den ComfyUI-Workflow revolutioniert
Das Ostris-Team hat Flex.2-Preview vorgestellt, ein text-zu-Bild-Diffusionsmodell mit 800 Millionen Parametern, das den ComfyUI-Workflow optimieren soll. Das Modell zeichnet sich durch seine hervorragende Steuerbarkeit bei der Bildgenerierung aus und unterstützt verschiedene Funktionen wie Bildreparatur und Tiefenkontrolle. Es wurde auf Hugging Face Open Source veröffentlicht und hat schnell die Aufmerksamkeit der KI-Kunst-Community auf sich gezogen. Das leichte Design und die effiziente Inferenzfähigkeit von Flex.2-Preview machen es zu einem idealen Werkzeug für kreative Designs und kommerzielle Anwendungen und zeigen die unbegrenzten Möglichkeiten der zukünftigen KI-Kunstgestaltung.
【AiBase Zusammenfassung:】
🎨 Universelle Steuerungsunterstützung: Integrierte Linien-, Posen- und Tiefenkontrolle für präzise Steuerung der Ergebnisse und für verschiedene kreative Anforderungen geeignet.
🖼️ Bildreparaturfunktion: Unterstützt erweiterte Bildreparatur, Benutzer können Inhalte über Masken ersetzen oder reparieren, um die kreative Flexibilität zu verbessern.
⚙️ ComfyUI-Integration: Das Modell ist für ComfyUI optimiert und bietet eine Knoten-Workflow-Unterstützung, um die Konfiguration komplexer Aufgaben zu vereinfachen.
Detaillierter Link: https://huggingface.co/ostris/Flex.2-preview
5. Nvidia präsentiert multimodales LLM Describe Anything: Generiert detaillierte Beschreibungen für bestimmte Bereiche
Das von NVIDIA AI entwickelte Modell Describe Anything 3B (DAM-3B) hat im Bereich des multimodalen Lernens große Aufmerksamkeit erregt. Das Modell kann detaillierte Beschreibungen für von Benutzern angegebene Bild- oder Videobereiche generieren und geht über die Grenzen traditioneller Bildbeschriftungen hinaus. Durch Open-Source-Code und -Datensätze bietet DAM-3B Entwicklern umfangreiche Ressourcen und fördert die Forschung und Anwendung multimodaler KI, insbesondere in den Bereichen Bildung, Medizin und Content Creation, mit großen Zukunftsaussichten.
【AiBase Zusammenfassung:】
🖌️ DAM-3B verfügt über eine bereichsspezifische Beschreibungsfähigkeit und kann detaillierte Beschreibungen für von Benutzern angegebene Bereiche generieren, wodurch die Genauigkeit und der Informationsgehalt der Beschreibungen verbessert werden.
🔓 NVIDIA hat den Code, die Modellgewichte und die Datensätze von DAM-3B als Open Source veröffentlicht, um die Transparenz und die Zusammenarbeit in der Community der multimodalen KI-Forschung zu fördern.
🌐 Das Modell zeigt ein breites Anwendungsspektrum in Bereichen wie Content Creation, intelligenter Interaktion und barrierefreier Technologie und fördert den Fortschritt in Richtung sozialer Inklusion.
Detaillierter Link: https://github.com/NVlabs/describe-anything
6. Nano AI veröffentlicht MCP-Universal-Toolbox zur Vereinfachung der Integration und des Aufrufs von KI-Tools
Die von Nano AI entwickelte MCP-Universal-Toolbox zielt darauf ab, die Komplexität der Konfiguration des Model Context Protocol zu vereinfachen und eine umfassende Lösung zu bieten. Die Toolbox ist mit über 100 MCP-Diensten und 18 gängigen API-Schlüsseln vorkonfiguriert und unterstützt verschiedene Funktionen wie die Generierung von Bildern, Audio und Videos. Ihre Veröffentlichung hat in der KI-Entwickler-Community große Aufmerksamkeit erregt, wobei das Feedback der Community positiv ist und die Effizienz und Benutzerfreundlichkeit die Arbeitseffizienz der Entwickler deutlich verbessert.
【AiBase Zusammenfassung:】
🔧 Über 100 vorkonfigurierte MCP-Dienste, die Entwickler ohne manuelle Konfiguration direkt aufrufen können, senken die Einstiegshürde.
🔑 18 integrierte gängige API-Schlüssel, wodurch Benutzer den mühsamen Schritt des selbstständigen Abrufs von Schlüsseln sparen und die anfängliche Konfiguration vereinfachen können.
🌐 Unterstützt die multimodale Generierung, um Bilder, Audio und Videos über natürliche Sprachbefehle zu generieren und die Kreativität zu verbessern.
Detaillierter Link: https://bot.n.cn/download?src=AIBotCode
7. Tencent Cloud Code Buddy präsentiert Craft Software Development Agent
Tencent Cloud hat am 24. April das aktualisierte Code Buddy vorgestellt und den Craft Software Development Agent eingeführt. Dieses Tool hebt die KI-Programmierung von einfacher Code-Vervollständigung auf die Projektlieferung an und erhöht die Entwicklungseffizienz deutlich. Entwickler müssen nur ihre Anforderungen in natürlicher Sprache eingeben, und Craft generiert automatisch den vollständigen Projektcode und unterstützt gängige IDEs. Craft unterstützt auch das MCP-Protokoll, um die nahtlose Integration von Code in Tests, Builds und Deployments zu ermöglichen, ist mit dem Tencent-Ökosystem kompatibel und unterstützt Teams bei der effizienten Zusammenarbeit.
【AiBase Zusammenfassung:】
🚀 Der Craft-Agent kann die Anforderungen von Entwicklern in natürlicher Sprache in vollständigen Projektcode umwandeln und den Entwicklungsprozess erheblich vereinfachen.
🔗 Unterstützt das MCP-Protokoll, sodass der von KI generierte Code nahtlos in Test- und Bereitstellungsphasen integriert werden kann und die Kohärenz der Entwicklung verbessert.
🧩 CodeBuddy wird intern bei Tencent weit verbreitet eingesetzt, 85 % der Entwickler verwenden dieses Tool, was die Gesamteffizienz der Entwicklung deutlich verbessert.
Detaillierter Link: https://cnb.cool
8. Kunlun Wanwei veröffentlicht Open-Source-Version Skywork-R1V2.0
Kunlun Wanwei hat am 24. April sein multimodales Inferenzmodell Skywork-R1V2.0 veröffentlicht, das die Fähigkeiten des visuellen und textuellen Schlussfolgerns deutlich verbessert, insbesondere bei anspruchsvollen naturwissenschaftlichen Aufgaben im Abitur und allgemeinen Aufgaben. Das Modell hat in mehreren wichtigen Benchmark-Tests neue Open-Source-SOTA-Rekorde aufgestellt und zeigt Fähigkeiten, die mit geschlossenen kommerziellen Modellen vergleichbar sind. Die Open-Source-Veröffentlichung von R1V2.0 zeigt nicht nur die technologische Stärke von Kunlun Wanwei im multimodalen Bereich, sondern bietet auch Entwicklern und Forschern weltweit ein leistungsstarkes Werkzeug und fördert den Aufbau eines multimodalen Ökosystems.
【AiBase Zusammenfassung:】
🔍 R1V2.0 zeichnet sich durch seine hervorragende Leistung beim Schlussfolgern in naturwissenschaftlichen Aufgaben auf Chinesisch aus und ist ein kostenloser KI-Lösungsassistent, der mehrere Open-Source-SOTA-Rekorde gebrochen hat.
⚙️ Verwendet das multimodale Belohnungsmodell Skywork-VL Reward und einen hybriden Präferenzoptimierungsmechanismus, um die Anpassungsfähigkeit des Modells an verschiedene Aufgaben und Bereiche zu verbessern.
🌍 Kunlun Wanwei setzt sich für Open Source und Innovation ein. R1V2.0 als Open-Source-Modell bietet eine neue Basis für die Entwicklung von AGI. Zukünftig werden weiterhin führende große Modelle und Datensätze veröffentlicht.
Detaillierter Link: https://github.com/SkyworkAI/Skywork-R1V
9. Zhipu kündigt Preissenkungen für mehrere große Sprachmodelle an, darunter 90 % für GLM-4-Plus
Die Zhipu BigModel Open Platform hat am 24. April angekündigt, die Preise für mehrere große Sprachmodelle deutlich zu senken und in die „Milliarden-Ära“ einzutreten, sodass Unternehmen zu geringen Kosten auf fortschrittliche KI-Technologien zugreifen können. Die Anpassung umfasst mehrere Produkte wie GLM-4-FlashX, GLM-Z1-Serie und GLM-4-Plus, wobei die Preissenkung bei GLM-4-Plus 90 % beträgt. Diese Maßnahme zielt darauf ab, die Nutzungsschwelle zu senken, die Anforderungen verschiedener Branchen wie Finanzen, Internet und Bildung zu erfüllen und die breite Anwendung von großen Sprachmodellen auf dem Markt zu fördern.
【AiBase Zusammenfassung:】
🚀 Der Preis für GLM-4-FlashX beträgt nur 10 Yuan pro 100 Millionen Tokens, die Inferenzgeschwindigkeit ist vergleichbar mit GPT-4 und die Leistung ist hervorragend.
💡 Die Inferenzgeschwindigkeit von GLM-Z1-AirX ist 8-mal so hoch wie die von DeepSeek-R1, das Preis-Leistungs-Verhältnis ist hoch und der Preis von GLM-Z1-Air beträgt nur 1/30 von DeepSeek-R1.
📉 Der Preis von GLM-4-Plus wurde auf 5 Yuan pro Million Tokens gesenkt, branchenführend und erfüllt die Anforderungen verschiedener Branchenszenarien.
10. JSON Visuals für ChatGPT veröffentlicht, um unbegrenzte kreative Möglichkeiten im Bereich der Bildgestaltung zu eröffnen
Die Veröffentlichung von JSON Visuals für ChatGPT eröffnet neue kreative Dimensionen für die Bildgenerierung. Benutzer können mit über 50 ästhetischen Codes und Randomisierern ganz einfach personalisierte visuelle Inhalte generieren. Das Tool verbessert nicht nur die Flexibilität der Generierung, sondern unterstützt auch die Ausgabe in hoher Auflösung und eignet sich für verschiedene Bereiche wie digitale Kunst, Markenmarketing und Spieldesign. Die Community reagiert positiv und erwartet zukünftige Funktionsoptimierungen und -erweiterungen.
【AiBase Zusammenfassung:】
✨ 50+ ästhetische Codes unterstützen die Generierung verschiedener Stile und erfüllen kreative Anforderungen.