Willkommen beim AI-Daily-Bereich! Hier finden Sie täglich einen Überblick über die Welt der künstlichen Intelligenz. Wir präsentieren Ihnen täglich die wichtigsten Themen aus dem Bereich KI, mit Fokus auf Entwickler, um Ihnen zu helfen, Technologietrends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

Neue KI-Produkte hier entdecken: https://top.aibase.com/

1. Der weltweit erste universelle Intelligenzagent Manus – Einladungscodes werden für 50.000 € gehandelt

Der weltweit erste universelle Intelligenzagent Manus hat die Technologiebranche in seinen Bann gezogen. Manus verfügt über die Fähigkeit zum eigenständigen Denken und zur Ausführung komplexer Aufgaben und kann vollständige Ergebnisse liefern, was seine hohe Universalität unterstreicht. Er kann nicht nur alltägliche Aufgaben bewältigen, sondern auch umfassende Marktforschungen durchführen, individuelle Reisepläne erstellen und vieles mehr. Auf dem Gebrauchtmarkt werden die Einladungscodes für Manus zu Preisen zwischen 999 € und 50.000 € gehandelt, wobei einige Verkäufer sogar Preisverhandlungen ablehnen – ein Zeichen für die Knappheit des Produkts.

image.png

【AiBase Zusammenfassung:】

🚀 Manus verfügt über die Fähigkeit zum eigenständigen Denken und zur Ausführung komplexer Aufgaben, was seine hohe Universalität und Leistungsfähigkeit unterstreicht.

📊 In verschiedenen Bereichen wie Marktforschung und Reiseplanung zeigen die Anwendungsbeispiele von Manus seinen praktischen Nutzen und seine Effizienz.

🏆 Manus hat im GAIA-Benchmark-Test einen neuen Rekord aufgestellt und seine technische Leistung übertrifft die Konkurrenz deutlich, was seine führende Position beweist.

Detaillierte Informationen: https://manus.im/

2. Alibaba veröffentlicht das neue Inferenz-Großsprachmodell QwQ-32B – Leistung vergleichbar mit DeepSeek-R1, geringerer Speicherbedarf

Das Qwen-Team von Alibaba hat das Open-Source-Großsprachmodell QwQ-32B vorgestellt, das durch verstärkendes Lernen seine Leistung bei der Lösung komplexer Probleme verbessern soll. Das Modell basiert auf 32 Milliarden Parametern und einer erweiterten Kontextlänge von 131.072 Tokens und kann in Benchmark-Tests in Mathematik und Programmierung mit Modellen mit mehr Parametern mithalten, bei gleichzeitig geringerem Speicherbedarf.

image.png

【AiBase Zusammenfassung:】

🚀 QwQ-32B verwendet verstärkendes Lernen, um die Fähigkeit zur Lösung komplexer Probleme zu verbessern.

💡 In Benchmark-Tests in Mathematik und Programmierung erreicht es eine vergleichbare Leistung wie Modelle mit mehr Parametern, bei gleichzeitig geringerem Speicherbedarf.

🧠 Es verfügt über eine erweiterte Kontextlänge und „agentic capabilities“ und die Möglichkeiten des verstärkenden Lernens werden weiter erforscht.

Detaillierte Informationen: https://qwenlm.github.io/blog/qwq-32b/

3. OpenAI kündigt die schrittweise Verfügbarkeit von GPT-4.5 für alle ChatGPT Plus-Nutzer an

OpenAI hat kürzlich angekündigt, dass das neueste KI-Modell GPT-4.5 schrittweise für ChatGPT Plus-Nutzer verfügbar gemacht wird. Obwohl das Modell eine deutliche Verbesserung der Konversationsfähigkeiten bietet, weist es bei komplexen Schlussfolgerungen immer noch Schwächen auf. Die Kosten belaufen sich auf 150 US-Dollar pro Million Tokens, was Bedenken hinsichtlich einer breiten Anwendung aufwirft.

image.png

【AiBase Zusammenfassung:】

💬 GPT-4.5 ist das neueste und größte KI-Modell von OpenAI und wird schrittweise für ChatGPT Plus-Nutzer verfügbar gemacht.

⚖️ Obwohl GPT-4.5 die Konversationsfähigkeiten deutlich verbessert, weist es bei komplexen Schlussfolgerungen immer noch Schwächen auf.

💰 Die Nutzung von GPT-4.5 kostet 150 US-Dollar pro Million Tokens, was Bedenken hinsichtlich einer breiten Anwendung aufwirft.

4. Doubao startet den „Tiefen Denk“-Modus: Visualisierung der KI-Logikkette, neuer Durchbruch bei Fragen und Suchen

ByteDance hat für seinen KI-Assistenten Doubao den „Tiefen Denk“-Modus eingeführt, der durch die Visualisierung der Logikkette das Vertrauen und die Transparenz des Nutzers in die KI erhöht. Diese Technologie basiert auf dem Doubao 1.5-Modell und kombiniert den technischen Durchbruch des Deep-Reasoning-Modells, um die Intelligenz und die Benutzerfreundlichkeit der KI zu verbessern. Dies deutet auf ein großes Potenzial in den Bereichen Fragen und Antworten, Suchen, Schreiben und Lesen hin.

image.png

【AiBase Zusammenfassung:】

🔍 Der „Tiefen Denk“-Modus verbessert die Benutzererfahrung durch die Darstellung der vollständigen Logikkette der KI.

🤖 Dieser Modus basiert auf dem Doubao 1.5-Modell und nutzt RL-Algorithmen und Engineering-Optimierungen, um die Intelligenz der KI zu verbessern.

📈 Die neue Funktion deutet auf ein großes Entwicklungspotenzial der KI in verschiedenen Bereichen hin, wobei die Benutzererfahrung deutlich verbessert wird.

5. Veröffentlichung von LTX-Video 0.9.5: Kommerzielle Lizenzierung unterstützt – Open-Source-KI-Videogenerierung erreicht neue Höhen

Die Veröffentlichung von LTX-Video 0.9.5 markiert einen bedeutenden Fortschritt in der Open-Source-KI-Videogenerierung. Es unterstützt nicht nur kommerzielle Lizenzen, die es Unternehmen und Entwicklern ermöglichen, das Modell in kommerziellen Projekten einzusetzen, sondern führt auch die Unterstützung von Keyframes ein, wodurch die Flexibilität und Qualität der Videogenerierung verbessert werden. Darüber hinaus wurden die Auflösung und die Generierungsgeschwindigkeit deutlich verbessert, um den Anforderungen komplexer Erzählungen gerecht zu werden.

image.png

【AiBase Zusammenfassung:】

🌟 Das wichtigste Highlight ist die Unterstützung kommerzieller Lizenzen, die die Anwendungsmöglichkeiten erweitert.

🎥 Die Einführung der Keyframe-Unterstützung verbessert die Flexibilität der Videogenerierung.

📈 Deutliche Verbesserung der Auflösung und der Generierungsgeschwindigkeit, um den Anforderungen komplexer Erzählungen gerecht zu werden.

6. Text-to-Speech-System Spark-TTS: Unterstützt Zero-Shot-Sprachklonierung und feinkörnige Steuerung

Spark-TTS ist ein fortschrittliches Text-to-Speech-System, das mit seiner Zero-Shot-Sprachklonierung und der feinkörnigen Sprachsteuerung die Aufmerksamkeit der KI-Community auf sich gezogen hat. Das auf Qwen 2.5 basierende System vereinfacht den Audiogenerierungsprozess, erhöht die Effizienz und unterstützt die mehrsprachige Generierung, insbesondere für die Erstellung von Hörbüchern. Die technische Architektur verwendet einen BiCodec-Single-Stream-Audiocodec, um eine natürliche und kontrollierbare Sprachqualität zu gewährleisten. Benutzer können die Spracheigenschaften nach Bedarf anpassen.

image.png

【AiBase Zusammenfassung:】

🎤 Zero-Shot-Sprachklonierung: Generierung von Sprecher-Stimmen ohne spezielle Trainingsdaten, geeignet für personalisierte Anwendungen.

⚙️ Feinkörnige Sprachsteuerung: Benutzer können Geschwindigkeit und Tonhöhe präzise anpassen, um verschiedene Anforderungen zu erfüllen.

🌍 Mehrsprachige Generierung: Unterstützung mehrerer Sprachen bei gleichbleibend hoher Natürlichkeit und Genauigkeit, Erweiterung der globalen Anwendbarkeit.

Detaillierte Informationen: https://github.com/SparkAudio/Spark-TTS

7. Google veröffentlicht die Vorschauversion von Whisk Animate: Verwandlung von Bildern in 8-Sekunden-Animationsclips

Google hat auf seiner experimentellen KI-Plattform Google Labs die Vorschauversion von Whisk Animate veröffentlicht, die es Nutzern ermöglicht, mit dem fortschrittlichen Veo2-Modell statische Whisk-Bilder in dynamische 8-Sekunden-Videoclips zu verwandeln. Diese neue Funktion hat schnell für Aufsehen in den sozialen Medien gesorgt, wobei die Nutzer positiv reagieren und das Potenzial für die Kreativbranche aufzeigen. Die Einführung von Whisk Animate macht die Umwandlung von statischen Designs in dynamische Inhalte einfacher und effizienter und festigt Googles Wettbewerbsvorteil im Bereich der generativen KI.

image.png

【AiBase Zusammenfassung:】

🎥 Whisk Animate nutzt das Veo2-Modell, um statische Bilder in 8-Sekunden-Videos umzuwandeln und zeigt die Flexibilität der Animationsgenerierung.

🌟 Die Nutzer reagieren positiv, einige frühe Tester bezeichnen es als „sehr beeindruckend“, was sein kreatives Potenzial zeigt.

🖼️ Whisk Animate bietet der Kreativbranche neue Werkzeuge und vereinfacht die Erstellung von kurzen Videos und die Gestaltung von Werbung.

8. Cohere veröffentlicht das neue multimodale KI-Modell Aya Vision in zwei Versionen (32B und 8B)

Das gemeinnützige Forschungslabor von Cohere hat Aya Vision vorgestellt, ein führendes multimodales KI-Modell, das verschiedene Sprach- und visuelle Aufgaben ausführen kann. Das Modell wird über WhatsApp kostenlos bereitgestellt, um den globalen Forschern den Zugang zu der Technologie zu erleichtern. Aya Vision gibt es in zwei Versionen, 32B und 8B, die die Leistung größerer Konkurrenzmodelle übertreffen. Darüber hinaus hat Cohere das neue Benchmark-Bewertungstool AyaVisionBench vorgestellt, um der aktuellen Bewertungskrise in der KI-Branche zu begegnen.

image.png

【AiBase Zusammenfassung:】

🌟 Aya Vision wird von Cohere als branchenführend bezeichnet und kann verschiedene Sprach- und visuelle Aufgaben ausführen.

💡 Aya Vision gibt es in zwei Versionen, 32B und 8B, die die Leistung größerer Konkurrenzmodelle übertreffen.

🔍 Cohere hat auch das neue Benchmark-Bewertungstool AyaVisionBench veröffentlicht, um die Probleme bei der Bewertung von KI-Modellen zu verbessern.

Detaillierte Informationen: https://cohere.com/blog/aya-vision

9. ByteDance sucht nach Anbietern für die Kennzeichnung von KI-Daten

ByteDance hat am 6. März eine Ankündigung veröffentlicht, in der es nach hochwertigen Anbietern für die Kennzeichnung von KI-Daten sucht, um den Anforderungen seines schnell wachsenden Geschäfts gerecht zu werden. Die Suche richtet sich hauptsächlich an Unternehmen mit umfangreichen Ressourcen in vertikalen Märkten, insbesondere in den Bereichen Medizin, Recht und Bildung. Die teilnehmenden Unternehmen müssen eigenständige juristische Personen sein, ein Grundkapital von mindestens 1 Million € aufweisen, einen guten Ruf haben und dürfen keine Konsortien sein. Diese strategische Ausrichtung zielt darauf ab, die Inhaltsqualität und die Datendienstleistungen zu verbessern und den Wettbewerb und Innovationen in der Branche voranzutreiben.

image.png

【AiBase Zusammenfassung:】

🌟 ByteDance sucht nach Anbietern für die Kennzeichnung von KI-Daten mit einem geforderten Grundkapital von mindestens 1 Million €.

📄 Die teilnehmenden Unternehmen müssen eigenständige juristische Personen sein, einen guten Ruf haben und dürfen keine Konsortien sein.

🚀 Die Suche zielt darauf ab, den schnell wachsenden Bedarf von ByteDance im Bereich der KI-Datenkennzeichnung zu decken und die Entwicklung der Branche voranzutreiben.

10. OpenAI präsentiert einen „Doktoranden-Level“-KI-Agenten – monatliche Kosten von bis zu 20.000 US-Dollar

OpenAI hat kürzlich einen „Doktoranden-Level“-KI-Agenten angekündigt, der die hohen Anforderungen der Finanz-, Gesundheits- und Fertigungsindustrie erfüllen soll. Der KI-Agent kostet monatlich bis zu 20.000 US-Dollar und bietet verschiedene Dienstleistungen an. Die Preisgestaltung richtet sich nach dem wirtschaftlichen Wert, den das Produkt für den Kunden schafft. Obwohl die hohen Kosten für einige Spott gesorgt haben, richtet sich OpenAI offensichtlich an große Unternehmen und nicht an Privatkunden.

image.png

【AiBase Zusammenfassung:】

💰 Die monatlichen Kosten des KI-Agenten liegen zwischen 2.000 und 20.000 US-Dollar und richten sich nach dem wirtschaftlichen Wert, den er für den Kunden schafft.

🏢 OpenAI richtet sich mit dem Angebot an große Unternehmen und ermöglicht die Abrechnung pro Mitarbeiter, um die Nutzungsschwelle zu senken.

✈️ Der KI-Agent soll Aufgaben mit minimaler menschlicher Interaktion automatisieren, z. B. das automatische Suchen von Flugdaten und die Zahlungsabwicklung.

11. Apple App Store wird bald KI-generierte Zusammenfassungen von App-Bewertungen anbieten – einfache Erfassung von Nutzerfeedback

Apple hat angekündigt, in der kommenden iOS 18.4-Version eine Funktion für KI-generierte Zusammenfassungen von App-Bewertungen einzuführen. Diese Funktion soll Nutzern eine kurze Zusammenfassung der App-Bewertungen bieten, um ihnen zu helfen, schnell die Highlights und wichtigen Informationen der App zu erfassen. Die Zusammenfassungen werden von einem großen Sprachmodell generiert und wöchentlich aktualisiert. Die Einführung beginnt zunächst im US-amerikanischen App Store.

image.png

【AiBase Zusammenfassung:】

🌟 Apple wird in iOS 18.4 KI-generierte Zusammenfassungen von App-Bewertungen einführen, um Nutzern zu helfen, schnell das Nutzerfeedback zu verstehen.