KI-Tagesbericht: DeepSeek R1 Open Source übertrifft o1!; Kimi Multimodal Thinking Model k1.5 vorgestellt; Qingying 2.0 startet mit Zhishu Qingyan

Willkommen beim AI-Daily-Bereich! Hier finden Sie täglich Ihre Orientierungshilfe durch die Welt der Künstlichen Intelligenz. Wir präsentieren Ihnen täglich die wichtigsten Themen aus dem KI-Bereich, mit Fokus auf Entwickler, um Ihnen zu helfen, Technologietrends zu verstehen und innovative KI-Produktanwendungen kennenzulernen.

Neue KI-Produkte hier entdecken: https://top.aibase.com/

1. Durchbruch bei chinesischen großen Sprachmodellen! DeepSeek R1 Open Source, Leistung gleicht OpenAI, ein neues Zeitalter der KI-Gleichberechtigung beginnt

DeepSeek hat kürzlich sein neuestes großes Sprachmodell R1 veröffentlicht und als Open Source zur Verfügung gestellt, was einen bedeutenden Durchbruch für die chinesische KI-Technologie darstellt. Das Modell ist in seiner Leistung mit der offiziellen Version o1 von OpenAI vergleichbar, insbesondere bei wichtigen Aufgaben wie Mathematik, Code und natürlichsprachlichem Schließen.

【AiBase Zusammenfassung:】
🌟 DeepSeek R1 verwendet im Nachtrainingsphase die Technik des verstärkenden Lernens, um die Inferenzfähigkeit deutlich zu verbessern.
📊 Das 660B-Parameter-Modell DeepSeek-R1 und DeepSeek-R1-Zero wurden als Open Source veröffentlicht, zusammen mit 6 kleineren Modellen, um das Open-Source-Ökosystem zu bereichern.
💰 Die API-Preise sind wettbewerbsfähiger. Für jeden Millionen Eingabe-Tokens kostet der Cache-Treffer nur 1 Yuan, um die kommerzielle Nutzung durch Benutzer zu fördern.
Detaillierte Informationen: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

2. Moon's Dark Side veröffentlicht neue SOTA-Modellgeneration k1.5: Multimodale Inferenzfähigkeit wird weiter verbessert

Das von Moon's Dark Side entwickelte multimodale Denkmodell k1.5 markiert einen bedeutenden Durchbruch im Bereich des multimodalen und allgemeinen Schließens. Das Modell verfügt über eine hervorragende multimodale Verarbeitungsfähigkeit und kann gleichzeitig Informationen wie Text, Bilder und Audio verarbeiten, wodurch das Verständnis und die Bewältigung komplexer Aufgaben verbessert werden. Die leistungsstarke allgemeine Inferenzfähigkeit von k1.5 macht es in verschiedenen Anwendungsszenarien wie Programmierung und der Lösung mathematischer Probleme hervorragend.

微信截图_20250121082016.png

【AiBase Zusammenfassung:】
🌟 Das k1.5-Modell verfügt über eine hervorragende multimodale Inferenzfähigkeit und kann gleichzeitig Text-, Bild- und Audioinformationen verarbeiten.
🤖 Die leistungsstarke allgemeine Inferenzfähigkeit macht k1.5 für verschiedene Aufgaben wie Programmierung und Mathematik geeignet und ist äußerst flexibel.
📱 Eine Vorschauversion des k1.5-Modells ist bereits auf Kimi.com und in der Kimi Smart Assistant App verfügbar, damit Benutzer die neuen Funktionen testen können.

3. Kostenlose Testversion! Zhispu präsentiert das KI-Video-Produkt Qingying 2.0, das in Zhispu Qingyan vollständig eingeführt wurde

Die Beijing Zhispu Huazhang Technology Co., Ltd. hat das KI-Video-Produkt Qingying 2.0 vorgestellt, das nach einer umfassenden Aktualisierung die Modellfähigkeiten und die Qualität der Videogenerierung deutlich verbessert hat. Die neue Version kann natürliche und flüssige Bewegungen und wunderschöne Bilder erzeugen. Benutzer können mit einfachen Anweisungen komplexe Szenen erstellen. Gleichzeitig hat Qingying 2.0 auch in Bezug auf den künstlerischen Stil Fortschritte gemacht und unterstützt die Generierung von Videos in verschiedenen Stilen.

微信截图_20250121103843.png

【AiBase Zusammenfassung:】
🚀 Die Fähigkeiten des Basismodells von Qingying 2.0 wurden um 38 % verbessert, wodurch natürliche und flüssige Videoinhalte generiert werden.
🎨 Die neue Version unterstützt die Generierung von Videos in verschiedenen künstlerischen Stilen, wodurch die Ästhetik der Bilder verbessert wird.
💡 Benutzer können mit einfachen Eingabeaufforderungen komplexe Szenen erstellen und Kreativität und Stabilität demonstrieren.
Detaillierte Informationen: https://chatglm.cn/video?lang=zh

4. Doubao App führt neuen Sprachmodus ein und übertrifft GPT-4o bei Gesang und Rollenspiel

Das neueste "End-to-End"-Sprach-Großmodell der Doubao App wurde in der Echtzeit-Sprachkommunikationsfunktion aktualisiert, was einen bedeutenden Durchbruch im Bereich der Sprachinteraktion darstellt. Das neue Modell integriert die Fähigkeiten der Spracherkennung, des Sprachverständnisses und der Sprachgenerierung und verfügt über eine menschenähnliche Ausdrucks- und Gefühlsausgabe, wodurch das Intelligenzlevel des Dialogs verbessert wird. Der neue Persönlichkeitsmodus erhöht den Spaß am interaktiven Austausch und erweitert die Anwendungsszenarien von Doubao in Bereichen wie emotionaler Begleitung und psychologischer Beratung.

【AiBase Zusammenfassung:】
🎶 Das neue "End-to-End"-Sprach-Großmodell integriert Spracherkennung, -verständnis und -generierung und verbessert die Flüssigkeit des Dialogs.
🌟 Die neu hinzugefügten Modi "Seelen-Sänger" und "Vielseitiger Star" ermöglichen es Doubao, zu singen und Rollenspiele zu spielen und seine einzigartige Persönlichkeit zu zeigen.
🤖 Die neuen Persönlichkeitsmodi "Gekränktes kleines Paket" und "Lob-Meister" steigern den interaktiven Spaß und erweitern die Anwendungsszenarien von KI.

5. OpenAI steht kurz vor der Einführung des KI-Tools „Operator“, das Computer steuern kann

OpenAI entwickelt ein KI-Tool namens „Operator“, das voraussichtlich im Januar 2025 veröffentlicht wird. Dieses Tool kann persönliche Computer selbstständig steuern und verschiedene Aufgaben ausführen, darunter das Schreiben von Code und die Buchung von Reisen. Obwohl es in einigen Sicherheitsbewertungen gut abgeschnitten hat, ist seine Erfolgsrate bei der Ausführung von Aufgaben geringer als die von Menschen, und Experten äußern Bedenken hinsichtlich potenzieller Sicherheitsrisiken. Marktanalysen gehen davon aus, dass der Markt für KI-Agenten in den nächsten Jahren schnell wachsen wird.

【AiBase Zusammenfassung:】
🔍 Das OpenAI-Tool „Operator“ wird in der Lage sein, Computer selbstständig zu steuern und verschiedene Aufgaben auszuführen.
🛠️ Obwohl „Operator“ bei einigen Aufgaben nicht so gut abschneidet wie Menschen, ist seine Erfolgsrate relativ gering.
⚠️ Experten äußern Bedenken hinsichtlich potenzieller Sicherheitsrisiken von „Operator“, obwohl es in Sicherheitsbewertungen gut abgeschnitten hat.

6. Unterstützung für chinesische Schriftarten! Die Funktion „AI-Poster“ von Meitu WHEE steht kurz vor dem Start

Meitu hat kürzlich angekündigt, die Funktion „AI-Poster“ für die WHEE-Anwendung zu veröffentlichen, um den Prozess der Postererstellung mithilfe von KI-Technologie zu vereinfachen. Benutzer können einfach einen Satz eingeben, um Poster in verschiedenen Stilen zu generieren, insbesondere mit Unterstützung für chinesische Schriftarten, um individuelle Bedürfnisse zu erfüllen. Darüber hinaus bietet diese Funktion leistungsstarke benutzerdefinierte Layoutfunktionen, die verschiedene wichtige Szenarien abdecken und Benutzern helfen, effizient zu gestalten.

【AiBase Zusammenfassung:】
🎨 Benutzer können durch einfache Eingabe Poster in verschiedenen Stilen generieren, wobei chinesische Schriftarten unterstützt werden.
🛠️ Bietet leistungsstarke benutzerdefinierte Layoutfunktionen für verschiedene Szenarien wie Film und E-Commerce.
✨ Die Funktion „Freistellen von Materialien“ ist bereits online und unterstützt die Generierung von benutzerdefinierten PNG-Materialien in verschiedenen Stilen.

7. Monatlich aktive Benutzer der Baidu Wenku KI-Funktionen übersteigen 90 Millionen, über 40 Millionen zahlende Benutzer

Bei der kürzlich stattgefundenen Baidu AI Open Day Veranstaltung teilte Baidu Vizepräsident Wang Ying die bemerkenswerten Fortschritte von Baidu Wenku bei der Anwendung von KI-Technologien mit. Die monatlich aktiven Benutzer der Plattform haben 90 Millionen überschritten, und die Zahl der zahlenden Benutzer hat 40 Millionen überschritten, was die starke Anziehungskraft der KI-Funktionen zeigt. Im vergangenen Jahr wurden über 100 neue KI-Funktionen hinzugefügt, darunter innovative Tools wie intelligente PPT und die gesamte Netzwerksuche, die die Dokumentenverarbeitung und das Lernerlebnis der Benutzer erheblich verbessert haben.

【AiBase Zusammenfassung:】
📈 Monatlich aktive Benutzer haben 90 Millionen überschritten, die täglich aktiven Benutzer sind im Vergleich zum Vorjahr um 230 % gestiegen, was die starke Anziehungskraft der Plattform zeigt.
🛠️ Über 100 neue KI-Funktionen wurden hinzugefügt, darunter intelligente PPT und die gesamte Netzwerksuche, um die vielfältigen Bedürfnisse der Benutzer zu erfüllen und die Effizienz der Dokumentenverarbeitung zu verbessern.
🎨 Die Funktion „Freie Leinwand“ startet die öffentliche Beta-Phase, unterstützt die parallele Verarbeitung mehrerer Aufgaben, vereinfacht den Erstellungsprozess und verbessert das Benutzererlebnis.

8. Der weltweit erste Chatbot ELIZA wird wiederbelebt, basierend auf 60 Jahre altem Code

Kürzlich hat ein Forschungsteam aus den USA und Großbritannien erfolgreich den Code des ersten elektronischen Chatbots ELIZA wiederbelebt. Dieser Code wurde ursprünglich in den 1960er Jahren von Professor Joseph Weizenbaum vom MIT geschrieben. Nachdem die Forscher den ursprünglichen Code gefunden hatten, passten sie ihn technisch an, so dass er wieder funktionierte, obwohl es einige Probleme gibt, z. B. dass das Programm abstürzt, wenn Zahlen eingegeben werden.

【AiBase Zusammenfassung:】
🗨️ ELIZA war der erste elektronische Chatbot, dessen Code in den 1960er Jahren von Joseph Weizenbaum geschrieben wurde.
💻 Das Forschungsteam hat diesen Code erfolgreich wiederbelebt und mehrere technische Probleme gelöst, so dass er ordnungsgemäß funktioniert.
📜 ELIZA hat eine wichtige Bedeutung in der Geschichte der Computer und gilt als Wegbereiter für Chatbots.

9. Chinesisches Forschungsteam veröffentlicht VideoChat-Flash: Geschwindigkeit der Langvideoverarbeitung um das 100-fache gesteigert

Ein chinesisches Forschungsteam hat das VideoChat-Flash-System vorgestellt, das mithilfe der hierarchischen Videomartierungs-Komprimierungstechnologie HiCo die Effizienz der Langvideoverarbeitung deutlich verbessert. Diese Technologie reduziert den Rechenaufwand durch die Reduzierung redundanter Informationen und verbessert gleichzeitig die Verständnisfähigkeit des Modells. Die Ergebnisse zeigen, dass das System in mehreren Benchmark-Tests hervorragende Leistungen erbracht hat und zu den fortschrittlichsten Modellen im Bereich der Langvideoverarbeitung gehört.

【AiBase Zusammenfassung:】
🌟 Die Forscher haben die hierarchische Videomartierungs-Komprimierungstechnologie HiCo entwickelt, die den Rechenaufwand bei der Verarbeitung von Langvideos deutlich reduziert.
📹 Das System „VideoChat-Flash“ verwendet eine mehrstufige Lernmethode, die das Training mit kurzen und langen Videos kombiniert, um das Verständnis des Modells zu verbessern.
🔍 Die Ergebnisse zeigen, dass diese Methode in mehreren Benchmark-Tests neue Leistungsstandards erreicht hat und zu den fortschrittlichsten Modellen im Bereich der Langvideoverarbeitung gehört.
Detaillierte Informationen: https://arxiv.org/abs/2501.00574

10. Abschied vom traditionellen Webcrawler! Firecrawl Extract benötigt keinen Code und ermöglicht das einfache Extrahieren von Daten von jeder Website

Die Einführung von Firecrawl Extract markiert das allmähliche Ende der Ära der traditionellen Webcrawler. Dank seiner Verarbeitung natürlicher Sprache und seiner leistungsstarken Funktionen müssen Benutzer keine Webcrawler-Skripte mehr schreiben, sondern können sich auf die Datenanalyse und -anwendung konzentrieren und so die Arbeitseffizienz deutlich steigern. Dieses innovative Tool macht das Extrahieren von Daten intelligenter und einfacher und fördert die Weiterentwicklung der Datenakquisition.

【AiBase Zusammenfassung:】
🛠️ Firecrawl Extract ermöglicht es Benutzern mithilfe der Verarbeitung natürlicher Sprache, Daten von Websites nur durch Textbeschreibungen zu extrahieren und den mühsamen Programmierprozess zu vermeiden.
🌍 Das Tool unterstützt das Extrahieren von Daten von mehrsprachigen und internationalen Websites und kann dynamische Seiteninhalte verarbeiten, die mit JavaScript gerendert werden, um die Genauigkeit der Daten sicherzustellen.
🔗 Bietet eine API-Schnittstelle für die einfache Integration mit anderen Anwendungen, unterstützt die Verarbeitung großer Datenmengen und erfüllt die Anforderungen der Big-Data-Analyse.
Detaillierte Informationen: https://github.com/mendableai/firecrawl

11. Über 25 % der 2024 ausgelieferten Laptops verfügen über generative KI-Funktionen

Ein aktueller Marktforschungsbericht von Counterpoint zeigt, dass der globale PC-Markt im Jahr 2024 ein deutliches Wachstum verzeichnen wird. Es wird ein Absatz von 253 Millionen Einheiten erwartet, was einem Anstieg von 2,6 % gegenüber 2023 entspricht. Dies wird hauptsächlich durch das Ende der Windows 10-Unterstützung und die Einführung von Laptops der neuen KI-Generation vorangetrieben. Für das vierte Quartal 2024 wird ein Umsatzwachstum von 3,7 % im Vergleich zum Vorjahr erwartet. Die steigende Nachfrage nach Upgrades von Unternehmens-IT-Systemen und KI-Laptops werden das Benutzererlebnis verändern und den Markt vorantreiben.

【AiBase Zusammenfassung:】
🌍 Der weltweite PC-Absatz wird 2024 voraussichtlich 253 Millionen Einheiten erreichen, ein Plus von 2,6 % im Vergleich zum Vorjahr.
💻 Über 25 % der neuen Laptops werden über generative KI-Funktionen verfügen und den Marktaufschwung vorantreiben.
📈 Für 2025 wird erwartet, dass KI-Laptops fast 60 % des Marktes ausmachen werden, wobei ein Wachstum bei Geschäftsaufträgen erwartet wird.

12. Tencent Hunyuan 3D KI-Engine online: einfache Generierung hochwertiger 3D-Modelle

KI-Tagesbericht

KI-Tagesbericht: DeepSeek R1 Open Source übertrifft o1!; Kimi Multimodal Thinking Model k1.5 vorgestellt; Qingying 2.0 startet mit Zhishu Qingyan

站长之家

Dieser Artikel stammt aus dem AIbase-Tagesbericht