KI-Tagesbericht: Vorstellung des leistungsstärksten einheimischen Sora-Großmodells Vidu; Kimi Chat Mobile-Upgrade; Tongyi Qianwen veröffentlicht erstes Milliardenparameter-Modell; Apple plant Zusammenarbeit mit OpenAI

Willkommen bei der Rubrik „AI-Tagesbericht“! Hier finden Sie Ihren täglichen Leitfaden zur Erkundung der Welt der Künstlichen Intelligenz. Täglich präsentieren wir Ihnen die wichtigsten Themen aus dem KI-Bereich, mit Fokus auf Entwickler, damit Sie Technologietrends verstehen und innovative KI-Produktanwendungen kennenlernen.

Neue KI-Produkte hier entdecken: https://top.aibase.com/

1. Tsinghua-Team veröffentlicht Videogroßmodell Vidu – Generiert 16 Sekunden lange 1080P-Videos

Die Tsinghua-Universität und Shengshu Technology haben auf dem Future Artificial Intelligence Pioneer Forum des Zhongguancun-Forums das erste chinesische Videogroßmodell mit langer Laufzeit, hoher Konsistenz und hoher Dynamik, Vidu, vorgestellt. Dies markiert einen wichtigen Fortschritt Chinas im Bereich der Videogenerierungstechnologie. Das Modell verwendet die innovative U-ViT-Architektur und kann mit einem Klick hochauflösende Videoinhalte generieren. Es zeichnet sich durch hohe räumlich-zeitliche Konsistenz und eine reiche Fantasie aus.

【AiBase-Zusammenfassung:】

🎥 Vidu ist das erste chinesische Videogroßmodell mit langer Laufzeit, hoher Konsistenz und hoher Dynamik.

🌟 Es kombiniert Diffusion- und Transformer-Technologien und kann mit einem Klick hochauflösende Videos mit einer Länge von bis zu 16 Sekunden in 1080P generieren.

🚀 Es simuliert nicht nur die reale physikalische Welt, sondern verfügt auch über eine reiche Fantasie und unterstützt die Generierung mehrerer Kameraperspektiven.

Produktzugang: https://top.aibase.com/tool/vidu

2. Tongyi Qianwen-Team veröffentlicht Open-Source-Modell Qwen1.5-110B mit 100 Milliarden Parametern

Das Tongyi Qianwen-Team hat sein erstes Open-Source-Modell mit 100 Milliarden Parametern, Qwen1.5-110B, veröffentlicht. Es zeigt in Bezug auf grundlegende Fähigkeiten und Chat-Bewertungen hervorragende Leistungen und verdeutlicht die Bedeutung der Skalierung von Modellgrößen für die Leistungssteigerung. Das Modell verwendet eine Transformer-Decoder-Architektur, unterstützt mehrere Sprachen und verfügt über einen effizienten gruppierten Query-Aufmerksamkeitsmechanismus. Qwen1.5-110B ist das größte Modell der Tongyi Qianwen-Serie mit über 100 Milliarden Parametern und schneidet im Vergleich zu SOTA-Modellen hervorragend ab. Das Team wird weiterhin die Vorteile der Skalierung von Modellgrößen und der Erweiterung des Umfangs der Vortrainingsdaten untersuchen.

【AiBase-Zusammenfassung:】

🌟 Qwen1.5-110B ist das erste Modell mit über 100 Milliarden Parametern und zeigt in Chat-Bewertungen bessere Ergebnisse, was das Potenzial größerer Modelle demonstriert.

🔍 Die Leistungssteigerung des 110B-Modells resultiert hauptsächlich aus der vergrößerten Modellgröße, wobei die Trainingsmethode nicht wesentlich verändert wurde. Dies zeigt die Bedeutung der Skalierung von Modellgrößen für die Leistungssteigerung.

💡 Qwen1.5-110B verwendet eine Transformer-Decoder-Architektur, unterstützt mehrere Sprachen und verfügt über einen effizienten gruppierten Query-Aufmerksamkeitsmechanismus. Dies zeigt, dass im Bereich der Skalierung der Modellgröße noch Verbesserungspotenzial besteht.

Modell-Link: https://top.aibase.com/tool/qwen1-5-110b

3. Umfangreiche Neugestaltung der Benutzeroberfläche von Kimi Chat für mobile Endgeräte

Die mobile Anwendung Kimi Chat hat ein wichtiges Update erhalten. Version 1.2.1 beinhaltet eine umfassende Neugestaltung der Benutzeroberfläche mit einem hellen „Mondlicht“-Modus für ein komfortableres und intuitiveres Benutzererlebnis. Das Update umfasst Verbesserungen der Benutzeroberfläche, Leistungsoptimierungen, Speicherverwaltung, Akkulaufzeit, Funktionserweiterungen, verbesserte Sicherheit, verbesserte Kompatibilität, Fehlerbehebungen, lokale Unterstützung und Barrierefreiheit. Benutzer können die neuen Funktionen nutzen, indem sie einfach auf die neueste Version 1.2.1 aktualisieren.

【AiBase-Zusammenfassung:】

🎨 Benutzeroberflächenverbesserungen: Die Benutzeroberfläche wurde neu gestaltet, ist ansprechender und benutzerfreundlicher und bietet eine intuitivere Bedienung.

⚡ Leistungsoptimierungen: Verbesserte Reaktionsgeschwindigkeit und Laufruhe, weniger Ruckeln und Verzögerungen.

🔒 Verbesserte Sicherheit: Erhöhte Anwendungssicherheit zum Schutz der Benutzerdaten und der Privatsphäre.

Detaillierte Informationen: https://top.aibase.com/tool/kimi-chat

4. Domo AI erweitert um 4 neue Stile (Lego, US-Comics etc.) – 15 Punkte für Neukunden

DomoAI hat kürzlich vier neue Stile hinzugefügt: Lego, US-Comics, Buntstifte und Pixel-Art. Zur Feier von über 10.000 Followern auf Twitter erhalten Neukunden 15 Punkte zum kostenlosen Testen. Zuvor hatte DomoAI die Funktion zur Chroma-Key-Videobearbeitung eingeführt, mit der Benutzer Personen aus dem Hintergrund ausschneiden und in einen neuen Hintergrund einfügen können. Benutzer können auch die Hintergrundfarbe einfach anpassen und Videos mit tanzenden Figuren erstellen.

【AiBase-Zusammenfassung:】

🎨 DomoAI hat vier neue Stile hinzugefügt: Lego, US-Comics, Buntstifte und Pixel-Art.

🔑 Neukunden erhalten 15 Punkte zum kostenlosen Testen.

💃 Benutzer können mit dem Befehl /move statische Fotos in dynamische Videos verwandeln.

Detaillierte Informationen: https://top.aibase.com/tool/domoai

5. Apple plant Zusammenarbeit mit OpenAI zur Verbesserung der KI-Funktionen des iPhone

Apple sucht nach einer Zusammenarbeit mit OpenAI, um die KI-Funktionen des iPhones zu verbessern. Nach dem Ausscheiden des ehemaligen Leiters für maschinelles Lernen kommt die KI-Entwicklung bei Apple nur schleppend voran. Apple könnte vor der weltweiten Entwicklerkonferenz neue generative KI-Produkte vorstellen.

【AiBase-Zusammenfassung:】

📌 Apple sucht nach einer Zusammenarbeit mit OpenAI zur Verbesserung der KI-Funktionen des iPhones.

📌 Nach dem Ausscheiden des ehemaligen Leiters für maschinelles Lernen kommt die KI-Entwicklung bei Apple nur schleppend voran.

📌 Apple könnte vor der weltweiten Entwicklerkonferenz neue generative KI-Produkte vorstellen.

6. Google präsentiert KI-gestützte Funktion zum Üben von Englisch-Gesprächen

Google hat kürzlich eine KI-gestützte Funktion zum Üben von englischen Gesprächen per Sprache vorgestellt. Benutzer können über ihr Smartphone mit einem Chatbot auf Englisch üben. Derzeit ist die Funktion nur in einigen Ländern verfügbar, Google plant aber eine Ausweitung auf weitere Länder. Der Artikel beschreibt die Übungs- und Feedbackfunktionen der Sprachlernwerkzeuge von Google und deren Entwicklung im Bereich des KI-gestützten Sprachunterrichts.

【AiBase-Zusammenfassung:】

🎙️ Google präsentiert eine KI-gestützte Funktion zum Üben von englischen Gesprächen per Sprache mit einem Chatbot über das Smartphone.

🌐 Derzeit ist die Funktion nur in einigen Ländern verfügbar, eine Ausweitung ist geplant.

💬 Es fehlt zwar die Kursstruktur von Anwendungen wie Duolingo, bietet aber Übungs- und Feedbackfunktionen für Gespräche.

7. Yuanxiang veröffentlicht Open-Source-Multimodal-Großmodell XVERSE-V

XVERSE-V, das erste Multimodal-Großmodell von Yuanxiang, erzielt in mehreren renommierten Bewertungen hervorragende Ergebnisse und zeigt umfassende Fähigkeiten. Das Modell kombiniert Strategien zur Integration von globalen und lokalen Informationen, wodurch die Genauigkeit und Vollständigkeit der Bilderkennung und -analyse verbessert werden. Neben der Bilderkennung zeichnet sich XVERSE-V auch in praktischen Anwendungen wie der Interpretation von Infografiken, der Bearbeitung von Szenarien für Sehbehinderte, der Textgenerierung und der Lösung von Bildungsaufgaben aus.

【AiBase-Zusammenfassung:】

🌟 XVERSE-V ist das erste Multimodal-Großmodell und unterstützt Bilder mit beliebigem Seitenverhältnis.

🔍 Das Modell zeigt in seinen umfassenden Fähigkeiten hervorragende Leistungen.

💡 XVERSE-V verwendet Strategien zur Integration von globalen und lokalen Informationen, wodurch die Genauigkeit und Vollständigkeit der Bilderkennung und -analyse verbessert werden.

Detaillierte Informationen: https://huggingface.co/xverse/XVERSE-V-13BModelScope

8. Perplexica: Open-Source-Suchmaschine mit KI-basierter Frage-Antwort-Funktion

Perplexica ist eine Open-Source-Suchmaschine mit KI-Unterstützung, die verschiedene Suchmodi bietet und eine präzisere und intelligentere Sucherfahrung für Benutzer anstrebt. Sie verfügt über fortschrittliche Machine-Learning-Algorithmen, die den Datenschutz gewährleisten und aktuelle Suchergebnisse liefern. Perplexica zielt darauf ab, eine umfassende und effiziente Suchlösung zu sein.

【AiBase-Zusammenfassung:】

🔍 Bietet verschiedene Suchmodi und passt die Suchalgorithmen an die Benutzeranforderungen an, um relevantere Suchergebnisse zu erzielen.

🔍 Verwendet fortschrittliche Machine-Learning-Algorithmen zur Verfeinerung der Suchergebnisse, einschließlich Ähnlichkeitssuche und Embedding-Techniken.

🔍 Gewährleistet Datenschutz, verwendet SearxNG als Aktualitätssicherung und vermeidet den Aufwand für tägliche Datenaktualisierungen.

Detaillierte Informationen: https://top.aibase.com/tool/perplexica

9. Meta präsentiert LayerSkip: Beschleunigung der Inferenz bei großen Sprachmodellen

Metas neueste Technologie, LayerSkip, zielt darauf ab, die Inferenzgeschwindigkeit großer Sprachmodelle zu verbessern. Durch die Optimierung des Inferenzprozesses werden die Rechenressourcen reduziert, während die Modellleistung erhalten bleibt. Dies ist besonders wichtig für Anwendungen mit hohen Echtzeitanforderungen und spiegelt Metas kontinuierliche Investitionen und Innovationen im Bereich der Effizienz von KI-Modellen wider. Die Zukunftsaussichten von LayerSkip werden die Bereitstellung und Nutzung großer Sprachmodelle verbessern, insbesondere in Bereichen, in denen große Mengen an Sprachdaten schnell verarbeitet werden müssen.

【AiBase-Zusammenfassung:】

🚀 LayerSkip erhöht die Inferenzgeschwindigkeit bei der CNN/DM-Dokumentenzusammenfassung um das 2,16-fache und verbessert so die Effizienz der Dokumentenverarbeitung deutlich.

⚡ LayerSkip erreicht eine 1,82-fache Geschwindigkeitsverbesserung bei Programmieraufgaben und kann die Leistung von Programmierhilfsmitteln optimieren.

💡 LayerSkip verbessert die Inferenzgeschwindigkeit bei der TOPv2-semantischen Analyse um das 2,0-fache, was wichtige Auswirkungen auf Aufgaben der semantischen Analyse und der Verarbeitung natürlicher Sprache hat.

Artikel: https://huggingface.co/papers/2404.16710

10. Studie zeigt: 1/3 der Übersetzer und 1/4 der Illustratoren haben durch KI ihren Job verloren

Die rasante Entwicklung der KI-Technologie hat tiefgreifende Auswirkungen auf die Kreativwirtschaft. Eine Studie der britischen Schriftstellervereinigung zeigt die Auswirkungen von KI auf Berufe wie Schriftsteller, Übersetzer und Illustratoren und löst Besorgnis und Forderungen in der Branche aus.

【AiBase-Zusammenfassung:】

🤖 Etwa ein Fünftel der Kreativen hat generative KI in seiner Arbeit eingesetzt. KI-Technologien dringen bereits in alle Bereiche der Kreativität ein.

💼 Ein Viertel der Illustratoren und ein Drittel der Übersetzer haben durch generative KI ihren Job verloren. Ihre Arbeitsplätze sind direkt bedroht.

💰 Die meisten Roman- und Sachbuchautoren befürchten negative Auswirkungen der KI-Technologie auf die zukünftigen Einnahmen aus kreativer Arbeit und fordern dringend Urheberrechtsschutz und staatliche Regulierung.

11. WebLlama: Intelligenter Webbrowser-Agent basierend auf Llama-3-8B

WebLlama ist ein intelligenter Agent, der auf dem Llama-3-8B-Modell basiert und über Dialog mit Benutzern interagiert, um Aufgaben im Zusammenhang mit dem Webbrowser auszuführen. Er kann kontinuierliche Dialoge verarbeiten, Benutzeranweisungen verstehen und automatisch Aufgaben wie Online-Suche, Navigation und Informationsabruf erledigen. WebLlama zeigt starke Fähigkeiten in der Dialogverarbeitung und der Webinteraktion, erhöht die Effizienz beim Informationszugriff und reduziert den manuellen Aufwand. Er zeigt in professionellen Benchmark-Tests hervorragende Leistungen, ist fortschrittlich und praktisch und dürfte in Zukunft eine größere Rolle bei der automatisierten Webnavigation und Informationsbeschaffung spielen.

【AiBase-Zusammenfassung:】

🗣️ Dialogverständnis: Kann Benutzeranweisungen verstehen und mit Benutzern interagieren.

🌐 Automatisches Webbrowsing: Führt Suchen und Navigation aus und hilft Benutzern, Informationen zu erhalten.

🤖 Erledigt komplexe Aufgaben: Kann praktische Aufgaben wie Hotelbuchungen, Einkäufe oder Informationsrecherchen durchführen.

Detaillierte Informationen: https://top.aibase.com/tool/webllama

12. Mutable AI veröffentlicht Auto Wiki v2: Konvertiert Code in Wikipedia-ähnliche Artikel

Auto Wiki v2 von Mutable AI ist ein revolutionäres Werkzeug, das Code automatisch in Wikipedia-ähnliche Artikel umwandelt und so das Problem der Code-Dokumentation löst. Diese innovative Lösung bietet klar beschriebene Code-Dokumentationen, ermöglicht ein visuelles Verständnis des Codes und steigert die Entwicklungseffizienz.

KI-Nachrichten

KI-Tagesübersicht

KI-Zeitleiste

Al hardware

Neueste Fälle

Bildersammlung

Videosammlung

Audiosammlung

Inhaltssammlung

Neueste Tutorials

KI-Produkt-Ranking

KI-Traffic-Wachstumsranking

KI-Traffic-Rückgangsranking

KI-Wochenranking

Vereinigte Staaten

China

Indien

Brasilien

Bildgenerierung

Persönlicher Assistent

Charaktergenerierung

Videogenerierung

KI-Projektranking

KI-Projektwachstumsranking

KI-Entwickler-Ranking

KI-Organisationsranking

Deepseek

TTS

LLM

ChatGPT

Überblick

KI-Tagesbericht: Vorstellung des leistungsstärksten einheimischen Sora-Großmodells Vidu; Kimi Chat Mobile-Upgrade; Tongyi Qianwen veröffentlicht erstes Milliardenparameter-Modell; Apple plant Zusammenarbeit mit OpenAI

站长之家

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

Shanghai fördert Innovation und Modernisierung der Automobilindustrie und stärkt den Einsatz innovativer Technologien wie Hochleistungs-Chips und KI-gestützte Fahrmodules

Razer präsentiert die ergonomische Pro Click V2-Mausserie und ermöglicht neue AI-Funktionen

Manus erhält Berichten zufolge 75 Millionen US-Dollar Finanzierung und erreicht eine Bewertung von fast 500 Millionen US-Dollar

DeepMind veröffentlicht Lyria2, ein Musikgenerierungsmodell, das die KI-Musikproduktion revolutioniert

Weltpremiere: Der erste von KI produzierte Spielfilm „Zheng Yi Sao, die Königin der Meere“ – ein Zusammenspiel von Technologie und Kunst

3DV-TON: Revolutionäre Video-Anprobe mit Diffusionsmodellen für 3D-Texturkonsistenz

Ant Group startet Plan A-Projekt: Globale Rekrutierung von Top-KI-Talenten

Googles CEO Pichai enthüllt: Über 30% des Codes wird von KI generiert

Googles Gemini-Chatbot kommt auf Smartwatches und Autos und ersetzt Google Assistant

WiseNut präsentiert Eureka AI Agent Plattform zur Steigerung der Effizienz bei technischen Innovationen