Willkommen beim AI-Tagesbericht! Hier finden Sie täglich Informationen über die Welt der künstlichen Intelligenz. Wir präsentieren Ihnen täglich aktuelle Themen aus dem Bereich KI, mit Fokus auf Entwickler, um Ihnen zu helfen, Technologietrends zu verstehen und innovative KI-Produktanwendungen kennenzulernen.

Neue KI-Produkte hier entdecken: https://top.aibase.com/

1. Microsoft präsentiert das Design-Wunderwerk Microsoft Designer

Als Designanwendung mit integrierter KI-Technologie macht Microsoft Designer das Design einfacher und effizienter. Benutzer können auf dieses leistungsstarke Tool von jedem Gerät aus zugreifen, es ist nahtlos in Microsoft 365 integriert und bietet Funktionen wie intelligente Objekterkennung, innovative Tools und die Umgestaltung von Bildstilen.

【AiBase Zusammenfassung:】

🚀 Nahtlose Integration in Microsoft 365 Anwendungen für einfaches Erstellen und Bearbeiten von Bildern und Designs.

🔍 Intelligente Objekterkennung zum einfachen Entfernen unerwünschter Objekte oder zum Erstellen von Unschärfe-Effekten im Hintergrund.

🎨 Innovative Tools umfassen Vorlagen, die Erstellung personalisierter Grußkarten und Einladungen sowie Funktionen zur Umgestaltung von Bildstilen und zum Ersetzen von Hintergründen.

Detaillierte Informationen: https://top.aibase.com/tool/microsoft-designer-sticker-creator

2. ElevenLabs veröffentlicht Turbo2.5-Modell: 3-fache Geschwindigkeitssteigerung, Unterstützung von Chinesisch und 32 weiteren Sprachen

In der Welt der künstlichen Intelligenz durchbricht das von ElevenLabs entwickelte Turbo2.5-Modell erneut Sprachgrenzen. Das Modell zeichnet sich nicht nur durch seine Leistung und die mehrsprachige Unterstützung aus, sondern auch durch eine dreifache Geschwindigkeitssteigerung und eine Reduzierung der Latenz auf 300 Millisekunden, was eine stärkere Unterstützung für dynamische Interaktionen bietet. Die Benutzerfreundlichkeit wird durch eine große Auswahl an Sprachen und einfache Konvertierungsfunktionen gewährleistet, während gleichzeitig die Datensicherheit und -konformität sichergestellt werden.

【AiBase Zusammenfassung:】

🚀 Das Turbo2.5-Modell unterstützt 32 Sprachen, bietet eine dreifache Geschwindigkeitssteigerung und eine Latenz von nur 300 Millisekunden für eine verbesserte dynamische Interaktion.

🌐 Erstmalig wird die Text-zu-Sprache-Umwandlung für Vietnamesisch, Ungarisch und Norwegisch unterstützt, wodurch die Sprachbibliothek erweitert und die Geschwindigkeit der englischen Text-zu-Sprache-Umwandlung verbessert wird.

🔊 Vielfältige Anwendungsszenarien, darunter Conversational AI, Bildung, Unterhaltung und Content-Erstellung, mit realistischer Sprachunterstützung, wie in Beispielen von Praktika.ai, Kindroid und Aug X Labs zu sehen.

Detaillierte Informationen: https://elevenlabs.io/api

3. Apple AI veröffentlicht das Open-Source-Sprachmodell DCLM mit 700 Millionen Parametern

Apple hat in Zusammenarbeit mit mehreren Institutionen das Open-Source-Sprachmodell DCLM mit 700 Millionen Parametern veröffentlicht. Das Modell wurde mit einer riesigen Anzahl von Datentokens trainiert, um das Verständnis und die Generierung von Sprache zu verbessern. DCLM bietet standardisierte Tools zur Datenoptimierung, die es Forschern ermöglichen, effiziente Experimente durchzuführen. Das neue Modell hat in wichtigen Tests bemerkenswerte Fortschritte erzielt und gleichzeitig den Bedarf an Rechenressourcen reduziert.

【AiBase Zusammenfassung:】

🔑 Apple AI und mehrere Institutionen haben gemeinsam DCLM entwickelt, ein leistungsstarkes Open-Source-Sprachmodell.

🔑 DCLM bietet standardisierte Tools zur Datenoptimierung für effiziente Experimente von Forschern.

🔑 Das neue Modell hat in wichtigen Tests bemerkenswerte Fortschritte erzielt und gleichzeitig den Bedarf an Rechenressourcen reduziert.

Detaillierte Informationen: https://huggingface.co/collections/mlfoundations/dclm-669938432ef5162d0d0bc14b

4. Xiaomis großes Sprachmodell Xiao Ai erhält neue Funktionen: KI-Dokumentenbeantwortung und KI-Bildbearbeitung

Xiaomi hat bekannt gegeben, dass Xiao Ai die Funktionen „KI-Bildbearbeitung“ erhalten hat. Benutzer können nun Hintergrundwechsel, Stiländerungen, Personenentfernung, intelligentes Bildvergrößern und Bildbeantwortung durchführen. Darüber hinaus wurde die Funktion „KI-Dokumentenbeantwortung“ zu „Großem Sprachmodell Xiao Ai“ hinzugefügt, um eine intelligentere Dokumentenverarbeitung zu ermöglichen. Benutzer müssen auf Version V6.126 aktualisieren, um die neuen Funktionen nutzen zu können.

image.png

【AiBase Zusammenfassung:】

✨ Xiao Ai bietet jetzt die Funktion „KI-Bildbearbeitung“ mit Hintergrundwechsel, Stiländerungen, Personenentfernung, intelligentem Bildvergrößern und Bildbeantwortung.

🔍 Benutzer müssen auf Version V6.126 aktualisieren, um die neuen Funktionen nutzen zu können.

📄 „Großes Sprachmodell Xiao Ai“ bietet jetzt die Funktion „KI-Dokumentenbeantwortung“ für eine intelligentere Dokumentenverarbeitung.

5. Neue KI-Videoreparaturtechnologie von Meitu: 10-fache Geschwindigkeitssteigerung, auch bei Überbelichtung

Eine der wichtigsten Technologien in der Videoproduktion und -bearbeitung ist die „Entflackerungs“-Technologie. BlazeBVD, ein neuer Entflackeralgorithmus, entfernt nicht nur schnell Flackern aus Videos, sondern bewahrt auch die Integrität des Inhalts und die Farbtreue. Seine Einführung revolutioniert die Videopostproduktion.

image.png

【AiBase Zusammenfassung:】

🔍 BlazeBVD ist eine automatisierte Videoflackerungsentfernungs-Technologie, die die zeitliche Konsistenz von Videos deutlich verbessert.

⚙️ BlazeBVD verwendet eine skalen-zeitliche Ausgleichsmethode zur Verarbeitung des Histogramms von Videobildern, um Flackern und lokale Belichtungsschwankungen zu erfassen.

🚀 BlazeBVD zeigt hervorragende Ergebnisse in den Bereichen globale und lokale Entflackerungsmodule, adaptive zeitliche Konsistenz usw. und ist bis zu 10-mal schneller als bestehende Technologien.

Detaillierte Informationen: https://arxiv.org/html/2403.06243v1

6. Baidus Shen Dou: Die Anwendung großer Sprachmodelle geht in die Wachstumsphase

Auf der China Unicom Partnerkonferenz 2024 hielt Shen Dou, Executive Vice President der Baidu Group und President der Baidu Intelligent Cloud Business Group, eine Rede über die verstärkte Nutzung von künstlicher Intelligenz und die Beschleunigung der Entwicklung neuer, qualitativ hochwertiger Produktivkräfte. Shen Dou betonte, dass künstliche Intelligenz eine Schlüsseltechnologie für Innovationen ist und große Sprachmodelle die Speerspitze der künstlichen Intelligenz darstellen. Er zeigte das exponentielle Wachstum der Aufrufzahlen großer Sprachmodelle. Durch die Zusammenarbeit mit Unternehmen hat Baidu die Bedeutung einer zugrundeliegenden Rechenleistungsplattform erkannt und die Baidu Baige-Rechenleistungsplattform eigenständig entwickelt, um die schnelle Iteration großer Sprachmodelle zu unterstützen.

【AiBase Zusammenfassung:】

🚀 Die Anwendung großer Sprachmodelle geht in die Wachstumsphase. Unternehmen integrieren große Sprachmodelle in alle Bereiche ihres Geschäfts und warten nicht mehr auf einzelne erfolgreiche Anwendungen.

💡 Eine Multi-Chip-Cloud-Strategie wird für chinesische Unternehmen unerlässlich. Baidu Intelligent Cloud öffnet die Baige-Rechenleistungsplattform und bietet die Freiheit der „Chip-Auswahl“.

💻 Baidu entwickelt auf Basis des Wenxin-Großsprachmodells die Qianfan-Toolchain-Plattform, um die technischen Hürden und die Nutzungskosten großer Sprachmodelle zu senken und die Qianfan-Industrie-Enhancement-Version zur Beschleunigung von Unternehmensinnovationen einzuführen.

7. Microsoft-Forscher arbeiten am SpreadsheetLLM-Projekt

Microsoft-Forscher haben kürzlich eine innovative Studie namens SpreadsheetLLM veröffentlicht, die darauf abzielt, die Herausforderungen zu lösen, vor denen große Sprachmodelle bei der Analyse von Tabellenkalkulationen stehen. Das Projekt verwendet ein Codierungsframework, das es großen Sprachmodellen ermöglicht, den Inhalt von Tabellenkalkulationen zu „verstehen“. Dies könnte die Effizienz der Datenverwaltung und -analyse von Tabellenkalkulationen deutlich verbessern und es Benutzern ermöglichen, dem KI-System Fragen in natürlicher Sprache zu stellen, ohne komplexe Formeln und Operationen beherrschen zu müssen.

image.png

【AiBase Zusammenfassung:】

📊 Herausforderungen von Tabellenkalkulationen für große Sprachmodelle: Tabellenkalkulationen haben eine komplexe Struktur und ein zweidimensionales Layout, das über den typischen linearen Inputbereich großer Sprachmodelle hinausgeht.

🔍 SpreadsheetLLM-Technologie-Analyse: Microsoft hat die beiden Kerntechnologien SheetCompressor und Chain of Spreadsheet vorgestellt, die das Verständnis großer Sprachmodelle für Tabellenkalkulationen erheblich verbessern.

🛠️ Auswirkungen auf Microsoft AI-Tools: SpreadsheetLLM könnte die Fähigkeiten von Microsoft Copilot in Excel verbessern, steht aber derzeit noch vor Herausforderungen hinsichtlich der Genauigkeit der Daten generierung und des Verbrauchs von Rechenressourcen.

Detaillierte Informationen: https://arxiv.org/html/2407.09025v1

8. Googles Hardware-Show 2024: Pixel 9, Gemini und ein neues faltbares Telefon

Google wird eine große Hardware-Veranstaltung vor der Veröffentlichung des Apple iPhone 16 abhalten, um neue Produkte wie das Pixel 9 anzukündigen. Das Thema Gemini steht im Mittelpunkt, und die neuen Geräte werden die KI-Funktionen im Android-Bereich vorantreiben. Android 15 bringt neue Funktionen und UI-Anpassungen, die Zukunft von Google Assistant ist jedoch noch ungewiss. Auch die Pixel Watch 3 und Pixel Buds Pro 2 werden vorgestellt.

【AiBase Zusammenfassung:】

📱 Google wird das Pixel 9 vor dem Apple iPhone 16 veröffentlichen.

🌟 Die neuen Geräte werden die KI-Funktionen im Android-Bereich vorantreiben, das Thema Gemini steht im Mittelpunkt.

🔍 Android 15 bringt neue Funktionen und UI-Anpassungen, die Zukunft von Google Assistant ist jedoch noch ungewiss.

9. Arcee AI veröffentlicht das Open-Source-Sprachmodell Arcee-Nova: Basierend auf Qwen2-72B, Leistung nahe an GPT-4

Das kürzlich von Arcee AI veröffentlichte Open-Source-Sprachmodell Arcee-Nova liefert beeindruckende Ergebnisse und erreicht fast das Niveau von GPT-4. Dies stellt einen wichtigen Meilenstein dar und bietet der KI-Community neue Hoffnung. Arcee-Nova kombiniert Qwen2-72B-Instruct und ein maßgeschneidertes, feinabgestimmtes Modell und bietet umfassende Funktionen für eine breite Palette von Anwendungen in den Bereichen Kundenservice, Content-Erstellung, Softwareentwicklung und Bildung.

image.png

【AiBase Zusammenfassung:】

🌟 Arcee-Nova liefert beeindruckende Ergebnisse und erreicht fast das Niveau von GPT-4, was der KI-Community neue Hoffnung bietet.

💡 Arcee-Nova kombiniert Qwen2-72B-Instruct und ein maßgeschneidertes, feinabgestimmtes Modell und bietet umfassende Funktionen.

📈 Arcee-Nova wird in einer Vielzahl von Bereichen eingesetzt, darunter Kundenservice, Content-Erstellung, Softwareentwicklung und Bildung.

Detaillierte Informationen: https://udify.app/chat/s3i0GX51Rwrb4XRm

10. Japanischer Supermarkt führt KI-Lächeln-Überwachungssystem ein

Die japanische Supermarktkette AEON hat ein KI-basiertes Lächeln-Überwachungssystem namens „Mr. Smile“ eingeführt, um die Servicequalität der Mitarbeiter und die Kundenzufriedenheit zu verbessern. Obwohl das System bemerkenswerte Erfolge bei der Verbesserung der Serviceeinstellung erzielt hat, hat es auch Kontroversen und Bedenken hinsichtlich der Natürlichkeit des Mitarbeiterlächelns und der Belästigung von Kunden ausgelöst. Im Vergleich zu den Vorgehensweisen anderer Branchen, wie dem „0-Euro-Lächeln“-Konzept von McDonald's und den langsamen Kassen im Supermarkt in Fukuoka, stößt die Maßnahme von AEON auf unterschiedliche Reaktionen.

image.png

【AiBase Zusammenfassung:】

📈 KI-Lächeln-Überwachungssystem: AEONs „Mr. Smile“-System bewertet das Lächeln und die Serviceeinstellung der Mitarbeiter anhand von über 450 Faktoren, um die Kundenzufriedenheit zu verbessern.

🔍 Kontroversen und Bedenken: Die Technologie löst Bedenken hinsichtlich der Belästigung von Mitarbeitern aus, und einige sind der Meinung, dass das erzwungene Lächeln zu einer erhöhten Belastung der Mitarbeiter führen könnte.

💡 Branchenvergleich: AEONs Vorgehen ähnelt dem „0-Euro-Lächeln“-Konzept von McDonald's, wird aber wegen der erhöhten Belastung der Mitarbeiter kritisiert. Die langsamen Kassen im Supermarkt in Fukuoka werden positiv bewertet.

11. DeepGlint veröffentlicht das Open-Source-Modell RWKV-CLIP für visuell-sprachliche Repräsentationen

DeepGlint hat das RWKV-CLIP-Modell veröffentlicht, einen visuell-sprachlichen Repräsentationslerner, der die Vorteile von Transformer und RNN kombiniert. Das Modell verwendet eine Bild-Text-Vorbereitung mit einem erweiterten Datensatz aus Website-Bildern und -Texten, wodurch die Leistung bei visuellen und sprachlichen Aufgaben deutlich verbessert wird. Das Forschungsteam hat einen diversifizierten Rahmen für die Beschreibungsgenerierung eingeführt, der große Sprachmodelle verwendet, um Inhalte aus webbasierten Texten, synthetischen Untertiteln und Erkennungsetiketten zu synthetisieren und zu verfeinern, um Probleme mit verrauschten Daten zu lösen und die Datenqualität zu verbessern.

【AiBase Zusammenfassung:】

🔍 Das Modell kombiniert die Vorteile von Transformer und RNN und verbessert durch Bild-Text-Vorbereitung die Leistung bei visuellen und sprachlichen Aufgaben deutlich.

🔬 Ein diversifizierter Rahmen für die Beschreibungsgenerierung wird eingeführt, der große Sprachmodelle verwendet, um Inhalte zu synthetisieren und zu verfeinern, um Probleme mit verrauschten Daten zu lösen und die Datenqualität zu verbessern.