Willkommen beim AI-Tagesbericht! Hier finden Sie täglich einen Überblick über die Welt der Künstlichen Intelligenz. Wir präsentieren Ihnen die wichtigsten Neuigkeiten aus dem KI-Bereich, mit Fokus auf Entwickler, um Ihnen zu helfen, Technologietrends zu verstehen und innovative KI-Produktanwendungen kennenzulernen.

Neue KI-Produkte hier entdecken: https://top.aibase.com/

1、Bytedance präsentiert Seed-TTS: Ein Sprachgenerierungsmodell mit exzellenter Emotionskontrolle und lebensechter Stimme

Dieser Artikel beschreibt das neue Sprachgenerierungsmodell Seed-TTS von Bytedance. Basierend auf der Autoregressive-Transformer-Architektur zeichnet es sich durch hohe Sprachqualität und Ausdruckskraft aus, die kaum von menschlicher Sprache zu unterscheiden ist. Es überzeugt besonders in der Emotionskontrolle, bei der Synchronisation von Hörbüchern und der Erstellung mehrsprachiger Inhalte. Durch Selbstdestillation und Reinforcement Learning wurde die Natürlichkeit und Kontrollierbarkeit der Aussprache verbessert. Seed-TTS stellt einen bedeutenden Fortschritt im Bereich der Sprachsynthese dar und eröffnet neue Möglichkeiten für zukünftige Technologien.

【AiBase Zusammenfassung:】

🎯 Bytedance präsentiert das neue Sprachgenerierungsmodell Seed-TTS, das natürliche und ausdrucksstarke Sprache erzeugt.

🎯 Hervorragende Emotionskontrolle: Die Emotionen, der Tonfall und der Sprechstil der generierten Sprache können angepasst werden.

🎯 Simulation komplexer Emotionen und Kontexte, ideal für Hörbücher, Video-Synchronisation etc.

Produktseite: https://top.aibase.com/tool/seed-tts

2、Stability AI veröffentlicht das KI-Audiomodell Stable Audio Open

Stable Audio Open ist ein Open-Source-Text-zu-Audio-Modell von Stability AI, das bis zu 47 Sekunden lange Audio-Samples und Soundeffekte generieren kann. Es eignet sich für Musikproduktion und Sounddesign. Benutzer können Audioelemente wie Drum-Beats, Instrumentalsektionen und Umgebungsgeräusche erstellen und Audiovariationen und Stilumstellungen vornehmen. Das Modell bietet stabile Audiogenerierungsqualität und -länge. Benutzer können das Modell mit benutzerdefinierten Audiodaten feinabstimmen, um die Qualität und Kontrollierbarkeit der generierten Audiodaten zu verbessern.

image.png

【AiBase Zusammenfassung:】

🔊 Stable Audio Open ist ein Open-Source-Text-zu-Audio-Modell, das bis zu 47 Sekunden lange Audio-Samples und Soundeffekte generiert.

🎶 Das Modell unterstützt die Erstellung von Drum-Beats, Instrumentalsektionen und Umgebungsgeräuschen.

🔧 Benutzer können das Modell mit benutzerdefinierten Audiodaten feinabstimmen, um die Qualität und Kontrollierbarkeit der generierten Audiodaten zu verbessern.

Weitere Informationen: https://top.aibase.com/tool/stable-audio-open-1-0

3、Suno-Neuheit von Udio überholt: beliebige Audiodateien hochladen und Udio verlängert die Kreation automatisch

Dieser Artikel beschreibt, wie ein geplantes neues Feature von Suno von dem Konkurrenten Udio vorgegriffen wurde. Udio hat eine Reihe von Updates veröffentlicht, mit denen Benutzer Audio-Schnipsel hochladen und Melodien und Akkorde automatisch analysieren können, um wunderschöne Musik zu kreieren. Es bietet zudem weitere praktische Funktionen.

【AiBase Zusammenfassung】

🎵 Udio bietet mit seinen Updates die Möglichkeit, beliebige Audio-Schnipsel hochzuladen. Udio analysiert Melodien und Akkorde und kreiert daraus im Handumdrehen Musik.

🎵 Umfangreiche Auswahl an Keywords und Inspirationsquellen, um musikalische Ideen zu erweitern und Inspiration zu finden.

🎵 Hinweis: Diese Funktion ist derzeit nur für zahlende Nutzer verfügbar.

Produktseite: https://top.aibase.com/tool/udio

Details hier: https://mp.weixin.qq.com/s/QO_ucbMUD-6UJ1gs_j340A

4、Adobe aktualisiert seine Datenschutzbestimmungen: Das bedeutet das Recht, Nutzerwerke zum Trainieren von KI zu verwenden

Die kürzlich aktualisierten Datenschutzbestimmungen von Adobe haben bei Nutzern Besorgnis ausgelöst. Die Nutzer befürchten den Verlust der Privatsphäre ihrer Designarbeiten, die möglicherweise zum Trainieren von Künstlicher Intelligenz oder zur Inhaltsprüfung verwendet werden könnten. Dies könnte das Vertrauen zwischen Designern und Kunden zerstören und die berufliche Entwicklung beeinträchtigen. Die Aktualisierung wirft Fragen zum Schutz der Privatsphäre und des geistigen Eigentums auf.

image.png

【AiBase Zusammenfassung:】

🔍 Adobe verlangt die Zustimmung zu neuen Nutzungsbedingungen, einschließlich des Zugriffs auf die von Nutzern erstellten Inhalte.

🔍 Die Arbeiten von Designern und Künstlern könnten ihre Privatsphäre verlieren und zum Trainieren von Künstlicher Intelligenz oder zur Inhaltsprüfung verwendet werden.

🔍 Die aktualisierten Datenschutzbestimmungen von Adobe lösen bei Nutzern Bedenken hinsichtlich der Privatsphäre ihrer Designarbeiten aus.

Details: https://www.chinaz.com/2024/0606/1621769.shtml

5、Tencent HunYuan veröffentlicht die beschleunigte Bibliothek für das Open-Source-Text-zu-Bild-Modell HunYuan DiT

Tencent HunYuan hat eine beschleunigte Bibliothek für das Open-Source-Text-zu-Bild-Modell HunYuan DiT veröffentlicht, die die Inferenzzeit um 75 % verkürzt und die Bildgenerierungszeit deutlich reduziert. Benutzer können das Modell mit drei Codezeilen aufrufen, ohne den ursprünglichen Code herunterladen zu müssen. Tencent HunYuan wird das Open-Source-Ökosystem von HunYuan DiT weiter optimieren, um ein gemeinsames Ökosystem für die visuelle Generierung aufzubauen und die Entwicklung der Branche für große Modelle voranzutreiben.

【AiBase Zusammenfassung:】

🚀 Beschleunigte Inferenzzeit um 75 % reduziert.

💻 Das Modell kann mit drei Codezeilen aufgerufen werden, ohne den ursprünglichen Code herunterladen zu müssen.

🌱 Aufbau eines gemeinsamen Ökosystems für die visuelle Generierung, um die Entwicklung der Branche für große Modelle voranzutreiben.

Weitere Informationen: https://dit.hunyuan.tencent.com/

6、MiGPT-Projekt: Anbindung von Xiaoi-Lautsprechern an ChatGPT und Doubao

Das MiGPT-Projekt verbindet Xiaoi-Lautsprecher und MiJia-Smart-Home-Geräte mit ChatGPT-Technologie, um einen intelligenten und einfühlsamen Haushaltsassistenten zu schaffen, der die Heimautomation ermöglicht und emotionale Bindungen aufbaut. Zu den wichtigsten Highlights gehören LLM-Antworten, Rollenspiele, Streaming-Antworten, kurz- und langfristiges Gedächtnis, benutzerdefinierte TTS und ein Smart-Home-Agent. Das Projekt bietet zwei Startmodi für verschiedene Benutzeranforderungen. Die Konfigurationsparameter müssen vom Benutzer selbst angepasst werden, um eine korrekte Verbindung sicherzustellen.

image.png

【AiBase Zusammenfassung:】

🤖 Xiaoi-Lautsprecher beantworten Fragen mithilfe von großen Sprachmodellen wie ChatGPT und bieten Informationen und Unterstützung.

👩‍💼 Xiaoi-Lautsprecher können je nach Situation und Benutzeranforderung schnell zwischen Rollen wechseln, z. B. perfekter Partner oder liebenswerte Freundin.

🔊 Das System reagiert sofort auf Benutzeranweisungen und bietet eine flüssige Interaktion. Die Speicherung des Gesprächsverlaufs macht die Konversation natürlicher und harmonischer.

Weitere Informationen: https://top.aibase.com/tool/migpt

7、Motiff Miaoduo, das KI-Design-Tool von Yuanfudao, wird weltweit veröffentlicht

Motiff Miaoduo ist eine Benutzeroberfläche-Design-Software, die als KI-Design-Tool für das KI-Zeitalter positioniert ist. Sie optimiert Designprozesse mithilfe von KI-Technologie, steigert die Produktivität und bietet Benutzern ein beispielloses Design-Erlebnis. Die Software bietet zahlreiche Innovationen, darunter KI-Kopieren, KI-Layout, KI-Design-Systemerstellung, KI-Design-Systemwartung und KI-Konsistenzprüfung. Es ist die erste Benutzeroberfläche-Design-Software in China mit einer selbst entwickelten Grafik-Rendering-Engine.

image.png

【AiBase Zusammenfassung:】

🚀 Motiff Miaoduo optimiert Designprozesse mithilfe von KI-Technologie, steigert die Produktivität und bietet Benutzern ein beispielloses Design-Erlebnis.

🎨 Die Software bietet zahlreiche Innovationen, darunter KI-Kopieren, KI-Layout, KI-Design-Systemerstellung, KI-Design-Systemwartung und KI-Konsistenzprüfung.

💡 Motiff Miaoduo präsentiert KI-Toolkits, KI-Design-Systeme und KI-Labore, die die Produktivität im Bereich des UI-Designs effektiv steigern.

Weitere Informationen: https://top.aibase.com/tool/motiff-miaoduo

8、Jimeng Dreamina aktiviert die Echtzeit-Leinwand-Funktion vollständig

Jimeng Dreamina hat die Echtzeit-Leinwand-Funktion vollständig aktiviert. Benutzer können durch einfaches Aufmalen von Formen und Hinzufügen von Keywords Bilder anpassen und die KI-Zeichnung besser kontrollieren. Nach dem Speichern als neue Ebene kann die Optimierung fortgesetzt werden. Nach der Fertigstellung wird das Bild gespeichert.

image.png

【AiBase Zusammenfassung:】

🎨 Die Echtzeit-Leinwand-Funktion ermöglicht es Benutzern, durch einfaches Aufmalen von Formen und Hinzufügen von Keywords Bilder anzupassen und so die Benutzerfreundlichkeit zu verbessern.

🖌️ Durch das grobe Aufmalen von Formen können Benutzer maßgeschneiderte Bilder erhalten, die ihren Bedürfnissen entsprechen.

💡 Nach dem Speichern als neue Ebene kann die Anpassung und Optimierung fortgesetzt werden, um die Bildqualität zu verbessern.

Weitere Informationen: https://top.aibase.com/tool/jimengdreamina

9、Die Häufigkeit der Google AI-Übersicht hat stark abgenommen

Die Google-KI-Übersicht wird jetzt nur noch in weniger als 15 % der Suchergebnisse angezeigt, verglichen mit 84 % in der Vergangenheit. Die Darstellung von KI in den Suchergebnissen wurde angepasst, um die Suchqualität zu verbessern. Der Artikel weist darauf hin, dass sich die Rolle der KI in der Suche ständig weiterentwickelt. Obwohl die Übersicht weniger häufig angezeigt wird, ist die Anwendung von KI in der Suche ein unvermeidlicher Wandel.

image.png

【AiBase Zusammenfassung:】

⭐ Die Häufigkeit der Google AI-Übersicht in den Suchergebnissen ist von 84 % auf weniger als 15 % gesunken.

⭐ Google hat die Überschneidung von KI-Zitaten und traditionellen Suchergebnissen reduziert, um die Suchqualität zu verbessern.

⭐ KI in der Suche prognostiziert und zeigt Folgefragen an, wodurch der Suchenden mehrere Suchanfragen durchführt.

10、Forscher entwickeln eine KI, die die Emotionen von Sportlern erkennen kann

Forscher haben mithilfe computergestützter neuronaler Netze erfolgreich Emotionen von Tennisspielern anhand ihrer Körpersprache genau erkannt und das Potenzial der KI in der Emotionserkennung gezeigt. Diese Studie wirft jedoch auch ethische Fragen auf, die rechtliche und moralische Aspekte geklärt werden müssen.

【AiBase Zusammenfassung:】

🔍 Künstliche Intelligenz kann die emotionalen Zustände von Tennisspielern genau erkennen und zeigt eine vergleichbare Leistung zu menschlichen Beobachtern.

🔍 Die Verwendung von Daten aus echten Spielen zum Trainieren des KI-Modells hat die Genauigkeit der Emotionserkennung verbessert.

🔍 Die Emotionserkennungstechnologie kann in verschiedenen Bereichen eingesetzt werden, darunter Trainingsverbesserung, Steigerung der Teammotivation und frühzeitige Erkennung negativer Emotionen.

11、Ouroboros3D: Bild-zu-3D-Generierung durch 3D-Wahrnehmung

Ouroboros3D ist ein einheitlicher 3D-Generierungsrahmen, der die Generierung von Bildern aus mehreren Perspektiven und die 3D-Rekonstruktion integriert. Durch einen rekursiven Diffusionsprozess wird die Bild-zu-3D-Generierung realisiert. Die von den Forschern vorgeschlagene neue Methode bietet mehrere Vorteile, darunter die Generierung vielfältigerer und realistischer Bilder aus verschiedenen Perspektiven, die Reduzierung von Rauschen und Verzerrungen sowie die Steigerung der Generierungseffizienz. Experimente zeigen, dass die von Ouroboros3D generierten 3D-Modelle über bessere Details und Genauigkeit verfügen und realen 3D-Szenen nahekommen.

image.png

【AiBase Zusammenfassung:】

🔍 Ouroboros3D integriert die Generierung von Bildern aus mehreren Perspektiven und die 3D-Rekonstruktion und realisiert die Bild-zu-3D-Generierung durch rekursive Diffusion.

🔍 Ouroboros3D verwendet eine diffusionsbasierte Methode zur Generierung von Bildern aus mehreren Perspektiven und zur 3D-Rekonstruktion und erstellt einen einheitlichen 3D-Generierungsrahmen.

🔍 Vorteile von Ouroboros3D: Generierung vielfältigerer und realistischer Bilder aus verschiedenen Perspektiven, Reduzierung von Rauschen und Verzerrungen, Steigerung der Generierungseffizienz.

Weitere Informationen: https://top.aibase.com/tool/ouroboros3d

12、Mobile-Agent-v2: KI lernt, automatisch das Smartphone zu bedienen