Typ :
- Nachrichten und Informationen
- Produktanwendungen
- Monetarisierungsfälle
- KI-Tutorials
2025-02-25 08:35:54.AIbase.15.7k
Alibaba präsentiert die Vorschauversion des Inferenzmodells QwQ-Max für Tongyi Qianwen, verfügbar unter qwen.ai
Am 25. Februar gab Alibaba die Einführung von QwQ-Max-Preview, einem Inferenzmodell basierend auf Qwen2.5-Max, bekannt und plant die vollständige Open-Source-Veröffentlichung seiner neuesten Inferenzmodelle QwQ-Max und Qwen2.5-Max. Die jetzt veröffentlichte QwQ-Max-Preview ist eine Vorschauversion. Alibaba gab an, dass die offizielle Version in Kürze erscheinen und unter der Apache2.0-Lizenz vollständig quelloffen sein wird. Anders als bisher umfasst die Open-Source-Veröffentlichung nicht nur das Modell selbst, sondern auch kleinere Versionen, wie z. B. Q...

2025-02-21 17:23:48.AIbase.15.6k
阿里巴巴国际开源 Ovis2 系列多模态大型语言模型 – 共六个版本
Ovis2 ist die neueste Version der Ovis-Modellreihe des internationalen Teams von Alibaba. Im Vergleich zur Vorgängerversion 1.6 wurden bei Ovis2 sowohl die Datenkonstruktion als auch die Trainingsmethoden deutlich verbessert. Es wurde nicht nur die Leistungsdichte kleiner Modelle verstärkt, sondern auch die Fähigkeit zum Chain-of-Thought (CoT)-Schlussfolgern durch Instruktionsfeinabstimmung und Präferenzlernen erheblich gesteigert. Darüber hinaus wurde Ovis2 um die Verarbeitung von Videos und mehreren Bildern erweitert und die Mehrsprachigkeit sowie die OCR-Fähigkeiten in komplexen Szenarien verbessert, wodurch die Praktikabilität des Modells deutlich gesteigert wurde.

2025-01-14 15:11:46.AIbase.14.7k
清华大学、复旦大学和斯坦福大学联合开源“Eko”框架,实现Agent的电脑自动化操作
Forschungsteams der Tsinghua-Universität, der Fudan-Universität und der Stanford-Universität haben kürzlich ein Agent-Entwicklungsframework namens „Eko“ veröffentlicht. Es soll Entwicklern helfen, mithilfe einfachen Codes und natürlicher Sprache schnell produktionsreife „virtuelle Mitarbeiter“ zu erstellen. Eko kann Computer und Browser des Benutzers übernehmen und verschiedene mühsame Aufgaben anstelle von Menschen erledigen. Mit Eko lassen sich Funktionen wie automatisierte Datenerfassung, Tests und Dateiverwaltung realisieren. Beispielsweise kann Eko so konfiguriert werden, dass es automatisch Daten von Yahoo Finance sammelt...
2024-12-31 09:21:19.AIbase.14.4k
智元机器人开源全球首个百万真机数据集AgiBot World
Das Shanghaier Robotik-Startup Zhiyuan Robotics hat kürzlich in Zusammenarbeit mit dem Shanghai AI Laboratory, dem staatlich-regional gegründeten Innovationszentrum für humanoide Roboter und Shanghai Kupas den AgiBot World Datensatz mit einer Million realer Maschinen öffentlich zugänglich gemacht. Dieser soll das Training von generalisierten und universellen großen Robotermodellen unterstützen. Es handelt sich Berichten zufolge um den weltweit ersten Datensatz mit einer Million realer Maschinen, der auf realen Szenarien aus allen Bereichen, einer universellen Hardwareplattform und einer durchgängigen Qualitätskontrolle basiert. Der AgiBot World Datensatz entstand in Zhiyuans eigener, groß angelegten Daten-Erfassungsfabrik und Anwendungs-Testzentrum mit einer Gesamtfläche von...

2024-11-30 10:01:37.AIbase.13.6k
智谱AI开源端侧大型语言和多模态模型GLM-Edge系列
智谱科技最近宣布开源其端侧大型语言和多模态模型GLM-Edge系列。此举标志着该公司在端侧实际应用场景中的重要尝试。GLM-Edge系列包含四种不同大小的模型:GLM-Edge-1.5B-Chat、GLM-Edge-4B-Chat、GLM-Edge-V-2B和GLM-Edge-V-5B,分别针对手机、车载设备等移动平台以及PC等桌面平台进行了优化。

2024-11-08 15:00:39.AIbase.13.1k
智谱AI开源最新版视频模型CogVideoX v1.5,推出10秒4K"新清影"
智谱技术团队今天发布了其最新的视频生成模型 CogVideoX v1.5 und hat ihn als Open Source veröffentlicht. Dies ist seit August der jüngste wichtige Fortschritt in der CogVideoX-Reihe des Teams. Das Update verbessert die Videogenerierung erheblich, einschließlich der Unterstützung von 5- und 10-sekündigen Videos, einer Auflösung von 768P und der Generierung von 16 Bildern. Gleichzeitig unterstützt das I2V-Modell (Bild-zu-Video) beliebige Größenverhältnisse und verbessert so das Verständnis komplexer Semantik.

2024-09-29 09:45:18.AIbase.12.1k
阿里妈妈开源全新的AI图像修复模型FLUX-Controlnet-Inpainting
FLUX-Controlnet-Inpainting, ein auf ControlNet und FLUX.1-dev basierendes Bildinpainting-Tool, definiert unser Verständnis von Bildreparatur neu. Dieses Tool erbt nicht nur die Fähigkeit zur hochwertigen Bildgenerierung des FLUX.1-dev-Modells, sondern integriert auch clever die Vorteile von ControlNet. Es kann basierend auf Informationen wie Kanten, Skizzen und Tiefenkarten präzise reparieren und in den angegebenen Bereichen Inhalte generieren, die harmonisch mit der Umgebung übereinstimmen. Für beschädigte

2024-08-06 09:55:50.AIbase.10.8k
智谱AI开源同源视频生成模型 „清影“——CogVideoX
智谱AI hat die Open-Source-Veröffentlichung seines Video-Generierungsmodells CogVideoX angekündigt, um die schnelle Entwicklung und Anwendung von Video-Generierungstechnologien voranzutreiben. Das CogVideoX-Modell basiert auf fortschrittlichen Large-Model-Technologien und kann die Anforderungen kommerzieller Anwendungen erfüllen. Die aktuell veröffentlichte Version CogVideoX-2B benötigt für die Inferenz mit FP-16-Genauigkeit nur 18 GB Grafikspeicher und für das Fine-Tuning 40 GB. Dies ermöglicht die Inferenz auf einer einzelnen 4090-Grafikkarte und das Fine-Tuning auf einer einzelnen A6000-Grafikkarte.

2024-07-25 16:44:09.AIbase.10.6k
智源研究院发布全球首个万亿参数稠密模型 Tele-FLM-1T (开源)
Das Beijing Institute for Artificial Intelligence (BAAI) und das China Telecom Artificial Intelligence Research Institute haben gemeinsam die aktualisierte Version der Tele-FLM-Serie großer Sprachmodelle vorgestellt, darunter das 52B-Parameter-Instruktionsmodell FLM-2-52B-Instruct und das Trillion-Parameter-Modell Tele-FLM-1T. FLM-2-52B-Instruct wurde durch Instruktions-Feinabstimmung optimiert, um die Fähigkeiten im chinesischen Dialog zu verbessern und erreicht 90% des Niveaus von GPT-4. Es basiert auf dem Tele-FLM-52B-Basismodell und verwendet einen spezifischen Datensatz und Parameteroptimierung. Tele-FLM-1T...

2024-07-12 13:55:07.AIbase.10.2k
智谱AI发布开源视频理解模型CogVLM2-Video
智谱AI gibt die Open-Source-Upgrade des CogVLM2-Video-Modells bekannt, einem Modell, das im Bereich des Videoverständnisses bemerkenswerte Fortschritte erzielt hat. CogVLM2-Video behebt die Einschränkungen bestehender Video-Verständnismodelle im Umgang mit dem Verlust von Zeitinformationen, indem es mehrframe Video-Bilder und Zeitstempel als Encoder-Eingaben verwendet. Das Modell generierte mithilfe einer automatisierten Methode zum Erstellen von zeitlich lokalisierten Daten 30.000 zeitbezogene Video-Frage-Antwort-Daten, um ein Modell zu trainieren, das auf öffentlichen Video-Verständnis-Benchmarks die aktuell beste Leistung erzielt.

2024-06-26 17:48:07.AIbase.9.8k
硅基智能开源实时数字人DUIX – Entwickler können selbstständig einbinden
GuijiAI (硅基智能) hat die KI-basierte digitale Personen-Interaktionsplattform DUIX (Dialogue User Interface System) Open Source veröffentlicht.

2024-06-13 09:10:31.AIbase.9.6k
吴恩达的开源 AI 智能体机器翻译项目 Translation Agent
Der KI-Experte Andrew Ng hat kürzlich ein neues, quelloffenes AI-Agenten-Projekt für die maschinelle Übersetzung veröffentlicht. Dieses Projekt bietet einen hochgradig steuerbaren Übersetzungsworkflow. Anwender können durch einfache Anpassung der Eingabeaufforderungen den Ton, regionale Besonderheiten flexibel einstellen und Fachglossare importieren, um die Konsistenz der Fachbegriffe zu gewährleisten. Diese Flexibilität und Anpassbarkeit ermöglicht einen breiteren Einsatz von AI-Agenten im Bereich der maschinellen Übersetzung.

2024-06-05 13:44:43.AIbase.9.5k
智谱开源 GLM-4-9B 系列模型:性能全面超越 LLaMA 3 8B
智谱宣布推出 GLM-4-9B 系列模型,包括基础模型、不同上下文长度的 Chat 模型和视觉模型,其性能全面超越了 LLaMA 3 8B。据悉,GLM-4-9B 系列模型已在 Github 上开源,吸引了众多开发者和研究人员的关注。该系列模型的发布被认为是智谱公司在人工智能领域取得的又一重大突破。
2024-01-05 09:00:07.AIbase.4.7k
Alibabas Tongyi-Labor开源 AI 图像生成微调框架 SCEdit
Alibabas Tongyi-Labor veröffentlicht den Open-Source AI-Bildgenerierungs-Feinabstimmungsrahmen SCEdit. Der SCEdit-Rahmen unterstützt das Feinabstimmen von Bildgenerierungsaufgaben. Der SCEdit-Rahmen zeichnet sich durch hohe Effizienz bei Generierungsaufgaben aus. Der SCEdit-Rahmen ermöglicht eine präzise Steuerung bei kontrollierten Generierungsaufgaben. Der SCEdit-Rahmen spart Trainingsspeicherplatz.
2023-12-22 08:59:15.AIbase.4.4k
魔搭社区开源多模态对齐统一框架 OneLLM
OneLLM ist ein einheitliches Framework für die multimodale Ausrichtung. Es verwendet einen universellen Encoder und ein einheitliches Projektionsmodul, um multimodale Eingaben mit LLMs auszurichten. Es unterstützt das Verständnis verschiedener Modalitäten wie Bilder, Audio und Video. Experimente zeigen eine Überlegenheit gegenüber bestehenden Methoden in mehreren Aufgaben. Es verfügt über starke Zero-Shot-Fähigkeiten.
2023-11-13 08:59:01.AIbase.3.1k
智源研究院开源 JudgeLM Bewertungsmodell zur Bewertung verschiedener großer Sprachmodelle und Ausgabe von Bewertungen
Das Forschungsinstitut für künstliche Intelligenz (AI) 智源研究院 hat das JudgeLM Bewertungsmodell veröffentlicht, das verschiedene große Sprachmodelle effizient bewertet und Bewertungen ausgibt. JudgeLM kostet im Vergleich zu GPT-4 nur 1/120 und erreicht eine Übereinstimmung der Ergebnisse von über 90 %. JudgeLM kann in verschiedenen Bewertungsszenarien wie reinem Text und multimodalen Szenarien eingesetzt werden und gibt Bewertungen und Begründungsgrundlagen aus. Die Übereinstimmung von JudgeLM mit den Referenzantworten liegt bei über 90 % und nähert sich der menschlichen Leistung an. 智源研究院 hat die Trainings- und Validierungsdaten veröffentlicht.
2023-10-20 14:22:29.AIbase.2.3k
智源研究院开源 10 亿参数三维视觉通用模型 Uni3D
Das Beijing Academy of Artificial Intelligence (BAAI) hat kürzlich das Uni3D-Modell veröffentlicht, ein universelles 3D-Vision-Modell mit 1 Milliarde Parametern. Dieses Modell kann Punktwolken verarbeiten und hat bei wichtigen 3D-Vision-Aufgaben Durchbrüche erzielt. Uni3D verwendet eine einheitliche Transformer-Architektur und führt eine multimodale Alignments-Trainingsmethode ein. Das Modell erzielte in verschiedenen 3D-Vision-Aufgaben State-of-the-Art-Ergebnisse. Das BAAI gab bekannt, dass die Open-Source-Veröffentlichung von Uni3D die zukünftige Forschung im Bereich der 3D-Computer Vision unterstützen wird.
2023-10-10 14:14:44.AIbase.1.9k
清华大学唐杰 & 智谱 AI 开源 CogVLM-17B:国产多模态模型挑战 GPT-4V
Das von der Tsinghua-Universität und ZhiPu AI gemeinsam entwickelte CogVLM-17B ist ein chinesisches multimodales Modell mit herausragender Leistung. CogVLM-17B kann nicht nur Objekte auf Bildern erkennen, sondern auch zwischen vollständig sichtbaren und teilweise sichtbaren Objekten unterscheiden. Das Modell verwendet eine einzigartige Methode der tiefen Fusion, die durch vier Schlüsselkomponenten eine tiefe Ausrichtung von Bild- und Textmerkmalen erreicht. CogVLM-17B übertrifft in mehreren Bereichen die Modelle von Google und wird aufgrund seiner vielseitigen Fähigkeiten bildlich als „14-seitiger Krieger“ bezeichnet.
2023-09-28 10:03:16.AIbase.1.8k
智源研究院发布开源 AI 硬件评测引擎 FlagPerf v1.0
Das Forschungsinstitut für künstliche Intelligenz (AIRS) veröffentlicht die Open-Source-KI-Hardware-Benchmarking-Engine FlagPerf v1.0.
FlagPerf-Kennzahlen umfassen funktionale Korrektheit, Leistung, Ressourcenverbrauch und Ökosystem-Kompatibilität.
Unterstützung für verschiedene Trainings-Frameworks und Inferenz-Engines sowie verschiedene Testumgebungen.
Strenge Überprüfung des eingereichten Codes für faire und objektive Ergebnisse.
Der Testcode wurde Open Source veröffentlicht; der Testprozess und die Daten sind reproduzierbar.