冷水工具箱

Kimi-Audio – Moonshot AI 开源的音频基础模型

Kimi-Audio 是 Moonshot AI 推出的开源音频基础模型，专注于音频理解、生成和对话任务。在超过 1300 万小时的多样化音频数据上进行预训练，具备强大的音频推......

GPT-image-1 – OpenAI 推出的最新图像生成模型

GPT-image-1是OpenAI推出的原生多模态图像生成模型，基于API向开发者开放使用。模型根据文本提示和图像生成高质量、专业级的图像，支持多种风格和自定义功能......

Eagle 2.5 – 英伟达推出的视觉语言模型

Eagle 2.5是英伟达推出的视觉语言模型，专注于长上下文多模态学习的 AI 模型，参数规模仅为 8B。参数量较小，但在处理高分辨率图像和长视频序列方面表现出色......

Skywork-R1V 2.0 – 昆仑万维开源的新版多模态推理模型

Skywork-R1V 2.0 是昆仑万维最新开源的多模态推理模型，专为复杂推理任务设计，具备强大的视觉与文本推理能力。模型基于混合强化学习和多模态奖励模型（Skywo......

Flex.2-preview – Ostris 推出的文本到图像扩散模型

Flex.2-preview 是Ostris开源的 80 亿参数文本到图像扩散模型，支持通用控制输入（如线条、姿态、深度）和内置修复功能。模型基于一个模型满足多种创意需求，......

DAM-3B – 英伟达推出的多模态大语言模型

DAM-3B（Describe Anything 3B）是英伟达推出的多模态大语言模型，专为生成图像和视频中特定区域的详细描述设计。模型通过点、边界框、涂鸦或掩码等方式指定......

Cooragent – 清华 LeapLab 开源的 AI Agent 协作框架

Cooragent是由清华大学LeapLab团队推出的开源AI Agent协作框架。用户基于简单的一句话描述快速创建Agent，支持Agent之间的协作，完成复杂任务。Cooragent基于......

Open Avatar Chat – 阿里开源的实时数字人对话系统

Open Avatar Chat 是阿里开源的模块化的实时数字人对话系统，支持在单台电脑上运行完整的功能。Open Avatar Chat 支持低延迟的实时对话（平均响应延迟约2.2秒......

LongPort MCP – 长桥集团推出的证券业首个券商MCP

LongPort MCP（Model Context Protocol）是长桥集团推出的证券行业首个券商MCP。基于 LongPort MCP，AI 能快速调用证券行情数据、执行股票交易、管理资产组合......

RAGEN – 训练大模型推理 Agent 的开源强化学习框架

RAGEN是开源的强化学习框架，用于在交互式、随机环境中训练大型语言模型（LLM）推理Agent。基于StarPO（State-Thinking-Action-Reward Policy Optimization）......

文心大模型4.5 Turbo – 百度推出的最新多模态大模型

文心大模型4.5 Turbo是百度推出的高性能、低成本多模态大模型。基于文心大模型4.5的基础上进行优化，具备多模态、强推理能力，能处理文本、图像等多种输入形......

文心大模型X1 Turbo – 百度推出的最新深度思考型模型

文心大模型X1 Turbo是百度推出的深度思考型模型，是文心大模型4.5 Turbo的升级版本，具备更先进的思维链和深度思考理能力，擅长文学创作、逻辑推理等，进一步......

Hummingbird-0 – Tavus 推出的AI口型同步模型

Hummingbird-0 是 Tavus 推出的AI口型同步模型。基于 Phoenix-3 模型开发，支持实现零样本学习，无需额外训练快速生成高精度的口型同步视频。...

LiveCC – 字节联合新加坡国立大学开源的实时视频解说模型

LiveCC 是新加坡国立大学Show Lab 团队联合字节跳动推出的实时视频解说模型，基于自动语音识别（ASR）字幕进行大规模训练。LiveCC像专业解说员一样快速分析视......

OpenMath-Nemotron – 英伟达开源的数学推理系列模型

OpenMath-Nemotron是英伟达推出的一系列开源数学推理模型，专门用在解决复杂数学问题，包括奥林匹克级别的难题。模型基于大规模数据集OpenMathReasoning进行......

NodeRAG – 开源基于异构图的智能检索与生成系统

NodeRAG 是基于异构图的检索增强生成（Retrieval-Augmented Generation，RAG）系统。通过构建包含多种节点类型的异构图，将文档信息和语言模型生成的见解整合......

Firefly Image Model 4 – Adobe 推出的图像生成模型

Firefly Image Model 4 是 Adobe 最新推出的图像生成模型，是目前最快、最具控制性和最逼真的 Firefly 图像模型，支持生成逼真的图像，提供更高的分辨率（最......

Step1X-Edit – 阶跃星辰开源的通用图像编辑框架

Step1X-Edit 是阶跃星辰团队推出的通用图像编辑框架，能缩小开源图像编辑模型与闭源模型（如 GPT-4o 和 Gemini2 Flash）之间的性能差距。Step1X-Edit结合多模......

WebSSL – Meta联合纽约大学等机构推出的视觉自监督学习系列模型

WebSSL（Web-scale Self-Supervised Learning）是Meta、纽约大学等机构推出的视觉自监督学习（SSL）系列模型，基于大规模网络数据（如数十亿图像）训练视觉模......

Paper2Code – AI论文自动转为代码的多智能体框架

Paper2Code 是韩国科学技术院和DeepAuto.ai联合推出的多 Agent 大语言模型（LLM）框架，支持将机器学习领域的科学论文自动转换为可运行的代码仓库。...

EmaFusion – AI初创公司 Ema 推出的多模型融合技术

EmaFusion 是人工智能初创公司 Ema 推出的多模型融合技术，为企业级 AI 应用提供高效、灵活且低成本的解决方案。通过动态结合 100 多种语言模型，根据任务需......

Lyria 2 – DeepMind 推出的 AI 音乐生成模型

Lyria 2 是谷歌 DeepMind 推出的第三代 AI 音乐生成模型，作为 Vertex AI 平台的核心组件，具备高保真音频生成能力，能输出 48kHz、24-bit 的专业级立体声音......

Concept Lancet – 宾夕法尼亚大学推出的图像编辑框架

Concept Lancet（CoLan）是宾夕法尼亚大学的研究团队推出的零样本、即插即用的图像编辑框架。Concept Lancet基于在潜在空间中对图像进行稀疏分解，将图像表示......

LangGraph WhatsApp Agent – 用于构建与 WhatsApp 用户互动的 AI Agent

LangGraph WhatsApp Agent 是基于 LangGraph 和 Twilio 构建的开源项目，用在开发与 WhatsApp 用户互动的 AI Agent。项目支持多代理架构和图谱处理，能处理文......

UniToken – 复旦联合美团等机构推出的统一视觉编码框架

UniToken 是新型的自回归生成模型，专为多模态理解与生成任务设计。通过结合离散和连续的视觉表示，构建了一种统一的视觉编码框架，能同时捕捉图像的高级语义......

DeepSeek-R1T-Chimera – TNG开源的语言模型

DeepSeek-R1T-Chimera 是TNG科技公司推出的开源语言模型。结合 DeepSeek V3-0324 和DeepSeek R1两种模型的优势，基于创新的构建方法，将两者的神经网络组件融......

DreamO – 字节联合北大推出的图像定制生成框架

DreamO 是字节跳动创作团队联合北京大学深圳研究生院电子与计算机工程学院联合推出的用在图像定制生成的统一框架，基于预训练的扩散变换器（DiT）模型实现多......

Spatial-RAG – 埃默里大学等机构推出的空间推理能力框架

Spatial-RAG（Spatial Retrieval-Augmented Generation）是美国埃默里大学、德克萨斯大学奥斯汀分校推出的用在提升大型语言模型（LLMs）空间推理能力的框架。......

ChatDLM – Qafind Labs推出的全球最快扩散语言模型

ChatDLM是 Qafind Labs推出的全球最快扩散语言模型，核心定位是突破传统Transformer架构在长上下文处理与推理效率上的瓶颈。模型融合了“区块扩散（Block Diff......

Qwen3 – 阿里通义开源的新一代混合推理模型系列

Qwen3 是阿里巴巴推出的新一代大型语言模型，Qwen3 支持“思考模式”和“非思考模式”两种工作方式，思考模式模型会逐步推理，经过深思熟虑后给出最终答案，适合......

AI项目和框架