冷水工具箱

ImagePulse – 魔搭社区开源的图像理解和生成模型数据集

ImagePulse （图律脉动）是魔搭社区推出的开源项目，为下一代图像理解和生成模型提供数据集支持，通过原子化模型的能力并构建原子能力数据集。项目包含多个原......

InternVL3 – 上海 AI Lab 开源的多模态大语言模型

InternVL3是上海人工智能实验室开源的多模态大型语言模型（MLLM），具有卓越的多模态感知和推理能力。模型系列包括1B到78B共7个不同尺寸的版本，能同时处理文......

豆包1.5·UI-TARS – 字节豆包推出的 GUI Agent 模型

豆包1.5·UI-TARS是字节豆包推出的面向图形界面交互（GUI）的Agent模型。模型基于感知、推理和动作执行等类人能力，与图形界面进行连续、流畅的交互。模型将视......

GoodWeBot – 基于 RPA 技术开源的 AI 微信机器人

GoodWeBot 是开源的基于 RPA 技术开发的 AI 微信机器人，支持一键免安装运行，用户下载后即可直接使用。工具已接入 Coze 等主流 AI，能实现智能回复、私聊群......

万相首尾帧模型 – 阿里通义开源的首尾帧生视频模型

万相首尾帧模型（Wan2.1-FLF2V-14B）是开源的14B参数规模的首尾帧生视频模型。模型根据用户提供的首帧和尾帧图像，自动生成流畅的高清视频过渡效果，支持多种......

InstantCharacter – 腾讯混元开源的定制化图像生成插件

InstantCharacter 是腾讯混元开源的定制化图像生成插件。基于扩散 Transformer（DiT）框架，引入可扩展的适配器（包含多个 Transformer encoder）和千万级样......

MAI-DS-R1 – 微软开源的 AI 模型，基于 DeepSeek R1 改进版

MAI-DS-R1 是微软基于 DeepSeek R1 改进的AI模型。MAI-DS-R1基于后训练优化，支持响应 99.3% 的敏感话题提示，比原版提升 2 倍，将有害内容风险降低 50%。MAI......

FramePack – 斯坦福开源的AI视频生成模型

FramePack 是斯坦福大学开源的AI视频生成模型。基于压缩输入帧的上下文长度，解决视频生成中的“遗忘”和“漂移”问题，让模型能高效处理大量帧，保持较低的计算......

FastAPI-MCP – 一键将 FastAPI 转换为 MCP 服务器的开源工具

FastAPI-MCP 是将 FastAPI 应用的端点自动转换为符合模型上下文协议（MCP）的开源工具。具有零配置的特点，只需简单指向 FastAPI 应用可自动发现并转换所有端......

MineWorld – 微软研究院开源的实时交互式世界模型

MineWorld是微软研究院开源的基于《我的世界》（Minecraft）的实时交互式世界模型，基于视觉-动作自回归Transformer架构，将游戏场景和动作转化为离散的token......

HumanRig – 阿里高德推出的3D人形角色自动绑定任务数据集

HumanRig 是阿里巴巴团队开发的 3D 人形角色自动绑定研究项目。解决现有绑定技术因缺乏高质量数据集而发展受限的问题，通过提供大规模、高质量的数据集和创新......

GigaTok – 港大联合字节推出用于自回归图像生成的视觉分词器

GigaTok 是用于自回归图像生成的视觉分词器，参数量达 30 亿。通过语义正则化技术，将分词器特征与预训练视觉编码器（如 DINOv2）的语义特征对齐，有效约束潜......

SkyReels-V2 – 昆仑万维开源的无限时长电影生成模型

SkyReels-V2是昆仑万维SkyReels团队推出的无限时长电影生成模型，基于扩散强迫（Diffusion-forcing）框架，结合多模态大语言模型（MLLM）、多阶段预训练、强......

OpenUtau – 开源的AI歌声合成工具，自动适配系统语言

OpenUtau 是开源的歌声合成工具，兼容 UTAU 音源库和重采样器，支持 VSQX 导入、多语言界面及预渲染功能，帮助创作者快速预览作品节省时间。OpenUtau现代化的......

Gemma 3 QAT – 谷歌推出的最新开源模型，Gemma 3 量化版

Gemma 3 QAT（Quantization-Aware Training）是谷歌推出的最新一代开源模型，是Gemma 3 的量化优化版本。通过量化感知训练技术，Gemma 3 QAT 在显著降低内存......

Pad.ws – 在线AI开发工具，白板功能与代码编辑器深度结合

Pad.ws 是创新的在线开发环境，结合了白板功能与完整的 IDE 工具。基于浏览器运行，无需安装额外软件，用户可以随时随地通过任何设备访问。将交互式白板与代......

SimpleAR – 复旦大学联合字节 Seed 团队推出的图像生成模型

SimpleAR 是复旦大学视觉与学习实验室和字节 Seed 团队联合推出的纯自回归图像生成模型。采用简洁的自回归架构，通过优化训练和推理过程，实现了高质量的图像......

Aether – 上海 AI Lab 开源的生成式世界模型

Aether 是上海AI Lab开源的生成式世界模型，完全基于合成数据训练。Aether 首次将三维时空建模与生成式建模深度融合，具备 4D 动态重建、动作条件视频预测和......

Infinite Mobility – 上海 AI Lab 推出的可交互物体生成模型

Infinite Mobility 是上海AI Lab推出的可交互物体生成模型，基于程序化生成技术，高效生成高质量的可交互物体数据资产。Infinite Mobility支持22类常见可交互......

ChatTS-14B – 字节开源的时间序列理解和推理大模型

ChatTS-14B 是字节跳动研究团队开源的专注于时间序列理解和推理的大型语言模型，参数量达 140 亿。基于 Qwen2.5-14B-Instruct 微调而成，通过合成数据对齐技......

MAGI-1 – Sand AI 开源的首个自回归视频生成模型

MAGI-1 是 Sand AI 开源的全球首个自回归视频生成大模型，采用自回归架构，通过逐块预测视频序列生成流畅自然的视频，支持无限扩展和一镜到底的长视频生成。...

WriteHERE – 开源的AI长文写作框架，单次生成超长文本

WriteHERE是Jürgen Schmidhuber领衔的团队开源的AI长文写作框架。WriteHERE基于异质递归规划（Heterogeneous Recursive Planning）技术，动态分解写作任务为......

Yuxi-Know – 基于大模型 RAG 知识库的 AI 知识图谱问答平台

Yuxi-Know（语析）是基于大模型RAG知识库与知识图谱技术构建的智能问答平台。Yuxi-Know支持多种知识库文件格式（如PDF、TXT、MD、Docx），支持将文件内容转换......

SurveyGO卷姬 – 清华联合面壁智能开源的AI论文写作工具

SurveyGO（卷姬）是面壁智能团队开源的AI论文写作工具。支持根据用户输入的论文主题和描述，快速生成结构清晰、内容丰富的综述文章，帮助科研人员和学生高效......

Suna – Kortix推出的全球首款通用型 AI Agent 开源项目

Suna 是Kortix推出的全球首款通用型 AI Agent 开源项目，支持高效解决现实场景中的各类任务。基于自然流畅的对话交互，Suna 支持智能辅助研究分析、数据处理......

混元3D v2.5 – 腾讯推出的最新版 3D 生成模型

混元3D v2.5是腾讯推出的新一代3D生成模型，在建模精细度上大幅提升，总参数量从1B提升至10B，有效面片数增加超10倍，有效几何分辨率达到1024，实现超高清的......

UFO² – 微软推出的 Windows 桌面 Agent 操作系统

UFO² 是微软推出的面向 Windows 桌面的多Agent操作系统（AgentOS），基于深度系统集成和自然语言交互实现复杂桌面任务的自动化。UFO²基于中央 HostAgent 分解......

AvatarFX – Character.AI 推出的 AI 视频生成模型

AvatarFX 是 Character.AI 推出的先进 AI 视频生成模型。基于上传一张图片和选择声音，让角色瞬间“活起来”，实现说话、唱歌和表达情感。AvatarFX支持多角色、......

Miras – 谷歌推出的深度学习架构设计通用框架

Miras是谷歌推出的用在深度学习架构设计的通用框架，特别是序列建模任务。Miras基于关联记忆和注意力偏差的概念，将Transformer、现代线性RNN等模型重新定义......

SocioVerse – 复旦大学联合小红书等机构开源的社会模拟世界模型

SocioVerse（众生）是复旦大学、上海创智学院、罗切斯特大学和小红书联合推出的社会模拟世界模型。基于大语言模型（LLM）驱动的智能体和包含1000万真实用户......

AI项目和框架