LOADING
工具介绍:New API是一个开源免费的AI模型接口管理与分发系统,支持 30+ 主流 AI 服务商,100% 兼容 OpenAI,提供一键部署、灵活计费与高可用性,助力快速构建智能应用
工具介绍:HYPIR是一款高性能图像复原大模型,支持一键将模糊或受损图片修复至 8K 超清画质。采用单步对抗生成策略与扩散模型先验技术,具备极速推理、文字高保真还原及多场景图像适配能力,广泛应用于老照片修复、医学影像增强、文档清晰化与文化遗产数字化等领域。
工具介绍:IndexTTS是B站推出的工业级文本转语音系统,支持中英双语、零样本语音克隆与高保真音质。采用字符-拼音混合建模、BigVGAN2 解码器与情感音色分离技术,语音自然流畅,广泛应用于智能助手、有声读物、视频配音等场景。
工具介绍:浦语·灵笔2.5 是一款开源图文多模态大模型,支持图文创作、网页生成、视频理解与语音交互,具备超长上下文、多轮多图对话与高分辨率图像处理能力,广泛应用于内容创作、教育、智能助手等场景。
工具介绍:千帆慧金是百度智能云自主研发的金融行业垂直大模型,聚焦金融场景的智能化需求,以“专业、可靠、可扩展”为核心,为金融机构提供从基础能力到场景化应用的全链路智能化解决方案,助力行业从“数字化”向“智能化”深度升级。
工具介绍:科大讯飞面向开发者打造的智能化模型精调服务平台,构建起贯穿 “数据 - 模型 - 服务” 全链路的工程化解决方案。平台提供数据增强处理、模型精调优化、效果量化评估及一键部署的的端到端开发能力;同时兼容主流开源模型生态,支持第三方模型托管。基于自研分布式训练架构与智能算力调度系统,结合 LoRA 等高效参数优化技术,平台实现大模型定制化开发...
工具介绍:新一代智能体Agent开发平台,助力开发者快速搭建生产级智能体。
工具介绍:AI办公助手,复杂任务高效处理。办公效率低?扣子空间AI助手支持播客生成、PPT制作、网页开发及报告写作,覆盖科研、商业、舆情等领域的专家Agent 7x24小时响应,生活工作无缝切换,提升50%效率!
工具介绍:支付宝推出的零代码AI应用开发平台,用户通过自然语言指令即可快速创建智能体,无需编程基础。平台集成通义千问、蚂蚁百灵等多种大模型,支持对话交互、文本生成、图片生成等核心功能,并实现支付宝小程序、App等多平台一键发布,满足个人用户、商家及开发者的多样化需求。
工具介绍:NotaGen是由中央音乐学院与清华大学等机构联合研发的AI音乐生成模型,专注于生成高质量古典音乐乐谱,同时支持流行音乐创作。作为开源项目,其目标是推动音乐与人工智能的深度融合,为专业作曲家、教育机构及音乐爱好者提供创作辅助工具。
工具介绍:Monica Bots是一款基于先进AI模型(如 GPT-4、Claude、Gemini 等)的多功能AI助手,能助力用户快速创建和部署智能助手(Bots)的平台,Monica Bots支持跨平台使用,包括浏览器插件(Chrome、Edge、Safari)、桌面端(Windows、macOS)和移动端(iOS、Android)。它集成了聊...
工具介绍:Phantom是一款由字节跳动开源的 AI 视频生成框架,支持通过文本和图像输入生成主题一致、高保真的视频内容。采用跨模态对齐技术,确保人物身份、外观、动作在整个视频中保持统一,适用于虚拟人、电商广告、动画创作等多种场景
工具介绍:Step-Video-T2V是一款由阶跃星辰与吉利汽车联合开源的文本生成视频大模型,支持中英文输入,基于 Video-VAE 与 DiT 架构,具备 300 亿参数,最长可生成 204 帧高质量视频。模型引入 DPO 偏好优化,提升画面一致性与真实感,适用于影视创作、教育内容、游戏设计与 AI 多模态研究等场景,支持本地部署与在线体验。
工具介绍:UIGEN-T1是一款专为生成 HTML 和 CSS 前端组件设计的大型语言模型,通过链式推理自动构建登录页、仪表板、表单等静态 UI 结构。支持自然语言提示,适合低代码平台集成与前端原型设计,无需手写代码即可实现高效界面初稿生成。
工具介绍:RAGFlow是一款开源 RAG 引擎,支持复杂格式文档解析、语义检索与智能问答,兼具多模态理解、引用溯源与代码执行功能,适合构建企业级 AI 助理与知识系统。
工具介绍:WiseDiag-Z1是由杭州智诊科技推出的全科医学通用大语言模型,专为医疗领域设计,具有730亿参数和强大的医学知识库。它在知名的医学大模型主流榜单中名列前茅,适用于大多数复杂场景的健康咨询。
工具介绍:CineMaster是一个3D感知和可控的文本到视频生成框架,旨在帮助用户创建高质量的电影视频。该框架通过两个阶段的工作流程,赋予用户专业电影导演般的控制力,允许他们在 3D 空间中精确地放置场景中的对象,并灵活地操控对象和摄像机。
工具介绍:FireRedASR是一款由FireRedTeam开发的开源工业级自动语音识别(ASR)模型,支持普通话、中文方言和英语。它在公开的普通话 ASR 基准测试中取得了新的最优结果,并且在歌词识别方面表现出色。
工具介绍:FlashVideo是一个由字节跳动和香港大学联合开发的高效高分辨率视频生成框架,特别适用于文本到视频的生成。通过创新的两阶段框架设计和流匹配技术,FlashVideo 能在短时间内生成 1080p 高清视频,优化视频流畅性,并减少计算成本。
工具介绍:YAYI2(雅意2)是中科闻歌推出的新一代开源大语言模型,支持中文、英语等 10 多种语言。基于 Transformer 架构,参数规模达到 30B。YAYI2 采用 2 万亿 Tokens 的高质量语料进行预训练,并结合人类反馈强化学习,确保模型与人类价值观对齐。其多模态交互功能支持图文互生成、PDF 解析等。YAYI2 广泛应用于媒体...
工具介绍:InspireMusic 是由阿里巴巴通义实验室推出的开源音乐生成框架,集成了多项音频领域的前沿研究成果,为开发者和研究者提供全面的音乐创作、风格转换和音效合成解决方案。该框架依托多模态大模型技术,支持通过文本描述或音频输入进行智能化创作,并提供完善的模型调优工具链。
工具介绍:Goku是一个基于流生成的视频生成基础模型,由香港大学和字节跳动研究团队共同开发。Goku 模型主要用于生成高质量的视频内容,尤其在广告和营销场景中表现尤为出色。
工具介绍:JoyGen是一个音频驱动的3D深度感知说话人脸视频生成框架。它通过音频驱动生成嘴唇运动和视觉外观合成,旨在实现精确的嘴唇-音频同步和高视觉质量。
工具介绍:Hibiki是一个Kyutai Labs开发的一个用于流式语音翻译(也称为同步翻译)的模型。与离线翻译不同,离线翻译需要等待源语句结束后才开始翻译,而 Hibiki 能够实时积累足够的上下文,以逐块生成正确的翻译。用户在讲话时,Hibiki 会在目标语言中生成自然的语音,并提供文本翻译。
工具介绍:Loopy是一个端到端音频驱动的视频生成模型,专注于生成逼真的头像动画。利用先进的 AI 技术和时间模块设计,Loopy 能够从音频中提取自然的运动模式,并生成高质量的动画效果。支持多种视觉和音频风格,适用于虚拟主播、动画制作等应用场景。
工具介绍:LMArena AI 是一个专注于众包 AI 基准测试的开放平台,由加州大学伯克利分校 SkyLab 和 LMSYS 研究团队打造。用户可以在平台上免费与 AI 聊天并进行投票,比较和测试不同的 AI 聊天机器人。LMArena AI 提供盲测模式、匿名对战、投票系统和风格控制等功能,确保评估的公平性和客观性。平台还支持多模态功能,允许用...
工具介绍:YuE是由香港科技大学开发的开源音乐生成模型,专注于从给定的歌词生成完整的音乐音频。YuE 支持多种音乐风格和语言,能够生成高质量的声乐和伴奏部分,适用于各种音乐创作需求。通过 YuE,用户可以轻松生成长达 5 分钟的完整歌曲,实现创意音乐制作。
工具介绍:PengChengStarling是由 PengCheng Labs 开发的多语言自动语音识别工具,支持中文、英语、俄语、越南语、日语、泰语、印度尼西亚语和阿拉伯语。相比 Whisper-Large v3,PengChengStarling 的模型仅占其 20% 大小,但推理速度提高了 7 倍,且流式语音识别效果卓越。
工具介绍:Cherry Studio 是一个支持多模型服务的AI桌面客户端,支持 Windows、macOS 和 Linux,未来还将支持移动端。用户可以通过Cherry Studio无缝集成多种大型语言模型 (LLM),包括 OpenAI、Anthropic 和 Gemini 等,甚至本地部署的模型,确保数据隐私和安全。
工具介绍:Tarsier是由字节跳动研发的大规模视频语言模型家族,旨在生成高质量的视频描述,并具备良好的视频理解能力。Tarsier 采用了简单的模型结构,结合了 CLIP-ViT 编码帧和 LLM 模型来建模时间关系。通过精心设计的两阶段训练策略,Tarsier 展现出了强大的视频描述能力和视频理解能力,在多个公共基准测试中取得了最先进的成果。