LLM路由平台,聚合多厂商免费模型。2026年5月最新免费模型包括Owl Alpha、NVIDIA Nemotron 3 Super、OpenAI gpt-oss-120b、DeepSeek V4 Flash等28个免费文本模型。
顶级模型Owl Alpha (free)
免费限制20 RPM, 200 RPD
免费套餐多模型OpenAI兼容免信用卡
Google AI Studio 是基于网页的原型开发环境,2025年12月免费额度大幅缩减50-80%。Gemini 2.5 Pro免费层限制为5 RPM/100 RPD,Gemini 2.5 Flash为15 RPM/500 RPD。支持多模态输入,适合快速原型开发。
顶级模型Gemini 2.5 Pro
免费限制Gemini 2.5 Pro: 5 RPM, 100 RPD; Gemini 2.5 Flash: 15 RPM, 500 RPD
免费套餐多模态Rate Limited原型设计
200+开源模型平台。新账户$25免费额度,68个模型永久免费。支持Llama 3.3 70B、Qwen 2.5、Mistral等生产级模型。OpenAI兼容API。
顶级模型Llama 3.3 70B (Free)
免费限制60 RPM, 100K TPM, $25免费额度
$25免费额度68+免费模型OpenAI兼容生产就绪
M
Mistral (La Plateforme)✓
Mistral AI
API服务
欧洲AI巨头Mistral的实验计划。需手机号验证+同意数据训练。免费层支持1请求/秒速率,500K TPM,每模型每月约1B Token。开放Mistral 7B、Mixtral 8x7B、Mistral Nemo等模型。
顶级模型Mistral 7B
免费限制Experiment计划: 1请求/秒, 500K TPM, 每模型1B Token/月
免费套餐欧洲AI需手机号OpenAI兼容
本地 AI 的标准。直接在 Mac、Linux 或 Windows 机器上运行 Llama 3、Mistral、Gemma 和数百个其他模型。完全隐私、零成本、支持离线使用。
顶级模型Llama 3.2 3B
免费限制受硬件限制
本地AI隐私离线Mac/Linux/Win
发现、下载和运行本地大语言模型的最简单方式。拥有精美的 UI、GPU 卸载功能,以及内置的模拟 OpenAI API 的本地服务器。非常适合非技术用户。
顶级模型Llama 3.1 (Any Size)
免费限制受硬件限制
图形界面易用Windows/Mac发现
H
Hugging Face Inference✓
Hugging Face
API服务
Hugging Face无服务器推理API,可访问200+模型。每月约$0.10免费额度,普通用户每小时约几百次请求。适合快速原型测试,不支持大规模生产环境。
顶级模型Llama 3.2 11B Vision
免费限制~$0.10/月免费额度, 约每小时几百次请求
免费套餐200+模型开源原型设计
企业级NLP平台。试用密钥每月1000次免费调用(Chat 20 RPM, Embed 5 RPM),支持Command R/R+、Embed v3、Rerank 3等全套模型。适合RAG和企业应用原型开发。
顶级模型Command R+ (08-2024)
免费限制试用密钥: 1000次调用/月, Chat 20 RPM
1000次/月检索增强企业模型嵌入向量
一行代码即可运行开源模型。提供数千个模型,从 LLM 到 Stable Diffusion,全部运行在可扩展的 GPU 基础设施上。
顶级模型meta/llama-3-70b-instruct
免费限制因模型而异
开源中心图像生成微调可扩展
最快的生成式 AI 生产平台。以极快的速度和效率运行开源模型,专精于函数调用和 JSON 模式。
顶级模型Llama 3.3 70B Instruct
免费限制600 RPM
快速推理开源函数调用生产就绪
NVIDIA 推理微服务。使用免费额度访问各种开源模型,需要手机号验证。
顶级模型Various Open Models
免费限制40 requests/minute
免费额度NVIDIA GPU开放模型
隐私优先的 AI 推理服务。Venice 保证 100% 隐私,无数据记录,在去中心化 GPU 节点上运行开放权重模型。
顶级模型Llama 3.1 405B
免费限制10 RPM (free tier)
隐私优先无日志去中心化无审查
通过 GitHub 模型市场免费访问 GPT-4o、Llama、Mistral 等模型。需要 GitHub 账户,限制因 Copilot 等级而异。
顶级模型GPT-4o
免费限制因 Copilot 等级而异
免费套餐Restrictive Limits多模型
A
Anthropic Claude API✓
Anthropic
试用额度
Claude系列模型的API访问。新账户注册即送约$5免费额度(一次性,非持续免费层),支持Haiku 4.5($0.80/$4每百万Token)、Sonnet 4.6($3/$15)、Opus 4.6($15/$75)。需手机号验证。
顶级模型Claude Haiku 4.5
免费限制~$5免费试用额度(一次性), 需手机号验证
~$5试用额度需手机号一次性额度前沿模型
S
SambaNova Cloud✓
SambaNova
试用额度
自研RDU硬件加速推理。新账户$5免费额度(约3000万Token),免费层支持DeepSeek、Llama 3.3 70B等模型(20 RPM/20 RPD/200K TPD)。OpenAI兼容API。
顶级模型DeepSeek-V3.1
免费限制免费层: 20 RPM/20 RPD/200K TPD; $5免费额度(3个月有效)
$5免费额度RDU硬件快速推理OpenAI兼容
去中心化 AI 推理网络。以极低的成本访问 Llama 3.1 405B 和 DeepSeek V3 等顶级开源模型。
顶级模型Llama 3.1 405B Instruct
免费限制60 RPM
去中心化Web3Llama 3.1 405BDeepSeek
高效的 AI 推理工作室。以低延迟和具有成本效益的定价访问广泛的开源模型。
顶级模型Llama 3.1 70B
免费限制60 RPM
高效工作室开源低延迟
注册送 16 元代金券,提供 Qwen、DeepSeek 等众多免费模型(调用费用 ¥0),兼容 OpenAI API 格式。需实名认证后方可使用免费模型。
顶级模型Qwen
免费限制注册送 16 元代金券,众多免费模型调用费用 ¥0,需实名认证
真正免费OpenAI兼容中文免信用卡
★ 社区精选
Cerebras 系统提供全球最快的 AI 推理服务,由晶圆级引擎(WSE-3)驱动。为 Llama 等开源模型提供即时响应速度,是实时应用和复杂推理任务的理想选择。
顶级模型Llama 3.1 8B (Fast)
免费限制30 RPM
真正免费社区精选最快推理即时响应
在桌面上本地运行开源 AI。Jan 是一个 100% 离线运行的 ChatGPT 替代品,注重隐私,提供 OpenAI 兼容的本地服务器。
顶级模型Llama 3 (Local)
免费限制依赖硬件性能
本地AI离线隐私桌面应用
面向开发者的 AI 基础设施。提供包括 Llama 和 Mistral 在内的多种开源模型,注重稳定性和易用性。
顶级模型Llama 3.1 8B Instruct
免费限制60 RPM
基础设施稳定开放模型Developer Focused
LPU推理引擎,全球最快推理速度。免费计划支持Llama 3.1 8B(30RPM/14.4K RPD)、Llama 3.3 70B(30RPM/1K RPD)、Qwen3 32B(60RPM/1K RPD)等模型。OpenAI兼容API。
顶级模型Llama 3.1 8B Instant
免费限制Llama 8B: 30RPM/14.4K RPD; Llama 70B: 30RPM/1K RPD; Qwen3: 60RPM/1K RPD
免费套餐最快推理OpenAI兼容免信用卡
美团推出的 AI API 开放平台。公测阶段暂不支持付费购买额度,通用/思考/Omni/Chat-2602-Exp 每账号每天 50 万 Token,Flash-Lite 每天 5000 万 Token。LongCat-2.0-Preview 需每天早上 9 点限量申请,获批后初始额度 500 万 Token/天且可通过提交有效反馈刷新额度。
顶级模型LongCat-2.0-Preview
免费限制通用/思考/Omni 每天 50 万 Token;Flash-Lite 每天 5000 万 Token;LongCat-2.0 每天 500 万 Token(需申请)
真正免费免信用卡中文企业级
S
Scaleway Generative APIs✓
Scaleway
试用额度
欧洲云提供商,提供托管生成式 AI API。托管 Mistral、Llama 和 Qwen 模型,完全符合 GDPR 和数据主权要求。
顶级模型Mistral Large
免费限制60 RPM
EuropeanGDPR合规主权云托管API
免费使用、本地运行、注重隐私的聊天机器人。无需 GPU 或网络,使用 CPU 量化技术在主流消费级硬件上运行。
CPU推理本地部署Nomic简单
新注册送 30 天 Pro 会员(300 刀 GPT API 额度,约 3 亿 Token)。为防止薅羊毛,5H 限流 10 刀,300 刀额度分 4 周发放。包含 input 和 output。
顶级模型GPT-4o
免费限制新注册送 30 天 Pro 会员(300 刀额度,约 3 亿 Token),5H 限流 10 刀,分 4 周发放
试用额度多模型OpenAI兼容免信用卡
用单个文件分发和运行大语言模型。Llamafile 将 llama.cpp 与 Cosmopolitan Libc 结合,创建可在任何地方运行的跨平台可执行文件。
单文件跨平台Mozilla服务器
小米官方限时活动,面向全球 AI 开发者免费发放 100 万亿 Token,可用于 Claude Code、Cursor 等编程工具,需审核申请。
顶级模型Claude Code
免费限制限时活动,面向全球 AI 开发者免费发放 100 万亿 Token,需审核申请
试用额度中文企业级限时
单文件 GGUF 推理引擎,面向大语言模型。专注于故事创作和角色扮演,具有丰富的上下文管理和世界信息功能。
顶级模型Any GGUF Model
免费限制依赖硬件性能
角色扮演GGUF本地部署故事创作
l
llama.cpp✓
Georgi Gerganov
本地部署
Facebook LLaMA 模型的 C/C++ 移植版本。 foundational 项目,使在消费级硬件(Mac、Windows、Linux、Android)上高性能运行大语言模型成为可能。
顶级模型Any GGUF Model
免费限制依赖硬件性能
核心行动性能C++
Q
Qwen (Alibaba)✓
Alibaba Cloud
试用额度
阿里云企业级 AI 平台。通义千问(Qwen)模型家族的大本营,在编程和数学方面提供最先进的性能。
通义千问企业级亚洲语言编程
Jamba 模型家族的创造者,全球首个生产级 Mamba 架构大语言模型。提供超大上下文窗口和高吞吐量。新用户可获得 10 美元免费额度。
顶级模型Jamba 1.5 Large
免费限制100 RPM
$10额度Mamba架构长上下文Jamba
面向开发者的 AI 应用构建平台。为 Llama、Mistral、Stable Diffusion 等开源模型提供简单、标准的 API,支持自动扩展。
顶级模型Llama 3.1 70B
免费限制60 RPM
开发者友好自动扩展Python风格标准API
专注于文档理解(DUS)和 Solar 大模型的领先 AI 公司。Solar Pro 以卓越的速度和效率提供 GPT-4 级别的性能。
Solar大模型文档理解韩语/英语速度
T
Text Generation WebUI✓
Oobabooga
本地部署
本地大语言模型的瑞士军刀。高度可定制的 Gradio 界面,用于本地运行 Llama、GPT-J、OPT 和 GALACTICA 等大型语言模型。
顶级模型Any Local Model
免费限制依赖硬件性能
高级扩展Gradio一体化
零一万物旗舰开源模型。Yi-Large 提供 GPT-4 级别的性能,具备强大的推理能力和 20 万 Token 上下文窗口。
Yi系列01.AI强推理开放权重
DeepSeek-V4系列的创造者,开源推理模型突破者。新账户注册即送500万免费Token,API与OpenAI兼容,额度用完后价格极具竞争力(缓存命中$0.028/百万Token)。
顶级模型DeepSeek-V3
免费限制500万免费Token(约30天有效期)
500万TokenDeepSeek-R1推理OpenAI兼容
为速度和控制而构建的推理平台,支持在任何地方部署任何 AI/ML 模型,提供定制优化、高效扩展和简化操作。为简化推理基础设施提供完整解决方案,同时完全控制部署。
顶级模型Llama 3 8B Instruct
免费限制依赖硬件性能
推理部署模型服务LLM服务
字节跳动的 AI 平台,免费提供构建和部署 AI 聊天机器人和智能体。为多个模型(包括 GPT-4o 和 Gemini)提供免费 API 访问和慷慨限制。
顶级模型GPT-4o (via Coze)
免费限制因模型而异
免费套餐机器人构建智能体平台多模型
O
OVH AI Endpoints✓
OVHcloud
API服务
★ 社区精选
OVHcloud 的 AI 端点(测试版)。访问托管在欧洲的开源模型,包括 Qwen3Guard、音频和图像生成模型。
顶级模型Qwen3Guard-Gen-0.6B (Beta)
免费限制2 RPM (Anonymous) / 400 RPM (Auth)
免费配额测试版欧洲托管社区精选
AI 模型的无服务器 GPU 基础设施。几分钟内部署任何模型,自动扩展。新用户可获得 30 美元免费计算额度。
顶级模型Any HuggingFace Model
免费限制按秒计费
$30额度Serverless GPUCustom DeployAuto-Scaling
C
Cloudflare Workers AI✓
Cloudflare
API服务
在 Cloudflare 全球网络上运行 AI 模型。Workers AI 每天提供 10,000 个神经元的慷慨免费套餐,涵盖数十个开源模型,包括 Llama、Mistral 等。无需信用卡。
顶级模型Llama 3.1 8B Instruct
免费限制因模型而异
免费套餐边缘计算全球网络免信用卡
高性价比推理平台,注册即送 5 美元免费额度。托管 40 多个开源模型,提供 OpenAI 兼容 API。以可靠的正常运行时间和具有竞争力的价格著称。
顶级模型Llama 3.1 405B Instruct
免费限制60 RPM (varies by model)
$5额度OpenAI兼容40+模型可靠
企业级无服务器推理,提供 10 美元免费试用额度。针对延迟和吞吐量优化,支持主流开源模型。OpenAI 兼容 API。
顶级模型Llama 3.1 70B Instruct
免费限制60 RPM
$10额度低延迟企业级OpenAI兼容
内置免费套餐的 AI 网关和路由器。在多个提供商之间路由请求,支持自动故障转移、缓存和负载均衡。每月包含免费额度。
顶级模型GPT-4o (via routing)
免费限制60 RPM
AI路由器故障转移缓存多提供商
开源模型的免费 GPU 推理。Chutes 在捐赠和闲置的 GPU 容量上运行模型,真正免费提供 Llama 3.1、DeepSeek 等模型。
顶级模型DeepSeek-R1
免费限制视社区容量而定
免费套餐社区GPU开放模型DeepSeek R1
开源模型的免费无服务器推理。通过 OpenAI 兼容 API 访问 Llama、Mistral 等模型,免费套餐慷慨。简单、开发者友好的平台。
顶级模型Llama 3.1 70B Instruct
免费限制30 RPM
免费套餐无服务器OpenAI兼容简洁
xAI 的 Grok 模型,免费 API 套餐慷慨:每月 25 美元免费额度,按月续期。通过 OpenAI 兼容 API 访问 Grok-2 和 Grok-2 Mini。强大的推理能力和实时知识。
$25/月免费Grok-2OpenAI兼容推理
I
Inference.net✓
Inference.net
API服务
去中心化 GPU 网络,为开源模型提供免费推理。基于分布式计算构建,免费提供 Llama、DeepSeek 等模型的可靠访问。
顶级模型DeepSeek-R1
免费限制30 RPM (fair use)
免费套餐去中心化开放模型免信用卡
免费的大语言模型批处理推理 API。针对高吞吐量批处理优化,支持 Llama、Mistral、DeepSeek 等模型。零成本批量文本处理的完美选择。
顶级模型Llama 3.1 405B Instruct
免费限制基于批处理(异步)
免费套餐批处理高吞吐开放模型