项目简介
GPT-OSS 是 OpenAI 推出的开源 GPT 服务框架,旨在帮助开发者和企业快速搭建本地化、可扩展的 GPT 服务。GPT-OSS 支持主流开源大模型(如 Llama、Qwen、Mistral、Gemma 等),兼容 OpenAI API 标准,具备高性能推理、插件扩展、模型管理、权限控制等能力,适用于智能问答、内容生成、RAG、Agent、企业知识库等多种场景。
主要特性:
- 支持多种开源大模型,易于切换和管理
- 兼容 OpenAI API,方便迁移和集成
- 高性能推理,支持多 GPU、分布式部署
- 插件化扩展,支持自定义工具、函数调用、RAG 等
- 权限管理与审计,适配企业级安全需求
- 易用的前端界面与 API,支持二次开发
快速上手
1. 环境准备
建议使用 Python 3.9+,推荐 Linux/Mac 环境,需安装 CUDA(如使用 GPU)。
git clone https://github.com/openai/gpt-oss.git
cd gpt-oss
pip install -r requirements.txt
2. 下载并配置模型
GPT-OSS 支持 HuggingFace Transformers 格式模型。以 Llama-2 为例:
# 下载模型权重(需自行获取)
mkdir models
cp llama-2-7b-chat models/
在 config.yaml
中配置模型路径:
models:
- name: llama-2-7b-chat
path: ./models/llama-2-7b-chat
type: llama
device: cuda
3. 启动服务
python server.py --config config.yaml
默认启动本地 API 服务,兼容 OpenAI API 标准,端口为 8000。
4. 调用 API
OpenAI API 兼容调用
import openai
openai.api_base = "http://localhost:8000/v1"
openai.api_key = "your-key" # 可选
resp = openai.ChatCompletion.create(
model="llama-2-7b-chat",
messages=[{
"role": "user", "content": "你好,GPT-OSS 有哪些优势?"}]
)
print(resp.choices[0].message.content)
RESTful API 调用
curl -X POST http://localhost:8000/v1/chat/completions