技术栈

大模型的调用方式可根据部署场景和工具分为以下三类：

1. API 调用（云端服务）

核心方式：通过 HTTP 请求调用云端大模型服务。
典型场景：
- 调用 OpenAI GPT、Anthropic Claude、Google PaLM 等商业模型。
- 企业自建大模型服务对外提供 API。
关键步骤：
- 认证：使用 API Key、Token 或 OAuth 验证身份。
- 参数配置：设置 max_tokens、temperature 等生成参数。
- 结果处理：解析 JSON 返回的文本、概率或嵌入向量。
工具示例：
- 直接调用 RESTful API（如 requests 库）。
- 使用官方 SDK（如 openai、google-generativeai 库）。
- 异步调用（如 aiohttp 或异步 SDK）。

2. 本地加载（私有化部署）

核心方式：将模型文件下载到本地设备，通过本地计算资源推理。
典型场景：
- 运行开源模型（如 LLaMA、Falcon、Alpaca）。
- 数据敏感或网络隔离环境下的离线推理。
关键步骤：
- 模型格式：加载 GGML、HuggingFace .bin 或 PyTorch .pt 文件。
- 硬件要求：依赖 GPU 显存（如 CUDA）或 CPU 量化推理。
- 推理库：使用 transformers、llama.cpp 或 vLLM 等工具。
优缺点：
- 优点：数据隐私性强、支持离线使用、可自定义微调。
- 缺点：硬件成本高、部署复杂度较高。

3. 框架工具（Pipeline & Orchestration）

核心方式：通过高级框架简化模型调用与流程编排。
典型工具：
- HuggingFace Transformers：提供统一接口加载本地或远端模型（如 pipeline('text-generation', model='gpt2')）。
- LangChain：支持链式调用（如 LLMChain）、工具集成（检索、代码执行）及多模型协作。
- LlamaIndex：专长于数据索引（如文档分块、向量检索）与大模型结合。
- vLLM：针对生产环境的高吞吐量推理服务。
优势：快速构建复杂应用（如知识问答、Agent 系统），减少底层代码开发。

总结对比

调用方式	适用场景	优点	缺点
API	快速接入、轻量化	免部署、按需付费	依赖网络、数据出境风险
本地加载	数据隐私、定制化需求	离线可用、模型可控	硬件成本高、需技术维护
框架工具	复杂应用开发	模块化设计、生态丰富	学习成本较高、依赖框架兼容性

根据需求选择：优先 API 验证原型，本地部署保障数据安全，框架工具构建复杂系统。