agent
RAG:
给大模型外挂一个知识库。(Knowledge Base就是一种实现)
- 检索数据源,拼接上下文(拼进prompt)。
- 每次调用都会重复记入token。
- RAG每次只会把检索出的一小部分拼进prompt。(~top-5)
- 检索方式是将文本转为向量,然后计算相似度。(类似KNN)(Knowledge Base使用Open Search实现)
Agent vs RAG:
interact with environment, dynamic interact



Token:
- 模型处理文本的最小单元。
- 一个单词可能被拆成多个token。不能和字节简单对应。
- 价格:
- 成本上 output token 比 input token 高。
- gpt & claude 收费 output 比 input 高。
Rerank:'cohere.rerank-v3-5:0’
- 应用于二阶段检索架构中,用以对初筛的候选文档精细排序。(通常成本较高)
- 是一类功能模型的总称,不限定架构。(具体实现可能是BERT,LLM)
- Embedding - KNN - Reranker 是一种主流做法。
vLLM:部署时使用。目前最先进的推理引擎之一
- 类似Flask应用的Gunicorn。
- 模型训练和推理都需要使用GPU。