agent

RAG:

给大模型外挂一个知识库。(Knowledge Base就是一种实现)

Agent vs RAG:

interact with environment, dynamic interact

Token:

Rerank:'cohere.rerank-v3-5:0’

vLLM:部署时使用。目前最先进的推理引擎之一