LangChain 大模型应用开发框架：从 RAG 到 Agent 的完整指南 -

在AI大模型时代，Python以23.08%的市场份额连续五年稳居编程语言榜首，在AI、数据科学、深度学习等前沿技术中的应用尤为广泛。而LangChain作为一个基于大语言模型(LLM)的应用程序开发框架，提供了一整套工具、组件和接口，简化了创建大模型应用程序的过程，已经成为大模型应用开发的事实标准。本文将从零到一地介绍如何使用LangChain构建从检索增强生成(RAG)到智能代理(Agent)的完整应用。

一、LangChain的核心价值

1. 为什么需要LangChain

直接调用LLM API只能实现基础的文本生成功能。但在实际应用中，我们需要：

与外部数据交互：让大模型能够理解和处理特定领域的知识
集成多个LLM：在不同场景使用不同的模型
添加工具支持：让大模型能够调用计算器、搜索引擎等外部工具
管理上下文：维护对话历史和状态
处理复杂流程：组织多步骤的操作流程

LangChain正是为了解决这些问题而诞生的。LangChain可以将LLM模型、向量数据库、交互层Prompt、外部知识、外部工具整合到一起，进而可以自由构建LLM应用。

2. LangChain的架构组成

# LangChain核心组件
from langchain.chat_models import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain.schema.output_parser import StrOutputParser
from langchain.memory import ConversationBufferMemory

# Models：选择大语言模型
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0.7)

# Prompts：设计提示模板
prompt = ChatPromptTemplate.from_template(
    "You are a helpful assistant. Answer the following question: {question}"
)

# Output Parser：解析输出
output_parser = StrOutputParser()

# Memory：保存对话历史
memory = ConversationBufferMemory()

# Chain：组织流程
chain = prompt | llm | output_parser

二、从基础到高级的完整应用

1. 基础的LLM链式调用

from langchain.chat_models import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from langchain.schema.output_parser import StrOutputParser

# 创建LLM
llm = ChatOpenAI(model_name="gpt-4", temperature=0)

# 定义提示模板
template = """请根据以下信息回答问题：
信息：{context}
问题：{question}
回答："""

prompt = ChatPromptTemplate.from_template(template)

# 组建链
chain = prompt | llm | StrOutputParser()

# 执行
result = chain.invoke({
    "context": "Python是一门高级编程语言",
    "question": "Python是什么？"
})

2. 检索增强生成(RAG)

RAG是当前最流行的大模型应用模式，允许大模型基于特定文档进行回答：

from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQA

# 1. 加载文档
loader = PyPDFLoader("document.pdf")
documents = loader.load()

# 2. 分割文本
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200
)
splits = text_splitter.split_documents(documents)

# 3. 创建向量存储
embeddings = OpenAIEmbeddings()
vectorstore = Chroma.from_documents(splits, embeddings)

# 4. 创建检索链
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever()
)

# 5. 执行查询
result = qa_chain.run("文档中讲了什么内容？")

3. 智能Agent(代理)

Agent是LangChain中最强大的功能，允许大模型根据任务自主决定调用哪些工具：

from langchain.agents import tool, initialize_agent, AgentType
from langchain.chat_models import ChatOpenAI
import asyncio

llm = ChatOpenAI(model_name="gpt-4", temperature=0)

# 定义工具
@tool
def get_weather(location: str) -> str:
    """获取指定城市的天气信息"""
    returnf"{location}今天天气晴朗，温度25°C"

@tool
def calculate(expression: str) -> float:
    """执行数学计算"""
    return eval(expression)

# 初始化Agent
tools = [get_weather, calculate]
agent = initialize_agent(
    tools,
    llm,
    agent=AgentType.CHAT_ZERO_SHOT_REACT_DESCRIPTION,
    verbose=True
)

# 执行任务
result = agent.run("北京今天天气怎么样？然后告诉我25乘以3等于多少？")

4. 多链编排

对于复杂应用，需要多个链相互协作：

from langchain.chains import SequentialChain, LLMChain
from langchain.prompts import PromptTemplate

# 链1：总结
summary_template = "请用一句话总结以下内容：{text}"
summary_prompt = PromptTemplate(input_variables=["text"], template=summary_template)
summary_chain = LLMChain(llm=llm, prompt=summary_prompt)

# 链2：翻译
translate_template = "请将以下内容翻译成英文：{summary}"
translate_prompt = PromptTemplate(input_variables=["summary"], template=translate_template)
translate_chain = LLMChain(llm=llm, prompt=translate_prompt)

# 组织成顺序链
sequential_chain = SequentialChain(
    chains=[summary_chain, translate_chain],
    input_variables=["text"],
    output_variables=["summary", "output"]
)

# 执行
result = sequential_chain({"text": "很长的文本内容..."})

三、LangChain的性能优化

1. 使用缓存减少API调用

from langchain.cache import SQLiteCache
from langchain.globals import set_llm_cache
import langchain

# 配置缓存
set_llm_cache(SQLiteCache(database_path=".langchain.db"))

# 之后的相同查询会从缓存中获取

2. 流式处理大型文档

# 使用流式处理而不是一次性加载
for chunk in chain.stream({"question": "问题"}):
    print(chunk, end="", flush=True)

3. 批量处理

# 批量执行多个查询
questions = ["问题1", "问题2", "问题3"]
results = chain.batch([{"question": q} for q in questions])

四、常见的应用场景

场景1：知识库问答系统

# 构建企业知识库问答系统
from langchain.chains import RetrievalQA

knowledge_qa = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=knowledge_base_vectorstore.as_retriever(),
    return_source_documents=True  # 返回源文档
)

场景2：自动化数据分析

# 让Agent自主分析数据
@tool
def analyze_data(file_path: str) -> str:
    """分析CSV文件"""
    import pandas as pd
    df = pd.read_csv(file_path)
    return df.describe().to_string()

# Agent会自主决定何时调用此工具

场景3：多步骤工作流自动化

# 自动完成复杂的业务流程
complex_agent = initialize_agent(
    tools=[database_tool, email_tool, file_tool],
    llm=llm,
    agent=AgentType.CHAT_CONVERSATIONAL_REACT_DESCRIPTION,
    memory=ConversationBufferMemory()
)

五、结尾

LangChain不仅降低了大模型应用开发的门槛，更重要的是它提供了一套完整的、可扩展的框架。从简单的文本生成到复杂的多工具编排，LangChain都提供了相应的支持。LangChain的Agent概念是其精髓所在，通过让大模型自主决定调用哪些工具，可以实现真正的”智能”应用。随着大模型技术的不断发展和成熟，LangChain这样的框架将在产业应用中扮演越来越重要的角色。

文章来自：51CTO

LangChain 大模型应用开发框架：从 RAG 到 Agent 的完整指南

作者yinhua

一、LangChain的核心价值

1. 为什么需要LangChain

2. LangChain的架构组成

二、从基础到高级的完整应用

1. 基础的LLM链式调用

2. 检索增强生成(RAG)

3. 智能Agent(代理)

4. 多链编排

三、LangChain的性能优化

1. 使用缓存减少API调用

2. 流式处理大型文档

3. 批量处理

四、常见的应用场景

五、结尾

作者 yinhua

相关文章

折腾一晚上，我让OpenClaw把微信公众号的文章搬运到飞书了

OpenCode：最佳的 Claude 代码替代方案

为了挤出AI预算，CIO们正在疯狂“拆东墙”：牺牲稳定性值吗？

发表回复取消回复

您错过的

折腾一晚上，我让OpenClaw把微信公众号的文章搬运到飞书了

OpenCode：最佳的 Claude 代码替代方案

为了挤出AI预算，CIO们正在疯狂“拆东墙”：牺牲稳定性值吗？

AI 真能做研究吗？UniPat AI开源UniScientist，用30B小模型给出肯定答案

作者yinhua

一、LangChain的核心价值

1. 为什么需要LangChain

2. LangChain的架构组成

二、从基础到高级的完整应用

1. 基础的LLM链式调用

2. 检索增强生成(RAG)

3. 智能Agent(代理)

4. 多链编排

三、LangChain的性能优化

1. 使用缓存减少API调用

2. 流式处理大型文档

3. 批量处理

四、常见的应用场景

五、结尾

作者 yinhua

相关文章

发表回复 取消回复

您错过的

发表回复取消回复