核心内容摘要
基于SpringBoot和Vue的篮球管理系统
要求实现如下功能功能headers_to_split_on支出混合的拆块支持 chunk_size、chunk_overlap支持 chunk 元数据markdown 中的代码不拆分支持strip_headers 参数设置
题解思路解析实现思路
分层处理策略 - 第一层使用 MarkdownHeaderTextSplitter 按标题级别分割文本保留标题结构- 第二层对非代码块内容使用 RecursiveCharacterTextSplitter 进行语义分割- 特殊处理识别并完整保留代码块不进行拆分
核心功能实现 - 标题分割 通过 headers_to_split_on 参数定义要分割的标题级别- 混合拆块 结合标题分割和字符分割支持 chunk_size 和 chunk_overlap 参数- 元数据保留 在分割过程中传递和保留文档元数据- 代码块保护 通过检测代码块标记确保代码块完整性
技术要点 - 使用状态机识别代码块的开始和结束- 对普通文本和代码块采用不同的处理策略- 保留原始文档的元数据信息- 支持自定义标题级别和分割参数代码from langchain_text_splitters import MarkdownHeaderTextSplitter,RecursiveCharacterTextSplitter def markdown_split( markdown_text, # 输入的Markdown文本 headers_to_split_onNone, # 要分割的标题级别 chunk_size500, # 单个块最大字符数 chunk_overlap100, # 相邻块重叠字符数 code_block_handlingTrue # 是否保留代码块完整性 ): Markdown文本分割函数 Args: markdown_text: 输入的Markdown文本 headers_to_split_on: 要分割的标题级别格式为[(\#\, \一级标题\), (\##\, \二级标题\)] chunk_size: 单个块最大字符数 chunk_overlap: 相邻块重叠字符数 code_block_handling: 是否保留代码块完整性 Returns: 分割后的Document对象列表 # 默认标题级别 if headers_to_split_on is None: headers_to_split_on [ (#, 一级标题), (##, 二级标题), (###, 三级标题), ] #
使用MarkdownHeaderTextSplitter按标题分割 markdown_splitter MarkdownHeaderTextSplitter( headers_to_split_onheaders_to_split_on, strip_headersFalse, return_each_lineFalse ) # 执行标题分割 header_split_docs markdown_splitter.split_text(markdown_text) #
初始化递归字符分割器用于二次分割长内容 text_splitter RecursiveCharacterTextSplitter( chunk_sizechunk_size, chunk_overlapchunk_overlap, separators[\n\n, \n, 。
, , , , , ], length_functionlen, is_separator_regexFalse ) #