首页速度优化F2B2b不止是简单的订货系统，它是重塑品牌与渠道生产关系的底层操作系统

网站优化

VS1053 MP3模块：从入门到精通的全方位指南

FLUX.1-dev-fp8-dit文生图效果对比：FP8 vs FP16精度下SDXL Prompt风格生成质量差异

coze-loop快速上手：4步操作优化遗留代码，修复潜在Bug

2026-06-08 20:55:49

阅读时长:4分钟

562次阅读

核心内容摘要

基于SpringBoot和Vue的篮球管理系统

要求实现如下功能功能headers_to_split_on支出混合的拆块支持 chunk_size、chunk_overlap支持 chunk 元数据markdown 中的代码不拆分支持strip_headers 参数设置

题解思路解析实现思路

分层处理策略 - 第一层使用 MarkdownHeaderTextSplitter 按标题级别分割文本保留标题结构- 第二层对非代码块内容使用 RecursiveCharacterTextSplitter 进行语义分割- 特殊处理识别并完整保留代码块不进行拆分

核心功能实现 - 标题分割通过 headers_to_split_on 参数定义要分割的标题级别- 混合拆块结合标题分割和字符分割支持 chunk_size 和 chunk_overlap 参数- 元数据保留在分割过程中传递和保留文档元数据- 代码块保护通过检测代码块标记确保代码块完整性

技术要点 - 使用状态机识别代码块的开始和结束- 对普通文本和代码块采用不同的处理策略- 保留原始文档的元数据信息- 支持自定义标题级别和分割参数代码from langchain_text_splitters import MarkdownHeaderTextSplitter,RecursiveCharacterTextSplitter def markdown_split( markdown_text, # 输入的Markdown文本 headers_to_split_onNone, # 要分割的标题级别 chunk_size500, # 单个块最大字符数 chunk_overlap100, # 相邻块重叠字符数 code_block_handlingTrue # 是否保留代码块完整性 ): Markdown文本分割函数 Args: markdown_text: 输入的Markdown文本 headers_to_split_on: 要分割的标题级别格式为[(\#\, \一级标题\), (\##\, \二级标题\)] chunk_size: 单个块最大字符数 chunk_overlap: 相邻块重叠字符数 code_block_handling: 是否保留代码块完整性 Returns: 分割后的Document对象列表 # 默认标题级别 if headers_to_split_on is None: headers_to_split_on [ (#, 一级标题), (##, 二级标题), (###, 三级标题), ] #

使用MarkdownHeaderTextSplitter按标题分割 markdown_splitter MarkdownHeaderTextSplitter( headers_to_split_onheaders_to_split_on, strip_headersFalse, return_each_lineFalse ) # 执行标题分割 header_split_docs markdown_splitter.split_text(markdown_text) #

初始化递归字符分割器用于二次分割长内容 text_splitter RecursiveCharacterTextSplitter( chunk_sizechunk_size, chunk_overlapchunk_overlap, separators[\n\n, \n, 。

, , , , , ], length_functionlen, is_separator_regexFalse ) #

处理每个标题分割后的部分 final_docs [] for doc in header_split_docs: content doc.page_content metadata doc.metadata.copy() # 如果需要保留代码块完整性 if code_block_handling and in content: # 分割代码块和普通文本 parts [] # current_part in_code_block False for line in content.split(\n): if line.startswith(): if in_code_block: # 代码块结束 current_part line \n parts.append((current_part, True)) # True表示是代码块 current_part in_code_block False else: # 代码块开始 if current_part: parts.append((current_part, False)) # False表示普通文本 current_part line \n in_code_block True else: current_part line \n # 处理最后一个部分 if current_part: parts.append((current_part, False)) # 对普通文本进行分割保留代码块完整 for part, is_code in parts: if is_code: # 代码块直接添加不分割 final_docs.append(type(doc)(page_contentpart, metadatametadata)) else: # 普通文本使用递归分割器 sub_docs text_splitter.create_documents([part]) for sub_doc in sub_docs: # 保留原始元数据 sub_doc.metadata metadata.copy() final_docs.append(sub_doc) else: # 不需要保留代码块完整性直接使用递归分割器 sub_docs text_splitter.create_documents([content]) for sub_doc in sub_docs: # 保留原始元数据 sub_doc.metadata metadata.copy() final_docs.append(sub_doc) return final_docs with open(测试数据.md,r,encodingutf-

as f: test_markdownf.read() # 执行分割 result_docs markdown_split( test_markdown, chunk_size200, chunk_overlap50 ) # 输出结果 print( markdown_split 分割结果 ) for i, doc in enumerate(result_docs,

: print(f\n块 {i}:) print(f字符数: {len(doc.page_content)}) print(f元数据: {doc.metadata}) print(f内容:\n{doc.page_content}) print(- *

运行结果数据样例已上传。

黄色软件3.0-黄色软件应用

相关标签

艺术小白必备：MusePublic圣光艺苑简单三步创作指南技术岗面试——你遇到最大的困难/挑战是什么？高分回答 Xinference-v1.17.1应用案例：如何用开源模型提升工作效率电磁兼容仿真：电磁干扰分析_（4）.电路与系统中的电磁干扰建模 ESP32S3实现摄像头实时监控：从GC0308到ST7789 LCD屏的完整指南 ChatTTS WebUI 设置全攻略：从零搭建到生产环境避坑指南题目2265:蓝桥杯2015年第六届真题-移动距离 Qwen-Image-2512-Pixel-Art-LoRA惊艳效果：支持‘pixel art diorama’微缩场景像素建模 AI大模型岗位薪资真相：多少年包能拿到？普通人如何破局？小白必看！Chord视频分析工具保姆级教程：从安装到实战 2026年知网AIGC检测不通过？这3款降AI工具亲测通过率超99% PP-DocLayoutV3效果展示：弯曲装订古籍中‘卷二’竖排标题被紫色框+阅读序号#2标注 flutter组件学习之Flex / Expanded弹性布局组件制造型企业数字化车间建设：数字化车间建设目标、数字化车间建设路线图（六步法策略）、数字化车间通用技术要求

中小企业想做GEO，有哪些坑可以规避？2026年GEO服务筛选完整指南

2026-06-08 20:55:49 6分钟阅读

涉外政务登记，精准识读保障合规办理

2026-06-08 20:55:49 8分钟阅读

JOULWATT杰华特 JW7201DFNK#TRPBF DFN4*3-14 控制器

2026-06-08 20:55:49 4分钟阅读

VS1053 MP3模块：从入门到精通的全方位指南

核心内容摘要

基于SpringBoot和Vue的篮球管理系统

要求实现如下功能功能headers_to_split_on支出混合的拆块支持 chunk_size、chunk_overlap支持 chunk 元数据markdown 中的代码不拆分支持strip_headers 参数设置

题解思路解析实现思路

分层处理策略 - 第一层使用 MarkdownHeaderTextSplitter 按标题级别分割文本保留标题结构- 第二层对非代码块内容使用 RecursiveCharacterTextSplitter 进行语义分割- 特殊处理识别并完整保留代码块不进行拆分

使用MarkdownHeaderTextSplitter按标题分割 markdown_splitter MarkdownHeaderTextSplitter( headers_to_split_onheaders_to_split_on, strip_headersFalse, return_each_lineFalse ) # 执行标题分割 header_split_docs markdown_splitter.split_text(markdown_text) #

初始化递归字符分割器用于二次分割长内容 text_splitter RecursiveCharacterTextSplitter( chunk_sizechunk_size, chunk_overlapchunk_overlap, separators[\n\n, \n, 。

as f: test_markdownf.read() # 执行分割 result_docs markdown_split( test_markdown, chunk_size200, chunk_overlap50 ) # 输出结果 print( markdown_split 分割结果 ) for i, doc in enumerate(result_docs,

: print(f\n块 {i}:) print(f字符数: {len(doc.page_content)}) print(f元数据: {doc.metadata}) print(f内容:\n{doc.page_content}) print(- *

运行结果数据样例已上传。

黄色软件3.0-黄色软件应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

百度百家号客服电话人工服务

VS1053 MP3模块：从入门到精通的全方位指南

核心内容摘要

基于SpringBoot和Vue的篮球管理系统

要求实现如下功能功能headers_to_split_on支出混合的拆块支持 chunk_size、chunk_overlap支持 chunk 元数据markdown 中的代码不拆分支持strip_headers 参数设置

题解思路解析实现思路

分层处理策略 - 第一层使用 MarkdownHeaderTextSplitter 按标题级别分割文本保留标题结构- 第二层对非代码块内容使用 RecursiveCharacterTextSplitter 进行语义分割- 特殊处理识别并完整保留代码块不进行拆分

使用MarkdownHeaderTextSplitter按标题分割 markdown_splitter MarkdownHeaderTextSplitter( headers_to_split_onheaders_to_split_on, strip_headersFalse, return_each_lineFalse ) # 执行标题分割 header_split_docs markdown_splitter.split_text(markdown_text) #

初始化递归字符分割器用于二次分割长内容 text_splitter RecursiveCharacterTextSplitter( chunk_sizechunk_size, chunk_overlapchunk_overlap, separators[\n\n, \n, 。

as f: test_markdownf.read() # 执行分割 result_docs markdown_split( test_markdown, chunk_size200, chunk_overlap50 ) # 输出结果 print( markdown_split 分割结果 ) for i, doc in enumerate(result_docs,

: print(f\n块 {i}:) print(f字符数: {len(doc.page_content)}) print(f元数据: {doc.metadata}) print(f内容:\n{doc.page_content}) print(- *

运行结果数据样例已上传。

黄色软件3.0-黄色软件应用

📑 文章目录

🔥 热门优化文章

🛠️ 实用工具推荐

相关优化文章 推荐

百度百家号客服电话人工服务

相关优化文章推荐