核心内容摘要
从误删到救星:EaseUS Data Recovery Wizard Technician如何成为数据安全的最后防线
全文链接https://tecdat.cn/?p44893原文出处拓端数据部落公众号关于分析师在此对Chang He对本文所作的贡献表示诚挚感谢他在中国中医科学院完成了中医信息学专业的硕士学位专注中医临床数据挖掘领域。
擅长Python、深度学习、临床数据采集与挖掘。
Chang He曾参与多项中医临床数据研究项目聚焦慢性胃炎等常见消化类疾病的中药配伍规律挖掘通过数据技术赋能传统中医用药研究积累了丰富的临床数据处理与模型构建经验。
辅导视频SPSS与Python用Resblock优化BP神经网络分析慢性胃炎病历数据聚类_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1796gBtEvM/?vd_source68cdbac4f03c0504d3e3ade1c4d59e0d专题名称慢性胃炎中药用药规律数据挖掘与AI预测实践引言中医治疗慢性胃炎注重辨证施治与中药配伍传统用药经验多依赖医师传承难以快速提炼普适性规律并实现精准指导。
随着大数据与人工智能技术的发展通过数据挖掘解析病历中的中药配伍逻辑结合神经网络构建用药预测模型成为赋能中医临床诊疗的重要方向。
本文围绕慢性胃炎住院病历数据整合多种数据分析方法与AI模型系统探索中药使用规律与用药预测路径为临床合理用药提供数据支撑。
本文内容改编自过往客户咨询项目的技术沉淀并且已通过实际业务校验该项目完整代码与数据已分享至交流社群。
阅读原文进群可与800行业人士交流成长还提供人工答疑拆解核心原理、代码逻辑与业务适配思路帮大家既懂 怎么做也懂 为什么这么做遇代码运行问题更能享24小时调试支持。
本研究以两家医疗机构的慢性胃炎住院病历为核心数据采用人工、VBA宏与大语言模型结合的方式提取并规范数据通过SPSS系列工具与Python库实现频数分析、聚类分析、关联规则挖掘同时构建含Resblock模块的神经网络模型实现基于临床症状的中药预测。
全文将先梳理数据处理与分析流程再逐一呈现各环节结果最后
总结方法适用性与实际应用价值同步配套核心代码供落地复用兼顾理论性与实操性。
项目文件目录研究方法与技术准备数据来源与处理本研究选取两家医疗机构的慢性胃炎住院病历作为研究对象其中一家机构数据时间范围为2016年1月至2024年5月聚焦中药配伍规律挖掘另一家机构数据时间范围为2013年1月至2021年10月用于神经网络模型构建数据集含2214个样本、364种临床特征及469种中药。
数据提取采用人工、VBA宏与大语言模型协同模式既保障人工校验的准确性又通过工具提升效率。
数据规范化依据《中药学》新世纪版标准统一中药名称、剂量等关键信息为后续分析奠定基础。
核心工具与方法说明分析工具SPSS Modeler
18.
SPSS Statistic
26.
Python
3.
1
5Sklearn、Scipy、Pytorch
2.
1模块上述工具国内均可正常访问使用无替代需求其中Python相关模块可通过镜像源快速安装。
分析方法频数分布分析提炼高频中药与临床特征、聚类分析K-means、AGNES对比不同距离与连接法适用性、关联规则挖掘挖掘中药联用规律、BP神经网络含Resblock模块优化症状到中药的预测精度。
核心代码适配与说明数据提取环节以下代码用于中药名称提取与数据清洗优化变量名与语法结构适配中文文本处理需求省略部分重复数据校验代码import pandas as pd import re # 读取Excel格式的病历数据文件 input_excel 病历数据.xlsx # 替换为实际数据文件路径 data_df pd.read_excel(input_excel) # 定义汉字提取函数过滤非中文内容保留中药名称 def get_chinese_content(text): # 正则表达式匹配中文汉字范围 chinese_characters .join(re.findall(r[\u4e00-\u9fff], str(text))) return chinese_characters # 对中药名称列应用提取函数清洗数据 data_df[中药名称] data_df[中药名称].astype(str).apply(get_chinese_content) # 保存清洗后的数据至新文件 output_excel 清洗后病历数据.xlsx data_df.to_excel(output_excel, indexFalse, engineopenpyxl) print(f数据清洗完成结果已保存至 {output_excel})代码功能针对病历数据中的中药名称列进行清洗提取纯中文内容剔除符号、数字等干扰项保障后续分析数据的规范性。
省略部分为数据去重、空值填充逻辑可根据实际数据质量补充。
研究结果与分析频数分析结果本次分析共涉及281种中药、7375个用药实例平均每张处方开具15种中药。
其中甘草使用频次最高达341次占比
7
49%平均剂量
8g黄精、升麻等51种中药仅使用1次频次最低。
频次排名前20的中药如下表所示高频中药多集中在理气、健脾、清热类别符合慢性胃炎脾胃失调、气滞热蕴的常见病机。
表4 药物频次统计前20位中药频次占比%甘草
3
49%陈皮
2
70%半夏
2
02%白芍
2
69%柴胡
2
48%白术
2
54%黄连
2
28%茯苓
1
51%枳实
1
36%延胡索
1
36%砂仁
1
53%党参
1
27%香附
1
49%黄芩
1
77%厚朴
1
30%丹参
1
21%紫苏梗
1
37%当归
1
16%海螵蛸
1
43%干姜
1
38%中药频次分布如下图所示呈现明显的长尾分布特征少数中药在临床中广泛应用多数中药针对性使用。
相关文章Python预测二型糖尿病逻辑回归、XGBoost、CNN、随机森林及BP神经网络融合加权线性回归细化变量及PCA降维创新原文链接https://tecdat.cn/?p43572聚类分析结果聚类分析核心目标是挖掘中药联用的内在规律对比K-means与AGNES两种聚类方法结合不同距离计算方式与连接法从轮廓系数、临床可解释性等维度评估适用性。
K-means聚类簇数设置为
时通过WSS图组内平方和观察簇数适配性拐点虽不明显但簇数为
2、
3、
9时WSS下降趋势变缓簇数适中。
表5 不同簇数的K-means聚类平均轮廓系数簇数量簇样本量平均轮廓系数
212290.
1490353060.
125253249230.
0
0581当簇数设为9时各簇样本轮廓系数表现较好通过PCA降维可视化聚类结果如下K-means聚类结果临床可解释性较强平均评分
67分仅簇2可解释性较低2分。
各簇对应不同病机的用药方案如簇0含延胡索、砂仁等与香砂六君子汤核心组分契合适配脾气虚兼气滞证簇1含黄芩、干姜等对应气血阳虚、湿热蕴结的复杂病机。
表6 K-means聚类结果簇名中药可解释性评分0延胡索砂仁党参木香51黄芩干姜桂枝黄芪生姜大枣52黄连枳实厚朴海螵蛸六神曲吴茱萸佩兰竹茹苍术浙贝母瓜蒌白及鸡内金麦芽14味23香附紫苏梗54白芍柴胡55陈皮半夏56丹参、当归、川芎、枳壳、百合、乌药、豆蔻、酸枣仁8味57白术、茯苓58甘草5AGNES聚类不同连接法对比欧氏距离最长距离法簇数设为9时平均轮廓系数
0803临床可解释性评分
11分部分簇中药组合对应明确诊疗需求如簇0含香附、紫苏梗等侧重理气活血。
欧氏距离最短距离法簇数设为12时平均轮廓系数
0637但临床可解释性仅
33分多数簇仅含单味药难以提炼联用规律。
欧氏距离组间平均连接法簇数设为12时平均轮廓系数
0901临床可解释性3分兼顾聚类效果与规律提取如簇1枳实、厚朴、簇2白芍、柴胡均为临床常用配伍。
聚类分析核心代码AGNES方法以下代码优化变量名与注释适配聚类分析需求省略部分图表美化与结果导出代码同时提供24小时应急修复服务代码运行异常可快速响应效率较自行调试提升40%import numpy as np import matplotlib.pyplot as plt from sklearn.cluster import AgglomerativeClustering from scipy.cluster.hierarchy import dendrogram, linkage from sklearn.metrics import silhouette_score import pandas as pd # 读取预处理后的中药数据 data_path 中药数据.xlsx df pd.read_excel(data_path, usecolsA:RJ, nrows
labels df.iloc[:, 0].values # 提取样本标签中药名称 data df.iloc[:, 1:].to_numpy() # 提取特征数据 cluster_num 12 # 设定簇数 try: print(f开始聚类分析簇数设置为 {cluster_num}) # 初始化AGNES聚类器欧氏距离组间平均连接法 agnes_cluster AgglomerativeClustering(n_clusterscluster_num, affinityeuclidean, linkageaverage) cluster_results agnes_cluster.fit_predict(data) # 计算平均轮廓系数评估聚类效果 avg_silhouette silhouette_score(data, cluster_results, metriceuclidean) print(f簇数{cluster_num}时平均轮廓系数{avg_silhouette}) # 绘制树状图 linked_matrix linkage(data, methodaverage, metriceuclidean) plt.figure(figsize(12,
) dendrogram(linked_matrix, orientationtop, labelslabels, show_leaf_countsTrue) plt.title(层次聚类树状图) plt.xlabel(样本标签) plt.ylabel(距离阈值) plt.show() ... # 省略轮廓系数分布图绘制与结果保存代码 except Exception as e: print(f聚类分析过程中出现异常{e})关联规则挖掘结果设置最小前项支持度
0.
最小置信度
8共得到451条关联规则最高项数6项其中项数4的规则最多210条项数2的规则最少10条。
规则支持度与置信度前10名的关联规则临床可解释性均为满分契合中医用药理论。
支持度前5的关联规则中“党参→甘草”支持度最高
2
560%二者为临床健脾益气常用配伍“茯苓、陈皮→半夏”支持度
2
367%对应痰湿内阻型慢性胃炎的用药方案。
置信度前5的关联规则中“吴茱萸、陈皮→黄连”置信度达
9
276%吴茱萸温肝暖胃黄连清热燥湿二者配伍符合寒热错杂证的诊疗逻辑“延胡索、茯苓、半夏→陈皮”置信度
9
077%体现理气止痛、健脾化痰的联用思路。
神经网络构建与结果模型设计基于临床特征预测中药使用构建含2个Resblock模块与1个全连接层的BP神经网络Resblock模块通过跳跃连接缓解梯度消失问题提升模型训练效果。
模型输入为364种临床特征输出为469种中药的预测概率Resblock输出采用Leaky ReLU激活函数最终输出采用Sigmoid激活函数适配多标签分类需求。
特征与标签选择临床特征频次前3位为烧心
6
69%、口干
6
92%、夜寐欠安
6
34%均为慢性胃炎常见症状中药标签选取覆盖高、中、低频药物共12种验证不同频次药物的预测效果。
模型结果与评估采用二折交叉验证评估模型性能F1值为
4
54%多数标签F1值波动幅度控制在
017以内模型稳定性较强。
其中“黄芩”“陈皮、柴胡”等标签F1值超过50%预测效果较好“佩兰、黄芩”标签预测稳定性较差可能与该组合临床应用场景差异较大有关。
高频药物黄芩预测F1值最高
5
42%特征明确易被模型捕捉白芍虽为高频药物但召回率仅
0799呈现“高精低召”特征提示其应用场景多样性导致模型难以全面识别低频药物占比1%因样本量极少模型多预测为阴性F1值无法计算需通过数据扩充优化。
总结与应用建议本研究通过多种数据分析方法与AI模型系统挖掘了慢性胃炎中药用药规律构建了症状到中药的预测模型核心结论与建议如下用药规律甘草、陈皮、半夏等为慢性胃炎核心用药多以理气、健脾、清热类中药联用为主关联规则挖掘出的高频组合可作为临床用药参考。
方法适配K-means聚类在临床可解释性上优于AGNES欧氏距离组间平均连接法可作为AGNES聚类的优选参数为同类研究提供方法借鉴。
模型优化Resblock优化的BP神经网络可实现中药预测但需针对低频药物扩充样本优化标签设计提升模型泛化能力。
临床应用研究结果可辅助医师快速制定用药方案尤其为年轻医师提供配伍参考同时模型可作为中医用药教学的辅助工具。
本研究所有代码与数据已同步至交流社群提供人工答疑与24小时代码调试服务助力临床数据挖掘爱好者快速落地实践。
后续可结合更多医疗机构数据优化模型参数进一步提升结果的临床适配性。