核心内容摘要
肖雅婷单挑榜一大战视频:揭秘网络热议背后的真相!
pandas形象地来说pandas 是 Python 里专门用来处理“表格型数据”的 “超级工具包”。
为什么机器学习离不开它机器学习的第一步是数据预处理而pandas是完成这个步骤最称手的工具。
拿到的原始数据往往是 CSV/Excel 格式需要用 pandas 读取并清洗。
它能把杂乱的原始数据整理成模型可以直接输入的干净特征。
处理完后通过to_numpy()转成Numpy数组再转成tensor就能传给 PyTorch训练模型了。
读取数据集下面步骤都需要进行跟练。
我们首先创建一个人工数据集并存储在csv文件里。
然后我们要从这个csv文件中读取原始数据集。
于是导入pandas包调用read_csv函数来读取数据集。
处理缺失值*NaN代表缺失值而机器学习模型无法直接处理包含NaN的数据。
因此处理缺失值NaN是数据预处理中必不可少的一步。
首先通过位置索引iloc将data分为inputs和outputs。
数值1均值填充法对于inputs中缺少的数值我们一般采用均值填充法。
即用这一列的均值来替换NaN。
inputs.mean()求均值numeric_only即只针对数值型。
2删除法当然在实际应用中如果某一列缺失值占比极高我们还会采用删除法见作业第一题。
类别值、离散值对于inputs中缺少的类别值或离散值我们将NaN看作一个类别☝️。
比如Alley这一列它就只有两个类别值Pave和NaNpandas会自动将这一列转换为“Alley_Pave”和“Alley_NaN”然后用0和1来表示这一行的类别值。
转换格式现在inputs和outputs里都是数值类型我们需要将它转换为Tensor格式。
先要通过to_numpy转成Numpy格式再通过torch.tensor转成Tensor格式。
作业*创建包含更多行和列的原始数据集。
懒得自己输让ai帮我生成了一个学生-成绩表
删除缺失值最多的列。
第一反应是循环而pandas的核心优势之一就是向量化操作—— 它会对整个表格进行批量处理而不需要像操作原生 Python 列表 那样手动写for循环。
1首先读取数据集后统计每一列的缺失值数量data.isnull()表格里每个值是否缺失返回一个跟data一样大的数组data.isnull().sum()默认按列求和2然后找到缺失值最多的那一列missing_count.idxmax返回最大值对应的索引即列名。
3最后删掉这一列总的来说上面是新手建议一步步写的其实可以写成一句
将预处理后的数据集转换为张量格式。
1先均值填充缺失值2转换