税务合规性预测

本项目使用数据挖掘相关算法对企业税务是否合规进行预测。本项目主要使用了XGBoost和随机森林两种算法进行对比分析。整个项目包含了一般项目的所有流程:特征预处理,特征编码,特征过滤,数据集切分,模型训练,模型评价,可视化检视。经过实验对比分析,随机森林的预测效果略优于XGBoost

特征预处理和特征工程

数据预处理数据无量纲化特征的单位或者大小相差较大,或者某特征的方差相比其他的特征要大出几个数量级,容易影响(支配)目标结果,使得一些算法无法学习到其它的特征

回归模型的损失度量方法

之前的分类模型写完后同学问我有没有回归的模型评价方法,现在,它来了 刚开始,我直接搜索回归模型的评价方法有哪些,但是突然想起来之前学习线性回归模型的时候有用到均方误差计算损失,于是猜想sklearn中十有八九有提供相应的损失评价方法,于是一共提供有11种方法接下来对每个方法简单介绍,最后给出相关示例

基于sklearn的分类模型评估方法

在模型评估过程中,分类问题、排序问题、回归问题往往需要使用不同的指标进行评估。在诸多的评估指标中,大部分指标只能片面地反映模型的一部分性能。如果不能合理地运用评估指标,不仅不能发现模型本身的问题,而且会得出错误的结论。与线性回归问题不同,分类问题,或者说逻辑回归问题输出的是离散值,即判断某件事物属于

最小二乘法

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。当我们需要设计一个线性函数()去拟合一些呈线性关系的数据点时,我们如何评价我们设计的拟合函数的拟合效果呢?换言

K近邻算法

算法原理一句话概括:相似的事物彼此接近。距离度量欧式距离欧氏距离是最容易直观理解的距离度量方法,两个点在空间中的距离一般都是指欧氏距离。曼哈顿距离(Manhattan Distance)在曼哈顿街区要从一个十字路口开车到另一个十字路口,驾驶距离显然不是两点间的直线距离。这个实际驾驶距离就是“曼哈顿距

kmeans聚类算法及其优化

在机器学习中有这样一种场景,需要对已知数据按照一定的关系归到不同的类别中(无监督)k-means是比较流行的聚类方法其基本算法流程如下:随机设置K个特征空间内的点作为初始的聚类中心对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中心点作为标记类别接着对着标记的聚类中心之后,重新计算出每

解决Seaborn无法加载数据集错误

问题描述因研究需要,今天在了解seaborn 这个可视化框架,但是在第一行代码就报错了。。好嘛,看看啥错:看到这我就知道大概啥问题了,国内网络对国外的网站很不友好。。解决方案解决方法也很简单,主要有以下三种:ke | xue | shang | wang 工具配置代理单独把数据集下载下来,拷贝到本地
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×