春江暮客

R如何安装老版本R的包

技术
R如何安装老版本R的包

为了应用R版本更新带来的效率提升和bug消除,我将服务器上的R升级到了最新版本(当前为4.1),然后在使用一些包的时候就会出现

python绘制雨云图(Raincloud)

技术
python绘制雨云图(Raincloud)

在做探索性分析时,条形图、箱线图是很好的方法,他可以很好地展示大概的数据结构与分布,由于最近看到有人使用使用雨云图展示数据,图形看起来很美观,有趣,因此这里也就进行了梳理并使用python实现雨云图的绘制。

典型相关分析介绍及python实现

技术
典型相关分析介绍及python实现

在处理单个高维数据时,通过可以通过LDA,PCA,等等方法进行降维处理,但是如果某两个数据来自同一个样本,但是数据类型不同,差距巨大时,怎么办呢

使用bootstrapping计算置信区间

技术
使用bootstrapping计算置信区间

置信区间(confidence interval,ci)是总体数值在特定可信度下的区间。 它是根据原始观测样本估计的,通常定义为 95%.即通常所说的95%置信区间.

预处理方法Scale,Standardize,Normalize的选择

技术
预处理方法Scale,Standardize,Normalize的选择

很多机器学习的方法都要求数据近似正态分布并尽可能接近,而python中用于机器学习的包便是sklearn,其提供包括MinMaxScaler,RobustScaler,StandardScaler和Normalizer在内的多种函数用于机器学习的预处理

c-index及其在生存分析中的应用

技术
c-index及其在生存分析中的应用

一致性指数(concordance index)或者说c-index是用于评估算法预测效果的参数.定义上是指素有时间点上一致性对的比例

python原生list数组与numpy的array

技术
python原生list数组与numpy的array

在python中存储集合数据可以选择多种原生数据类型,包括list,array,tuple,dictionary四种类型.其中list可变性强,可存储任意内容并且可变,应用范围广泛.而在进行科学运算,存储纯数字时,numpy被广泛应用

K-Means聚类及sklearn实现

技术
K-Means聚类及sklearn实现

聚类分析允许我们找到相似样本或者feature的组,这些对象之间的相关性更强。 常见的用途有包括按照不同的基因表达情况对样本进行分组,或者根据不同样本的分类对基因进行分组等

python绘图中的四个绘图技巧

技术
python绘图中的四个绘图技巧

在可视化数据时,通常需要在单个图形中绘制多个图形。 例如,如果您想从不同的角度可视化相同的变量(例如>,数字变量的并排直方图和箱线图),则多个图形很有用

利用docker实现命令行下使用浏览器渲染js网页

技术
利用docker实现命令行下使用浏览器渲染js网页

在使用scrapy爬取网页时,由于很多网站采用js渲染的方式,直接诶获取源代码是获取不到需要的网页内容的,此时往往采用selenium驱动浏览器来获取网页内容非常合适

pip及anaconda国内加速

技术
pip及anaconda国内加速

由于pip及anaconda的默认地址在国内访问速度感人,添加国内源进行加速十分必要

手把手用python在实现随机森林算法

技术
手把手用python在实现随机森林算法

这篇文章将引导您完成强大的随机森林机器学习模型的手把手实现。它旨在补充我对随机森林的概念性解释,但只要您对决策树和随机森林有基本了解,就可以完全阅读。后续我们将讲述如何改善在这里构建的模型