BitLines' Blog

Thinking will not overcome fear but action will.

Latex 常用数学符号

一起写博客吧

希腊语小写 希腊语大写 二元关系符 二元运算符 箭头符号 数学符号 括号等分隔符 运算和操作符 大型运算和操作符 数学强调和字形 间距符号 其他文本符号 文本字体

Boostring 介绍

提升方法,包括AdaBoost/GBDT/XGBoost等

Boostring 简介 Boosting是一种提高任意给定学习算法准确度的方法。 很赞的原因学习资料可以参考:http://www.machine-learning.martinsewell.com/ensembles/boosting/FreundSchapire1996.pdf Boosting 的提出与发展离不开Valiant和 Kearns两位大牛的不懈努力。 两位大佬最早提...

Bagging 介绍

一种简单有效的集成学习方法

Bagging 简介 Bagging 是 Bootstrap Aggregating 的英文缩写,出自论文 Bagging Predictors。 刚接触的童鞋不要误认为 Bagging 是一种算法,Bagging 和 Boosting 都是 ensemble learing 中的学习框架,代表着不同的思想。 Bagging 流派的特点是各个弱学习器之间没有依赖关系,可以并行拟合。通常情况下...

TranE 介绍

Translating Embeddings for Modeling Multi-relational Data

TranE 介绍 TransE 全称 Translating Embeddings for Modeling Multi-relational Data,是知识图谱领域较早也是影响力较深远的一篇论文。 论文地址:https://proceedings.neurips.cc/paper/2013/file/1cecc7a77928ca8133fa24680a88d2f9-Paper.pdf ...

Label Smoothing 介绍

超级简单的模型正则化方法,还不赶快炼丹试试

Label Smoothing 介绍 Label Smoothing 出自论文 Rethinking the Inception Architecture for Computer Vision,这论文虽然是做图像的,但是里面讲到了 Label Smoothing 方法。解决的问题是样本少,采用交叉熵作为损失函数带来的模型过拟合问题。 论文地址: https://arxiv.org/pd...

DropConnect 介绍

Regularization of Neural Networks using DropConnect

DropConnect 介绍 DropConnect 是对 Dropout 的进一步延伸,可以视为 Dropout 的一般情况。 论文地址:http://proceedings.mlr.press/v28/wan13.pdf DropConnect 简介 懂了 Dropout 之后, DropConnent 几句话就描述清楚了。 Dropout 核心思想让网络的一些隐藏层神经元不工作,输...

Dropout 介绍

A Simple Way to Prevent Neural Networks from Overfitting

Dropout 介绍 Dropout 论文名 Dropout: A Simple Way to Prevent Neural Networks from Overfitting,有人说是一种模型调参的Trick,也有人认为是一种集成(emsemble)学习手段,还有人说是一种模型正则化方法。 论文地址: https://jmlr.org/papers/volume15/srivastava...

排序算法汇总

排序算法 在说排序之前,先介绍一些简单的概念。 排序(sort): 设有n个记录$R_1, R_2,…,R_n$,存放于内存或者外存中。排序的任务是找到$(1,2,…,n)$的一个排列$(p_1,p_2,…,p_n)$,使得$\textup{Key}(R_{p_1}) \le \textup{Key}(R_{p_2}) \le … \le \textup{Key}(R_{p_n})$,...

决策树之三-CART

决策树之三-CART 分类与回归树(Classification and Regression Trees, CART)是由四人帮Leo Breiman, Jerome Friedman, Richard Olshen与Charles Stone于1984年提出,既可用于分类也可用于回归。本文将主要介绍用于分类的CART。CART被称为数据挖掘领域内里程碑式的算法。 不同于C4.5,CA...

决策树之二-ID3与C4.5

决策树之二-ID3与C4.5 决策树生成的过程是一个树的先根序遍历。在每个内部节点上选择一种特征属性,根据特征属性所有可能的取值种类K,把样本划分为K个集合,我们期望的是划分后各个子集合中的样本”不纯度“尽量低,也就是每个子集合中尽量是同一种类别的样本。 那么我们既然希望划分之后结点的“不纯度”越来越低,那么如何度量不纯度呢? ID3 算法度量“不纯度”的尺度是信息熵,分次分类让各个子树的...