BitLines' Blog

Thinking will not overcome fear but action will.

浅谈归因分析和模型可解释性

探索赛事对游戏的价值分析

浅谈归因分析和模型可解释性 最近遇到一个命题: 赛事对游戏的价值分析 问题拆解: 从各个维度去分析、对比,赛事用户与非赛事用户之间的差异,以此来评估赛事对游戏的价值反哺(注:看王者赛事的用户我们称为:赛事用户) 考查要点: 1)需要说明分析思路,逻辑等; 2)需要说明具体所用的具体数据分析/统计/数据挖掘等方法; 3)可以用PPT或者word等报告形式...

SMART 介绍

Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization

SMART 介绍 SMART 全称 Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization,是一种使用了对抗方法的迁移学习技术。 论文原文地址: https://arxiv.org/pdf/1911.03437.p...

MacBERT 介绍

Revisiting Pre-trained Models for Chinese Natural Language Processing

MacBERT 介绍 MacBERT 全称 MLM as correction BERT,出自论文 Revisiting Pre-trained Models for Chinese Natural Language Processing。 在百度的 ERNIE 之上做了一些改进。 主要是在中文语料上预训练 BERT。 论文地址:https://arxiv.org/pdf/2004.13...

HDBSCAN 简介

一种基于密度的聚类方法

HDBSCAN 简介 HDBSCAN 全称 (Hierachical Density-Based Spatial Clustering of Applications with Noise), 不严谨的说,是DBSCAN 的升级版(多了一个H嘛),H 代表 hierachical (层次的)。如果在看 HDBSCAN 之前还不了解DBSCAN,那得去补课了。 核心距离和相互可达距离 为了理...

ALBERT 介绍

A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS

ALBERT 介绍 ALBERT 全称 A Lite BERT,出自论文 A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS,用于解决 BERT 参数过多导致内存占用高同时训练时间长的问题。 论文地址:https://arxiv.org/pdf/1909.11942.pdf ALBERT 简介 BERT...

ERNIE 介绍

Enhanced Representation through Knowledge Integration

ERNIE 介绍 ERNIE 全称 Enhanced Representation through Knowledge Integration,在中文预训练上对原始 BERT 做了一些改进。 论文地址: https://arxiv.org/pdf/1904.09223.pdf ERNIE 简介 具体方法 下图展示了 BERT 和 ERNIE 的主要区别: 可以看到BERT 对...

DBSCAN 简介

一种基于密度的聚类方法

DBSCAN 简介 DBSCAN(英文全称 Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)的聚类过程可以用数学的传递闭包来说明。很多同学都忘记了。忘记也没关系,因为他和 K-Means 一样的简单!接下来我们直接来看 DBSCAN 就好了,不再举一些生动的例子了,直接硬撸一些定义。 DBS...

TinyBERT 介绍

Distilling BERT for Natural Language Understanding

TinyBERT 介绍 TinyBERT 论文名 Distilling BERT for Natural Language Understanding,介绍了一种对 BERT 量身定制的知识蒸馏方法。 论文原文地址: https://arxiv.org/pdf/1909.10351.pdf TinyBERT 简介 TinyBERT 是 BERT 的蒸馏版本,蒸馏主要是减少了隐藏层单元的 ...

K-Means 简介

一种基于质心的聚类方法

K-Means 简介 K-Means 是非常简单,但是非常强力是聚类算法。K-Means 运行速度极快,很容易支持用于分布式系统(map-reduce)和大规模数据聚类。 牧师-村民问题 了解 K-Means之前,先看一个有趣的问题:牧师-村民问题。 牧师-村民问题:说有4个牧师想要给村庄中的所有村民讲课。4个牧师分别在村庄选择一个位置,村民自行就近寻找牧师听课。求问4个牧师如何选择授...

RoBERTa 介绍

A Robustly Optimized BERT Pretraining Approach

RoBERTa 介绍 论文原文地址: https://arxiv.org/pdf/1907.11692.pdf RoBERTa 简介 RoBERTa 全称 A Robustly Optimized BERT Pretraining Approach。 文章主要是介绍对原始 BERT 预训练方法的修改,来提高后续任务效果。 主要提高的方案有4种: 动态掩码:Dynamic Maski...