机器学习自然语言处理 BERT

ERNIE 介绍

Enhanced Representation through Knowledge Integration

Posted by BitLines on March 17, 2021

ERNIE 介绍

ERNIE 全称 Enhanced Representation through Knowledge Integration，在中文预训练上对原始 BERT 做了一些改进。

论文地址： https://arxiv.org/pdf/1904.09223.pdf

ERNIE 简介

具体方法

下图展示了 BERT 和 ERNIE 的主要区别：

可以看到BERT 对 Token 进行随机 MASK，而 ERNIE 对 Token/Phrase/Entity 进行随机 MARK。

ERNIE 提高了 3 个级别的 MASK，分别是 Basic、Phrase 和 Entity 级别，如下图：

其中，各种级别详细介绍：

Basic-Level Masking : 句子中 15% 的中文字符被随机替换。
Phrase-Level Masking : 对英文来说就是短语，而对中文来说是多字组成的词或者短语。
Entity-Level Masking : 人名、地名、组织名、产品名等实体词被MASK

实验结果

最主要要关注的就是完形填空任务中，对实体词的预测，效果很惊喜：