ERNIE 介绍
ERNIE 全称 Enhanced Representation through Knowledge Integration,在中文预训练上对原始 BERT 做了一些改进。
论文地址: https://arxiv.org/pdf/1904.09223.pdf
ERNIE 简介
具体方法
下图展示了 BERT 和 ERNIE 的主要区别:
可以看到BERT 对 Token 进行随机 MASK, 而 ERNIE 对 Token/Phrase/Entity 进行随机 MARK。
ERNIE 提高了 3 个级别的 MASK,分别是 Basic、Phrase 和 Entity 级别,如下图:
其中,各种级别详细介绍:
- Basic-Level Masking : 句子中 15% 的中文字符被随机替换。
- Phrase-Level Masking : 对英文来说就是短语,而对中文来说是多字组成的词或者短语。
- Entity-Level Masking : 人名、地名、组织名、产品名等实体词被MASK
实验结果
最主要要关注的就是完形填空任务中,对实体词的预测,效果很惊喜: