在这篇文章,我来讲解,如何从 0 开始预训练自己的 embedding 向量。

网上已经开源了很多预训练好的模型,为什么还需要自己重新开始训练呢?

我最近碰到一个场景,是一个比赛,零基础入门NLP - 新闻文本分类。这个比赛做的是文本分类任务,但是数据中的文本数据都是脱敏的,比赛数据的文本按照字符级别进行了匿名处理,如下所示:

在这种情况下,我无法找到一个适合于这个数据集的词汇表和 embedding 向量,因此需要自己预训练 Bert 模型。

如果你觉得这篇文章对你有帮助,不妨点个赞,让我有更多动力写出好文章。

我的文章会首发在公众号上,欢迎扫码关注我的公众号张贤同学。