在这篇文章，我来讲解，如何从 0 开始预训练自己的 embe

在这篇文章，我来讲解，如何从 0 开始预训练自己的 embedding 向量。

网上已经开源了很多预训练好的模型，为什么还需要自己重新开始训练呢？

我最近碰到一个场景，是一个比赛，零基础入门NLP - 新闻文本分类。这个比赛做的是文本分类任务，但是数据中的文本数据都是脱敏的，比赛数据的文本按照字符级别进行了匿名处理，如下所示：

在这种情况下，我无法找到一个适合于这个数据集的词汇表和 embedding 向量，因此需要自己预训练 Bert 模型。

如果你觉得这篇文章对你有帮助，不妨点个赞，让我有更多动力写出好文章。

我的文章会首发在公众号上，欢迎扫码关注我的公众号张贤同学。