embedding - 爱搜

发表于 2025-10-24 ensembling temporal embedding

本文要介绍的 mean teachers 是一种半监督学习的方法，主要的目标是改进前文提到的 temporal ensembling 方法。在 temporal ensembling 中每次 epoch 的 \(z_i\) 是从以前所有 \(z_i\) 的加权平均来计算的，这个方法的问题是当资料的数量很多时，系统无法将所有过去的 \(z_i\) 记录下来。mean teachers 改进的思路是：与其加权平均过去的 feature embedding，不如加权平均过去的模型参数，也就是下图中的 teacher model

主旨：微软所有office word版本之物件连结与嵌入ol

发表于 2025-10-02 embedding rtf view

主旨：微软所有Office Word版本之物件连结与嵌入(OLE)存在零时差漏洞，允许攻击者远端执行任意程式码。该漏洞主要是Office Word的物件连结与嵌入(OLE)存在零时差漏洞，攻击者可借由电子邮件散布并诱骗使用者下载特制的Word或RTF格式档案，当使用者开启该档案时，可能导致攻击者可透过该弱点远端执行程式码，甚至取得受影响系统的完整控制权。 OLE(Object Linking and Embedding，物件连结与嵌入)原用于允许应用程序共享资料或功能，如Word可直接嵌入Excel资料，且可利用Excel功能进行编辑

在这篇文章，我来讲解，如何从 0 开始预训练自己的 embe

发表于 2025-08-19 embedding 会首 bert

在这篇文章，我来讲解，如何从 0 开始预训练自己的 embedding 向量。网上已经开源了很多预训练好的模型，为什么还需要自己重新开始训练呢？我最近碰到一个场景，是一个比赛，零基础入门NLP - 新闻文本分类。这个比赛做的是文本分类任务，但是数据中的文本数据都是脱敏的，比赛数据的文本按照字符级别进行了匿名处理，如下所示：在这种情况下，我无法找到一个适合于这个数据集的词汇表和 embedding 向量，因此需要自己预训练 Bert 模型

这是一篇推荐系统相关的论文

发表于 2025-09-07 regression memorization ensmble

这是一篇推荐系统相关的论文，场景是谷歌 Play Store 的 App 推荐。文章开头，作者点明推荐系统需要解决的两个能力： memorization 和 generalization。 memorization 指的是学习数据中出现过的组合特征能力

负责互联网风险预警的算法研发

发表于 2025-07-14 fasttext embedding rnn

负责互联网风险预警的算法研发，包括但不限于多语言翻译、事件发现、事件聚类、内容分类、细粒度情感和实体识别等；参与风险预警与电商领域内的知识图谱构建，为产品应用提供更精准的信息，并能形成很好的关联性分析；跟进学术界前沿研究和发展趋势，提升算法效果和性能。 2年以上算法研发工作经验，研究生及以上学历优先；拥有良好的编码能力，有扎实的数据结构和算法功底；熟练掌握主流的NLP技术工具及模型算法，包括CRF、CNN、RNN、Word Embedding、Seq2Seq、FastText，Bert等，有Tensorflow/PyTorch实战经验优先；参与过分词、命名实体识别、深度文本匹配、文本分类、知识图谱、自动对话等相关项目；责任心强，有良好的学习能力及团队合作精神，自我驱动能力强。