功能简介
更多系统

文档加密软件

透明文档加密 | 自动加密 | 手动加密

文档信息安全管理软件

文档备份 | 文档防勒索 | 文档外发控制

上网行为管理软件

网站监控 | 电子邮件 | 网络搜索 | 上传下载

应用程序管控软件

程序黑白名单 | IP地址 | 注册表保护

敏感文件管理软件

文件扫描 | 文件审查 | 设置敏感词

U盘设备管控软件

外接设备管控 | USB口管控 | U盘权限管控

文件分发软件

远程分发文件 | 远程删除 | 远程加密

IT资产管理软件

软件资产 | 硬件资产 | 软件管理

电脑操作记录软件

文件操作 | 文件打印 | 刻录光盘| 应用程序

远程控制软件

远程操控 | 远程文件 | 远程命令 | 文件分发

聊天管控软件

微信聊天 | QQ聊天 | 钉钉聊天 | 企业微信

敏感信息报警

敏感信息报警 | 敏感文件审查 | 敏感文件扫描

屏幕管控

桌面壁纸 | 屏保锁屏 | 禁止截屏 | 水印设置

内网管理

U盘管控 | 加密U盘 | 打印管控 | 应用管控

深度行为分析

时间画像 | 工作效率分析 | 离职风险 | 加班报表

电脑屏幕录像

实时屏幕 | 屏幕录像 | 屏幕快照 | 审计屏幕

实时管控

流量 | 进程 | 服务 | 账户 | 启动项 | 实时管控

补丁管理

系统补丁库 | 统一下发 | 补丁安装日志

关于安企神

400-099-0376

在线试用

微信扫码联系专属客服

安企神软件官网

功能

文档加密软件

透明文档加密 | 自动加密 | 手动加密

文档信息安全管理软件

文档备份 | 文档防勒索 | 文档外发控制

上网行为管理软件

网站监控 | 电子邮件 | 网络搜索 | 上传下载

应用程序管控软件

程序黑白名单 | IP地址 | 注册表保护

敏感文件管理软件

文件扫描 | 文件审查 | 设置敏感词

U盘设备管控软件

外接设备管控 | USB口管控 | U盘权限管控

文件分发软件

远程分发文件 | 远程删除 | 远程加密

IT资产管理软件

软件资产 | 硬件资产 | 软件管理

电脑操作记录软件

文件操作 | 文件打印 | 刻录光盘| 应用程序

远程控制软件

远程操控 | 远程文件 | 远程命令 | 文件分发

聊天管控软件

微信聊天 | QQ聊天 | 钉钉聊天 | 企业微信

敏感信息报警

敏感信息报警 | 敏感文件审查 | 敏感文件扫描

屏幕管控

桌面壁纸 | 屏保锁屏 | 禁止截屏 | 水印设置

内网管理

U盘管控 | 加密U盘 | 打印管控 | 应用管控

深度行为分析

时间画像 | 工作效率分析 | 离职风险 | 加班报表

电脑屏幕录像

实时屏幕 | 屏幕录像 | 屏幕快照 | 审计屏幕

实时管控

流量 | 进程 | 服务 | 账户 | 启动项 | 实时管控

补丁管理

系统补丁库 | 统一下发 | 补丁安装日志

网络准入控制管理系统

设备扫描 | IP地址池 | 设备检测

关于安企神

从猜词小游戏认识Word2Vec

2024-10-25

公司上网行为管理，就用安企神软件

Alex 发自凹非寺

量子位 | 公众号 QbitAI

来和你的计算机玩个猜词游戏吗？

这个叫Pimantle的猜词游戏，规则很简单：

随便输入一个单词，如果它越接近谜底，就会离下图的中心点越近。

从猜词小游戏认识Word2Vec(图1)

在完全没有范围限制和人工提示的情况下，通过计算机反馈的辅助，网友给出的最接近预设词的是“delicatessen”（熟食），与谜底相似度已经达到了79.20。

从猜词小游戏认识Word2Vec(图2)

不过，友友们是否好奇——这么多次猜测背后，计算机是怎么判断单词之间的“相似度”的啊？

其实，这是基于NLP领域的一个常用工具——Word2Vec。

顾名思义，它可以将单词转换成向量形式，来辅助计算机判断词义。

从猜词小游戏认识Word2Vec(图3)

Word2Vec是Tomas Mikolov等人于2013年提出的一个词嵌入生成方法。

它在潜在语义分析等方面优于之前的算法，在判断文本相似度、系统推荐、观点分析等方面都具有广泛的应用。

一名研究机器学习的工程师Vatsal在Towards Data Science发布了一篇介绍Word2Vec的文章，并收获了相当不错的关注度。

从猜词小游戏认识Word2Vec(图4)

这篇帖子在Towards Data Science上收获了1300+赞，Hackernews上2天之内收获了107热度。

从猜词小游戏认识Word2Vec(图5)

网友表示：这是一篇很不错的入门介绍，包含了足够的细节和参考资料。

从猜词小游戏认识Word2Vec(图6)

下面我们就跟随这位小哥一起来认识词嵌入和Word2Vec吧！

Word2Vec的基本原理

在介绍Word2Vec前，先来说说什么是词嵌入。

单词嵌入是将单个自然语言单词在预设的向量空间表示为矢量的技术总称，通过映射得到向量的编码过程被称为嵌入，而这些向量可作为后续任务中神经网络模型的输入。

例如，某个文本中包含“have”,“a”，“good”，“day”等词，这些词映射到向量空间中，表示为不同的向量。

从猜词小游戏认识Word2Vec(图7)

机器可以通过向量内积空间夹角的余弦值来判断对应单词的语义相似度。

当给定了足够大的数据集，Word2Vec可以根据单词在文本中的出现情况，对单词的意思进行判断，评价结果会与语料库中其他单词产生联系。

此外，Word2Vec还可以做类比。例如，“国王”和“女王”算是相似度很高的词语。v(“国王”)－v(“男性”)＋v(“女性”)≈v(“女王”)

从猜词小游戏认识Word2Vec(图8)

有了这些运算，机器也可以像人一样“理解”词汇的意思了。

Word2Vec的两种训练模式

Word2Vec包含两种训练模式，分别是Continous Bag of Words（连续词袋模型）和skip-gram。

其中，CBOW是通过给定的上下文，预测当前词。

如下图所示，w\left( t \right)表示当前单词，w\left( t-? \right)表示前文的单词，w\left( t +?\right)表示后文的单词。

从猜词小游戏认识Word2Vec(图9)

skip-gram则是将当前单词作为输入，去预测上下文的词。

从猜词小游戏认识Word2Vec(图10)

研究者们发现，在词汇向量范围增大的情况下，预测质量会有所提高，但计算复杂度也会增高。

对Skip-gram训练过程的可视化描述。

从猜词小游戏认识Word2Vec(图11)

可见，当给定了文本语料库，目标词是在某个滚动窗口中选择的。目标词和窗口中的其他单词分别组合，形成神经网络的训练数据。

通过对模型进行训练，可以基本得到某个词作为给定目标上下文单词的概率。

上文介绍了Word2Vec的基本原理，那么这个词嵌入法还有什么应用或延伸吗？

Word2Vec的延伸：XXX2Vec

你是否做过MBTI人格测试，或者五大人格特质测试？

这些测试会给参与者一系列问题，然后给不同的几个指标打分，例如：内向-外向。

从猜词小游戏认识Word2Vec(图12)

假设满分为100分，某人外向性指标的最终得分为38/100。可以用这种方式绘图：

从猜词小游戏认识Word2Vec(图13)

下面把范围收缩到-1到1：

如果再加上另一个指标，如负责性，那么需要再添加一个坐标轴。

当我们把前文所示的五个主要的人格特征都进行统计分析，会得到：

我们可以对不同的人进行测试，并收集测试结果，如：

Word2Vec可以比较不同单词的意思，同理，我们可以运用向量余弦相似度比较不同个体的个
性：

显然，Jay和另一个“测试者1”的性格更相似。

上文展示了将性格向量化，即Personality2Vec。

其实近年来，已经衍生出了2vec的不同变种，例如有的利用段落信息，有的利用整个文本的信息，有的则是在更高维度的item上进行2vec操作。

其中，Paragraph2vec基于CBOW，把段落的ID作为属性也纳入计算当中。

深度学习的表征能力很好，但是工程师们需要耗费大量的时间来选择特征。

未来应该会有更多的*2Vec诞生，在一个概念比较抽象、复杂时，通过向量化进入另外一个N维空间也许会带给人们一些启发。

看到这里，你是否想试试文章开头提到的猜词游戏？万一中了呢？：）

游戏链接：
https://semantle.pimanrul.es/

参考链接：
[1]. https://towardsdatascience.com/Word2Vec-explained-49c52b4ccb71
[2]. https://jalammar.github.io/illustrated-Word2Vec/

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

TAG：

上一篇 : 「Word」快捷键之功能大全，请收好不谢

下一篇 : 免费系统学习office技巧，Word、Excel、PPT的使用

相关文章

最新文章

热门文章

文章标签

安企神软件