基于深度神经网络图像分类器的词嵌入

天行九歌

2018-09-07

基于深度神经网络图像分类器的词嵌入

众所周知，word嵌入在许多NLP任务中非常强大。目前的大多数实现都使用了所谓的“分布假设”，即在相似语境下的单词具有相似的含义。人类不仅可以通过上下文来判断两个词是否相似，还可以通过观察或想象这个词可能代表的物体来判断。很多时候，相似的物体与具有相似含义的词有关，比如“car”和“truck”、“house”和“building”、“dog”和“cat”。

在这篇文章中，我想探索这个想法，并尝试创建一个词嵌入，以保持词的语义意义，我将使用一个神经网络训练图像。

我想使用相关ResNet模型创建单词嵌入，这是一个非常流行的图像分类器，它是在'ImageNet'数据集上训练的。如ImageNet网站所述“ImageNet是根据WordNet层次结构组织的图像数据库（目前只是名词）”。它在ImageNet数据集上进行了训练，该数据集包含超过1400万个图像和1000个类。我将使用模型最后一个inner层的预测值来创建单词向量，并假设如果对应的图像相似，单词就有相似的含义。

我们来看一个小例子。我们有4个词：truck, wine, car和a bottle.

基于深度神经网络图像分类器的词嵌入

作为人类，我们可以说“truck”和“car”比“truck”和“bottle”更相近，或者“wine”和“bottle”比“wine”和“car”更相近。事实上，这些词的形象看起来很相似。这些物品在现实生活中看起来很相近。

在这里，我将只为名词单词创建嵌入，因为它们的图像可能比“to”、“and”、“the”等词的图像更好地描述实际单词。

首先，导入Python依赖库

%matplotlib inline

import matplotlib.pyplot as plt

import nltk

from nltk.corpus import wordnet as wn

from gensim.models import KeyedVectors

import scipy

import cv2

from keras.applications.resnet50 import ResNet50

from google_images_download import google_images_download

from sklearn.manifold import TSNE

我们需要找到一长串名词。我们将使用NLTK:

nouns = set()

for synset in list(wordnet.all_synsets('n')):

n = synset.name().split('.')[0]

if len(n) > 2 and n.isalpha():

nouns.add(n)

经过一些清洁，我们有大约39,000个名词。实际上，并非所有这些都是名词。

接下来，我们想要获得我们拥有的每个单词的图像。我们将使用Google图片搜索。有一个python库google_images_download ，它将帮助我们。我们想要重新缩放图像，以便所有图像都具有相同的大小。然后，我们将使用ResNet创建单词vector。我使用网络的最后一层softmax，Python代码如下：

resnet = ResNet50(weights='imagenet',

include_top=False,

pooling='avg')

embeddings = KeyedVectors(2048)

for word in nouns:

response = google_images_download.googleimagesdownload()

path = response.download({'keywords': word, 'limit': 1})[word][0]

img = cv2.imread(path)

img = scipy.misc.imresize(img, 224.0 / img.shape[0])

img = img.reshape((1,) + img.shape)

embeddings[word] = resnet.predict(img)[0]

我们来看看我们的嵌入：

labels, vectors = zip(*map(lambda v: (v, embeddings[v]), embeddings.vocab))

tsne = TSNE(n_components=2, n_iter=1000, perplexity=3, metric='cosine', verbose=1)

transformed = tsne.fit_transform(vectors)

x = transformed[:,0]

y = transformed[:,1]

plt.figure(figsize=(10, 10))

for i in range(len(x)):

plt.scatter(x[i],y[i])

plt.annotate(labels[i],

xy=(x[i], y[i]),

xytext=(5, 2),

textcoords='offset points',

ha='right',

va='bottom')

plt.show()

基于深度神经网络图像分类器的词嵌入

看起来不错。我们可以看到“car”和“truck”这个词比“car”和“dog”更相似

embeddings.similarity('car', 'truck') # = 0.419

embeddings.similarity('car', 'dog') # = 0.270

这并不奇怪，这只是“car”、“truck”和“dog”形象的相似之处!我们使用ResNet模型的inner层来获得这些图像的一般表示，这样比较起来就更容易了。

我们的嵌入可以保留单词之间的语义相似性，但是它忽略了其他嵌入所具有的非常有趣的部分。在我们的嵌入中，我们不能像皇后-国王=女人-男人那样做，因为我们的嵌入只捕获两个词/对象之间的相似性，但它不能捕获单词之间更复杂的关系。我们这里不使用英语，我们只看图像之间的相似性。

现在我想用我的新嵌入构建一个简单的翻译系统。这很简单，给定任何语言中的任何单词，我们将使用谷歌图像搜索来找到对应的图像，然后我们将使用ResNet来预测最终的层值，最后，找到与这些预测值最相似的英语单词，Python代码如下:

def translate(word):

response = google_images_download.googleimagesdownload()

path = response.download({'keywords': word, 'limit': 1})[word][0]

img = cv2.imread(path)

img = scipy.misc.imresize(img, 224.0 / img.shape[0])

img = img.reshape((1,) + img.shape)

vector = resnet.predict(img)[0]

return embedding.most_similar([vector])[0]

让我们看一些例子：

>>> translate("מכונית") # 'car' in Hebrew

Output: clio # Brand of car (Renault Clio)

>>> translate("ristorante") # 'restaurant' in Italian

Output: 'grubstake' # A restaurant in San Fransisco

>> Translate("еда") # 'meal' in Russian

Output: thanksgiving

正如你所看到的那样，它并不完美，但确实输出了一些有趣的翻译。

这种“嵌入”实际上是在ResNet图像表示之上的简单“K最近邻”模型。它并不是真正翻译单词，但有一点好处是我们能够比较（或分类）数千种类型的单词/图像/类，而原始ResNet模型仅在1000个类上进行训练。

分类器深度神经网络图像深度 imagenet

安科网

基于深度神经网络图像分类器的词嵌入

天行九歌

天行九歌

相关推荐

人工智能助力发现火星新陨石坑

当支持向量机遇上神经网络：SVM、GAN距离之间的关系

一种简单而智能的方法：Python也能进行面部识别

mooc机器学习第六天-K近邻，决策树，朴素贝叶斯分类器简单尝试

opencv 人脸识别

集成学习之AdaBoost算法

PU Learning简介:对无标签数据进行半监督分类

基于SGD、ASGD算法的SVM分类器（OpenCV案例源码train_svmsgd.cpp解读）

机器学习：集成算法 - bagging、boosting、adaboost

opencv detectMultiScale()

谈谈模型融合之三 —— GBDT

数据分析的一些概念

[白话解析] 深入浅出支持向量机(SVM)之核函数

机器学习——GBDT算法与stacking算法

机器学习——Boosting算法与Adaboost算法

6个你应该知道的机器学习的革命性的教训

吴裕雄--天生自然python机器学习：朴素贝叶斯算法

机器学习：基于sklearn的AUC的计算原理

22道机器学习常见面试题目

李飞飞计算机视觉学习总结三

天行九歌