Watson – Visual Recognition 介紹－生活雜記

Watson是能夠使用 natural language來回答問題的人工智慧系統，由IBM公司的首席研究員David Ferrucci所領導的DeepQA計劃小組開發並以該公司創始人Thomas J. Watson.的名字命名。

2011年，華生參加綜藝節目《Jeopardy》來測試它的能力，這是該節目有史以來第一次人與機器對決。2月14日至16日廣播的3集節目中，華生在前兩輪中與對手打平，而在最後一集裡，華生打敗了最高獎金得主 Brad Rutter和連勝紀錄保持者 Ken Jennings。Watson贏得了第一筆獎金100萬美元，而Ken Jennings和Brad Rutter分別只有30萬和20萬。賽後，Jennings和Rutter表示將一半獎金用於慈善事業，IBM公司也將Watson的獎金分給了兩家慈善機構。

<上述來自Wiki - Waston>

而今天要來介紹Watson裡面的一個新功能：Visual Recognition (目前還是測試版，功能陸續更新)

Visual Recognition的前身為IBM Multimedia Analysis and Retrieval System，簡稱IMARS，是一個功能強大的系統，可以用於自動檢索，分類和搜尋圖像，分析圖像當中的視覺特徵，並且自動組織並搜尋其內容找出最相似的內容。

IMARS分為兩個部分對圖片做分析：IMARS Extraction tool and IMARS Search tool

IMARS Extraction Tool：

首先是對於影像的特徵作分類，對於每張丟入的影像，會pixel-level的方式去分析內容，包含：顏色、紋路、形狀、空間分布…等等，在IMARS中每張圖片所包含的資訊有無數種。

而一張圖片的資訊量可以由許多種不同的算法表示，其參數量由小到大的幾個較著名的演算法：Low level features and histogram < SIFT and bag-of-words models < Sparse coding < Super vector and Fisher vector < Deep CNN。

Low level features and histogram：

這是影像處理當中最基礎的部分，例如像是指出圖片的color histogram(也可以是灰階的histogram)，藉由color histogram得知圖片色彩分布範圍，但缺點就是對於圖片中旋轉、放大縮小、位移的部分無法由color histogram中得知。

為了解決此部分的缺點，產生了Spatialized Histogram的概念，先將圖片劃分區塊，在對區塊取color Histogram，就能知道color histogram在空間中的分布情況!(但還是會有例外會發生於物體在一個block內的旋轉)

除了使用histogram外，基本的特徵判斷方式還有

haar-like filter (適用於人臉辨識)和 gabor filter(適用於文字辨識)

SIFT and bag-of-words models：

SIFT(Scale-invariant feature transform)是一個強大的description及detector，利用金字塔分層的方式計算DoG(Difference of Gaussians)的極值，用於找出兩張圖當中相似的部分，並且能克服物體旋轉而找到特徵點並且對應的問題，缺點是速度太慢，後來則出現SURF、BRIEF、ORB、BRISK達到更快速的特徵擷取。下圖範例圖使用SIFT特徵點找出左邊的書在右圖當中的對應位置。

Bag-of-word就像是找出物體的主題，最早的模型是 pLSI (probabilistic latent semantic indexing) ，後來發展的 LDA (Latent Dirichlet allocation) (LDA,潜在狄利克雷分配模型) 模型及其延伸變成了最常用的模型。LDA topic model 涉及比較深一點的數學，包括 Dirichlet distribution, 多項分佈、EM 、Gibbs sampling 等等。例如將人臉當作物體，其主題可大約列出：眼睛、鼻子、嘴巴等等，這種表示方法優點在於較為直覺容易理解，但也會因此失去空間的資訊

Sparse coding：

又稱稀疏編碼，是deep learning中重要分支，是一種模擬哺乳動物視覺系統主視皮層V1區簡單細胞感受野的人工神經網絡方法，優點在於具有間的局部性、方向性和頻域的帶通性，屬於soft assignment，此方法的原理在於因為絕大多數的感官數據能被表示成少量基本元素的疊加，目的是能找到一組更好的向量表示樣本數據(改善像k-means這種hard assignment)，找到較好的描述特徵點的方法

Super vector and Fisher vector：

Super vector和Fisher vector的性質雷同，屬於lossless coding，用於改善上述的sparse coding，由於sparse coding在表示圖片特徵方式會使部分資訊遺失(類似取quantize)，而loseless coding則是以多維的component去表示圖片中的每個特徵點，其缺點就是使複雜度非常大，但是更能有效提升影像辨識的技術。

Deep CNN(Convolutional Neural Network)：

最後一部分就是在討論怎麼處理big model?這裡使用一種叫SGD(Stochastic Gradient Descent)梯度下降法加速圖片在分類器中分類的速度，在大量圖片的情況下(不只幾T時)，硬體也沒有那麼多空間存放大量的圖片，而SGD就適合在樣本數很大的情況下能夠快速地靠近最佳解。

上述是關於watson visual recognition部分內容簡單的描述，但此篇的目的主要是下面教大家如何使用watson，其詳細演算法皆不贅述。

IMARS Search Tool：

IMARS 提供了圖形化界面供大家使用搜尋的功能，除了能夠給予一張圖片，分析其內容物，其最大的不同地方在於，Watson是一個強大的學習機器，可以自行訓練分類器使用，詳情可以見Demo版的網頁，(https://visual-recognition-demo.mybluemix.net/train)，裡面提供了幾個免費且好用的REST. api供大家使用