語音辨識、圖像辨識…等各式好用辨識工具的API介紹－藍色網路-Bluenet：分享網路行銷、社群網站經營的實務經驗

如果要寫一個語音辨識、影像辨識，甚至是情緒辨識的功能你們認為有多難? 應該很難吧!! 尤其是準確度，目前做的比較好的就屬於微軟、Google、IBM，不過我們有辦法使用他們現成的API來使用嗎? 是可以的，接下來就來介紹這三家提供的API，這邊有一大堆現成的API可以供使用，大大減少需要自己coding的時間。

Microsoft Project Oxford，網址：https://www.projectoxford.ai/demo

這是微軟所提供的免費試用版，這邊的工具有拼字檢查功能、追蹤人的臉部，偵測移動，以及消除拍攝影片時的震動、辨識說話的人的身份、語音辨識功能、外表年齡估計，以及性別辨識等功能，其工具說明如下：

Spell check：提供拼字檢查功能的工具，支援程式開發者為所開發的手機 App，以雲端為基礎的 App，或是其他的產品加入拼字檢查功能，例如辨識像 " gonna " 這樣的俚語，品牌名稱，常見的名稱錯誤，以及不容易發現的拼字錯誤，像是 " four " 和 " for "。

Video：這個工具能夠協助使用者很容易地分析和編輯影片，包括追蹤人的臉部，偵測移動，以及消除拍攝影片時的震動。

Speaker recognition：這個工具能夠經由學習個人的口音特質辨識發聲說話的人。程式開發者可以利用這個工具的功能辨識說話的人的身份，如同利用指紋辨識使用者的身份一樣，實作 App 的安全管制功能。

Custom Recognition Intelligent Services：這個工具簡稱 CRIS，可以很容易地支援使用者依據惡劣的環境，例如公開而且吵雜的場合，調整語音辨識功能。例如公司可以在噪音很大的地點，或是人來人往的購物中心進行語音辨識的工作，也可以用來對母語不是英語的人的演講內容，或是發音有障礙的人的話語進行語音辨識。

Face API 更新：臉部辨識工具將會加入新的辨識功能，包括加入鬍子辨識與微笑預測工具。外表年齡估計，以及性別辨識等功能。

Google有提供語音辨識和圖片辨識，Google的語音辨識是 Chrome 內建的功能，所以不需要額外載入其他資源就可以，運行語音辨識一開始要判斷「webkitSpeechRecognition」有沒有存在瀏覽器裡，因為這是內建於瀏覽器的 api，如：

if (!('webkitSpeechRecognition' in window)) {

// do something...

} else {

// do something...

}

Google的圖像辨識API，稱為Cloud Vision API，方便App開發者利用此API嵌入於機器人、App、無人機等，就能使其「看到」圖像、物品，並能更容易準確地將他們「分類」，如船、獅子、巴黎鐵塔等地標性建築，甚至是情緒也能辨別出來。使用方法詳見https://cloud.google.com/vision/

目前使用者必須經過核准才可以使用 Cloud Vision API ，研發人員需要填寫一份問卷以申請圖像辨識工具的使用權，包含解釋預計會如何應用這項圖像辨識工具。

IBM的是「華生」（Watson）認知運算系統，包括處理新型態的文字與視覺辨識的語言分析API，以及從圖片資料中自動偵測、標籤與萃取出重要細節的能力，同時也可以做到擷取影像細節、分類、關鍵字擷取與情感分析的影像認知。現在已可申請免費試用AlchemyAPI，申請網址為http://www.ibm.com/smarterplanet/us/en/ibmwatson/d...