如果要寫一個語音辨識、影像辨識,甚至是情緒辨識的功能你們認為有多難? 應該很難吧!! 尤其是準確度,目前做的比較好的就屬於微軟、GoogleIBM,不過我們有辦法使用他們現成的API來使用嗎? 是可以的,接下來就來介紹這三家提供的API,這邊有一大堆現成的API可以供使用,大大減少需要自己coding的時間。

 

Microsoft Project Oxford,網址:https://www.projectoxford.ai/demo

這是微軟所提供的免費試用版,這邊的工具有拼字檢查功能、追蹤人的臉部,偵測移動,以及消除拍攝影片時的震動、辨識說話的人的身份、語音辨識功能、外表年齡估計,以及性別辨識等功能,其工具說明如下:

 

Spell check:提供拼字檢查功能的工具,支援程式開發者為所開發的手機 App,以雲端為基礎的 App,或是其他的產品加入拼字檢查功能,例如辨識像 " gonna " 這樣的俚語,品牌名稱,常見的名稱錯誤,以及不容易發現的拼字錯誤,像是 " four " " for "

 

Video:這個工具能夠協助使用者很容易地分析和編輯影片,包括追蹤人的臉部,偵測移動,以及消除拍攝影片時的震動。

 

Speaker recognition:這個工具能夠經由學習個人的口音特質辨識發聲說話的人。程式開發者可以利用這個工具的功能辨識說話的人的身份,如同利用指紋辨識使用者的身份一樣,實作 App 的安全管制功能。

 

Custom Recognition Intelligent Services:這個工具簡稱 CRIS,可以很容易地支援使用者依據惡劣的環境,例如公開而且吵雜的場合,調整語音辨識功能。例如公司可以在噪音很大的地點,或是人來人往的購物中心進行語音辨識的工作,也可以用來對母語不是英語的人的演講內容,或是發音有障礙的人的話語進行語音辨識。

 

Face API 更新:臉部辨識工具將會加入新的辨識功能,包括加入鬍子辨識與微笑預測工具。外表年齡估計,以及性別辨識等功能。

 

 

Google有提供語音辨識和圖片辨識,Google的語音辨識是 Chrome 內建的功能,所以不需要額外載入其他資源就可以,運行語音辨識一開始要判斷「webkitSpeechRecognition」有沒有存在瀏覽器裡,因為這是內建於瀏覽器的 api,如:

 

if (!('webkitSpeechRecognition' in window)) {

  // do something...

} else {

  // do something...

}

 

Google的圖像辨識API,稱為Cloud Vision API,方便App開發者利用此API嵌入於機器人、App、無人機等,就能使其「看到」圖像、物品,並能更容易準確地將他們「分類」,如船、獅子、巴黎鐵塔等地標性建築,甚至是情緒也能辨別出來。使用方法詳見https://cloud.google.com/vision/

 

目前使用者必須經過核准才可以使用 Cloud Vision API ,研發人員需要填寫一份問卷以申請圖像辨識工具的使用權,包含解釋預計會如何應用這項圖像辨識工具。

 http://static4.ithome.com.tw/sites/default/files/images/2015-12-03_171448(1).jpg

 

IBM的是「華生」(Watson)認知運算系統,包括處理新型態的文字與視覺辨識的語言分析API,以及從圖片資料中自動偵測、標籤與萃取出重要細節的能力,同時也可以做到擷取影像細節、分類、關鍵字擷取與情感分析的影像認知。現在已可申請免費試用AlchemyAPI,申請網址為http://www.ibm.com/smarterplanet/us/en/ibmwatson/d...


 


arrow
arrow

    bluenet 發表在 痞客邦 留言(0) 人氣()