【書摘】圖解AI智慧大未來-下篇

張凱喬
17 min readMay 18, 2019

--

Photo by Franck V. on Unsplash

終於要把這本書結束了,上一篇談的大概都是歷史發展、演算發基礎

這一篇會把重心拉到目前的人工智慧垂直領域應用,也可以看出很多應用已經與我們的生活息息相關,或是默默地在改變你我的生活。

*人工智慧影響的範圍很廣泛,本篇所探討的是以書上所介紹的領域為主

影像辨識技術

影像辨識技術因為可以應用的範圍很廣,所以在這個分類中討論很多不同的應用領域。

第一,圖片標籤,就像上一篇談到的卷積神經網路,透過訓練、來使電腦引擎可以知道每一張流傳在網路上的圖片包含哪些物品,甚至是抽象的名詞。

譬如,你今天想要找可愛貓貓的圖片,Google引擎會透過網頁的關鍵字,把網頁中的圖片秀出來給你看,這邊會遇到一個問題,就是網頁中的圖片太多了,譬如他會有logo、作者頭像、網站背景圖、按鈕圖片等等。這個時候透過HTML結構來篩選之外,另一個很好的解法就是人工智慧,如果這張圖片有疑似貓的圖像,他的分數就會提高,就會跑到你搜尋結果的上面一點。

第二,監視系統,這個請參考我的另一篇文章"人臉辨識"

人臉辨識基本上就是可以用來辨識員工(差勤打卡)、門禁控制、VIP訪客迎賓、數位支付(或ATM領款)、抓犯人(如海關及警察局)、

我規劃之後會在發一篇以API APPLICATIONS的角度談人臉辨識,主要原因是因為人臉辨識的技術已經相對成熟,並不擔心本身的精準度(好啦,高成本是有點擔憂),發展的困擾還是在於應用(和高成本),缺乏足夠將人臉辨識擴散出去的市場起點(台灣)

譬如說人臉辨識除了辨識"是誰"、還可以辨識"在哪裡、有多少人",甚至是方向、動作、密度等。這些從人臉辨識延伸出去的應用,就很適合用在車站或百貨公司等人口密集的地方,除了可以在適當的地方配置人員之外,也可以利用人工智慧監控突發事件,當有不合理的群聚或人流速度,就可以即時通知監控人員、警衛、站長等。

第三,工業製造

在工廠的流程中,有許多流程的檢驗都是仰賴人眼,來看商品的製造過程是否有誤,隨著自動化的進程,有許多人眼都被攝影機取代,這也是影像辨識除了軍用之外,最早落地的領域。

因為在工廠中,影像取得的環境是最穩定的,譬如在自動生產線上,商品流動的形狀與位置都是固定的,所以演算法所鎖定的物品是很直接的,在特定的區域中,將目前取像範圍中的半成品,與合格的半成品相比,如果長的一樣,就允許這個半成品繼續往下個流程走。

再往下一階走,工業3.0所目標的自動化流程其中很常談到"機械手臂",機械手臂的精準度很高,譬如金屬切割、焊接等都十分仰賴,所以當走到工業4.0時,每項流程基本上都需要"智慧化",也就是可以自行溝通、自行處理簡易的障礙,這個時候影像辨識除了協助機械手臂執行任務之外,更重要的是要掌握生產線上的即時情形,運用演算法與規則來判讀目前生產線是否有任何異常,以執行不同程度的回應。

另外,在實體產品的銷售階段,會有庫存(進出貨)、物流等工作要處理,這些流程也慢慢被置入了影像辨識技術,譬如透過影像來判別實際存貨與帳面(數據流)是否符合,然後使用AGV來完成自動取件。

第四,醫療

醫療檢查機器上常使用X光片與CT斷層掃描影像,目前人工智慧可以藉由影像辨識技術「從X光片發現癌細胞」、「從皮膚的影像發現皮膚癌」、「從眼球內的毛細管影像判斷是否有眼疾」

可以協助人類醫生判讀病情,當然目前的醫療診斷程序還是以人類醫生為主,不過電腦影響處理技術可以幫助很多早期疾病的診斷,可以發現人眼難以察覺的變化。

自然語言處理

這一塊就與大家生活息息相關,譬如我們會叫Siri幫我們設定鬧鐘、叫Google Assistant幫我們查導航路線。

這個「叫」,其實我們只是像與他人說話一樣,很自然的發音讓裝置接收,完成我們要求的任務,而後面則是蘊藏了很多人工智慧的技術。

這邊補一個在上一篇應該要提的重要基礎

自然語言處理(NLP)中的"語言向量化"概念

科學家們用一個很有趣的數學模型來解讀人類語句的構成,也就是透過大量文章的訓練,使得每一個詞都有一組複雜的向量(100~1000維)

常見的方式是計算單字在文件(Document)出現的次數,進而統計兩個單字共同出現的機率大小,以決定其相似性,也就是單字間的向量距離,距離越短表示越相似。

你也可以把這個向量組合當作是屬性,也就某個詞越接近另一個詞,這樣他所擁有該個詞成分比例較大,這樣子向量就以某種抽象的方式來表示一個詞的「意義」。

https://kknews.cc/zh-tw/education/l8keqx9.html

自然語言處理的應用領域比較直覺,就是任何的人機互動都藉由語言(說話)的方式達成

在業界的典範當然是提GOOGLE

每年都必看的I/O開發者大會,沒甚麼時間的,可以參考上面的連結,在短時間內幫你catch上全球最新的智慧裝置應用。

從不知道大約兩三年前開始,雖然GOOGLE虛擬助理這塊,還不及Siri的釋出時間,不過卻在近年有很大的突破,也受益於搜尋引擎及youtube所累積大量訓練資料,你可以想像的到,全世界的網頁幾乎都被GOOGLE存檔了,甚至是已經從網站撤下的資料,GOOGLE都有保存部分。然而,當今的網路世界以集滿各式各樣千奇百怪的資訊,那感覺就像是世界的大腦一般,所以如果稱GOOGLE就是世界圖書館也不為過,就像是海賊王中,羅賓的故鄉, 擁有著世界上最多的學者和藏書最多的圖書館 — 全知之樹 奧哈拉

而如同我們這兩篇所講的,當你擁有的資訊量越大,你所訓練出來的AI會越強大。

那GOOGLE的虛擬助理可以幫我們做甚麼事? 訂餐廳、叫UBER and…對,沒錯 它可以幫我們打電話

這個是去年的影片,GOOGLE虛擬助理打給理髮廳員工,然後成功的預訂了服務

感測融合技術

這個部分主要談車用領域,車用領域因為市場非常的龐大,所以各車廠無不致力於發展各式的感測器,解決安全問題

最先發展的是車用雷達,廣泛的使用於車前、車後及車側,在偵測到車的四周有接近的物體時發出警告,譬如倒車、或者停車時的周邊

再來雷達也有不同的頻段,譬如24GHz雷達、77GHz雷達,後來還有紅外線、超音波、攝影機、光達 等等,這個我也在過去的工作中有些著墨,可以參考

而電子工程專輯報導,最近有一篇很不錯的文章,推薦給大家

然而對於每種不同的感測器,其實都有各自的長才,譬如攝影機的優勢是顏色、光達的優勢是3D深度、雷達的優勢是低成本,在沒有一種感測器可以稱霸天下之前,這些感測器必須合作,成就了感測融合的需求

「sensors spec on autonomous vehicles」的圖片搜尋結果

談到這邊,有些人或許會提到,機器人也有影像+攝影機,為何只談自駕車,這個答案很有意思,因為在機器人的環境,他可以把兩者訊號都讀回主機,然後運算、思考一下,再做下一動。

但是在自駕車的環境下,第一,可能就是以60公里以上的速度在接近其他車輛或用路人,所以必須要爭取計算的時間。第二,車輛的感測器如前方所提,其實目前自駕車都會混合使用數種的感測器,所以訊號來源很多,如果要統一回到大腦,負荷是很重的。第三,如第一點,車輛的安全性很重要,所以我不能只仰賴單一個感測器,就算我是用同一種也好,但勢必是要有多顆,每顆負責的範圍必須有些重疊,也就是我雖不用在同一個位置擺上兩顆感測器,但至少兩顆的感測器的感測範圍有些重疊,來降低我因為單一感測器失效所造成的傷害可能性。

所以感測融合的目的有一部分是在減輕大腦的負荷,也有一部分是強化終端不同資訊的整合,以提升精準度

OK,順便談一下目前全球自動駕駛的發展狀況,中技社2018年底有一份算是很完整的報告在談這件事,提供參考

然後關於大家最在意的,便是怎麼樣定義自駕車

我在2017寫這篇文章時,是NHTSA首度採SAE的自駕車分級,而目前NHTSA的自駕車政策也來到了第三版,有興趣可以參考

基本上就是把自駕車分為五級,我以既有的印象及分類來解釋,如有不符最新的定義還請提出,多多指教

  1. 第一級,部分的車輛功能由車輛輔助,譬如定速功能,你的腳或許可以暫時休息,不過你仍然掌握全車的動態
  2. 第二級,比第一級有更多的車輛功能由車輛本身提供輔助,譬如ACC,你的手與腳可以暫時休息,不過你仍然掌握全車動態
  3. 第三級,比第二級再好一點,在「特定的環境」下你可以放鬆,不用完全專注路況,但車廠還是會擔心責任問題,所以車廠還是會叫你要專注路況,不過基本上,大家都會睡著,譬如Tesla與Audi基本上都可以達成這樣的等級
  4. 第四級,除了特定環境之外,你是不用自己開車的
  5. 第五級,車輛完全可以自行駕駛,甚至連駕駛座都不見

而以台灣的環境而言,基本上多數還是停留在Level 2,所以你說自駕車炒得很熱嗎? 我認為還有很長一段路要走

這邊提一個觀點

台灣的路況受機車的影響很大,譬如機車專用道、機車待轉區、機車專用燈號,此外,特殊路況包含公車專用道、尖峰時段的調撥車道、嚴重的路邊停車、標線規格不一、形狀都不一樣的左轉待轉區,這些情況在歐美國家是很少見的,所以如果國外的自駕車進口,十分容易水土不服

再者,這樣的情況要怎麼解決,因為不可能馬上上路實驗,把用路人的性命安全置於風險中,唯一的解,一定要先進實驗場域,再上實路。不過可以關心一下我國目前最大的自駕車實驗場域--沙崙,有處理那些我上述提到的問題,可能只有少數吧

網路應用服務的進化

網路的影音、購物、或程式,也受人工智慧的助益,讓這些應用更加地蓬勃發展。不過這些我就用表列帶過,因為網路上有很多資料,然後Google就不提了,上面已經寫一些。

Spotify:迅雷不及掩耳的速度找到你的音樂喜愛

Youtube:自動上字幕、自動下架違規影片

微軟:人工智慧關於情緒的體驗,有溫度的服務

Amazon:從瀏覽商品開始,讓AI落在每個你沒有注意的小地方

回過頭來說,網路、大數據、AI,這條路並不是順暢的單行道,而是在商業世界的浪潮中起伏、交疊、來回衝擊,最後激起最漂亮的浪花

這當中有很多的公司失敗,有很多的政府研究經費花在無疾而終的研究計畫,不過世界很大,在幾十億人口的轉動之下,人類的智慧還是會持續邁進

最後談未來

有三個主要的Part

第一個,量子電腦

現在的數位電腦是二進位,也就是1跟0,而隨著摩爾定律的衰弱,可能必須接受目前的數位電腦是有其極限

所以自1980年代就開始研發,目標是可以突破0 & 1的界線,使得同時有多個位元存在的可能性。

第二個,AI取代工作

日本野村綜合研究院於2015年提出,未來10-20年內,有49%的勞動人口會被人工智慧或機器人取代。

麥肯錫與萬寶華都相繼指出,未來有很多工作(目前還稱為"工作"的工作)會由AI來執行,所以這些工作將不再耗費人力。

當然,人類沒有這麼笨,並不是說這些被取代掉工作的人就失業、然後等著餓死,因為沒有工作做,當然不是。

屆時,有一份工作很棒,就是修理機器人(半認真貌)

有幾點可以思考

  1. AI取代人力之前,由於AI是需要被訓練的,加上產業的變化不可能如此急遽,所以勢必有個過渡期,且可能耗時數十年。舉個例子而言,物流駕駛可能未來會有自駕系統的幫忙,不過在初期,勢必會由駕駛,來幫助訓練自駕車、監督自駕車等,所以也在這段時間內,駕駛就懂得如何跟機器互動,可以在這段時間內以"人機交互"的方式,更有效率的完成工作。
  2. 當AI時代真正來臨時,人類會有更多時間去發揮創意、執行開創性的事物,整體而言的工作效率是會提升的,而隨著產業變遷,或許會有陣痛期,不過也會慢慢的建立每個人的digital mindset,當你懂AI之後(就算不是技術也無妨,重點是開放學習的心態),你懂得在AI之上去處理更重要的事情,這個時候AI就是工具,而不是你工作的競爭對手。

第三個,技術奇點

這個算是有一部分的想像,當然也有一部分其實已經悄悄的在影響你的生活。

基本上,技術奇點就是指「人工智慧超越人類智慧」的那一個時間點,有些人預言2045、2050之類,不過這些預測並不科學,所以不多談

這邊要談的是幾個有趣的概念,恐怖谷理論與人工智慧倫理

恐怖谷理論相信認識機器人科技的人都知道,就是在某個機器人擬人的程度被觸及之後,機器人會變成夢魘,後來也有一些科學證據出現

SOFTBANK的PEPPER機器人,台灣主要是由亞太電信推廣

舉個例子來說,在網路上就可以搜索到的文件中,可以知道軟銀在"人型機器人"的打造上不只是資訊與機電,同時還富有很多哲學

譬如,pepper是不能垂頭喪氣的,只要在人前,就必須是開啟的,其實主要是要避免讓pepper有"死"/”活”的聯想,避免讓人們感覺到,他是有生命的

延伸來談,pepper被強調是humanoid,也就是"人型",不能跟人類/動物扯上任何關係。

再者,pepper不能有負面情緒、眼睛不能是紅色的等等,讓人們有任何一絲感受到pepper是帶有威脅的

其實這些都是反應了未來AI與人類互動的哲學思維

最後的最後,人工智慧倫理,這個命題滿大,也很有趣

譬如知名的電車難題, 藉由思考兩難困境有助於我們理解道德論述能夠採取什麼樣的進展方式,包括在個人生活以及公共領域裡。

當然,有些細微的變化已經在這個世界上發生,只是我們知道多少,以及我們可以做多少

這類科技倫理惹議的案例,未來可能只會更多

另外,一個場景,就像電影"代理人"那般,如果這些技術成真,人與人、人與機、機與機之間的關係都將被改變

另外,Nvidia的工程總監Timothy Lanfear指出

「我們每天都在使用那些複雜到無法吸收的系統。AI並沒什麼不同。它也處於一種無法完全理解的複雜程度。然而,你唯一能做的是把它分解成片段,找到測試它的方法,然後檢查它是否按你期望的方式進行,如果不是的話,就採取行動。」

反映AI演算法的複雜程度可能無法被掌握,這確實是一大問題,以下這篇談了一些目前大家都知道應該要監管,不過從何下手、標準、方式,其實世界都還沒有答案

OK,這篇就到這邊囉

--

--

No responses yet