作者:邱明峻(科睿唯安IP解決方案顧問)
人工智慧 (Artificial intelligence) 絕對是當前最受矚目的科技議題,類似的概念更可追溯到1950初期圖靈提出的圖靈測試。發展過程中面臨基礎研究技術瓶頸、環境未成熟、相關投資撤回等挑戰,人工智慧的歷史也曾出現過幾次的低潮。在第三次工業革命後,電腦科學的理論突破帶動了ICT產業的崛起,30多年前 (1986年) 全球資訊交換的數位化程度僅20%,但在全球資訊的數位化浪潮下,到了2007年全球數位化程度已超過99.9%。
從類比的文件中萃取出數據
「人工智慧的發展需仰賴大量數據為基礎」,對於關注AI發展的人們普遍應該都有這個認知。除我們熟悉的各種行動裝置(手機、平板、電腦…),甚至是遍布於我們生活周遭的各種感測器產出各種數據以外,有些「既有」的資料過去可能是透過紙本的方式存在,將這些「文本」進行數位化,亦可做為「數據」進行運用。
以專利為例,雖然各國專利局大力推動專利申請電子化,紛紛祭出各項規費優惠,但不可否認的,過去所累積的大量專利文件是以紙本的形式提交申請。以WIPO 2017年發布的數據為例,全球一年有約300萬件專利申請,假設這些說明書文件是以紙本方式提交申請,若是用人工的方式進行數位化甚至翻譯的工作,不但得耗費極為可觀的人力行政成本,欲透過人力完成如此龐大的工作量,是相當不具效益的做法。因此,「如何將這些內容更有效率的數位化?」是一門重要課題。
Optical Character Recognition (OCR) 光學字元識別技術 的問世,利用機器對文本圖像進行識別,取得其中的文字資訊,大大減少了人力的投入,人們開始能有效率的從類比的文件中萃取出數據,而如機器翻譯、語意分析、檢索、文本探勘、聚類等現今常見的各種應用,也是在這些數據的滋養下從相當陽春的應用不斷發展成為至今許多人工作中不可或缺的工具,為這些數據產生出更多附加價值(可理解的語言、可檢索的標的、視覺化的圖表…)。
不僅如此,無論是專利、論文、技術文件,甚至病歷、帳目還是個人的生活記錄,這些從文本中萃取出來的數據如同我們透過聯網裝置產生出來的數據一樣,也可用於訓練機器學習系統。
「記載於文本的內容某些情況下更超過我們透過聯網裝置傳遞出來的訊息量,富含大量訊息的數據將更有價值」
AI正在改變IP的工作
人工智慧時代IP專家面臨的挑戰是「如何將AI科技結合既有的工作以滿足越趨複雜的需求」。根據報導,五大專利局局長 (US, CN, EP, JP, KR) 就人工智慧如何導入現有專利工作以及未來的影響做了討論。以日本特許廳 (JPO) 為例,JPO正與中國知識產權局 (SIPO) 討論如何將AI部署到現有專利工作(連結),包括篩選專利前案、專利分類等簡化各種不同的任務的應用。
科睿唯安做為一家掌握專利大數據及資料科學技術的企業,當然也沒缺席這場AI改變IP產業的革命。科睿唯安的 Derwent Innovation (DI) 的核心價值是由900多人專家團隊對全球專利說明書及數據做深加工處理的 DWPI 德溫特專利索引。但,有個疑問是:「全球一年有300萬件專利申請,就算900多人不吃不喝不休息的趕工,能改完這麼多件專利嗎?」
絕非盲目的想跟著當前的人工智慧技術一起炒熱話題,早在十多年前,我們便意識到單靠人力每年要改寫如此多的專利是做不到的,便決定導入機器輔助人力的相關技術來改善工作流,包括機器翻譯、語意分析、文本聚類等技術。所有專利收錄進我們的資料庫後(我們稱為第一層資料 First level data, FLD),便會進行機器翻譯及語意分析等處理,並指派給對應技術背景的DWPI專家進行人工再校稿的作業。
而也歸功於過去我們專注於收錄各國專利,及長久以來不斷累積的DWPI的加值數據,成為訓練機器的數據來源,在多年的技術實力積累之下發展出我們的機器學習系統,並形成成熟的人-機協作的工作流。現在DWPI專家在改寫每一篇專利以前,都會有人工智慧提出改寫的建議,但人類不一定會接受每一次的建議,人類會以他們對於「現實情況」的了解進行反饋,這也成為了機器學習的重要參考。如此,我們能確保在獲得高效率之虞也確保資料品質的把關。
隨著基礎技術發展逐漸成熟,原本只是為了優化DWPI工作流的各項應用,我們將這些應用轉化成既有產品上的功能,包括專利存續狀態預測、智能檢索、智能技術主題、最佳化申請人等…讓廣大的使用者得以運用人工智慧輔助他們既有的工作,提升效率與工作品質。




專利不應該只是一種「法律文件」,它記載著全球創新組織欲保護的研發心血。然而,面對大量的專利,若沒有能力解析其中的技術內容,最終仍得不到專利說明書中的「黃金屋」。一旦您的對手懂得如何結合專利資訊與商業策略,雙方將形成「知識的落差」,且差距越來越大。某種程度上也反映出為何全球許多企業都將「專利分析」視為幫助企業發展的關鍵。
無論您進行的是何種專利分析,必定會對專利的技術進行「分類」,分類是識別、區分標的的過程,分類後的標的用於某些特定目的(產品線、客戶分類、技術類別、人員組織….),而如何「分類」也是一門學問。一般來說分類通常會有兩種作法: 1)人工分類 2)機器分類。各有其利弊。
人工分類
在進行人工分類時,分析者(人類)會依眼前所見的資訊內容,運用自己對事物的了解將相關資訊進行分類,這樣做的好處在於,人類可就對現實情況的了解做判讀,但由於人類有「思想」,即使在分類以前已訂出嚴格的規範,也無法確保人類能始終保持一致的思想完成作業而「走偏」。
機器分類
利用機器來進行分類則單純了許多,以專利分類為例,只要預先設定好「條件」,在前述曾提到的語意檢索技術的基礎之下,機器能從專利的內容中找出符合條件的標的,並依據其條件進行歸類。好處是在不受外力干擾的情況下,機器自始自終都會遵照預先給定的規範進行分類。但問題出在,單就簡單的幾個條件設定,是很難將一件事情完整描繪,預先定義的規範時無法考量周全的情況下,機器仍只能依據預先定好的條件執行任務。
如果人類的邏輯可以被學習呢?
那麼,我們可以訓練機器從過去的邏輯中找出一個規律嗎?我大膽的說,人類甚至不一定能掌握他們自認為的規律中的每個細節。假設一個情況:人類從一段描述中看到某個關鍵字後,因而決定將該記錄分類到A;但在另一個情況,明明有一樣的關鍵字,人類卻決定將該記錄分類到B。造成不一致的原因未必是「心證」或「偏見」,也可能是人類看到了其它的訊息使他們決定這麼做。而這個訊息又連結著其他人類沒意識到的隱藏訊息,既然沒意識到,就更別說做為預設條件讓機器遵照以執行任務了。但若機器在前面的過程中學習其中的規律,再依這個學習而來的規律去執行任務呢?以下透過一個例子來說明這個概念。
假設有一批待分類的專利或技術文件(或任何有文字描述的文件,以此類推),我們也已預先設計好分類的架構(技術優劣、技術類型、產品序號、人員名單、上中下游…),只是目前這一批專利並沒有被標上任何的分類標籤。
我們從第一篇開始進行「人工分類」,看到了這個記錄上的內容描述後,我用自己對這件事情的認知進行人工的分類。

就這樣繼續人工分類,到了第4篇,左上角出現了一個數值,顯示為17

繼續人工分類到第20篇,過程中左上角的數值不斷的在上昇,顯示為73

到了第50篇,左上角的數值已經來到了94。而這個數值代表著什麼意思呢?

剛剛所展示的是科睿唯安的大數據分析工具 Derwent Data Analyzer (DDA) 中的人工智慧自動分類技術,左上角的數值代表著機器在我分類的過程中,從我處理過的記錄裡面找出彼此間的關聯性,並評估自己有多少自信(自信度分數)能模仿人類剛剛的分類邏輯。
一旦您覺得模仿的自信度數值已達到可以接受的程度,便可按下自動分類按鈕讓機器為您將剩下未分類到的記錄,以相同的邏輯進行分類。假設剛剛的例子總共是1000件專利,人類分完50件以後(50件非絕對值,依參考內容的複雜程度而異),機器已有94%的自信可以模仿我的分類邏輯,將接下來的950件進行自動分類。機器完全遵照一致的標準進行分類,而這分類的標準又是來自於人類的訓練而來,因而體現出人機協作的結果。
如何將過去的專利分析再創造價值?
看過了AI應用於專利工作的案例後,我們應該重新思考如何將過去完成的專利分析報告融入這些AI工具中?當我們對於一門技術進行研究並做了各種維度的分析,其實我們已經為相關的記錄(專利、論文、內部文件…)貼上了「標籤」。
對於機器學習系統來說,這些標籤是非常珍貴的數據來源。除了能透過專利分析軟體(例如:Derwent Data Analyzer, DDA)對於這些標籤進行各式的交集分析,從這些交集中挖掘出更深入的情報,甚至進行更深度的「分類」及「標籤」作業,為原有數據再加值。
一旦大量的標籤被建立起來,未來能否用AI來輔助市場與技術情報分析的工作?透過AI輔助決策者判斷技術趨勢、產品設計、風險預警等。這些都是現正在發生的事情並非離我們很遠,可以組合應用的工具也非常多,但就如同前述DWPI的工作流,人機間的交互過程中,機器可以作到什麼程度?人類又該在什麼階段接手?如何串接?決策者必須思考如何更好的融合至既有的工作流中。
未來的IP工作真的會完全被AI所取代?
隨著人工智慧成為熱門的議題,筆者也從2016年開始關注人工智慧於IP或Legal的應用,但當時相關的話題未見太多的討論,但一則報導吸引了我的眼球:美國的律所聘請了首位AI律師 “Ross”。 當時這位AI律師的任務主要負責處理律所大量的法律文件內容篩查校稿工作,較為重複性的作業。而不過兩年的時間,再次看到AI律師的新聞卻已變成:一個AI律師以更高效更低錯誤率的結果擊敗了20位人類律師。
人工智慧大大節省了人力投入分類的時間,隨著技術成熟,它能做的事情只會更多。科技的發展是循序漸進的,但歷史告訴我們,隨著不斷累積起來的技術基礎,科技會走得越來越快。筆者過去兩年數百場到客戶端會議的經驗,不乏聽到這樣的反饋:「為什麼我還得教它?它不會自己判斷嗎?」
「就只能做到這樣嗎?我以為它能做更多」 「還有沒有更自動化的作法?最好人完全不用出力」。如果我告訴各位未來人工智慧真能完全執行您目前的工作甚至不需要有任何「人」的投入便能自動完成,而您卻仍舊沒打算改變既有的工作模式。您覺得會發生什麼事情?
「公版式」的作業未來將很容易會被AI取代
創新工廠執行長李開復先生在他的人工智慧來了一書中提到「五秒原則」。一個本來由人從事的工作,若5秒內就能決定該如何處理(不考慮交通時間等等因素),這種工作未來很可能被人工智慧大量取代。聽起來有點嚇人,但仔細思考卻又挺有道理,在技術不斷突破的情況下,人工智慧若可將重複性、有規律性的工作執行得的人更好、更有效率,這類型的工作就不應該再由人類來執行。
如果人工智慧做了那些工作,那我們應該做什麼?
未來的職場可能會有三種情況,人類某種工作被AI完全取代、人類某種工作被AI部分取代、人類某種工作轉變為新的工作方式,IBM的執行長Ginni Rometty曾提到「AI完全取代人類工作的比例非常小,但AI 100%會改變工作的型態或改變您工作的方式」。機器沒有情感,無法看透人類世界的真實面貌,這也是前述人工分類與機器分類提到的最大差異「人類可依現實情況作調整,機器則無法」。人的價值在於我們對人性及現狀的真實理解。未來人類應該會逐漸習慣AI幫助我們完成更多複雜的運算,但這終舊是基於數據的計算,而我們應更專注於需要付諸情感、洞悉人性才能完成的工作,畢竟無論如何,仍有些事情是數據無法體現的。