上海計算機軟件技術(shù)開發(fā)中心主任蔡立志:AI要避免數(shù)據(jù)投毒(上海市計算機軟件技術(shù)開發(fā)中心)
11月9日,長三角一體化數(shù)字文明共建共享——數(shù)字長三角發(fā)展大會在浙江嘉興舉行。本次大會是2023年世界互聯(lián)網(wǎng)大會烏鎮(zhèn)峰會的3個永久舉辦地特色活動之一,主題為“共建數(shù)字長三角新格局 共創(chuàng)數(shù)字文明新生態(tài)”。
在大會上,上海計算機軟件技術(shù)開發(fā)中心主任蔡立志就“邁向人工智能時代——打造共建共享共治的數(shù)字長三角”這一話題,通過“烏鎮(zhèn)對話”高峰論壇分享了其觀點,“人工智能除了在實體經(jīng)濟里去延伸和拓展外,還可以用于自動設計芯片,人工智能的發(fā)展會影響到我們生活的方方面面”。
在接受南都記者采訪時蔡立志表示,人工智能帶來的風險包括數(shù)據(jù)泄露、個人隱私、數(shù)據(jù)濫用等。除此之外,大模型本身也會帶來巨大的風險,“人工智能如果要有生命力,必須是開放的、不斷學習的,如果是封閉的,它就不會演化。開放就帶來一個問題,學習的資料要不斷進來。有個詞語叫‘數(shù)據(jù)投毒’,用好的數(shù)據(jù)訓練AI,它就變成一個好學生,用一個糟糕的數(shù)據(jù)訓練,它就會變成一個壞學生,其倫理道德各方面都會被改變?!?
“烏鎮(zhèn)對話”高峰論壇。
對于企業(yè)在使用大模型時應如何規(guī)避風險,蔡立志認為,要么就不拿數(shù)據(jù)去訓練,要么就數(shù)據(jù)脫敏后再訓練,“但問題是數(shù)據(jù)處理以后有可能讓數(shù)據(jù)本身蘊含的規(guī)律和信息也丟失掉了。所以保護隱私和數(shù)據(jù)價值的挖掘永遠存在矛盾,功能的應用性便利性和它的安全性永遠是一對矛盾體,這個沒有辦法解決。但無論在什么樣的階段,都不能只兼顧一頭而放棄另外一頭。所以我們國家現(xiàn)在出來了很多法律法規(guī),一方面你提供數(shù)據(jù)的時候需要注重隱私,另一方面在訓練大模型的廠家應該遵循一定的倫理道德和社會約束?!?/p>
蔡立志還提到,隨著人工智能的發(fā)展,也有可能讓原本的數(shù)據(jù)脫敏技術(shù)無效,“以前脫敏是給名字中間打上星號,中間若干個字段給它去掉一個字段?,F(xiàn)在這種脫敏技術(shù)在大模型面前化為烏有。大模型一計算,你在這個地方錯了,在另外一個地方?jīng)]錯,很容易把脫敏的數(shù)據(jù)還原好。這種數(shù)據(jù)隱私泄露的表現(xiàn)形式,是傳統(tǒng)的信息安全領域里,根本顧及不到的,到目前為止還沒有特別好的辦法來解決這個問題?!?/p>
蔡立志告訴南都記者,今年上海計算機軟件技術(shù)開發(fā)中心還推進建成了上海市生成式人工智能質(zhì)量檢驗檢測中心(質(zhì)檢中心),“以前做檢測就是先有標準再做落地?,F(xiàn)在不行了,新的技術(shù)、新的東西我們必須是先探索、先做檢測,然后再去完善標準。”
采寫:南都記者 汪陳晨 發(fā)自烏鎮(zhèn)