全文共2800字,閱讀大約需要5分鐘。
在2023年的RSA會議上,弗吉尼亞行為健康和發(fā)展服務(wù)部的CISO和研究員分享了題為“機器崛起:通過人工智能實現(xiàn)數(shù)據(jù)安全與分析”的議題。他們提出了使用人工智能的方法來快速合成“去識別”(de-identified)數(shù)據(jù),從而避免了大量資源消耗和人為誤差。本文將解讀該議題及其涉及的相關(guān)技術(shù)基本原理。
(資料圖)
一
人工智能與數(shù)據(jù)合成
統(tǒng)計學(xué)習(xí)(Statistical Learning)、機器學(xué)習(xí)(Machine Learning)、符號學(xué)習(xí)(Symbolic Learning)、神經(jīng)網(wǎng)絡(luò)(Neural Network)…… AI發(fā)展至今,已經(jīng)形成了龐大的分支。每個分支上都存在著各種不同的技術(shù)。通過利用這些技術(shù),我們使得機器更加智能。它們可以幫助我們進行分類和預(yù)測任務(wù)、物體識別任務(wù)、動作捕捉任務(wù)以及語音的識別和轉(zhuǎn)錄任務(wù),如圖 1所列舉。然而,要訓(xùn)練這些機器,我們需要大量的數(shù)據(jù)作為支持。因此,一個出色的模型通常需要大量的訓(xùn)練數(shù)據(jù)。
圖1機器學(xué)習(xí)與人類
這引出了一個問題:如何獲取如此龐大的數(shù)據(jù)?而這個問題又會帶來一系列相關(guān)問題:在個人信息保護法的要求下,如何合規(guī)合法地收集去識別和脫敏的數(shù)據(jù)?如何確保在對數(shù)據(jù)進行識別和脫敏后,仍然能夠有效地用于訓(xùn)練?
在會議上,Glenn Schmitz提出了使用合成數(shù)據(jù)(synthetic data)的方法,即利用人工智能自動合成數(shù)據(jù),跳過傳統(tǒng)的數(shù)據(jù)收集過程,將由人工智能合成的數(shù)據(jù)用于其他人工智能的訓(xùn)練或數(shù)據(jù)分析。如圖2所示,通過CycleGAN技術(shù),我們可以將真實圖片轉(zhuǎn)換為虛擬圖片,例如將冬天的景象轉(zhuǎn)變?yōu)橄奶斓木跋?。Glenn Schmitz在會議中提出了三種不同的方法:合成少數(shù)過采樣技術(shù)(SMOTE),變分自編碼器(VAEs)和生成對抗網(wǎng)絡(luò)(GAN)。
圖2 CycleGAN合成數(shù)據(jù)樣例圖
二
SMOTE&VAEs&GAN
SMOTE一種使用真實數(shù)據(jù)進行數(shù)據(jù)合成(data synthesis with real data)的方法。這種方法使用已有的真實數(shù)據(jù)集作為基礎(chǔ),并通過對其進行處理和轉(zhuǎn)換來生成新的數(shù)據(jù)集。通常,這涉及對原始數(shù)據(jù)進行采樣、轉(zhuǎn)換、增強或添加噪聲等操作,以生成更多的樣本。使用真實數(shù)據(jù)進行數(shù)據(jù)合成的主要優(yōu)點是生成的數(shù)據(jù)能夠反映出原始數(shù)據(jù)集的真實特征和分布。具體而言SMOTE通過在少數(shù)類樣本之間進行插值,生成合成樣本來增加少數(shù)類樣本的數(shù)量。如圖3所示,SMOTE方法選擇一個少數(shù)類樣本和其最近鄰的樣本,然后在它們之間隨機插值生成新的樣本。這樣可以增加少數(shù)類樣本的數(shù)量,平衡數(shù)據(jù)集,并提高機器學(xué)習(xí)算法對少數(shù)類的分類性能。
圖3 SMOTE樣本點生成示意圖
與之相對,VAEs和GAN都是不使用真實數(shù)據(jù)進行數(shù)據(jù)合成(data synthesis without real data)的方法。這種方法不依賴于任何真實數(shù)據(jù)集(生成的數(shù)據(jù)不依賴于真實數(shù)據(jù)集,模型的訓(xùn)練可能需要),而是使用各種建模技術(shù)來生成合成數(shù)據(jù)。通過學(xué)習(xí)原始數(shù)據(jù)集的特征和分布,這些模型可以生成與原始數(shù)據(jù)類似的合成數(shù)據(jù)。不使用真實數(shù)據(jù)進行數(shù)據(jù)合成的優(yōu)點是可以生成大量的數(shù)據(jù)樣本,即使在原始數(shù)據(jù)稀缺或難以獲得的情況下也能夠進行模型訓(xùn)練和算法評估。然而,由于生成的數(shù)據(jù)不是基于真實觀測數(shù)據(jù),因此可能無法完全捕捉真實世界中的復(fù)雜性和不確定性。
具體而言,VAEs是一種基于概率模型的數(shù)據(jù)合成方法。它結(jié)合了自編碼器和變分推斷的思想,可以用于生成合成數(shù)據(jù)。通過學(xué)習(xí)數(shù)據(jù)的潛在表示空間,如圖4中通過encoder學(xué)習(xí)到數(shù)據(jù)的概率分布,VAES在該空間中采樣來生成新的合成數(shù)據(jù)樣本。它的優(yōu)勢在于能夠生成具有多樣性的數(shù)據(jù),同時還能保持數(shù)據(jù)的連續(xù)性和一致性,因為它們是對數(shù)據(jù)的生成過程進行建模,并且能夠通過調(diào)整潛在空間中的參數(shù)來控制生成樣本的特征。
圖4VAEs的編碼與解碼示意圖
而GAN是通過兩個部件——生成器與判別器來合成數(shù)據(jù)。其中,生成器負責生成合成數(shù)據(jù)樣本,而判別器則負責區(qū)分真實數(shù)據(jù)和合成數(shù)據(jù)。如圖5所示,通過對抗性訓(xùn)練,生成器可以逐漸學(xué)習(xí)生成逼真的合成數(shù)據(jù),同時判別器也不斷提升辨別真實與合成數(shù)據(jù)的能力。這種對抗性訓(xùn)練過程使得GAN能夠生成具有高度逼真度和與真實數(shù)據(jù)相似性的合成數(shù)據(jù)。
圖5CGAN的對抗示意圖
三
合成數(shù)據(jù)的應(yīng)用場景
對于合成數(shù)據(jù)的應(yīng)用場景,Glenn Schmitz提到了四個目前取得成果的例子,如圖6所示。首先,F(xiàn)ACS(Facial Action Coding System)發(fā)表了應(yīng)用合成數(shù)據(jù)用于骨科手術(shù)的案例。其次,DeepAI利用合成數(shù)據(jù)訓(xùn)練了圖像分割和目標提取模型。第三,OpenAI利用合成數(shù)據(jù)進行了語義識別的研究。最后,Ilge Akkaya發(fā)表了使用合成數(shù)據(jù)訓(xùn)練機器人手臂的成果。
總的來說,合成數(shù)據(jù)在許多應(yīng)用場景中發(fā)揮著重要作用。它可以用于增強真實數(shù)據(jù)集的規(guī)模和多樣性,從而提高機器學(xué)習(xí)模型的性能和泛化能力。合成數(shù)據(jù)還可以用于填補缺失數(shù)據(jù)或處理數(shù)據(jù)不平衡的問題,以平衡數(shù)據(jù)集的分布。此外,合成數(shù)據(jù)也可以在隱私保護方面發(fā)揮作用,通過生成合成數(shù)據(jù)來替代敏感信息,以保護個人隱私。在模擬和仿真領(lǐng)域,合成數(shù)據(jù)可以用于創(chuàng)建虛擬環(huán)境和場景,以進行測試、驗證和訓(xùn)練,從而降低成本和風(fēng)險??傊?,合成數(shù)據(jù)具有廣泛的應(yīng)用場景,為各種領(lǐng)域的數(shù)據(jù)分析、建模和決策提供了有價值的資源。
圖6合成數(shù)據(jù)應(yīng)用場景
四
合成數(shù)據(jù)的“深淵”
Glenn Schmitz指出,盡管合成數(shù)據(jù)方便了訓(xùn)練數(shù)據(jù)的獲取,但它仍然存在一些爭議和風(fēng)險。從AI的倫理和道德角度來看,合成數(shù)據(jù)的生成過程,因為設(shè)計原因,可能本身帶有一定的“偏見”,使得生成的數(shù)據(jù)具有強烈的“個人屬性”。此外,從使用的角度來看,當合成數(shù)據(jù)用于\"精細任務(wù)\"時,它所引入的誤差可能帶來巨大的使用風(fēng)險。如圖 7所示,使用時,需要全面的考慮到利弊,同時也需要在道德,偏差與目標做權(quán)衡。
圖7合成數(shù)據(jù)與AI的使用
正如CycleGAN的研究者在論文中所指出的,CycleGAN的輸出是對“如果......它會是什么樣子”的預(yù)測,雖然這些預(yù)測看似合理,但與基本事實可能存在很大差異。因此,在根據(jù)CycleGAN的輸出作出關(guān)鍵決策的領(lǐng)域中,需要謹慎使用和校準。特別是在醫(yī)學(xué)應(yīng)用中,例如將MRI數(shù)據(jù)轉(zhuǎn)換為CT數(shù)據(jù)時,這一點尤為重要。就像CycleGAN可能在天空中添加奇特的云彩,使其看起來像梵高的畫作一樣,它可能會在醫(yī)學(xué)圖像中添加不存在的腫瘤或者移除真實存在的腫瘤,如圖 8所示。
圖8合成數(shù)據(jù)錯誤移除與添加腫瘤
五
合成數(shù)據(jù)的工具
為了方便研究人員和開發(fā)者使用,Glenn Schmitz列舉了一些常用的數(shù)據(jù)合成工具,如圖9所示,包括:
1)Mimesis:一個多語言的假數(shù)據(jù)生成庫,可以生成各種類型的數(shù)據(jù),如姓名、地址、電子郵件等。
2)The Synthetic Data Vault(SDV):一個開源工具,用于生成合成數(shù)據(jù)集,它基于統(tǒng)計模型和機器學(xué)習(xí)算法,可以模擬真實數(shù)據(jù)的分布和屬性。
3)Transaction data simulator:用于模擬交易數(shù)據(jù)的工具,可以生成合成的交易數(shù)據(jù)集,用于測試和分析目的。
4)YData Synthetic:一個用于生成合成數(shù)據(jù)的平臺,提供了各種數(shù)據(jù)類型和生成方法,可以根據(jù)需求創(chuàng)建合成數(shù)據(jù)集。
5)Faker:一個用于生成合成數(shù)據(jù)的Python庫,可以生成各種類型的數(shù)據(jù),如姓名、地址、日期等。
此外,還有一些常用的Python庫,如sklearn(Scikit-learn)、faker module、PYOD(Python Outlier Detection)、CTGAN(Conditional Tabular GAN),它們提供了豐富的功能和算法,用于生成和處理合成數(shù)據(jù)。
圖9合成工具包舉例
參考文獻
[1] Glenn Schmitz, Angus Chen, Rise of the Machines: Achieving Data Security and Analytics with AI,RSAC, 2023
[2] Blagus R, Lusa L. SMOTE for high-dimensional class-imbalanced data[J]. BMC bioinformatics, 2013, 14: 1-16.
[3] Joseph Rocca, Understanding Variational Autoencoders (VAEs), towardsdatascience, 2019
[4] Sik-Ho Tsang, CGAN — Conditional GAN (GAN), Artificial Intelligence in Plain English, 2020
[5] Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223-2232).
關(guān)鍵詞:
洞見RSA 2023 | 利用AI合成去識別化數(shù)據(jù)|時快訊
有機磷農(nóng)藥廢水殘余產(chǎn)品萃取回收預(yù)處理技術(shù)(關(guān)于有機磷農(nóng)藥廢水殘余產(chǎn)品萃取回收預(yù)處理技術(shù)介紹)|世界焦點
二甲胺甲醇溶液商品報價動態(tài)(2023-05-27)_天天新視野
斗羅261集:劇場版讓人失望,人物建模和畫面崩壞,劇情魔鬼嚴重|全球今亮點
馭靈女盜 百度百科_馭靈女盜
今頭條!燉牛肉的秘方?
389億!揭秘“網(wǎng)文”這樁大生意_世界快資訊
館陶縣屬于哪個市
恢復(fù)神速!什克希望代表國米出戰(zhàn)都靈,馬騎士有意免簽1米89中鋒 當前時訊
天天滾動:意媒:多特有意引進米林科維奇,將與曼聯(lián)&紐卡&米蘭&尤文競爭
廣西2022年平均工資出爐!柳州排在→
精彩看點:風(fēng)行老鬼官方旗艦店_風(fēng)行老鬼
擔保公司經(jīng)營范圍增加(擔保公司經(jīng)營范圍)
個別墨西哥媒體炒作關(guān)于芬太尼問題,中國駐墨西哥使館嚴正聲明|每日速讀
今日熱聞!高校畢業(yè)生規(guī)模創(chuàng)新高 廣西多措促就業(yè)
環(huán)球要聞:初中文憑怎么報考2023年河北自考大專?有哪些專業(yè)?
為什么咩咩子是老婆(咩咩子是什么梗)
構(gòu)建教育發(fā)展共同體 推動城鄉(xiāng)教育均衡化——巴中市陳然巴山名校長工作室赴通江觀摩學(xué)習(xí)暨通江工作站成立 世界滾動
微速訊:工業(yè)富聯(lián)(601138)5月26日主力資金凈賣出1.43億元
天天即時:2023北京經(jīng)開職工社保繳費比例是多少,北京經(jīng)開個人社保交多少錢一個月?
美國共和黨債務(wù)上限談判代表:希望周末能達成協(xié)議
據(jù)中國駐歐盟使團微信公眾號,2023年5月26日,中國駐歐盟使團團長傅聰大使會見愛爾蘭常駐歐盟代表托馬斯·漢尼大使|當前速遞
每日熱文:韓亞航空客機艙門在空中被打開 9人呼吸困難被送醫(yī)
年內(nèi)34家企業(yè)登陸北交所,上市首日平均收益率22.84%|今頭條
中超金牌球市 成都鳳凰山傳奇 最火爆的主場
手機銷售疲軟的小米,能撐得起燒錢的汽車業(yè)務(wù)嗎?-世界熱訊
浙江臨安:打造一支群眾滿意的“山村醫(yī)生”隊伍|環(huán)球最資訊
究極生命體雷布拉德星人怎么畫_究極生命體雷布拉德星人|環(huán)球觀點
2023年陜西省寶雞市中考成績查詢網(wǎng)站:http://jyj.baoji.gov.cn/|快看
世體:因西甲推遲批準財政計劃,巴薩對能否簽下京多安表示擔憂