鑒偽“深度合成”內容
快商通與美亞柏科、華僑大學聯合申報的“基于深度學習的可信多媒體鑒定關鍵技術研究及其產業化應用”課題入選廈門市重大科技項目,這一項目就是對“深度合成”內容進行鑒別,判斷多媒體內容是否屬于偽造。
研究反生成式AI
美亞柏科正對包括反生成式AI在內的AI安全及監管領域進行研究,并根據業務需要布局相關產品。
推出聲音克隆服務 引入智能檢測算法
復刻你的聲音 還能加“防偽碼”
廈門網訊(廈門日報記者 林露虹)
最近,“AI孫燕姿”成了新“頂流”,其通過AI訓練,可以用歌手孫燕姿的聲音演唱任何你想聽到的歌曲,有網友感慨“真假難辨”。
事實上,“AI孫燕姿”背后的聲音克隆技術并非新生事物,其應用已涉及娛樂、教育等多個領域。在我市,已有人工智能企業探索聲音克隆的應用場景,還有的研究鑒偽技術,防止技術濫用。
聲音克隆已用于多種場景
廈門大學信息學院副教授洪青陽說,聲音克隆可用在電影配音、有聲書、播客等領域,“人們可以根據自己喜好,選擇某個已獲授權的聲音來演繹。再比如,可以克隆已故親人的聲音,讓記憶永存。
不久前,廈企云知芯的母公司云知聲就上線了“聲音克隆”服務。據云知聲介紹,其“聲音克隆”可全面學習用戶的音色和風格,僅需用戶二十句左右的原始錄音,就可以合成貼近真人的數字聲音,且能做到“朗讀的語氣、語調、情感堪比真人”。
在具體的應用中,云知聲方面描繪了幾個場景:智能語音音箱中傳來兒女的聲音,提醒年邁的父母注意天氣變化;兒童點讀機里生硬的機械音被媽媽輕柔的呢喃所取代……
廈企快商通也將聲音克隆技術應用于其研發的數字人軟件中。“用戶只需提供一段3~5分鐘有真人出鏡、包含人聲的視頻,通過我們的軟件,就可以根據需求,自動生成一段全新的視頻,這個數字人的聲音跟真人幾乎一模一樣。”快商通聯合創始人李稀敏說。
用AI反制AI 防止濫用
AI虛擬歌手的風靡,引發人們對聲音安全問題的擔憂:用AI技術模擬聲音進行詐騙的違法行為屢見不鮮,我們如何識別出原版和翻版的聲音?
技術產生的問題,當然也能通過技術來解決。去年底,快商通與美亞柏科、華僑大學聯合申報的“基于深度學習的可信多媒體鑒定關鍵技術研究及其產業化應用”課題入選廈門市重大科技項目,這一項目就是對“深度合成”內容進行鑒別,判斷多媒體內容是否屬于偽造。
與此同時,快商通在其自主研發的數字人、聲音復刻等AIGC(生成式AI)技術中,也引入獨特的智能檢測算法,用于AIGC內容的追蹤溯源。李稀敏說:“我們在視頻或者音頻中隱藏了一個信道,這里頭傳輸的信息有獨特的標識,相當于身份名片。退一步說,哪怕信息丟失了,我們也能通過算法檢測出聲音真偽。”
“任何技術都具有兩面性,AIGC在賦能產業數字化進程方面大有作為,但也極其容易被犯罪分子濫用。因此,發展AIGC的同時,也需要持續深化可信技術。”李稀敏說。
【解密】
訓練一位AI歌手 僅需三步
任何曲風都能駕馭,且沒有違和感,“AI孫燕姿”是怎么煉成的?
廈門大學信息學院副教授洪青陽告訴記者,以“AI孫燕姿”為代表的AI虛擬歌手,由語音轉換(Voice Conversion)技術打造,屬于聲音克隆的一種。所謂語音轉換,簡單理解,就是把A的音色轉換成B的音色,與此同時,保留A說話或唱歌的內容以及語氣、語調等細節。
洪青陽說,訓練AI歌手的過程大致分為三步,以“AI孫燕姿”翻唱周杰倫的《發如雪》為例:先用專門的音頻軟件,把《發如雪》的伴奏和周杰倫的人聲分離;再用處理好的孫燕姿的干聲(去噪的無音樂純人聲)數據,向機器“投喂”,訓練出一個具備孫燕姿音色的聲學模型;最后用這一模型對《發如雪》歌曲文件進行音色轉換,最終得到“AI孫燕姿”翻唱的《發如雪》。
“完成語音轉換的前提是,需具備所模仿對象B的目標音頻,所以它并不是無中生有的。”洪青陽說,除了語音轉換以外,聲音克隆還包括個性化語音合成技術(TTS),可以實現文本轉語音,其優點是不需要被模仿對象B說過同樣的話,內容定制更自由,比如,“寫一首全新的歌讓AI演唱,但這種情況下,因為沒有‘依葫蘆畫瓢’的目標音頻,AI唱得可能像孫燕姿的音色,但不像周杰倫的唱法。”
【記者手記】
眼見 不一定為實
耳聽 也可能為虛
今年以來,AI頻頻出圈,除了技術更新迭代快以外,還有一個重要原因是,AIGC(生成式AI)使創作門檻降低了。正如福建省人工智能協會會長陸陽所言,當AI從感知智能走向認知智能,極大提升了個人用戶的生產力,“人們可以不斷地生產圖像、視頻、音頻……未來,人人都可以是AI創作家。”
不過,AIGC仍處于發展的早期階段,其相關法律法規、標準體系等尚不健全。有法律人士提醒,站在被翻唱歌曲權利人的角度,AI歌手存在侵權問題。當我們利用AI工具生產內容的同時,得緊繃知識產權這根弦。與此同時,我們也應提高防騙意識,畢竟,在AI狂飆的時代,眼見不一定為實,耳聽也可能為虛。
大模型廣泛應用 賦能近百個大數據項目
“最強大腦”直面算力難題
廈門網訊(廈門日報記者 李曉平)
昨日,蘋果發布首款混合現實(MR)頭戴式設備Apple Vision Pro(簡稱“蘋果頭顯”),繼ChatGPT之后,再次引發大家對人工智能的廣泛關注。今年以來,我市多家電子信息企業緊跟行業趨勢,紛紛涉足腦機接口、大模型等人工智能新領域。
根據發布會介紹,蘋果頭顯將聚焦游戲、工作、交流,這款設備將把世界帶入“空間計算”。除了硬件之外,算力也是其發揮作用的一個重要支撐。
值得一提的是,隨著AI技術不斷升級,其安全也愈發受到重視,美亞柏科正對包括反生成式AI在內的AI安全及監管領域進行研究,并根據業務需要布局相關產品。
算力支撐
依托超算平臺 推動大模型應用
在ChatGPT之后,基于各自算力,國內行業“大咖”百度、騰訊、阿里、華為等先后發布大模型。前不久,云知聲山海大模型也在北京發布,展示了其在語言、邏輯、數學等領域的十大核心能力。這一大模型的背后,正是依托東南區域最強超算平臺——廈門Atlas智算中心提供的高效穩定算力,近200P算力支撐千億規模的模型訓練,在兩個月內完成。
云知聲東南總部總經理陸陽向記者透露,為了滿足山海大模型的需求,他們在廈門Atlas智算平臺和DCML模型工廠基礎上,擴充算力,攻關工程優化和數據優選。這期間,廈門區域完成了算力擴容、算法驗證、并行加速、數據優選等,實現GPT為核心的架構升級。
另一家廈企美亞柏科的MYAI大模型目前在順利推進,日前,其相關負責人透露,大模型已在公共安全、政務、稅務、企業數字化轉型等多個領域的近百個大數據項目建設中,得到廣泛應用。美亞柏科建設的廈門市超級計算中心,截至目前有1000多臺服務器,算力達1966萬億次/秒,主要為大數據、人工智能技術基礎研發提供算力支撐。
軟硬發力
關注并參與腦機接口領域
作為人工智能的新領域,腦機接口也正在受到關注,其主要是實現腦與設備的信息交互。為促進我國腦機接口領域的交流合作,推動腦機接口技術產學研用全鏈條發展,由廈企盈趣科技參與承辦的“首屆腦機接口大會”將于下個月召開。
前不久,盈趣科技“牽手”天津大學等,在我市成立北洋腦機接口與智慧健康創新研究院,將圍繞新型神經信號感知與檢測、組織工程與神經仿生、新一代高通量腦機交互技術、人機共融基礎核心器件開發轉化平臺等方向開展科學研究,旨在構建完整的自主知識產權集群,實現腦機交互技術鏈條全覆蓋。
盈趣科技為客戶定制化研發的合作模式,使得其核心能力從早期的精密塑膠件,逐漸延伸至核心電子組件、人機交互系統(電助力自行車人機交互系統、車載hud)等,也是他們與其他電子ODM企業的核心差異。
另一家廈企弘信電子則在電子元器件上發力,日前他們在互動平臺上也透露,他們關注并看好腦機接口帶來的發展機遇,成功獨家為小米鐵蛋機器人,提供全套電路板解決方案。同時,他們的產品正應用到多款智能眼鏡及AR、VR硬件產品中,今年以來,這個領域的訂單顯著增長。
值得一提的是,前不久,弘信電子與燧原科技簽訂合作協議,雙方正共同開發高算力、高能效比的人工智能訓練推理能力,打造適合人工智能應用與訓練基礎能力的國產化算力平臺。