NVIDIA推人工智慧視訊會議神器Maxine(下)－重金屬AI工程師的Coding分享

NVIDIA推人工智慧視訊會議神器,再邋遢都不怕(下)

NVIDIA推人工智慧視訊會議神器Maxine,剛睡醒的你也能一秒體面上工(下)

本文為該系列的下篇，上篇（Maxine 是如何運作，讓視訊頻寬消耗減少至原本的十分之一）請點此連結

眼神接觸、臉部對齊……人工智慧提升視訊會議的體驗

臉部眼神校正功能：模擬面對面開會

Maxine 還應用了 NVIDIA 在生成對抗網路 (GAN) 的優勢，讓視訊會議服務供應商能為用戶提供各種 AI 功能，讓用戶有真實「面對面」的感受。

例如：「臉部對齊」功能可自動調整臉部角度，讓用戶在參與會議的過程中，看起來像是彼此相對、「眼神校正」能模擬眼神接觸、校正會議參與者的視線。這些功能能幫助與會者保持互動，無需一直盯著攝影機。

替身與虛擬背景：人再邋遢、家中再亂都能體面開會！

除此之外，視訊會議服務的供應商也能增加替身功能，讓用戶選擇自己的動畫當替身，能即時地透過用戶的聲音、情緒音調，自動生成逼真的動畫。

除了替身功能，Nvidia 也在今年六月 CVPR 大會，發表 Maxine 平台最新的「Vid2Vid Cameo」的深度學習模型：採用生成對抗網絡（GAN）的技術，只需將一個人的 2D 照片合成至談話影像中，就能輕易地打造數位虛擬化身、節省視訊頻寬，並能夠進行人臉辨識等強大功能。如此一來，就算鏡頭另一端的用戶衣衫不整、頭髮凌亂也不怕了！只要你在會議前拿出一張自己穿正式衣服的照片，就能讓穿著得體的自己當成替身參與視訊會議喔！

假如家中小孩太吵、或是燈光太暗的話，也不用怕！Maxine 的人工智慧技術可以移除背景噪音、並且提供超高解析度的畫面，也提升光線較暗時的清晰度，甚至為臉重新打光！

有了參與會議時，若家中小孩太吵也不用擔心，因為 Maxine 的人工智慧技術可以移除背景噪音！

若上述的都不行的話，你也可以乾脆直接更換成虛擬背景！

Jarvis 對話式 AI：即時翻譯、會議記錄

透過 NVIDIA 對話式人工智慧功能 Jarvis SDK，開發人員可藉由整合使用虛擬助手，在視訊會議服務中進行語音辨識、語言理解與語音生成的功能。虛擬助手可做紀錄、設置執行項目，並以人聲回答問題，也能提供即時翻譯、即時字幕和逐字稿等，有助與會者了解會議中正在討論的內容。

Maxine 平台整合多個 NVIDIA 人工智慧 SDK 和 API 技術。除了上述的 Jarvis 外，還有強化音訊和視訊功能的 NVIDIA DeepStream ，並以 TensorRT SDK 執行高效能深度學習推理。官方提到，Maxine 平臺的人工智慧運算，因為都在雲端處理，所以終端用戶不需升級任何硬體，就能獲得這些功能。

以下為 Maxine 的串流視訊 AI SDK 展示影片：