Google AI 發布全新影片編輯器 - Dreamix,讓影片編輯更直覺!
目錄
介紹
在以AI為基礎的視頻編輯領域,最近發生了一些令人驚訝的技術突破。這些突破包括Google釋出名為Dreamix的全新AI視頻編輯器,Runway近期推出的自家第一代視覺轉換模型,以及來自馬里蘭大學的研究團隊所引入的基於文字的視頻編輯方法。此外,AI還推動了物體姿態估計領域的發展,並提出了稱為一姿態加的新方法。
Google釋出AI影片編輯器 - Dreamix
Google最近推出了一款名為Dreamix的全新AI影片編輯器。該編輯器可以通過使用圖像、視頻和文字輸入來生成影片。該方法涉及對輸入視頻進行降噪處理並進行處理,生成一個保留部分原有視頻特性並重新渲染其他特性的新輸出。該模型使用了一種視頻擴散模型,將來源視頻的低分辨率、時間數據與高分辨率合成信息相融合,在推理階段與文字提示進行對齊,以克服運動變化的有限程度。研究人員還結合了混合目標,包括原始目標和對無序幀進行微調的目標。這種方法使得Google可以將運動引入靜態視頻中。
優點:
- 可以通過文字輸入生成具有特定特性的影片。
- 使用視頻擴散模型,從多個視頻源合成高分辨率影片。
- 對文字提示進行對齊,以確保運動變化的充分程度。
缺點:
- 由於使用了混合目標,某些特性可能會有所遺失。
- 需要進行運算處理,耗費一定的時間和資源。
Runway推出自家的第一代視覺轉換模型
近期,Runway釋出了他們自家的第一代視覺轉換模型,這也是一個令人驚訝的技術突破。這個轉換模型能夠讓任何人通過視覺轉換實現對影片的視覺改變,只需使用文字提示即可。這種方法是由馬里蘭大學的研究人員提出的一種基於文字的視頻編輯方法,該方法考慮了形狀失真。他們所提出的方法被稱為形狀驅動的分層視頻編輯,通過向已經訓練好的圖像模型添加時間層來實現。團隊展示了他們在時間、物質和結構方面的一致性掌握能力,以及通過同時在圖像和視頻數據上進行訓練在推理時間上控制時間一致性的可能性。他們還進行了用戶研究,顯示了他們的技術在幾個替代方法中的優勢。
優點:
- 通過向圖像模型添加時間層,實現了基於文字的視頻編輯。
- 顯示了在時間、物質和結構方面的一致性。
- 通過同時訓練圖像和視頻數據,可以控制推理時間的時間一致性。
缺點:
- 轉換過程中可能會出現一些形狀失真。
- 需要進行複雜的運算處理。
馬里蘭大學研究團隊的文字導向視頻編輯方法
來自馬里蘭大學的研究團隊引入了一種文字導向的視頻編輯方法,該方法考慮到了形狀失真。他們的方法稱為形狀驅動的分層視頻編輯,通過向已經訓練好的圖像模型添加時間層以實現。這種方法的核心是首先在整個幀序列中將輸入和編輯的關鍵幀之間的形狀變形場進行傳播,然後使用預訓練的文字條件擴散模型來增強形狀失真的準確性和填充不可見區域。該方法基於一種預訓練的NLA,將視頻劃分為具有相關聯的紋理UV映射的地圖集合。形狀變形模塊然後將編輯映射回地圖集中,通過原始UV映射將每個像素處的變形向量轉換到地圖集空間中。
優點:
- 通過將編輯映射回地圖集中,實現對形狀的準確變形。
- 圖像模型的時間層使得編輯更加一致且具有時間關聯性。
- 可以線性插值形變圖,輕鬆插入對象形狀,無需額外的帧插補方法。
缺點:
- 對文字的依賴性可能會受限於模型的能力。
- 幀序列較長時,處理所需時間和資源較多。
AI推進物體姿態估計的新方法- 一姿態加
AI在物體姿態估計領域推進了一項新方法,稱為一姿態加。這種方法使用了一種特徵匹配技術來建立稀疏物體點雲的Lynx 2D和3D關鍵點並計算物體的姿態。然而,這種方法在沒有紋理的物體上面臨著挑戰,因為使用關鍵點的結構從動態中重建完整的點雲是困難的。為了解決低紋理物體的重建問題,一姿態加進行了一項新方法的改進,使用無檢測器的局部特徵匹配方法從參考照片獲取正確的半物體點雲。使用局部特徵映射和轉換器,該方法將左側圖像中的網格中心作為關鍵點,並通過一個經過定義的過程在右側圖像中找到子像素精確的匹配項。然而,這種方法可能會導致不一致的關鍵點和不完整的特徵軌跡,使其不適用於一姿態的物體姿態估計。為了兼顧兩種方法的優勢,創建了一個新系統,將該系統改進了關鍵點自由匹配技術,並使用稀疏到密集的2D-3D匹配網絡,為姿態估計創建準確的2D-3D一一對應關係。自注意力和交叉注意力被用於處理對於強大的2D-3D匹配和姿態估計所必需的長距離依賴性,並實現對於複雜現實世界物體的2D-3D匹配和姿態估計。
優點:
- 使用特徵匹配技術進行姿態估計,可準確計算物體的姿態。
- 通過改進關鍵點自由匹配技術,實現適用於低紋理物體的姿態估計。
- 應用自注意力和交叉注意力處理長距離依賴性,實現對複雜物體的姿態估計。
缺點:
- 在處理低紋理物體時,可能會存在一些姿態遺失。
- 需要進行複雜的運算處理。
結論
以上介紹了最近在AI視頻編輯和物體姿態估計領域中的一些新方法和技術突破。Google的Dreamix和Runway的視覺轉換模型為用戶提供了更高效、直觀的視頻編輯方式。馬里蘭大學研究團隊的文字導向視頻編輯方法為視頻編輯帶來了更多可能性,而一姿態加則推進了物體姿態估計的性能。這些技術的推出將為視頻編輯和物體姿態估計領域帶來更多創新和進步。
FAQ
Q: Dreamix和Dreamix Plus有什麼不同?
A: Dreamix Plus是Dreamix的高級版本,其功能更加強大且擁有更多高級的視頻編輯功能。
Q: Runway的視覺轉換模型是否支持多種視頻格式?
A: 是的,Runway的視覺轉換模型支持多種常見的視頻格式,如MP4、MOV等。
Q: 馬里蘭大學的文字導向視頻編輯方法是否適用於所有類型的視頻?
A: 這種方法在大多數類型的視頻上都能適用,但對於一些更複雜的視覺效果,可能需要進行更多的調整和處理。
Q: 一姿態加適用於哪些物體類型的姿態估計?
A: 一姿態加適用於大多數物體類型的姿態估計,但對於缺乏紋理的物體,其性能可能會受到一些限制。
資源