博客專欄

EEPW首頁 > 博客 > 文生視頻、文生音樂、單次處理200萬字，2024年AI席卷一切？

文生視頻、文生音樂、單次處理200萬字，2024年AI席卷一切？

發(fā)布人：物聯傳媒時間：2024-03-26 來源：工程師

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

本文來源：物聯傳媒

本文作者：露西

2月，OpenAI發(fā)布文生視頻大模型Sora，特點在于Sora可以根據用戶提供的文本創(chuàng)建連貫、逼真的視頻，且時長能做到60S，遠超行業(yè)平均文生視頻長度。一般認為，Sora將在廣告、短視頻、影視、游戲等行業(yè)引發(fā)變革。

3月，文生音樂應用模型Suno V3引發(fā)大范圍關注，因其只需要一句提示語（比如描述音樂風格和主題），就能創(chuàng)作出滿足用戶需求的音樂作品，歌曲時長可達2分鐘，并且無需用戶具有專業(yè)樂理知識。如果產品成熟，未來有可能替代廣告、電視、影視等行業(yè)部分音樂創(chuàng)作。

國內，上周AI大模型明星企業(yè)月之暗面宣布旗下Kimi智能助手已支持200萬字無損上下文輸入，半年內單次可以處理的數據長度從20萬級躍遷到了200萬級。Kimi描述如此大規(guī)模輸入能力的價值，在于過去要10000小時才能成為專家的領域，現在只需要10分鐘，Kimi就能接近這個領域初級專家的水平。比如用戶上傳英偉達過去幾年的完整財報，就可以讓Kimi成為英偉達財務研究專家，幫用戶分析總結英偉達歷史上的重要發(fā)展節(jié)點。目前，支持200萬字上下文的Kimi正在內測階段。預計，這樣的能力將在客戶咨詢等行業(yè)將產生影響。

無論是Sora、Suno V3、Kimi還是ChatGPT，它們都是基于AI大模型的變革性的、軟件形態(tài)的生產效率工具，屬于生成式AI的范疇。適用的行業(yè)并非是單純的互聯網或移動互聯網，而是一個個正在生成內容并且早有固化知識庫的行業(yè)，無論內容形態(tài)是文字、圖像、視頻或者其他。

所以，又有一大批與AI相關的科技上市公司，正在被投資者詢問對Kimi、對生成式AI的看法與是否布局。

人工智能的發(fā)展經歷了3個階段

大模型將人工智能的關注點從感知智能轉向生成式內容

人工智能第一個階段是上世紀末的專家系統(tǒng)時代，特征是將專家的領域知識轉變?yōu)橛嬎銠C模型，用以推理并得出與專家相同的結論。

第二階段是不久前的“機器學習+深度學習”時代，在以CNN、RNN為代表的神經網絡的賦能下，比如車牌識別、人臉識別這類計算機視覺應用，識別準確率從過去的92%、93%，提高到了99%以上，在該階段有部分產品徹底實現了產品化、規(guī)?；瘧?。

第三階段即是眼下的大模型時代，起源是2017年谷歌發(fā)表的一篇論文《AttentionIsAllYouNeed》，里面提出了革命性的Transformer深度神經網絡，一舉將深度學習的模型參數提高到了上億級別，并且在之后的迭代發(fā)展中，模型參數被逐步提升到了幾十億、幾百億甚至幾千億，意味著模型的復雜程度和學習能力逐步提高，越來越有接近人的表現。

也就是說，大模型產品并非采用上個時代模型參數受限的CNN、RNN架構，而是借助Transformer另起爐灶，達到了一種類似“小孩開竅”的「涌現」現象——當模型突破某個規(guī)模時，能力水平直線上升。

這也就是技術積累到一定程度后，近年我們尤其覺得AI能做的事情更多了，并且效果更好，比如文本生成、語言理解、知識對話、邏輯推理等等。

再由于Transformer是一項新技術，無論是傳統(tǒng)玩家還是新興企業(yè)都處在接近的起跑線，業(yè)界參與大模型的玩家就非常多、類型非常廣，各方都希望通過大模型抓住新一輪產業(yè)機會。

對AI的焦慮、炒作背后

還有哪些真相？

與媒體或資本的炒作不同，業(yè)內也對大模型、生成式AI有清醒的認知。

首先，生成式AI很難完全取代人類，更強調對智力工作進行替代或加強，衡量標準可以是對人類工作的替代率達到10%還是20%甚至30%、40%，但無論如何，更高要求的工作可能還需人類完成。

其次，大模型能力可分為知識、推理、執(zhí)行三層結構。現在很多生產力工具解決的是知識層的問題，推理層還鮮少進入，執(zhí)行層的想象空間最大。

另外，有些大模型的商業(yè)化可能是形成標準化的產品，但也有些大模型商業(yè)模式是“產品+服務”，其服務階段要完成對企業(yè)業(yè)務的咨詢、對數據的理解、對模型的訓練/部署/調優(yōu)等工作，實現起來更加復雜。

這也是為什么，除了存在追逐熱點的一批企業(yè)，也存在另一批直白表達對生成式AI保持觀望的公司，相比于成為技術的創(chuàng)新者，行業(yè)中的大多數應該在等待著成熟的AI應用，為真正的核心業(yè)務發(fā)展帶來增益。

至于在AI浪潮中受益最早并且最大的公司，極有可能是英偉達。因為大模型的技術壁壘在于數據、算力和算法，而英偉達可稱為是全球算力市場金字塔尖的企業(yè)。

想了解更多智能產品和企業(yè)？那就來IOTE 2024 第二十一屆國際物聯網展·上海站

時間：2024年4月24-26日

地點：上海世博展覽館

展會亮點：全球超300+家參展企業(yè)、展會面積超13,000㎡、專業(yè)觀眾30,000+，覆蓋全產業(yè)鏈、10+平行專業(yè)論壇（主題覆蓋RFID、智能傳感器、高精度定位、智慧園區(qū)、智慧工廠、智慧健康養(yǎng)老、智慧應急減災、智慧能源）。

*博客內容為網友個人發(fā)布，僅代表博主個人觀點，如有侵權請聯系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>