Sora的視頻生成能力:
· Sora 能夠生成提供圖像和提示作為輸入的視頻。
· Sora 還能夠在時(shí)間上向前或向后擴(kuò)展視頻。比如多個(gè)視頻都是從生成的視頻片段開(kāi)始向后延伸的。因此,幾個(gè)視頻的開(kāi)頭都不同,但所有視頻的結(jié)局都是相同的。使用此方法向前和向后擴(kuò)展視頻以產(chǎn)生無(wú)縫的無(wú)限循環(huán)。
· 擴(kuò)散模型啟用了多種根據(jù)文本提示編輯圖像和視頻的方法。將其中一種方法 SDEdit,?32應(yīng)用于 Sora。這項(xiàng)技術(shù)使 Sora 能夠零鏡頭地改變輸入視頻的風(fēng)格和環(huán)境。
· 還可以使用 Sora 在兩個(gè)輸入視頻之間逐漸進(jìn)行插值,從而在具有完全不同主題和場(chǎng)景構(gòu)成的視頻之間創(chuàng)建無(wú)縫過(guò)渡。
· Sora 還能夠生成圖像。通過(guò)在時(shí)間范圍為一幀的空間網(wǎng)格中排列高斯噪聲塊來(lái)實(shí)現(xiàn)這一點(diǎn)。該模型可以生成各種尺寸的圖像,分辨率高達(dá) 2048x2048。
Sora還有一些其他的特征:
· 3D 一致性: Sora 可以生成帶有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn),人和場(chǎng)景元素在三維空間中一致移動(dòng)。
· 長(zhǎng)期連貫性(Long-range coherence)和物體持久性(Object permanence):是視頻生成系統(tǒng)面臨的重大挑戰(zhàn)之一,特別是在采樣長(zhǎng)視頻時(shí)維持時(shí)間上的連續(xù)性。Sora通常能夠有效地處理短期和長(zhǎng)期依賴(lài)關(guān)系,盡管并不總是如此。
· 與世界互動(dòng):Sora 有時(shí)可以用簡(jiǎn)單的方式模擬影響世界狀況的行動(dòng)。例如,畫(huà)家可以在畫(huà)布上留下新的筆觸,并隨著時(shí)間的推移而持續(xù)存在,或者一個(gè)人可以吃漢堡并留下咬痕。
· 模擬數(shù)字世界:Sora同樣能夠模擬人工過(guò)程,例如視頻游戲。在Minecraft中,Sora可以同時(shí)控制玩家的基本策略,還能高保真度地渲染游戲世界及其動(dòng)態(tài)變化。通過(guò)使用提及“Minecraft”的字幕提示Sora,可以實(shí)現(xiàn)零樣本(Zero-shot)地激發(fā)這些能力。
Open AI 還透露了一些訓(xùn)練的大概過(guò)程:
· 將視覺(jué)數(shù)據(jù)轉(zhuǎn)換為Patches:探討了如何讓生成視覺(jué)數(shù)據(jù)的模型繼承LLM通過(guò)在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上訓(xùn)練,來(lái)獲得廣泛的能力的優(yōu)勢(shì)。不同于LLMs使用文本標(biāo)記,Sora模型使用了“視覺(jué)補(bǔ)丁”(Visual Patches)。之前的研究已經(jīng)顯示,對(duì)于視覺(jué)數(shù)據(jù)模型而言,補(bǔ)丁是一種有效的表現(xiàn)形式。我們發(fā)現(xiàn),對(duì)于訓(xùn)練多種類(lèi)型視頻和圖像的生成模型而言,補(bǔ)丁是一種高效且可大規(guī)模擴(kuò)展的表現(xiàn)形式。
· 視頻壓縮網(wǎng)絡(luò):訓(xùn)練了一個(gè)可以降低視覺(jué)數(shù)據(jù)維度的網(wǎng)絡(luò)。該網(wǎng)絡(luò)以原始視頻作為輸入,并輸出在時(shí)間和空間上都經(jīng)過(guò)壓縮的潛在表示。Sora在這個(gè)壓縮的潛在空間中進(jìn)行訓(xùn)練,并隨后生成視頻。還訓(xùn)練了一個(gè)相應(yīng)的解碼器模型,將生成的潛在表示映射回像素空間。
· 時(shí)空潛在Patches:在處理一個(gè)壓縮后的輸入視頻時(shí),會(huì)提取一系列的“時(shí)空補(bǔ)丁”(spacetime patches),這些補(bǔ)丁在這里起到了類(lèi)似于變換器(Transformer)中的“標(biāo)記”(tokens)的作用。這種方法同樣適用于圖像處理,因?yàn)閺谋举|(zhì)上講,圖像就是只有一幀的視頻。采用的基于補(bǔ)丁的表示方法,使得Sora能夠處理不同分辨率、時(shí)長(zhǎng)和寬高比的視頻和圖像。
· 用于視頻生成的Scaling transformers:Sora是一種擴(kuò)散模型;它主要的作用是,給定輸入的帶有噪聲的補(bǔ)?。ㄒ约叭缥谋咎崾具@樣的條件信息),Sora被訓(xùn)練來(lái)預(yù)測(cè)并還原出原始的“干凈”補(bǔ)丁。更為關(guān)鍵的是,Sora實(shí)際上是一個(gè)“擴(kuò)散變換器”(diffusion transformer)。擴(kuò)散變換器在視頻模型中也能有效擴(kuò)展。隨著訓(xùn)練計(jì)算量的增加,樣本質(zhì)量顯著提高。
一些關(guān)于技術(shù)原理的補(bǔ)充閱讀:
· Open AI官方發(fā)布的技術(shù)報(bào)告,演示視頻基本都來(lái)自這里:https://openai.com/research/video-generation-models-as-world-simulators
· 這是構(gòu)成Sora基礎(chǔ)之一的Diffusion Transformer論文作者關(guān)于Sora的一些猜測(cè)和技術(shù)解釋?zhuān)?/span>https://x.com/op7418/status/1758822875707154838?s=20
· 寶玉關(guān)于生成原理比較通俗的解釋?zhuān)?/span>https://x.com/dotey/status/1758726880381862000?s=20
· Sora所有使用的相關(guān)技術(shù)對(duì)應(yīng)的論文合集:https://huggingface.co/collections/pxiaoer/sora-65d0e2db17e2b305e0fc572e
· SIY.Z的解讀有一些世界模型的歷史介紹:https://www.zhihu.com/question/644473449
· JimFan關(guān)于Sora訓(xùn)練素材來(lái)源的討論:https://x.com/DrJimFan/status/1758210245799920123?s=20
谷歌發(fā)布Gemini 1.5 Pro和開(kāi)放?Ultra 1.0模型
谷歌在Sora之前幾個(gè)小時(shí)發(fā)布的內(nèi)容,也非常離譜了,100萬(wàn)上下文長(zhǎng)度可以支持1小時(shí)的視頻內(nèi)容、11小時(shí)的音頻內(nèi)容、3萬(wàn)行代碼、70萬(wàn)字的文字。RAG基本上不存在了,同時(shí)他們還測(cè)試了1000萬(wàn)的上下文,錯(cuò)誤率也不是很高。目前公開(kāi)模型上下文長(zhǎng)度最長(zhǎng)的是Claude 2.1的20萬(wàn)Token。
· Gemini 1.5基于Transformer和MoE架構(gòu)的研究和工程創(chuàng)新,提高了訓(xùn)練和服務(wù)的效率。
· Gemini 1.5 Pro是一個(gè)中等規(guī)模的多模態(tài)模型,適用于多種任務(wù),并引入了在長(zhǎng)上下文理解方面的實(shí)驗(yàn)性特性。
· Gemini 1.5 Pro在文本、代碼、圖像、音頻和視頻評(píng)估的綜合面板上的性能超過(guò)了Gemini 1.0 Pro,并且與1.0 Ultra在同樣的基準(zhǔn)測(cè)試上表現(xiàn)相當(dāng)。
· 此外,Gemini 1.5 Pro在進(jìn)行長(zhǎng)上下文窗口的測(cè)試中表現(xiàn)出色,在NIAH評(píng)估中,它在長(zhǎng)達(dá)100萬(wàn)個(gè)Token的數(shù)據(jù)塊中99%的時(shí)間內(nèi)找到了嵌入的文本。
里面還舉了一些可以提現(xiàn)上下文能力的例子:
· 它可以完整理解高達(dá)80 萬(wàn) Token 的 Three.js 代碼以及相關(guān)文檔庫(kù)。并根據(jù)提示找到對(duì)應(yīng)的代碼和示例完成教學(xué)和編碼任務(wù)。
· 多模態(tài)演示,可以從一部有 60 萬(wàn) Token 的電影中精確的找到截圖的時(shí)間戳以及所描述的內(nèi)容。
· 維克多·雨果的五卷本長(zhǎng)篇小說(shuō)《悲慘世界》(共1382頁(yè),含有大約732,000個(gè)Token)。
它的多模態(tài)(multimodal)處理能力可以處理粗略地畫(huà)出一個(gè)場(chǎng)景,然后詢(xún)問(wèn)“請(qǐng)看這幅圖畫(huà)中的情景。這個(gè)場(chǎng)景出現(xiàn)在書(shū)的哪一頁(yè)?”
谷歌還像泄露的文件描述的一樣將Bard更名為Gemini,同時(shí)推出了Gemini Advanced付費(fèi)會(huì)員計(jì)劃,可以使用Ultra 1.0模型。
Gemini Advanced 現(xiàn)已在 150 多個(gè)國(guó)家和地區(qū)提供英語(yǔ)版本。
可以在安卓的Gemini應(yīng)用和iOS 的谷歌應(yīng)用使用Gemini Advanced。
同時(shí)Google Assistant 語(yǔ)音功能將會(huì)由Gemini驅(qū)動(dòng),這個(gè)真是大招,直接吊打 siri 。
Gemini 開(kāi)始在美國(guó)的 Android 和 iOS 手機(jī)上推出英語(yǔ)版本,并將在未來(lái)幾周內(nèi)全面推出。從下周開(kāi)始,將能夠在更多地點(diǎn)以英語(yǔ)、日語(yǔ)和韓語(yǔ)訪問(wèn)它,并且即將推出更多國(guó)家/地區(qū)和語(yǔ)言。
公告地址:https://blog.google/products/gemini/bard-gemini-advanced-app/
Stability AI發(fā)布新架構(gòu)圖片生成模型Stable Cascade
Stability AI同時(shí)進(jìn)行著多條線還又開(kāi)新坑,發(fā)布了一個(gè)基于Würstchen架構(gòu)的新的圖片生成模型Stable Cascade,這個(gè)模型由三部分構(gòu)成使得訓(xùn)練和微調(diào)變得非常容易。
他們還提供了了微調(diào)、ControlNet 和 LoRA 訓(xùn)練腳本。
除了標(biāo)準(zhǔn)的文本到圖像生成之外,Stable Cascade 還可以執(zhí)行圖像變化和圖像到圖像生成。
會(huì)跟隨模型一起發(fā)布的 Controlnet:
· 局部重繪:輸入與文本提示附帶的蒙版配對(duì)的圖像。該模型根據(jù)提供的文本提示填充圖像的遮罩部分。
· Canny Edge:通過(guò)跟蹤輸入到模型的現(xiàn)有圖像的邊緣來(lái)生成新圖像。該測(cè)試也可以從草圖進(jìn)行擴(kuò)展。
· 2x超分辨率:也可用于C階段生成的潛在空間。
社區(qū)的支持也很快,ComfyUI已經(jīng)官方支持了Stable Cascade的使用可以在這里查看工作流和對(duì)應(yīng)的教程:https://gist.github.com/comfyanonymous/0f09119a342d0dd825bb2d99d19b781c
這里是可以在A1111 Web UI上使用Stable Cascade的插件:https://github.com/blue-pen5805/sdweb-easy-stablecascade-diffusers
還有人在第二天就實(shí)驗(yàn)了Stable Cascade的微調(diào)流程,發(fā)了第一個(gè)微調(diào)的模型:https://civitai.com/models/306144
· 將把V6設(shè)為默認(rèn)版本(目的是對(duì)服務(wù)器進(jìn)行壓力測(cè)試)
· Niji V6的平移、縮放及區(qū)域變更功能現(xiàn)已推出
· 對(duì)V6核心模型進(jìn)行了更新,在細(xì)節(jié)表現(xiàn)、對(duì)比度和整體連貫性上都有所提升
· Midjourney alpha測(cè)試版網(wǎng)站現(xiàn)在開(kāi)放了1000張圖片生成賬號(hào)的使用權(quán)限,這里嘗試:https://alpha.midjourney.com/
· 生成圖像的速度可能提高一倍,v6 將配備渦輪模式
· 正在開(kāi)發(fā)下一版本的風(fēng)格調(diào)節(jié)器以及提升一致性
· 網(wǎng)站將引入社交群組功能!包括團(tuán)隊(duì)創(chuàng)建和實(shí)時(shí)社交互動(dòng),在向所有用戶開(kāi)放網(wǎng)站前,將制作入門(mén)視頻和流程,三月全量開(kāi)放新網(wǎng)站。
· 正在訓(xùn)練視頻模型,進(jìn)展比較慢尚不確定何時(shí)完成
· V7 版本模型已經(jīng)開(kāi)始訓(xùn)練
· ControlNet目前還未達(dá)到標(biāo)準(zhǔn),將繼續(xù)訓(xùn)練
· 正在研究如何實(shí)現(xiàn)角色的一致性
其他動(dòng)態(tài)?
· Runway GEN:48 AI 電影大賽公布了獲勝者,這個(gè)視頻巧妙的用游戲?qū)υ挼男问秸宫F(xiàn)劇情:https://x.com/iamneubert/status/1758493728925270022?s=20
· Open AI 公布了一個(gè) Open AI論壇,參與者可以參加 open AI 組織的線上和線下活動(dòng)并且同 Open AI 員工深入交流,更有機(jī)會(huì)可以提前測(cè)試一些相關(guān)功能(Sora?)https://forum.openai.com/
· Open AI 取消了 GPT-4 Turbo 的每日調(diào)用限制并將總的調(diào)用限制提高了一倍:https://platform.openai.com/docs/guides/rate-limits/usage-tiers
· Open AI 公布了幾個(gè)他們封禁的跟國(guó)家相關(guān)的惡意使用者,其中中國(guó)兩個(gè)、俄羅斯一個(gè)、朝鮮一個(gè)、伊朗一個(gè):https://openai.com/blog/disrupting-malicious-uses-of-ai-by-state-affiliated-threat-actors
· Meta 發(fā)布了一個(gè)音頻生成模型與傳統(tǒng)的逐字生成模型相比速度快了 7 倍:https://pages.cs.huji.ac.il/adiyoss-lab/MAGNeT/?
· MAGIC-ME 字節(jié)發(fā)布了一個(gè)針對(duì)視頻生成中人物身份保持的項(xiàng)目??梢栽谝曨l生成中保持對(duì)應(yīng)輸入圖像人物的身份特征:https://magic-me-webpage.github.io/
· OpenAI 一直在積極開(kāi)發(fā)一款網(wǎng)絡(luò)搜索引擎,這一動(dòng)作預(yù)示著這家獲得微軟支持的創(chuàng)業(yè)公司將與 Google 展開(kāi)更為直接的競(jìng)爭(zhēng):https://www.theinformation.com/articles/openai-develops-web-search-product-in-challenge-to-google
· Open AI早期員工Andrej Karpathy再次從Open AI離職自己創(chuàng)業(yè):https://x.com/op7418/status/1757626444258435182?s=20
· ChatGPT 增加了記憶功能及控制選項(xiàng),可以記住你在對(duì)話中提到的內(nèi)容,可以控制打開(kāi)或者關(guān)閉,也可以有無(wú)記憶對(duì)話的臨時(shí)聊天選項(xiàng):https://openai.com/blog/memory-and-new-controls-for-chatgpt
· ElevenLabs 現(xiàn)在可以在語(yǔ)音庫(kù)中分享自己的聲音模型,并獲得收益:https://elevenlabs.io/payouts
· 蘋(píng)果發(fā)布了一個(gè)可以利用LLM 生成動(dòng)畫(huà)的框架Keyframer。Keyframer允許用戶通過(guò)自然語(yǔ)言提示來(lái)創(chuàng)建靜態(tài)2D圖像的動(dòng)畫(huà):https://arxiv.org/pdf/2402.06071.pdf
· Vercel集成了一堆AI服務(wù)包括Perplexity、Replicate、ElevenLabs等,現(xiàn)在利用Vercel開(kāi)發(fā)AI項(xiàng)目更加方便了,直接一步到位:https://vercel.com/blog/ai-integrations
· ARC瀏覽器新增了一個(gè)功能,可以直接自動(dòng)將你打開(kāi)的一堆標(biāo)簽頁(yè)按功能分組:https://x.com/browsercompany/status/1755252656078024976?s=20
· RMBG v1.4一個(gè)新的背景分割開(kāi)源模型,效果非常好:https://huggingface.co/briaai/RMBG-1.4
產(chǎn)品推薦?
LangSmith:LLM應(yīng)用開(kāi)發(fā)平臺(tái)
LangChain 的 LLM 應(yīng)用開(kāi)發(fā)平臺(tái)LangSmith正式開(kāi)放給了所有人使用,同時(shí)宣布獲得了Sequoia 領(lǐng)投的 A 輪融資。LangSmith 是一個(gè)統(tǒng)一的 DevOps 平臺(tái),用于開(kāi)發(fā)、協(xié)作、測(cè)試、部署和監(jiān)控LLM應(yīng)用程序。新的品牌形象和網(wǎng)站搞得也很不錯(cuò)。
本地LLM運(yùn)行工具 Ollama 推出了 windows 版本。以下是如何開(kāi)始:
· 下載+雙擊安裝
· 打開(kāi)最喜歡的終端并輸入 ollama run llama2
Enchanted是一款開(kāi)源的、與Ollama兼容的、適用于macOS/iOS/iPad的優(yōu)雅聊天應(yīng)用程序。它專(zhuān)為私有部署的模型如Llama 2、Mistral、Vicuna、Starling等設(shè)計(jì),本質(zhì)上是一個(gè)連接到自己的Ollama模型的ChatGPT應(yīng)用界面。
試了一下Leiapix 這個(gè)可以提取圖片深度信息,然后生成運(yùn)鏡視頻的產(chǎn)品。效果還挺好的,自定義選項(xiàng)也很豐富,一些簡(jiǎn)單的場(chǎng)景運(yùn)鏡視頻不用視頻生成工具用這個(gè)也挺好。直接上傳圖片然后再右側(cè)調(diào)整選項(xiàng)就行。
Chat with RTX:英偉達(dá)的本地LLM聊天程序
英偉達(dá)發(fā)布了一個(gè)可以在 PC 使用的本地 AI 聊天軟件Chat with RTX。
可以使用 Chat with RTX 連接到你的內(nèi)容的自定義聊天機(jī)器人。使用 RAG 和 TensorRT-LLM 在 RTX 加速的 PC 上本地進(jìn)行聊天。
stable-diffusion-webui-forge:另一個(gè)Web UI界面
Controlnet 的作者lllyasviel,他跟 UI 界面杠上了,除了之前他維護(hù)的Fooocus之外還新發(fā)布了一個(gè) Web UI Forge。
這個(gè)新的 UI 跟原有的 Web UI 交互和樣式完全一致,但是解決了兩個(gè) Web UI比較重要的問(wèn)題:
首先是他大幅優(yōu)化了低顯存顯卡的顯存占用和推理速度,6G 顯存的顯卡推理速度會(huì)提高 60% 到 75%,顯存占用會(huì)降低800MB 到 1.5GB。
另一個(gè)是降低了一些 SD 支持項(xiàng)目在 Web UI的實(shí)現(xiàn)成本,使用 Unet Patcher,Self-Attention Guidance、Kohya High Res Fix、FreeU、StyleAlign、Hypertile 等方法都可以在大約 100 行代碼中實(shí)現(xiàn)。
Deforum Studio:Deforum?的Web版本應(yīng)用
早期 SD 視頻生成項(xiàng)目Deforum現(xiàn)在推出了 Web 版本的視頻生成服務(wù),相較于 WebUI 的插件版本網(wǎng)頁(yè)應(yīng)用更加的易用和穩(wěn)定。
同時(shí)內(nèi)置了相當(dāng)多的風(fēng)格和運(yùn)鏡效果可以選擇。雖然現(xiàn)在已經(jīng)有很多視頻生成模型可以生成連貫且一致的效果了Deforum生成的這種風(fēng)格的視頻依然很有視覺(jué)沖擊力。
Galileo AI:自動(dòng)生成UI設(shè)計(jì)稿
Chat GPT發(fā)布之初就放出Demo的UI設(shè)計(jì)稿自動(dòng)生成應(yīng)用,終于向所有用戶開(kāi)放了。支持文字圖片以及線稿直接生成UI設(shè)計(jì)稿。
Dittto是一個(gè)利用人工智能技術(shù)幫助改善網(wǎng)站首頁(yè)文案的服務(wù)平臺(tái)。該平臺(tái)指出,不良的文案會(huì)嚴(yán)重影響轉(zhuǎn)化率,因?yàn)橛?/span>35%的用戶在未滾動(dòng)頁(yè)面前就離開(kāi),而57%的閱讀時(shí)間發(fā)生在頁(yè)面的上半部分,用戶僅需50毫秒就能對(duì)網(wǎng)站形成初步判斷。Dittto提供的解決方案包括復(fù)制成功品牌的文案以提高轉(zhuǎn)化率、網(wǎng)站定位審核以清晰展示客戶價(jià)值、自動(dòng)發(fā)現(xiàn)適合產(chǎn)品的品牌聲音,并從50多個(gè)頂級(jí)SaaS品牌中選擇模仿對(duì)象。此外,Dittto還提供了一個(gè)英雄文案AI工具,該工具經(jīng)過(guò)訓(xùn)練,能夠在幾次點(diǎn)擊內(nèi)生成準(zhǔn)備就緒的文案,并設(shè)有保存變體庫(kù)以便日后進(jìn)行A/B測(cè)試。
Rizzle:從博客、播客內(nèi)容創(chuàng)建視頻
Rizzle AI 是一個(gè)無(wú)需編輯的視頻創(chuàng)作平臺(tái),它與 GettyImages 合作,為創(chuàng)作者提供了訪問(wèn)全球最大的無(wú)版稅庫(kù)存媒體庫(kù)的能力。這個(gè)庫(kù)存包含超過(guò)5億張圖片和視頻,這些資源都是專(zhuān)為 Rizzle 平臺(tái)的用戶準(zhǔn)備的,并且擁有版權(quán)保護(hù)。
精選文章?
偉大的巫師經(jīng)常獨(dú)自行事,只要空氣中的元素依然回應(yīng)他的咒語(yǔ)和呼喚
“如果一個(gè)人的領(lǐng)域知識(shí)廣度足以覆蓋整個(gè)行業(yè),而深度恰好多于「能夠評(píng)價(jià)任務(wù)執(zhí)行的好壞與否」的程度,就可以比較好地操縱 AI 去完成那些本來(lái)需要好幾個(gè)不同職責(zé)的人去完成的事情。”
“知識(shí)就在那,但是需要你念出咒語(yǔ)才能讓它顯形。”
Logan Kilpatrick Open AI?開(kāi)發(fā)者關(guān)系主管的專(zhuān)訪
Logan Kilpatrick Open AI 開(kāi)發(fā)者關(guān)系主管的專(zhuān)訪,幾個(gè)關(guān)于他們的招聘理念和 Open AI 以及 ChatGPT 的發(fā)展的部分可以關(guān)注一下:
OpenAI之所以能迅速推進(jìn)項(xiàng)目并交付高品質(zhì)的產(chǎn)品,關(guān)鍵在于聘請(qǐng)那些具備強(qiáng)烈的自主驅(qū)動(dòng)力和緊迫感的人才。
這種做法讓OpenAI能夠超越常規(guī)流程,培養(yǎng)出一種文化氛圍,員工在這里可以迅速洞察并主動(dòng)解決問(wèn)題,而無(wú)需長(zhǎng)時(shí)間等待審批或達(dá)成共識(shí)。
要想從ChatGPT那里獲得更精準(zhǔn)的答案,關(guān)鍵是要提出具體問(wèn)題,并為問(wèn)題提供更多背景信息。不是簡(jiǎn)單地提問(wèn),而是像與人交談一樣提供詳細(xì)信息。
由于AI本身不具備背景知識(shí),因此通過(guò)詳細(xì)的問(wèn)題指引它是非常關(guān)鍵的。這種做法不僅能提升即時(shí)的回答質(zhì)量,也有助于隨著時(shí)間推移逐漸培養(yǎng)出更智能的AI系統(tǒng)。
GPT的出現(xiàn)開(kāi)啟了一個(gè)“智能體未來(lái)”的可能性,在這個(gè)未來(lái)中,我們可以將復(fù)雜的任務(wù)交由AI工具來(lái)完成。目前,我們向GPT提出問(wèn)題,得到快速回應(yīng)后就結(jié)束互動(dòng)。
隨著GPT技術(shù)的發(fā)展,我們將能夠讓它們承擔(dān)更加復(fù)雜和細(xì)致的任務(wù),并在任務(wù)完成后向我們匯報(bào)。例如,我們可能會(huì)讓AI智能體花費(fèi)數(shù)小時(shí)撰寫(xiě)一篇引用了眾多參考文獻(xiàn)和案例研究的詳盡博客文章,并詳細(xì)說(shuō)明在撰寫(xiě)過(guò)程中所做的權(quán)衡選擇。
Josh Miller關(guān)于后?URL?時(shí)代(人工智能時(shí)代)的互聯(lián)網(wǎng)暢想
這個(gè)東西可能很多人都想過(guò),很早就有人提出來(lái)未來(lái)的 UI 會(huì)是一個(gè)對(duì)話頁(yè)面加上各種匹配數(shù)據(jù)展示樣式的組件來(lái)完成,Josh Miller這個(gè)更近一步解決了內(nèi)容來(lái)源的問(wèn)題,由網(wǎng)站自己暴露對(duì)應(yīng)內(nèi)容的元數(shù)據(jù),然后在瀏覽器或者系統(tǒng)完成整合。
elvis寫(xiě)了一篇非常詳細(xì)的文章來(lái)介紹 RAG 生態(tài)的所有部分,還會(huì)添加清晰易懂的參考文獻(xiàn)列表以及技術(shù)性編程教程幫助提高 RAG 系統(tǒng)的性能。
主要內(nèi)容來(lái)自《大語(yǔ)言模型的檢索增強(qiáng)生成:一項(xiàng)調(diào)查》這篇論文,我簡(jiǎn)要總結(jié)了一下文章每個(gè)部分的內(nèi)容,感興趣可以去看原文:
檢索增強(qiáng)生成(Retrieval Augmented Generation, RAG)技術(shù),旨在通過(guò)結(jié)合外部知識(shí)源,如數(shù)據(jù)庫(kù),來(lái)提升大語(yǔ)言模型(LLMs)的能力。它主要用于解決領(lǐng)域知識(shí)的缺失、事實(shí)性問(wèn)題和生成錯(cuò)誤。RAG特別適用于那些需要最新知識(shí)、又不需針對(duì)每個(gè)特定任務(wù)重復(fù)訓(xùn)練LLM的應(yīng)用場(chǎng)景,比如對(duì)話代理和知識(shí)密集型任務(wù)。
從軟件范式到模型范式,什么是?AI-Native?時(shí)代的大產(chǎn)品
這篇文章討論了從軟件范式到模型范式的轉(zhuǎn)變,探討了AI-Native時(shí)代的大產(chǎn)品。作者以信息商品經(jīng)濟(jì)的視角對(duì)AI-Native產(chǎn)品進(jìn)行了定義、分析和分類(lèi),提出了實(shí)現(xiàn)“GenAI大產(chǎn)品”和評(píng)估AI-Native程度的方法。文章指出AI-Native意味著產(chǎn)品范式向模型范式轉(zhuǎn)移,強(qiáng)調(diào)了算法擬合度、可訓(xùn)練數(shù)據(jù)占比和功能prompt比率是判斷產(chǎn)品是否AI-Native的關(guān)鍵維度。最終,文章提出了AI-Native產(chǎn)品的可能信仰——“產(chǎn)品智能主義”,探討了連續(xù)性對(duì)AI-Native產(chǎn)品智慧的衡量標(biāo)準(zhǔn)。
在人工智能領(lǐng)域,大型語(yǔ)言模型(LLM)正在徹底改變公司的產(chǎn)品體驗(yàn)和內(nèi)部運(yùn)營(yíng)。這類(lèi)基礎(chǔ)模型代表了一種新型計(jì)算平臺(tái),并且引入了提示工程,取代了軟件開(kāi)發(fā)的部分方面,使軟件能力的范圍迅速擴(kuò)展。在生產(chǎn)環(huán)境中有效利用LLM至關(guān)重要,但由于LLM的新穎性和復(fù)雜性,這對(duì)大多數(shù)公司來(lái)說(shuō)是一個(gè)獨(dú)特的挑戰(zhàn)。與傳統(tǒng)軟件和非生成式機(jī)器學(xué)習(xí)模型不同,LLM的評(píng)估過(guò)程更主觀、難以自動(dòng)化,并且系統(tǒng)出錯(cuò)的風(fēng)險(xiǎn)更高。
LLM應(yīng)用程序的基本構(gòu)成包括以下幾個(gè)組件:LLM模型(核心推理引擎)、提示模板(模型的樣板指令)、數(shù)據(jù)源(提供模型所需上下文的來(lái)源,如檢索增強(qiáng)生成)、內(nèi)存(歷史交互記錄)、工具(允許模型與外部系統(tǒng)交互)和代理控制流(允許模型通過(guò)某些停止標(biāo)準(zhǔn)解決任務(wù)的多步驟生成)。
探討了生成式人工智能(Generative AI,簡(jiǎn)稱(chēng)genAI)如何通過(guò)智能內(nèi)容增強(qiáng)和個(gè)性化提升用戶體驗(yàn)。文章首先指出,ChatGPT等聊天機(jī)器人作為接入生成式AI特性的便捷入口,其簡(jiǎn)單性允許它們無(wú)縫集成到各種數(shù)字平臺(tái)中。然而,這些技術(shù)的應(yīng)用范圍遠(yuǎn)不止于對(duì)話界面。通過(guò)將這些先進(jìn)模型的APIs融入到產(chǎn)品特性中,可以提供稱(chēng)為“AI增強(qiáng)特性”的重大價(jià)值增強(qiáng)。
文章強(qiáng)調(diào),在設(shè)計(jì)涉及內(nèi)容生成或展示的特性時(shí),考慮生成式AI的潛在作用至關(guān)重要。GPT和Claude等模型的出現(xiàn)大幅降低了內(nèi)容創(chuàng)作的成本,使得復(fù)雜的大型語(yǔ)言模型(LLM)變得觸手可及。通過(guò)恰當(dāng)?shù)奶崾?,文本可以輕松地被重塑、擴(kuò)展或轉(zhuǎn)換,激發(fā)創(chuàng)造性的可能性。
a16z文件討論了人工智能的第一個(gè)殺手級(jí)用例,即制作創(chuàng)意內(nèi)容。它重點(diǎn)介紹了致力于內(nèi)容生成和編輯的各種公司,例如 Midjourney、DALL-E、Runway、Pika、ElevenLabs 等。該文件還提到了該領(lǐng)域未來(lái)的潛在發(fā)展,包括跨不同模式的獲勝產(chǎn)品、使開(kāi)源模型易于訪問(wèn)的應(yīng)用程序以及用于創(chuàng)建和發(fā)布內(nèi)容工作流程的平臺(tái)。最后,它邀請(qǐng)?jiān)擃I(lǐng)域的相關(guān)人士伸出援手,并提供了文件中提到的公司名單。
對(duì)2024年人工智能就業(yè)市場(chǎng)的思考
2024年人工智能(AI)就業(yè)市場(chǎng)的發(fā)展趨勢(shì)和個(gè)人加入Cohere公司的原因是本文的主要內(nèi)容。文章從作者作為一名專(zhuān)注于自然語(yǔ)言處理(NLP)的歐洲研究員的角度出發(fā),分享了他對(duì)AI就業(yè)市場(chǎng)的一些宏觀趨勢(shì)觀察和個(gè)人職業(yè)選擇的思考。
AI就業(yè)市場(chǎng)趨勢(shì)
1.研究變得更加應(yīng)用化:與過(guò)去相比,當(dāng)前的ML和NLP問(wèn)題更多地集中在應(yīng)用研究上,基礎(chǔ)研究與應(yīng)用研究之間的界限逐漸模糊。例如,BERT模型的引入極大提高了Google搜索的質(zhì)量,而大型語(yǔ)言模型(LLMs)的出現(xiàn)則開(kāi)啟了新應(yīng)用的大門(mén)。
2.創(chuàng)業(yè)公司成為PhD以外的選擇:鑒于當(dāng)前研究問(wèn)題的應(yīng)用性質(zhì),加入創(chuàng)業(yè)公司成為了接觸前沿AI工作的另一條路徑。創(chuàng)業(yè)公司特別是早期的創(chuàng)業(yè)公司,能夠提供快速學(xué)習(xí)和實(shí)踐的機(jī)會(huì),盡管這可能需要個(gè)人對(duì)工作內(nèi)容有一定的靈活性。
3.機(jī)器學(xué)習(xí)變得更加封閉和兩極分化:盡管機(jī)器學(xué)習(xí)社區(qū)過(guò)去以開(kāi)放性著稱(chēng),但最近的趨勢(shì)顯示,開(kāi)源AI的先鋒如OpenAI和Google開(kāi)始減少關(guān)于其模型的信息發(fā)布。這種趨勢(shì)可能會(huì)阻礙AI發(fā)展的進(jìn)步。
4.研究集中在大型項(xiàng)目上:隨著LLMs的出現(xiàn),參與一個(gè)項(xiàng)目的作者數(shù)量顯著增加。大型項(xiàng)目不僅需要研究人員,還需要強(qiáng)大的軟件工程師團(tuán)隊(duì)以及多方面的專(zhuān)業(yè)知識(shí)。
5.更多公司,更多機(jī)會(huì):LLMs的興起帶來(lái)了一波新公司的浪潮,這些公司利用這項(xiàng)技術(shù)或?qū)⑵湔系疆a(chǎn)品中。這為AI領(lǐng)域的專(zhuān)業(yè)人士提供了更多的職業(yè)選擇。
探討了設(shè)計(jì)領(lǐng)域面臨的變革,特別是在虛擬現(xiàn)實(shí)(VR)、生成式人工智能(AI)和大型語(yǔ)言模型(LLMs)等技術(shù)的推動(dòng)下,設(shè)計(jì)師如何適應(yīng)這些變化以保持相關(guān)性。文章強(qiáng)調(diào)了三個(gè)核心觀點(diǎn):擁抱變化、在不變中尋找根基、以模型作為設(shè)計(jì)的對(duì)象。
首先,作者提倡擁抱技術(shù)和范式的變化,鼓勵(lì)設(shè)計(jì)師通過(guò)實(shí)踐新技術(shù)來(lái)學(xué)習(xí)其局限性和能力,而不是僅僅從理論上了解。這要求設(shè)計(jì)師持續(xù)學(xué)習(xí)和專(zhuān)業(yè)發(fā)展,不僅僅是在設(shè)計(jì)技藝上,也包括其目的和方向。通過(guò)比喻鐵匠轉(zhuǎn)變?yōu)槠?chē)機(jī)械師的故事,文章強(qiáng)調(diào)了適應(yīng)變化的重要性。
其次,文章指出盡管技術(shù)不斷進(jìn)步,但某些事物如人性和社會(huì)基礎(chǔ)結(jié)構(gòu)等仍將保持不變。設(shè)計(jì)師應(yīng)該在這些永恒的事物上建立自己的工作,利用新技術(shù)和方法來(lái)改善這些不變的方面。作者建議閱讀古典文學(xué)作品來(lái)深入理解人性和社會(huì),因?yàn)檫@些作品揭示了跨越不同文化和時(shí)代的普遍真理。
最后,文章提出將模型作為設(shè)計(jì)的對(duì)象。模型是關(guān)于世界如何組織和運(yùn)作的思想,描述了構(gòu)成整體的部分、綁定它們的結(jié)構(gòu)以及部分之間的行為方式。設(shè)計(jì)師應(yīng)該定義系統(tǒng)模型,以確保用戶能夠通過(guò)系統(tǒng)以相對(duì)較少的努力完成他們需要做的事情。這要求設(shè)計(jì)師與抽象概念保持健康的關(guān)系,這些抽象概念指導(dǎo)UI層面的設(shè)計(jì),并由其他人(可能是AI)執(zhí)行。
作者探討了大型語(yǔ)言模型(LLMs)作為評(píng)估者的概念,即“LLM作為評(píng)判”。這篇文章是對(duì)之前介紹評(píng)估LLMs的早期基準(zhǔn)和指標(biāo)的博客的延續(xù),并指出了這些評(píng)估方法的問(wèn)題。文章進(jìn)入了自然語(yǔ)言處理(NLP)的一個(gè)新研究領(lǐng)域,該領(lǐng)域?qū)W⒂陂_(kāi)發(fā)更準(zhǔn)確地衡量LLMs生成能力的指標(biāo),并引入了LLMs作為評(píng)估者的角色,這種方法被稱(chēng)為基于LLM的自然語(yǔ)言生成(NLG)評(píng)估。
文章提到了使用靜態(tài)基準(zhǔn)來(lái)評(píng)估LLMs的問(wèn)題,例如基準(zhǔn)泄露,即評(píng)估基準(zhǔn)中的數(shù)據(jù)無(wú)意中成為模型訓(xùn)練集的一部分,這可能會(huì)顯著夸大模型的性能指標(biāo),提供對(duì)其實(shí)際能力的誤導(dǎo)性表示。為了解決這個(gè)問(wèn)題,文章探討了使用最先進(jìn)的LLMs(如GPT-4)作為人類(lèi)評(píng)估的替代品,因?yàn)檫@些模型通常經(jīng)過(guò)RLHF訓(xùn)練,已經(jīng)表現(xiàn)出強(qiáng)烈的人類(lèi)一致性。這種方法被稱(chēng)為LLM-as-a-judge,有三種類(lèi)型的LLM-as-a-judge機(jī)制,每種都旨在增強(qiáng)評(píng)估過(guò)程。
1.成對(duì)比較:LLM被提出一個(gè)問(wèn)題和兩個(gè)可能的答案,然后任務(wù)是確定哪個(gè)答案更優(yōu)或兩個(gè)答案是否同等優(yōu)秀。
2.單一答案評(píng)分:這種方法簡(jiǎn)化了過(guò)程,要求LLM為一個(gè)答案分配分?jǐn)?shù),而不進(jìn)行直接比較。
3.參考指導(dǎo)評(píng)分:在這種方法中,LLM被給予一個(gè)參考解決方案以及它需要評(píng)估的答案,這在需要客觀正確性或精確性的情況下特別有用。
文章還指出了使用LLMs作為評(píng)估者的準(zhǔn)確性問(wèn)題和可能影響評(píng)估的固有偏見(jiàn)。為了解決這些問(wèn)題,文章介紹了Prometheus,這是一個(gè)專(zhuān)門(mén)的開(kāi)源評(píng)估語(yǔ)言模型,擁有130億參數(shù),能夠根據(jù)用戶提供的定制評(píng)分標(biāo)準(zhǔn)來(lái)評(píng)估任何給定的長(zhǎng)文本。Prometheus在與人類(lèi)評(píng)估者的評(píng)分相關(guān)性方面表現(xiàn)出色,其Pearson相關(guān)系數(shù)為0.897,與GPT-4(0.882)相當(dāng),并且大大優(yōu)于ChatGPT(0.392)。
設(shè)計(jì)未來(lái)?使用AI增強(qiáng)人類(lèi)認(rèn)知和創(chuàng)造力
最近的研究結(jié)合了生物反饋工具和人工智能(AI),旨在提高設(shè)計(jì)師的元認(rèn)知技能。元認(rèn)知是指對(duì)自己的思考過(guò)程進(jìn)行思考,以批判性地評(píng)估設(shè)計(jì),識(shí)別知識(shí)空白,并適應(yīng)創(chuàng)造性方法。文章探討了如何通過(guò)監(jiān)測(cè)我們的元認(rèn)知活動(dòng),比如評(píng)估情緒反應(yīng),來(lái)幫助導(dǎo)航設(shè)計(jì)不確定性并促進(jìn)創(chuàng)新。文章重點(diǎn)介紹了康奈爾大學(xué)最近研發(fā)的“多重自我”工具,該工具通過(guò)神經(jīng)數(shù)據(jù)提供設(shè)計(jì)師情緒狀態(tài)的實(shí)時(shí)生物反饋。通過(guò)將這些通常是內(nèi)部信息外化,“多重自我”旨在激發(fā)有價(jià)值的自我反思和擴(kuò)展創(chuàng)造性探索。
設(shè)計(jì)中的元認(rèn)知監(jiān)控是一個(gè)迭代過(guò)程,涉及在探索不同選項(xiàng)(發(fā)散思維)和評(píng)估/綜合這些想法(收斂思維)之間來(lái)回進(jìn)行。在探索階段,設(shè)計(jì)師可能會(huì)對(duì)他們的想法是否真的有效或成功感到不確定。元認(rèn)知監(jiān)控特別涉及評(píng)估自己的知識(shí)、思想和任務(wù)進(jìn)展。對(duì)于設(shè)計(jì)師來(lái)說(shuō),元認(rèn)知有助于他們調(diào)節(jié)不確定性,并將其保持在創(chuàng)造力的最佳區(qū)域。它可以幫助評(píng)估不同的方法,識(shí)別知識(shí)空白,管理不確定性并產(chǎn)生更多創(chuàng)造性的解決方案。
“多重自我”工具使用腦電圖(EEG)傳感器來(lái)檢測(cè)與情緒反應(yīng)相關(guān)的大腦活動(dòng)。該工具應(yīng)用機(jī)器學(xué)習(xí)到原始EEG數(shù)據(jù),以預(yù)測(cè)用戶的情緒價(jià)值(積極與消極的感覺(jué))和喚醒(興奮/參與)。該工具的目標(biāo)是幫助設(shè)計(jì)師通過(guò)使用AI和生物傳感器更好地感知他們當(dāng)下的情緒。在虛擬設(shè)計(jì)會(huì)話期間,設(shè)計(jì)師看到一個(gè)在他們視野中的2D圖表上移動(dòng)的點(diǎn),該點(diǎn)的位置表示他們預(yù)測(cè)的情緒,允許他們?cè)诓僮魈摂M設(shè)計(jì)時(shí)跟蹤變化。
研究人員通過(guò)與24名參與者(包括10名擁有超過(guò)3年建筑設(shè)計(jì)實(shí)踐的專(zhuān)家和14名經(jīng)驗(yàn)較少的新手)測(cè)試“多重自我”的可行性。他們首先通過(guò)觀看室內(nèi)建筑空間的全景360度圖像并記錄EEG來(lái)評(píng)估參與者的基線情緒反應(yīng)。然后,他們使用視覺(jué)量表自我報(bào)告他們的價(jià)值和喚醒感。這些數(shù)據(jù)被用來(lái)訓(xùn)練個(gè)性化的機(jī)器學(xué)習(xí)分類(lèi)模型,以從后續(xù)的EEG信號(hào)中預(yù)測(cè)每個(gè)參與者的高、中或低水平的價(jià)值和喚醒。
盡管這種方法仍然是新穎和實(shí)驗(yàn)性的,但這項(xiàng)研究強(qiáng)調(diào)了我們可以如何將先進(jìn)技術(shù)如AI和生物測(cè)量學(xué)整合到UX中,以增強(qiáng)我們的技能和能力。這項(xiàng)研究為人工智能增強(qiáng)的元認(rèn)知支持在UX設(shè)計(jì)中的潛力奠定了有希望的基礎(chǔ),但要實(shí)現(xiàn)其全部潛力仍然是一個(gè)需要跨學(xué)科合作和進(jìn)一步研究的廣泛挑戰(zhàn)。例如,這項(xiàng)研究只研究了界面的短期使用和非多樣化樣本。然而,隨著人工智能和生理感應(yīng)技術(shù)的應(yīng)用,未來(lái)的設(shè)計(jì)已經(jīng)到來(lái),這為未來(lái)人機(jī)協(xié)作的現(xiàn)實(shí)提供了一個(gè)展望,并展示了如何用它來(lái)增強(qiáng)創(chuàng)造力。
人工智能工具使普通消費(fèi)者更容易創(chuàng)作藝術(shù)、音樂(lè)、視頻和圖形,而無(wú)需廣泛的培訓(xùn)或復(fù)雜的軟件。這些工具不僅縮小了創(chuàng)意與工藝之間的差距,而且還提高了現(xiàn)有和專(zhuān)業(yè)創(chuàng)意人員的工作水平。人工智能可以使編輯工作流程自動(dòng)化,并引入新型的人工智能原生編輯,同時(shí)還可以讓人工智能工具根據(jù)文本指令完成任務(wù),從而提高工作效率。此外,人工智能內(nèi)容正變得與人類(lèi)內(nèi)容無(wú)異,人工智能角色和內(nèi)容有望在在線娛樂(lè)和社交互動(dòng)中發(fā)揮重要作用。
文章《解釋SDXL潛在空間》詳細(xì)介紹了SDXL潛在空間的特點(diǎn)和如何改進(jìn)SDXL生成的圖像。SDXL是一種基于擴(kuò)散模型的圖像生成架構(gòu),其輸出的潛在表示包含四個(gè)通道,與傳統(tǒng)的8位RGB像素空間的三個(gè)通道不同。這四個(gè)通道分別代表亮度、青/紅色、黃綠色/中紫色和圖案/結(jié)構(gòu)。文章中提到,SDXL生成的圖像往往存在噪點(diǎn)、過(guò)度平滑和顏色偏差問(wèn)題,尤其是偏向黃色,這是因?yàn)槟P驮谟?xùn)練過(guò)程中對(duì)現(xiàn)實(shí)世界圖像的學(xué)習(xí)導(dǎo)致的。
為了改進(jìn)這些問(wèn)題,作者進(jìn)行了實(shí)驗(yàn)性探索,并開(kāi)發(fā)了一系列校正工具和方法。這些方法包括直接將潛在表示轉(zhuǎn)換為RGB的線性近似函數(shù)、中心化張量以調(diào)整顏色偏差、去除異常值以控制細(xì)節(jié)、顏色平衡和增加顏色范圍、張量最大化以及回調(diào)實(shí)現(xiàn)示例。通過(guò)這些技術(shù),可以在生成圖像之前改善信息和顏色范圍,而不是在圖像生成后進(jìn)行后處理。
設(shè)計(jì)師實(shí)用指南:使用?AI?進(jìn)行?3D?渲染
在數(shù)字產(chǎn)品設(shè)計(jì)中,早期概念化和設(shè)計(jì)階段需要快速創(chuàng)新,但傳統(tǒng)的高質(zhì)量3D渲染過(guò)程通常與此不兼容。作為一個(gè)熱愛(ài)3D的產(chǎn)品設(shè)計(jì)師,我發(fā)現(xiàn)了使用AI技術(shù)來(lái)加速3D渲染的方法,這對(duì)于不具有深入3D專(zhuān)業(yè)知識(shí)的設(shè)計(jì)師來(lái)說(shuō)也更加可訪問(wèn)(大部分是開(kāi)源的)[1]。
傳統(tǒng)3D渲染流程包括建模、紋理和照明、渲染三個(gè)階段,每個(gè)階段都需要細(xì)致的注意力和對(duì)工具和藝術(shù)流程的深入理解,需要多年的經(jīng)驗(yàn)才能掌握[1]。然而,這種詳細(xì)控制的方法在快速概念化和迭代中不太適用,尤其是項(xiàng)目初期。
AI生成圖像提供了近乎無(wú)限的視覺(jué)可能性,加快了迭代速度,但缺乏控制力是一個(gè)主要問(wèn)題。AI渲染的關(guān)鍵挑戰(zhàn)在于結(jié)合速度和細(xì)節(jié)的優(yōu)勢(shì),同時(shí)保持對(duì)創(chuàng)意輸出的決定性控制[1]。
AI增強(qiáng)的3D工作流程結(jié)合了傳統(tǒng)3D建模的精確性和AI的靈活性和速度。設(shè)計(jì)師可以創(chuàng)建簡(jiǎn)單的3D模型,并使用AI快速探索不同的視覺(jué)風(fēng)格,進(jìn)行快速調(diào)整。這種方法產(chǎn)生了協(xié)作式的過(guò)程,結(jié)合了3D建模的精確性和AI的速度:
1.建模:創(chuàng)建簡(jiǎn)單的3D模型,關(guān)注比例、布局和組合,而不是細(xì)節(jié)。
2.生成:使用ControlNet等工具,將場(chǎng)景信息共享給擴(kuò)散模型,生成圖像,保持組合和主題不變。
3.迭代:調(diào)整生成圖像的控制。如果控制力很大,AI會(huì)確保渲染與模型的比例相匹配,但限制細(xì)節(jié)和“創(chuàng)造力”。
AI增強(qiáng)的3D工作流程有助于更有效地與創(chuàng)意團(tuán)隊(duì)和產(chǎn)品設(shè)計(jì)師共享早期概念,為項(xiàng)目設(shè)定一個(gè)明確的方向,節(jié)省寶貴的時(shí)間和資源。這種方法也支持創(chuàng)建一致的情感板,這些板在設(shè)計(jì)過(guò)程中起著至關(guān)重要的參考作用[1]。
AI技術(shù)在3D設(shè)計(jì)工作流程中生成快速插圖和圖像方面只是冰山一角。創(chuàng)新正以驚人的速度發(fā)展。AI將成為渲染的未來(lái),將與3D軟件和游戲引擎本身集成。AI已經(jīng)被用于Blender中的降噪和超分辨率渲染,以及Pixar的Elements中的渲染時(shí)間優(yōu)化,Unreal Engine中的幀率優(yōu)化。
IP-adapter是Stable Diffusion的一個(gè)附加組件,用于使用圖像作為提示,類(lèi)似于Midjourney和DaLLE 3。它可以復(fù)制參考圖像中的風(fēng)格、構(gòu)圖或面孔。文章介紹了多種IP-Adapter模型,包括Plus、Face ID、Face ID v2、Face ID portrait等,并說(shuō)明了如何在AUTOMATIC1111和ComfyUI中使用IP-adapters。IP-adapter模型的數(shù)量正在迅速增長(zhǎng),包括兩種圖像編碼器:OpenClip ViT H 14(即SD 1.5版本,632M參數(shù))和OpenClip ViT BigG 14(即SDXL版本,1845M參數(shù))。
IP-adapter通過(guò)訓(xùn)練圖像的單獨(dú)交叉注意力層來(lái)提高圖像生成過(guò)程的指導(dǎo)效果。文章還詳細(xì)介紹了如何在AUTOMATIC1111和ComfyUI軟件中設(shè)置和使用IP-Adapter,包括安裝ControlNet擴(kuò)展、下載IP-Adapter和LoRA模型以及在AUTOMATIC1111中使用IP-adapter模型的步驟。此外,還提供了在ComfyUI中使用IP-Adapter的指南,包括安裝InsightFace、下載模型和LoRAs以及設(shè)置工作流程。
Meta?聚焦人工智能投資如何為廣告商帶來(lái)回報(bào)
在2023年被稱(chēng)為“效率之年”之后,Meta將人工智能(AI)作為2024年的主題,大力投資于觸及其業(yè)務(wù)的每一個(gè)方面的技術(shù),從用戶和創(chuàng)作者到企業(yè)和開(kāi)發(fā)者。Meta首席執(zhí)行官馬克·扎克伯格在公司最近的財(cái)報(bào)電話會(huì)議上表示,尤其是生成式AI已經(jīng)推動(dòng)Meta的廣告業(yè)務(wù)在第四季度同比增長(zhǎng)24%,總額達(dá)到387億美元。Meta的高管們進(jìn)一步深入其AI計(jì)劃,解釋了廣告商和代理商今年可以從技術(shù)中期待什么,并在2月7日的虛擬圓桌會(huì)議上分享了幾個(gè)成功故事。Meta的全球商業(yè)集團(tuán)副總裁阿爾文·鮑爾斯表示:“2023年對(duì)我們來(lái)說(shuō)是一個(gè)明確的轉(zhuǎn)折點(diǎn),我們的第四季度收益顯示,對(duì)于使用我們工具的廣告商來(lái)說(shuō),Meta確實(shí)在發(fā)揮作用。我們?cè)?/span>AI上的投資不僅為廣告商的表現(xiàn)帶來(lái)了回報(bào),也為我們的社區(qū)帶來(lái)了比以往任何時(shí)候都更相關(guān)的發(fā)現(xiàn)引擎。”隨著廣告收入的增長(zhǎng),Meta在最后一個(gè)季度也看到了用戶和觀看時(shí)間的增加,所有視頻類(lèi)型的日觀看時(shí)間同比增長(zhǎng)超過(guò)25%,用戶每天重新分享Reels 35億次。Meta將這種參與度增長(zhǎng)歸因于多年來(lái)一直是其業(yè)務(wù)核心的AI和發(fā)現(xiàn)引擎投資,這些投資現(xiàn)在正在得到回報(bào)。
Meta的這些AI投資不僅提高了其廣告系統(tǒng)的性能,還改善了人們?cè)谒袘?yīng)用中看到的個(gè)性化內(nèi)容。此外,Meta還在其廣告產(chǎn)品中進(jìn)行了多年的機(jī)器學(xué)習(xí)、自動(dòng)化和AI投資,以應(yīng)對(duì)數(shù)字廣告行業(yè)的變化,這些投資正在為廣告商帶來(lái)成功。Meta還開(kāi)始在其廣告套件中推出生成式AI功能,包括文本變化和圖像擴(kuò)展,并計(jì)劃在本季度晚些時(shí)候擴(kuò)大背景圖像生成的可用性。例如,珠寶小企業(yè)Felicity在感恩節(jié)到網(wǎng)絡(luò)星期一的Cyber Five期間大量使用Advantage套件,看到收入增長(zhǎng)了24%,客戶回頭率提高了20%。瑞士運(yùn)動(dòng)服品牌On測(cè)試了Meta的Advantage+ Catalog廣告和產(chǎn)品級(jí)視頻解決方案,導(dǎo)致廣告支出回報(bào)增加了41%,購(gòu)買(mǎi)成本降低了45%。
“原文鏈接:春節(jié)期間AI界最新新聞 - AI魔法學(xué)院 https://www.wehelpwin.com/news/119”。