《時(shí)代》雜志2023年AI最佳發(fā)明

來源：數(shù)據(jù)觀綜合時(shí)間：2023-10-27 15:55:26 作者：

　　日前，《時(shí)代》周刊發(fā)布了2023年度最佳發(fā)明的榜單，這一榜單旨在介紹最具影響力的新產(chǎn)品和理念，由《時(shí)代》周刊全球的編輯和記者提名，根據(jù)創(chuàng)新性、效率、影響力等因素篩選出200個(gè)突破性發(fā)明?！稌r(shí)代》周刊的評(píng)論表示，這些產(chǎn)品改變了我們的生活、工作、娛樂，并且挑戰(zhàn)“可能”這一概念的極限。

　　二十多年來，《時(shí)代》雜志的編輯們每年都會(huì)在最佳發(fā)明?？性u(píng)選出最具影響力的新產(chǎn)品和新創(chuàng)意。今年，榜單由世界各地《時(shí)代》雜志編輯和記者的提名，特別關(guān)注人工智能、綠色能源和可持續(xù)發(fā)展等新興領(lǐng)域。

　　其中 AI 領(lǐng)域共 14 項(xiàng)入選，包括 Adobe 旗下 Photoshop 的 Generative Expand 和 Generative Fill、OpenAI 的 GPT-4 及 Dall-E 3、Runway Gen-2、Meta SeamlessM4T、Stable Audio 等。

　　突破邊框的照片編輯：Adobe Photoshop Generative Expand and Generative Fill

　　Adobe在5月宣布將人工智能圖像生成器Firefly整合至Photoshop（beta版）應(yīng)用，推出生成填色（Generative Fill）功能，為Photoshop的使用者釋放全新的創(chuàng)作潛能，使他們能夠運(yùn)用簡易的英文文字指令，以非破壞性的方式來新增、擴(kuò)展或是移除影像內(nèi)容。使用者通過這種快速且具直覺性的方式拓展鏡頭外的影像世界，此項(xiàng)令人振奮的新功能推出至今，已創(chuàng)造超過9億張讓人嘆為觀止的影像。

　　繼生成填色之后，Adobe又宣布推出全新生成式人工智能功能—生成式擴(kuò)展（Generative Expand）功能。它與生成填色不同之處在于，以往使用生成填色要擴(kuò)展影像內(nèi)容時(shí)，需透過裁切工具和矩形選取畫面工具二個(gè)步驟才能完成，而新的生成式擴(kuò)展則有效簡化了步驟，只需要使用裁切工具就能完成圖像擴(kuò)展，輕松延伸影像尺寸和鏡頭外的內(nèi)容，讓影像完美呈現(xiàn)符合用戶所期待的效果。

　　改變游戲規(guī)則的AI：OpenAI GPT-4

　　3月14日，ChatGPT的開發(fā)機(jī)構(gòu)OpenAI正式發(fā)布其里程碑之作GPT-4。

　　GPT-4是一個(gè)多模態(tài)大模型（接受圖像和文本輸入，生成文本）。相比上一代的GPT-3，GPT-4可以更準(zhǔn)確地解決難題，具有更廣泛的常識(shí)和解決問題的能力：更具創(chuàng)造性和協(xié)作性；能夠處理超過25000個(gè)單詞的文本，允許長文內(nèi)容創(chuàng)建、擴(kuò)展對(duì)話以及文檔搜索和分析等用例。

　　此外，GPT-4的高級(jí)推理能力超越了ChatGPT。在SAT等絕大多數(shù)專業(yè)測試以及相關(guān)學(xué)術(shù)基準(zhǔn)評(píng)測中，GPT-4的分?jǐn)?shù)高于ChatGPT。

　　OpenAI花了6個(gè)月時(shí)間使GPT-4更安全、更具一致性。在內(nèi)部評(píng)估中，與GPT-3.5相比，GPT-4對(duì)不允許內(nèi)容做出回應(yīng)的可能性降低82%，給出事實(shí)性回應(yīng)的可能性高40%。GPT-4引入了更多人類反饋數(shù)據(jù)進(jìn)行訓(xùn)練，不斷吸取現(xiàn)實(shí)世界使用的經(jīng)驗(yàn)教訓(xùn)進(jìn)行改進(jìn)。

　　“GPT-4是世界第一款高體驗(yàn)，強(qiáng)能力的先進(jìn)AI系統(tǒng)，我們希望很快把它推向所有人。”O(jiān)penAI工程師在介紹視頻里說。

　　別出心裁的電影剪輯：Runway Gen-2

　　今年6月，谷歌支持的人工智能初創(chuàng)公司Runway（幫助開發(fā)了AI圖像生成器StableDiffusion）發(fā)布了Gen-2，這是一款根據(jù)文本提示或現(xiàn)有圖像生成視頻的模型。（Gen-2之前只在有限的等候名單中使用。）

　　和很多文生圖類應(yīng)用不同，Runway的Gen-1、Gen-2挑戰(zhàn)的是一項(xiàng)更有難度的事情——視頻編輯和生成。

　　Runway公司在2月首次推出了其Gen-1模型，該模型僅使用文本提示即可以修改視頻的藝術(shù)風(fēng)格，例如將現(xiàn)實(shí)中的實(shí)拍鏡頭轉(zhuǎn)換為卡通剪紙世界。而Gen-2更進(jìn)一步，可以直接使用單個(gè)文本提示生成視頻場景，比如提示詞為“山脈的航拍無人機(jī)鏡頭”，就可以生成逼真的航拍畫面，但開源的模型輸出的視頻分辨率目前還較低，還需要稍待進(jìn)一步發(fā)展。

　　此外，該模型可以從圖像和文本描述的組合生成短視頻序列。目前Runway公司正在向測試人員提供Gen-2模型。Gen-2已經(jīng)上線了蘋果AppStore，也同時(shí)有Web版本，可以在瀏覽器中使用。

　　人工智能鑒定真?zhèn)危篈litheon FeaturePrint

　　FeaturePrint號(hào)稱可以通過用手機(jī)拍攝一張物品的照片，識(shí)別出物品是否為贗品。并且支持任何物品識(shí)別，從齒輪和電路板到手表和收藏品。

　　這款應(yīng)用由Alitheon公司開發(fā)，利用人工智能技術(shù)，將物品表面的細(xì)節(jié)轉(zhuǎn)化為獨(dú)一無二的數(shù)學(xué)特征。Alitheon公司稱，由于即使是同一生產(chǎn)線出來的物品也不會(huì)完全相同，所以FeaturePrint可以輕松區(qū)分真品和假貨。這款應(yīng)用不需要使用條形碼、二維碼、射頻識(shí)別等標(biāo)識(shí)物品的方式，而是直接讓物品成為自己的身份證。

　　天空之眼：Dedrone 全城無人機(jī)探測

　　無人機(jī)既能帶來破壞，也能帶來益處。

　　Dedrone 的全城無人機(jī)探測產(chǎn)品可在一個(gè)地理區(qū)域周圍投擲一個(gè)虛擬防護(hù)罩，在無人機(jī)進(jìn)入指定空域的幾秒鐘內(nèi)向執(zhí)法部門發(fā)出警告。

　　Dedrone 跟蹤無人機(jī)發(fā)出的專有混合信號(hào)，包括無線電頻率、ADS-B 數(shù)據(jù)（也用于飛機(jī)）和 RemoteID 信標(biāo)，以確定入侵位置。

　　該系統(tǒng)可以在數(shù)秒內(nèi)檢測進(jìn)入禁飛區(qū)的無人機(jī)，對(duì)保護(hù)重要基礎(chǔ)設(shè)施具有重要作用。它被稱為無人機(jī)的“空中交通管制系統(tǒng)”。

　　翻譯大師：Meta SeamlessM4T

　　今年8月，科技巨頭Meta在官網(wǎng)宣布，開源多語音、語言，翻譯、轉(zhuǎn)錄大模型SeamlessM4T。

　　據(jù)Meta介紹，SeamlessM4T是首個(gè)一體化AI翻譯大模型，支持100種語音、語言翻譯，可執(zhí)行語音到文本、語音到語音、文本到語音和文本到文本的多模式翻譯任務(wù)。例如，將一段英文語音，自動(dòng)翻譯成地方中文語音（如閩南話）。

　　此外，SeamlessM4T集成了Meta之前發(fā)布的NLLB、MMS等翻譯模型，并使用了270，000小時(shí)的語音和文本對(duì)齊數(shù)據(jù)。所以，這也是目前規(guī)模最大、功能最全的開源翻譯模型。

　　令人驚嘆的模仿：So-VITS-SVC

　　SO-VITS-SVC是源于2021年6月11日發(fā)布的“VITS”的開源項(xiàng)目?！癡ITS”是一種語音合成模型，可以實(shí)現(xiàn)“文生音”的效果。但“VITS”模型需要海量的訓(xùn)練數(shù)據(jù)（數(shù)千至上萬條5-10秒左右的音頻），并高度依賴于人們對(duì)語料數(shù)據(jù)的文本標(biāo)記，應(yīng)用門檻很高。

　　2022年8月26日，一位名為“Rcell”的B站用戶在“VITS”的基礎(chǔ)上，結(jié)合了Soft-vc（內(nèi)容編碼器，用來提取音頻語音特征）、VIsinger（端到端的歌聲合成系統(tǒng)，用來簡化歌聲合成系統(tǒng)的訓(xùn)練流程）等，開發(fā)出了“SO-VITS-SVC”模型。“SO-VITS-SVC”可以理解是一個(gè)音色轉(zhuǎn)換的AI模型，僅需十幾分鐘的音頻數(shù)據(jù)，便可以擬合成具備特定主體音色的工具。

　　AI 消防員：AlertCalifornia 和 Cal Fire AI 野火探測器

　　在野火蔓延之前對(duì)其進(jìn)行檢測是目前困擾世界許多地區(qū)的一項(xiàng)挑戰(zhàn)。加州大學(xué)圣迭戈分校的公共安全項(xiàng)目 AlertCalifornia 正在利用人工智能提供幫助。該項(xiàng)目與加州消防局（Cal Fire）合作，訓(xùn)練人工智能從遍布全州森林的 1050 多個(gè)攝像頭網(wǎng)絡(luò)中檢測煙霧和其他早期火災(zāi)跡象。

　　“Alert California AI”技術(shù)網(wǎng)站稱，他們使用從飛機(jī)和無人機(jī)上進(jìn)行的激光雷達(dá)（LiDAR）掃描，生成“關(guān)于掃描表面的三維信息”。結(jié)合了樹種的物理特征，來了解加州森林生物量和碳含量。Cal Fire 說，機(jī)器學(xué)習(xí)（ML）模型利用攝像頭的 PB 級(jí)（1PB=1000TB）數(shù)據(jù)來區(qū)分煙霧和其他空氣顆粒。

　　在最初的兩個(gè)月里，該系統(tǒng)在接到任何報(bào)警電話之前就正確識(shí)別出了 77 起火災(zāi)。AlertCalifornia 的聯(lián)合首席調(diào)查員 Falco Kuester 說：“這個(gè)（系統(tǒng)）最大的成功案例就是那些你從未聽說過的火災(zāi)。”

　　輕松創(chuàng)建音樂：Stable Audio

　　Stable Audio由Stability AI內(nèi)部的聲音實(shí)驗(yàn)室Harmonai研發(fā)，采用了與Stable Diffusion類似的擴(kuò)散模型技術(shù)。

　　StableAudio簡化了用戶生產(chǎn)音頻的模式，用戶只需要輸入關(guān)鍵詞，通常包含樂器名稱、風(fēng)格、情境、甚至節(jié)拍數(shù)，就可以一鍵生成音頻。該工具采用“潛在擴(kuò)散模型”，它能根據(jù)用戶輸入的文本生成豐富多彩、高質(zhì)量的音頻，范圍涵蓋了音樂、對(duì)話、環(huán)境音和特效聲等。

　　為了訓(xùn)練這款模型，Stability與音樂提供商AudioSparx合作，在超過800000個(gè)音頻文件的數(shù)據(jù)集上進(jìn)行了訓(xùn)練，其中包括音樂、音效和單樂器主干，以及相應(yīng)的文本元數(shù)據(jù)。在將19500小時(shí)的音頻輸入模型后，StableAudio知道如何模仿它在命令中“聽”到的某些聲音描述。經(jīng)過大量的訓(xùn)練的StableAudio，讓用戶通過文本提示就能直接生成搖滾、爵士、電子、嘻哈、重金屬、民謠、流行、朋克、鄉(xiāng)村等20多種類型背景音樂。

　　動(dòng)物保護(hù)者：TrailGuard AI

　　在印度和非洲的部分地區(qū)，偷獵仍然是大象和大型貓科動(dòng)物滅絕的最大威脅，即使在保護(hù)區(qū)內(nèi)也是如此。美國環(huán)保組織Resolve創(chuàng)建的人工智能蹤跡保護(hù)系統(tǒng)（TrailGuardAI）利用英特爾（Intel）技術(shù)驅(qū)動(dòng)的微型攝像頭來監(jiān)控瀕危物種和發(fā)現(xiàn)偷獵者。該系統(tǒng)利用手機(jī)或遠(yuǎn)距離無線電信號(hào)，在短短30秒內(nèi)就能將圖像傳送到當(dāng)局的手機(jī)上。

　　TrailGuard AI通過高級(jí)人工智能檢測和識(shí)別入侵者，允許系統(tǒng)向指定方發(fā)送圖像警報(bào)。利用ELERA（Inmarsat超可靠的全球移動(dòng)衛(wèi)星通信網(wǎng)絡(luò)），這種至關(guān)重要的視覺信息甚至可以在最偏遠(yuǎn)的地區(qū)傳輸。

　　通過充當(dāng) “地面上的眼睛”，TrailGuard AI使執(zhí)法人員和公園管理員能夠有效地監(jiān)測威脅，并在近乎實(shí)時(shí)的情況下作出更有效的反應(yīng)。它的圖像警報(bào)系統(tǒng)能夠感知到威脅的態(tài)勢，提高了工作人員和當(dāng)?shù)厣鐓^(qū)在野生動(dòng)物保護(hù)方面的安全。

　　畫出你的想象：OpenAI Dall·E 3

　　DALL·E-3是OpenAI在今年9月21日最新推出的文生圖模型，在語義理解、顆粒處理、圖像質(zhì)量等方面，比2022年3月25日發(fā)布的DALL·E-2實(shí)現(xiàn)巨大提升。DALL·E-3可生成寫實(shí)、二次元、平面、創(chuàng)意、朋克、3D等多種類型，圖片質(zhì)量可媲美Midjourney，文本提示理解甚至超過了它。

　　除了炸裂的生圖效果之外，DALL·E 3 的最大特點(diǎn)是與 ChatGPT 的集成，它原生構(gòu)建在 ChatGPT 之上，用 ChatGPT 來創(chuàng)建、拓展和優(yōu)化 prompt。這樣一來，用戶無需在 prompt 上花費(fèi)太多時(shí)間。

　　具體來講，通過使用 ChatGPT，用戶不必絞盡腦汁地想出詳細(xì)的 prompt 來引導(dǎo) DALL·E 3 了。當(dāng)輸入一個(gè)想法時(shí)，ChatGPT 會(huì)自動(dòng)為 DALL·E 3 生成量身定制的、詳細(xì)的 prompt。同時(shí)用戶也可以使用自己的 prompt。

　　聽好了：古騰堡計(jì)劃開放式有聲讀物合集

　　古騰堡計(jì)劃開放式有聲讀物集是由微軟，谷歌和古騰堡計(jì)劃共同發(fā)起，有望將古騰堡計(jì)劃包含的接近6萬本電子書庫，利用AI文本轉(zhuǎn)語音技術(shù)，全部轉(zhuǎn)化為有聲讀物。古騰堡計(jì)劃是全球最大的開源電子書庫，目前書庫中包含超過70000本已經(jīng)進(jìn)入共有領(lǐng)域的電子書。

　　在這個(gè)項(xiàng)目中，研究人員結(jié)合了機(jī)器學(xué)習(xí)、自動(dòng)文本選擇（哪些文本可以大聲朗讀，哪些不可以）和自然語音合成系統(tǒng)的突破。

　　首先，研究人員開發(fā)了一種算法，可以理解基于HTML的電子書的結(jié)構(gòu)，并區(qū)分主要文本和不重要的元素，如腳注、頁碼或表格。

　　這個(gè)解析之后，是文本到語音的實(shí)際轉(zhuǎn)換（文本到語音，TTS）的過程。在這個(gè)項(xiàng)目中，使用了谷歌的WaveNet，英偉達(dá)的Tacotron和微軟的FastSpeech，來產(chǎn)生自然的和人類相似的語音輸出。

　　此外，為了研究團(tuán)隊(duì)開發(fā)了一個(gè)能夠區(qū)分?jǐn)⑹稣吆蛯?duì)話的系統(tǒng)，甚至可以區(qū)分單個(gè)角色和情緒，并相應(yīng)地調(diào)整生成的聲音。

　　團(tuán)隊(duì)目前為止上線了5000多本有聲讀物，總計(jì)約三萬五千小時(shí)的有聲內(nèi)容。

　　分解節(jié)拍--AudioShake

　　當(dāng)最偉大的搖滾樂隊(duì)之一最近達(dá)成協(xié)議，在廣告中使用其 1970 年代的熱門歌曲時(shí)，其成員欣喜若狂。但有一個(gè)問題：廣告制作人只想要樂器，而樂隊(duì)擁有的只是最終的混音。因此，搖滾樂隊(duì)的團(tuán)隊(duì)聯(lián)系了 AudioShake，該公司的人工智能程序可以隔離預(yù)先錄制的音頻元素，將其分解為各個(gè)組成部分。

　　據(jù)悉，該服務(wù)可以通過AI識(shí)別，將一首錄制完成的歌曲解構(gòu)為器樂、人聲、貝斯、吉他、鼓等多個(gè)部分，然后將其單獨(dú)提取出來，用于其他新用途，例如混音、采樣、同步許可、母帶重制等。

　　反思智能手機(jī)：Humane Ai Pin

　　Humane Ai Pin是一款具有投影顯示和AI驅(qū)動(dòng)功能的可穿戴設(shè)備。據(jù)悉，Ai Pin是一款“智能且連接的可穿戴設(shè)備，可以附著在衣物上，并利用各種傳感器進(jìn)行環(huán)境和情境計(jì)算交互?！彼且豢瞠?dú)立設(shè)備，其軟件平臺(tái)利用AI的力量提供創(chuàng)新的個(gè)人計(jì)算體驗(yàn)。

　　從本質(zhì)上講，Ai Pin旨在執(zhí)行許多智能手機(jī)的功能，但幾乎不需要手勢和語音命令。只需輕輕一點(diǎn)，這款設(shè)計(jì)精巧的設(shè)備（設(shè)計(jì)為夾在胸口口袋上）就可以概述電子郵件和日歷邀請(qǐng)，提供語言之間的翻譯，并處理電話通話。

　　Ai Pin配備了攝像頭和計(jì)算機(jī)視覺軟件，可以識(shí)別其周圍的物體，包括食品營養(yǎng)標(biāo)簽。此外，其內(nèi)置的投影儀和深度傳感器使其能夠?qū)⒔换ナ浇缑嫱队暗礁浇谋砻?，例如手掌或桌面?/p>

責(zé)任編輯：張薇

精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

《時(shí)代》雜志2023年AI最佳發(fā)明