精品无人区无码乱码毛片国产_性做久久久久久免费观看_天堂中文在线资源_7777久久亚洲中文字幕

首頁 資訊正文

《時(shí)代》雜志2023年AI最佳發(fā)明

  日前,《時(shí)代》周刊發(fā)布了2023年度最佳發(fā)明的榜單,這一榜單旨在介紹最具影響力的新產(chǎn)品和理念,由《時(shí)代》周刊全球的編輯和記者提名,根據(jù)創(chuàng)新性、效率、影響力等因素篩選出200個(gè)突破性發(fā)明?!稌r(shí)代》周刊的評(píng)論表示,這些產(chǎn)品改變了我們的生活、工作、娛樂,并且挑戰(zhàn)“可能”這一概念的極限。

  二十多年來,《時(shí)代》雜志的編輯們每年都會(huì)在最佳發(fā)明??性u(píng)選出最具影響力的新產(chǎn)品和新創(chuàng)意。今年,榜單由世界各地《時(shí)代》雜志編輯和記者的提名,特別關(guān)注人工智能、綠色能源和可持續(xù)發(fā)展等新興領(lǐng)域。

  其中 AI 領(lǐng)域共 14 項(xiàng)入選,包括 Adobe 旗下 Photoshop 的 Generative Expand 和 Generative Fill、OpenAI 的 GPT-4 及 Dall-E 3、Runway Gen-2、Meta SeamlessM4T、Stable Audio 等。

  01

  突破邊框的照片編輯:Adobe Photoshop Generative Expand and Generative Fill

  Adobe在5月宣布將人工智能圖像生成器Firefly整合至Photoshop(beta版)應(yīng)用,推出生成填色(Generative Fill)功能,為Photoshop的使用者釋放全新的創(chuàng)作潛能,使他們能夠運(yùn)用簡易的英文文字指令,以非破壞性的方式來新增、擴(kuò)展或是移除影像內(nèi)容。使用者通過這種快速且具直覺性的方式拓展鏡頭外的影像世界,此項(xiàng)令人振奮的新功能推出至今,已創(chuàng)造超過9億張讓人嘆為觀止的影像。

  繼生成填色之后,Adobe又宣布推出全新生成式人工智能功能—生成式擴(kuò)展(Generative Expand)功能。它與生成填色不同之處在于,以往使用生成填色要擴(kuò)展影像內(nèi)容時(shí),需透過裁切工具和矩形選取畫面工具二個(gè)步驟才能完成,而新的生成式擴(kuò)展則有效簡化了步驟,只需要使用裁切工具就能完成圖像擴(kuò)展,輕松延伸影像尺寸和鏡頭外的內(nèi)容,讓影像完美呈現(xiàn)符合用戶所期待的效果。

  02

  改變游戲規(guī)則的AI:OpenAI GPT-4

  3月14日,ChatGPT的開發(fā)機(jī)構(gòu)OpenAI正式發(fā)布其里程碑之作GPT-4。

  GPT-4是一個(gè)多模態(tài)大模型(接受圖像和文本輸入,生成文本)。相比上一代的GPT-3,GPT-4可以更準(zhǔn)確地解決難題,具有更廣泛的常識(shí)和解決問題的能力:更具創(chuàng)造性和協(xié)作性;能夠處理超過25000個(gè)單詞的文本,允許長文內(nèi)容創(chuàng)建、擴(kuò)展對(duì)話以及文檔搜索和分析等用例。

  此外,GPT-4的高級(jí)推理能力超越了ChatGPT。在SAT等絕大多數(shù)專業(yè)測試以及相關(guān)學(xué)術(shù)基準(zhǔn)評(píng)測中,GPT-4的分?jǐn)?shù)高于ChatGPT。

  OpenAI花了6個(gè)月時(shí)間使GPT-4更安全、更具一致性。在內(nèi)部評(píng)估中,與GPT-3.5相比,GPT-4對(duì)不允許內(nèi)容做出回應(yīng)的可能性降低82%,給出事實(shí)性回應(yīng)的可能性高40%。GPT-4引入了更多人類反饋數(shù)據(jù)進(jìn)行訓(xùn)練,不斷吸取現(xiàn)實(shí)世界使用的經(jīng)驗(yàn)教訓(xùn)進(jìn)行改進(jìn)。

  “GPT-4是世界第一款高體驗(yàn),強(qiáng)能力的先進(jìn)AI系統(tǒng),我們希望很快把它推向所有人。”O(jiān)penAI工程師在介紹視頻里說。

  03

  別出心裁的電影剪輯:Runway Gen-2

  今年6月,谷歌支持的人工智能初創(chuàng)公司Runway(幫助開發(fā)了AI圖像生成器StableDiffusion)發(fā)布了Gen-2,這是一款根據(jù)文本提示或現(xiàn)有圖像生成視頻的模型。(Gen-2之前只在有限的等候名單中使用。)

  和很多文生圖類應(yīng)用不同,Runway的Gen-1、Gen-2挑戰(zhàn)的是一項(xiàng)更有難度的事情——視頻編輯和生成。

  Runway公司在2月首次推出了其Gen-1模型,該模型僅使用文本提示即可以修改視頻的藝術(shù)風(fēng)格,例如將現(xiàn)實(shí)中的實(shí)拍鏡頭轉(zhuǎn)換為卡通剪紙世界。而Gen-2更進(jìn)一步,可以直接使用單個(gè)文本提示生成視頻場景,比如提示詞為“山脈的航拍無人機(jī)鏡頭”,就可以生成逼真的航拍畫面,但開源的模型輸出的視頻分辨率目前還較低,還需要稍待進(jìn)一步發(fā)展。

  此外,該模型可以從圖像和文本描述的組合生成短視頻序列。目前Runway公司正在向測試人員提供Gen-2模型。Gen-2已經(jīng)上線了蘋果AppStore,也同時(shí)有Web版本,可以在瀏覽器中使用。

  04

  人工智能鑒定真?zhèn)危篈litheon FeaturePrint

  FeaturePrint號(hào)稱可以通過用手機(jī)拍攝一張物品的照片,識(shí)別出物品是否為贗品。并且支持任何物品識(shí)別,從齒輪和電路板到手表和收藏品。

  這款應(yīng)用由Alitheon公司開發(fā),利用人工智能技術(shù),將物品表面的細(xì)節(jié)轉(zhuǎn)化為獨(dú)一無二的數(shù)學(xué)特征。Alitheon公司稱,由于即使是同一生產(chǎn)線出來的物品也不會(huì)完全相同,所以FeaturePrint可以輕松區(qū)分真品和假貨。這款應(yīng)用不需要使用條形碼、二維碼、射頻識(shí)別等標(biāo)識(shí)物品的方式,而是直接讓物品成為自己的身份證。

  05

  天空之眼:Dedrone 全城無人機(jī)探測

  無人機(jī)既能帶來破壞,也能帶來益處。

  Dedrone 的全城無人機(jī)探測產(chǎn)品可在一個(gè)地理區(qū)域周圍投擲一個(gè)虛擬防護(hù)罩,在無人機(jī)進(jìn)入指定空域的幾秒鐘內(nèi)向執(zhí)法部門發(fā)出警告。

  Dedrone 跟蹤無人機(jī)發(fā)出的專有混合信號(hào),包括無線電頻率、ADS-B 數(shù)據(jù)(也用于飛機(jī))和 RemoteID 信標(biāo),以確定入侵位置。

  該系統(tǒng)可以在數(shù)秒內(nèi)檢測進(jìn)入禁飛區(qū)的無人機(jī),對(duì)保護(hù)重要基礎(chǔ)設(shè)施具有重要作用。它被稱為無人機(jī)的“空中交通管制系統(tǒng)”。

  06

  翻譯大師:Meta SeamlessM4T

  今年8月,科技巨頭Meta在官網(wǎng)宣布,開源多語音、語言,翻譯、轉(zhuǎn)錄大模型SeamlessM4T。

  據(jù)Meta介紹,SeamlessM4T是首個(gè)一體化AI翻譯大模型,支持100種語音、語言翻譯,可執(zhí)行語音到文本、語音到語音、文本到語音和文本到文本的多模式翻譯任務(wù)。例如,將一段英文語音,自動(dòng)翻譯成地方中文語音(如閩南話)。

  此外,SeamlessM4T集成了Meta之前發(fā)布的NLLB、MMS等翻譯模型,并使用了270,000小時(shí)的語音和文本對(duì)齊數(shù)據(jù)。所以,這也是目前規(guī)模最大、功能最全的開源翻譯模型。

  07

  令人驚嘆的模仿:So-VITS-SVC

  SO-VITS-SVC是源于2021年6月11日發(fā)布的“VITS”的開源項(xiàng)目?!癡ITS”是一種語音合成模型,可以實(shí)現(xiàn)“文生音”的效果。但“VITS”模型需要海量的訓(xùn)練數(shù)據(jù)(數(shù)千至上萬條5-10秒左右的音頻),并高度依賴于人們對(duì)語料數(shù)據(jù)的文本標(biāo)記,應(yīng)用門檻很高。

  2022年8月26日,一位名為“Rcell”的B站用戶在“VITS”的基礎(chǔ)上,結(jié)合了Soft-vc(內(nèi)容編碼器,用來提取音頻語音特征)、VIsinger(端到端的歌聲合成系統(tǒng),用來簡化歌聲合成系統(tǒng)的訓(xùn)練流程)等,開發(fā)出了“SO-VITS-SVC”模型。“SO-VITS-SVC”可以理解是一個(gè)音色轉(zhuǎn)換的AI模型,僅需十幾分鐘的音頻數(shù)據(jù),便可以擬合成具備特定主體音色的工具。

  08

  AI 消防員:AlertCalifornia 和 Cal Fire AI 野火探測器

  在野火蔓延之前對(duì)其進(jìn)行檢測是目前困擾世界許多地區(qū)的一項(xiàng)挑戰(zhàn)。加州大學(xué)圣迭戈分校的公共安全項(xiàng)目 AlertCalifornia 正在利用人工智能提供幫助。該項(xiàng)目與加州消防局(Cal Fire)合作,訓(xùn)練人工智能從遍布全州森林的 1050 多個(gè)攝像頭網(wǎng)絡(luò)中檢測煙霧和其他早期火災(zāi)跡象。

  “Alert California AI”技術(shù)網(wǎng)站稱,他們使用從飛機(jī)和無人機(jī)上進(jìn)行的激光雷達(dá)(LiDAR)掃描,生成“關(guān)于掃描表面的三維信息”。結(jié)合了樹種的物理特征,來了解加州森林生物量和碳含量。Cal Fire 說,機(jī)器學(xué)習(xí)(ML)模型利用攝像頭的 PB 級(jí)(1PB=1000TB)數(shù)據(jù)來區(qū)分煙霧和其他空氣顆粒。

  在最初的兩個(gè)月里,該系統(tǒng)在接到任何報(bào)警電話之前就正確識(shí)別出了 77 起火災(zāi)。AlertCalifornia 的聯(lián)合首席調(diào)查員 Falco Kuester 說:“這個(gè)(系統(tǒng))最大的成功案例就是那些你從未聽說過的火災(zāi)。”

  09

  輕松創(chuàng)建音樂:Stable Audio

  Stable Audio由Stability AI內(nèi)部的聲音實(shí)驗(yàn)室Harmonai研發(fā),采用了與Stable Diffusion類似的擴(kuò)散模型技術(shù)。

  StableAudio簡化了用戶生產(chǎn)音頻的模式,用戶只需要輸入關(guān)鍵詞,通常包含樂器名稱、風(fēng)格、情境、甚至節(jié)拍數(shù),就可以一鍵生成音頻。該工具采用“潛在擴(kuò)散模型”,它能根據(jù)用戶輸入的文本生成豐富多彩、高質(zhì)量的音頻,范圍涵蓋了音樂、對(duì)話、環(huán)境音和特效聲等。

  為了訓(xùn)練這款模型,Stability與音樂提供商AudioSparx合作,在超過800000個(gè)音頻文件的數(shù)據(jù)集上進(jìn)行了訓(xùn)練,其中包括音樂、音效和單樂器主干,以及相應(yīng)的文本元數(shù)據(jù)。在將19500小時(shí)的音頻輸入模型后,StableAudio知道如何模仿它在命令中“聽”到的某些聲音描述。經(jīng)過大量的訓(xùn)練的StableAudio,讓用戶通過文本提示就能直接生成搖滾、爵士、電子、嘻哈、重金屬、民謠、流行、朋克、鄉(xiāng)村等20多種類型背景音樂。

  10

  動(dòng)物保護(hù)者:TrailGuard AI

  在印度和非洲的部分地區(qū),偷獵仍然是大象和大型貓科動(dòng)物滅絕的最大威脅,即使在保護(hù)區(qū)內(nèi)也是如此。美國環(huán)保組織Resolve創(chuàng)建的人工智能蹤跡保護(hù)系統(tǒng)(TrailGuardAI)利用英特爾(Intel)技術(shù)驅(qū)動(dòng)的微型攝像頭來監(jiān)控瀕危物種和發(fā)現(xiàn)偷獵者。該系統(tǒng)利用手機(jī)或遠(yuǎn)距離無線電信號(hào),在短短30秒內(nèi)就能將圖像傳送到當(dāng)局的手機(jī)上。

  TrailGuard AI通過高級(jí)人工智能檢測和識(shí)別入侵者,允許系統(tǒng)向指定方發(fā)送圖像警報(bào)。利用ELERA(Inmarsat超可靠的全球移動(dòng)衛(wèi)星通信網(wǎng)絡(luò)),這種至關(guān)重要的視覺信息甚至可以在最偏遠(yuǎn)的地區(qū)傳輸。

  通過充當(dāng) “地面上的眼睛”,TrailGuard AI使執(zhí)法人員和公園管理員能夠有效地監(jiān)測威脅,并在近乎實(shí)時(shí)的情況下作出更有效的反應(yīng)。它的圖像警報(bào)系統(tǒng)能夠感知到威脅的態(tài)勢,提高了工作人員和當(dāng)?shù)厣鐓^(qū)在野生動(dòng)物保護(hù)方面的安全。

  11

  畫出你的想象:OpenAI Dall·E 3

  DALL·E-3是OpenAI在今年9月21日最新推出的文生圖模型,在語義理解、顆粒處理、圖像質(zhì)量等方面,比2022年3月25日發(fā)布的DALL·E-2實(shí)現(xiàn)巨大提升。DALL·E-3可生成寫實(shí)、二次元、平面、創(chuàng)意、朋克、3D等多種類型,圖片質(zhì)量可媲美Midjourney,文本提示理解甚至超過了它。

  除了炸裂的生圖效果之外,DALL·E 3 的最大特點(diǎn)是與 ChatGPT 的集成,它原生構(gòu)建在 ChatGPT 之上,用 ChatGPT 來創(chuàng)建、拓展和優(yōu)化 prompt。這樣一來,用戶無需在 prompt 上花費(fèi)太多時(shí)間。

  具體來講,通過使用 ChatGPT,用戶不必絞盡腦汁地想出詳細(xì)的 prompt 來引導(dǎo) DALL·E 3 了。當(dāng)輸入一個(gè)想法時(shí),ChatGPT 會(huì)自動(dòng)為 DALL·E 3 生成量身定制的、詳細(xì)的 prompt。同時(shí)用戶也可以使用自己的 prompt。

  12

  聽好了:古騰堡計(jì)劃開放式有聲讀物合集

  古騰堡計(jì)劃開放式有聲讀物集是由微軟,谷歌和古騰堡計(jì)劃共同發(fā)起,有望將古騰堡計(jì)劃包含的接近6萬本電子書庫,利用AI文本轉(zhuǎn)語音技術(shù),全部轉(zhuǎn)化為有聲讀物。古騰堡計(jì)劃是全球最大的開源電子書庫,目前書庫中包含超過70000本已經(jīng)進(jìn)入共有領(lǐng)域的電子書。

  在這個(gè)項(xiàng)目中,研究人員結(jié)合了機(jī)器學(xué)習(xí)、自動(dòng)文本選擇(哪些文本可以大聲朗讀,哪些不可以)和自然語音合成系統(tǒng)的突破。

  首先,研究人員開發(fā)了一種算法,可以理解基于HTML的電子書的結(jié)構(gòu),并區(qū)分主要文本和不重要的元素,如腳注、頁碼或表格。

  這個(gè)解析之后,是文本到語音的實(shí)際轉(zhuǎn)換(文本到語音,TTS)的過程。在這個(gè)項(xiàng)目中,使用了谷歌的WaveNet, 英偉達(dá)的Tacotron和微軟的FastSpeech,來產(chǎn)生自然的和人類相似的語音輸出。

  此外,為了研究團(tuán)隊(duì)開發(fā)了一個(gè)能夠區(qū)分?jǐn)⑹稣吆蛯?duì)話的系統(tǒng),甚至可以區(qū)分單個(gè)角色和情緒,并相應(yīng)地調(diào)整生成的聲音。

  團(tuán)隊(duì)目前為止上線了5000多本有聲讀物,總計(jì)約三萬五千小時(shí)的有聲內(nèi)容。

  13

  分解節(jié)拍--AudioShake

  當(dāng)最偉大的搖滾樂隊(duì)之一最近達(dá)成協(xié)議,在廣告中使用其 1970 年代的熱門歌曲時(shí),其成員欣喜若狂。但有一個(gè)問題:廣告制作人只想要樂器,而樂隊(duì)擁有的只是最終的混音。因此,搖滾樂隊(duì)的團(tuán)隊(duì)聯(lián)系了 AudioShake,該公司的人工智能程序可以隔離預(yù)先錄制的音頻元素,將其分解為各個(gè)組成部分。

  據(jù)悉,該服務(wù)可以通過AI識(shí)別,將一首錄制完成的歌曲解構(gòu)為器樂、人聲、貝斯、吉他、鼓等多個(gè)部分,然后將其單獨(dú)提取出來,用于其他新用途,例如混音、采樣、同步許可、母帶重制等。

  14

  反思智能手機(jī):Humane Ai Pin

  Humane Ai Pin是一款具有投影顯示和AI驅(qū)動(dòng)功能的可穿戴設(shè)備。據(jù)悉,Ai Pin是一款“智能且連接的可穿戴設(shè)備,可以附著在衣物上,并利用各種傳感器進(jìn)行環(huán)境和情境計(jì)算交互?!彼且豢瞠?dú)立設(shè)備,其軟件平臺(tái)利用AI的力量提供創(chuàng)新的個(gè)人計(jì)算體驗(yàn)。

  從本質(zhì)上講,Ai Pin旨在執(zhí)行許多智能手機(jī)的功能,但幾乎不需要手勢和語音命令。只需輕輕一點(diǎn),這款設(shè)計(jì)精巧的設(shè)備(設(shè)計(jì)為夾在胸口口袋上)就可以概述電子郵件和日歷邀請(qǐng),提供語言之間的翻譯,并處理電話通話。

  Ai Pin配備了攝像頭和計(jì)算機(jī)視覺軟件,可以識(shí)別其周圍的物體,包括食品營養(yǎng)標(biāo)簽。此外,其內(nèi)置的投影儀和深度傳感器使其能夠?qū)⒔换ナ浇缑嫱队暗礁浇谋砻?,例如手掌或桌面?/p>

責(zé)任編輯:張薇

分享: