国产麻豆无套高潮AV浪潮_亚洲精品偷拍无码不卡av_91人妻无码精品一区二区毛片_老太精品揄拍高潮少妇_国产欧美一区成人影片精品

百川開(kāi)源第1個(gè)7B多模態(tài)大模型 Baichuan-Omni | 能夠同時(shí)分析圖像/視頻/音頻/文

百川開(kāi)源第1個(gè)7B多模態(tài)大模型 Baichuan-Omni | 能夠同時(shí)分析圖像/視頻/音頻/文

huamei 2025-03-30 衛(wèi)生健康 34 次瀏覽 0個(gè)評(píng)論

突出多模態(tài)能力和交互體驗(yàn)的 GPT-4o 強(qiáng)調(diào)了其在實(shí)際應(yīng)用中的關(guān)鍵作用,然而它缺乏一個(gè)高性能的開(kāi)源對(duì)應(yīng)物。在本文中,作者介紹了 Baichuan-Omni,這是第一款開(kāi)源的 7B 多模態(tài)大語(yǔ)言模型(MLLM),能夠同時(shí)處理和分析圖像、視頻、音頻和文本的模態(tài),同時(shí)提供先進(jìn)的模態(tài)交互體驗(yàn)和強(qiáng)大性能。

作者提出了一種有效的多模態(tài)訓(xùn)練模式,從 7B 模型開(kāi)始,經(jīng)過(guò)兩個(gè)階段的多模態(tài)對(duì)齊和多任務(wù)微調(diào),分別針對(duì)音頻、圖像、視頻和文本模態(tài)。這種方法使語(yǔ)言模型能夠有效地處理視覺(jué)和音頻數(shù)據(jù)。

通過(guò)在各種全模態(tài)和多模態(tài)基準(zhǔn)測(cè)試上展示強(qiáng)大的性能,作者旨在將此貢獻(xiàn)作為開(kāi)源社區(qū)在推進(jìn)多模態(tài)理解和實(shí)時(shí)交互方面的競(jìng)爭(zhēng)性 Baseline 。

github: https://github.com/westlake-baichuan-mllm/bc-omni

人工智能領(lǐng)域正在迅速發(fā)展,尤其是在大語(yǔ)言模型(LLMs)的推動(dòng)下,以及隨后多模態(tài)大語(yǔ)言模型(MLLMs)的出現(xiàn),這標(biāo)志著機(jī)器如何理解和與世界的互動(dòng)方式發(fā)生了轉(zhuǎn)變。像GPT-4o這樣的MLLM的出現(xiàn),以其卓越的多模態(tài)能力和豐富的交互體驗(yàn),不僅突顯了這些技術(shù)在實(shí)際應(yīng)用中的不可或缺性,同時(shí)也為人類與計(jì)算機(jī)交互設(shè)立了新的基準(zhǔn)。

盡管MLLM取得了顯著的進(jìn)步,但當(dāng)前的開(kāi)源解決方案在多模態(tài)能力和用戶交互體驗(yàn)方面存在明顯的缺陷。這些缺陷極大地阻礙了這些模型在各種應(yīng)用中的更廣泛采用和有效性,從自然語(yǔ)言處理到計(jì)算機(jī)視覺(jué)以及更多領(lǐng)域。

針對(duì)這些挑戰(zhàn),作者提出了一種全能多模態(tài)語(yǔ)言模型 Baichuan-Omni 以及一種多模態(tài)訓(xùn)練方案,旨在促進(jìn)高級(jí)多模態(tài)處理和自然用戶交互。Baichuan-Omni 的架構(gòu)如圖2所示。Baichuan-Omni 的方案基于三個(gè)核心組件:

全模態(tài)數(shù)據(jù)構(gòu)造。 作者利用大量高質(zhì)量、全方位的數(shù)據(jù),結(jié)合開(kāi)源、合成和內(nèi)部標(biāo)注的數(shù)據(jù)集,訓(xùn)練Baichuan-Omni。在多模態(tài)對(duì)齊預(yù)訓(xùn)練階段,作者整理了包括圖像描述、交錯(cuò)數(shù)據(jù)、OCR數(shù)據(jù)和圖像文本數(shù)據(jù)的廣泛訓(xùn)練語(yǔ)料庫(kù)。對(duì)于音頻對(duì)齊,作者收集了開(kāi)源和內(nèi)部的數(shù)據(jù)集,用于自動(dòng)語(yǔ)音識(shí)別(ASR)和音頻問(wèn)答(AQA)。在視頻對(duì)齊領(lǐng)域,作者從開(kāi)源和內(nèi)部來(lái)源獲取視頻數(shù)據(jù)。在多模態(tài)監(jiān)督微調(diào)階段,作者匯編并合成了一個(gè)涵蓋200多個(gè)任務(wù),包括600,000個(gè)實(shí)例的廣泛數(shù)據(jù)集,涵蓋純文本、音頻、圖像文本、視頻文本和圖像音頻交互數(shù)據(jù)。

多模態(tài)對(duì)齊 在多模態(tài)對(duì)齊的預(yù)訓(xùn)練階段,作者仔細(xì)地將各種模態(tài)的編碼器和對(duì)齊器對(duì)齊。最初,作者使用大量的圖像文本對(duì)齊數(shù)據(jù)集來(lái)訓(xùn)練視覺(jué)語(yǔ)言模型。這種基礎(chǔ)訓(xùn)練使作者能夠利用圖像文本訓(xùn)練期間開(kāi)發(fā)的視覺(jué)能力來(lái)進(jìn)一步訓(xùn)練視頻 Projector 。同時(shí),作者還利用自動(dòng)語(yǔ)音識(shí)別(ASR)數(shù)據(jù)來(lái)訓(xùn)練音頻語(yǔ)言模型。在這個(gè)堅(jiān)實(shí)的基礎(chǔ)之上,作者整合了高質(zhì)量圖像、音頻和視頻數(shù)據(jù),以實(shí)現(xiàn)全面的多模態(tài)對(duì)齊。

多任務(wù)微調(diào)。 在多模態(tài)微調(diào)階段,作者利用一個(gè)由開(kāi)源、合成和內(nèi)部標(biāo)注數(shù)據(jù)組合而成的多任務(wù)跨模態(tài)交互訓(xùn)練語(yǔ)料庫(kù)。作者根據(jù)預(yù)訓(xùn)練模型是否已經(jīng)學(xué)習(xí)到事實(shí)知識(shí)的標(biāo)準(zhǔn)選擇數(shù)據(jù),用于最終的監(jiān)督微調(diào)(SFT)階段。在此階段,作者實(shí)現(xiàn)了一種打包技術(shù),將多個(gè)樣本拼接在一起,使用flash-attention2的cq_len進(jìn)行有效的樣本隔離。通過(guò)這種技術(shù),多個(gè)樣本可以在計(jì)算過(guò)程中正確隔離,防止不同樣本之間的數(shù)據(jù)混淆。這種方法加速了訓(xùn)練過(guò)程并優(yōu)化了內(nèi)存使用。

本文的貢獻(xiàn)如下:

  1. 介紹了Baichuan-Omni,這是一個(gè)開(kāi)源、高性能的基礎(chǔ)性全模態(tài)模型,能夠同時(shí)處理文本、圖像、視頻和音頻輸入。它還支持包括英語(yǔ)和漢語(yǔ)在內(nèi)的多種語(yǔ)言的多語(yǔ)言支持。作者的訓(xùn)練框架包括一個(gè)全面的流水線,包括構(gòu)建全模態(tài)訓(xùn)練數(shù)據(jù)、多模態(tài)對(duì)齊預(yù)訓(xùn)練和多模態(tài)監(jiān)督微調(diào),特別注重增強(qiáng)全模態(tài)指令遵循能力。

  2. 探索了自然多模態(tài)人機(jī)交互的初期研究。作者的方法從預(yù)測(cè)音頻輸入邊界開(kāi)始,同時(shí) streaming 和編碼接收到的視覺(jué)數(shù)據(jù)為特征。這些特征由多模態(tài)大語(yǔ)言模型(MLLM)進(jìn)行動(dòng)態(tài)注意計(jì)算處理。在音頻輸入完成后,相應(yīng)的特征被輸入到MLLM進(jìn)行推理,從而便于處理音頻和視頻輸入。這種集成方法實(shí)現(xiàn)了實(shí)時(shí)處理并增強(qiáng)了系統(tǒng)的交互能力。

  3. 已將Baichuan-Omni模型、訓(xùn)練代碼和評(píng)估腳本公開(kāi)發(fā)布,旨在促進(jìn)研究社區(qū)內(nèi)的進(jìn)步。作為該領(lǐng)域的先驅(qū),作者仍致力于推動(dòng)多模態(tài)基礎(chǔ)模型的開(kāi)發(fā)及其互動(dòng)。

2.1 高質(zhì)量的多模態(tài)數(shù)據(jù)

為了訓(xùn)練具有強(qiáng)大能力的全模態(tài)模型,作者構(gòu)建了一個(gè)包含高質(zhì)量文本、圖像文本、視頻文本、音頻文本及其交互的廣泛跨模態(tài)數(shù)據(jù)集。

圖像數(shù)據(jù)可分為幾種類型:描述符圖像、交織圖像文本、OCR數(shù)據(jù)和圖表數(shù)據(jù)。從來(lái)源上看,它分為開(kāi)源數(shù)據(jù)和合成數(shù)據(jù)。對(duì)于開(kāi)源數(shù)據(jù),作者已經(jīng)收集了主要的開(kāi)源數(shù)據(jù)集,包括PIN-14M,MINT-1T,LAION-5B,OBELIC,等等,用于圖像語(yǔ)言分支的第一階段訓(xùn)練,以及Cauldron,Monkey,ArxivQA,TGDoc,MM-Self-Instruct (Train split) ,MMTable,等等,用于圖像語(yǔ)言分支的第二/第三階段訓(xùn)練。這些公開(kāi)可用的開(kāi)源數(shù)據(jù)集在作者數(shù)據(jù) Pipeline 中經(jīng)過(guò)一系列處理步驟和仔細(xì)的采樣技術(shù)。

關(guān)于合成數(shù)據(jù),其目的是獲得更高質(zhì)量的數(shù)據(jù)以提升模型的性能。其中一部分?jǐn)?shù)據(jù)來(lái)源于書(shū)籍和論文,經(jīng)過(guò)解析生成交錯(cuò)圖像-文本、OCR數(shù)據(jù)和圖表數(shù)據(jù)。這部分?jǐn)?shù)據(jù)非常完整和專業(yè),使其成為高質(zhì)量和高知識(shí)密集度的數(shù)據(jù)。另一部分則涉及訓(xùn)練專門(mén)用于生成圖像描述的模型。這些描述從不同角度詳細(xì)描述圖像內(nèi)容,屬于高質(zhì)量描述數(shù)據(jù)。

視頻數(shù)據(jù)集包括一系列公開(kāi)可用的資源,涵蓋了多種任務(wù),如視頻分類、行為識(shí)別和時(shí)間定位等。視頻-文本來(lái)源可以分為兩大類:問(wèn)答數(shù)據(jù)(QA)和字幕數(shù)據(jù)。

對(duì)于問(wèn)答數(shù)據(jù), 作者整合了:NExTVideo,該數(shù)據(jù)集在LLaVA-NExT中引入,以及ActivityNet-QA(訓(xùn)練拆分)。作者的字幕數(shù)據(jù)來(lái)源包括ShareGPT4Video,這是一個(gè)利用GPT-4生成豐富、上下文的視頻字幕的大規(guī)模數(shù)據(jù)集,以及WebVid 。為了進(jìn)一步豐富作者的數(shù)據(jù)集,作者使用了GPT-4o為YouTube上收集的視頻生成多樣化的字幕。

每份數(shù)據(jù)集在作者的匯編中的采樣比例都根據(jù)這些數(shù)據(jù)集的相對(duì)大小進(jìn)行仔細(xì)確定。這種戰(zhàn)略方法確保了作者在最終數(shù)據(jù)集中對(duì)各種視頻類型、任務(wù)和領(lǐng)域的平衡表示。

音頻數(shù)據(jù)。 考慮到音頻數(shù)據(jù)的多樣性,作者從各種媒體模態(tài)中提取音頻,包括不同的錄制環(huán)境、語(yǔ)言、口音和說(shuō)話者。遵循之前工作的原則,作者提出音頻質(zhì)量的差異有助于增強(qiáng)語(yǔ)音理解能力。為了實(shí)現(xiàn)更復(fù)雜的分類和篩選過(guò)程,作者實(shí)現(xiàn)了一個(gè)數(shù)據(jù)處理 Pipeline ,包括說(shuō)話者語(yǔ)音錄制、方言識(shí)別、口音識(shí)別、音效檢測(cè)和質(zhì)量評(píng)估。

為了提高從數(shù)據(jù)集中生成的音頻文本對(duì)的質(zhì)量,作者利用了自家的ASR系統(tǒng),并結(jié)合了多個(gè)開(kāi)源模型來(lái)生成多個(gè)轉(zhuǎn)錄版本。這些生成的數(shù)據(jù)經(jīng)過(guò)模型集成策略進(jìn)行有效文本篩選和錯(cuò)誤校正后得到進(jìn)一步優(yōu)化。

在處理文本語(yǔ)料庫(kù)時(shí),作者從各種領(lǐng)域收集了數(shù)據(jù),如網(wǎng)頁(yè)、書(shū)籍、學(xué)術(shù)論文、代碼等。遵循先前工作中提出的數(shù)據(jù)處理協(xié)議,作者實(shí)現(xiàn)了一個(gè)選擇過(guò)程,以提高數(shù)據(jù)集的多樣性和質(zhì)量。多樣性標(biāo)準(zhǔn)確保訓(xùn)練語(yǔ)料庫(kù)涵蓋廣泛的話題和語(yǔ)言風(fēng)格,以適應(yīng)各種應(yīng)用。高質(zhì)量處理可以去除文本數(shù)據(jù)中的冗余和噪音,提高知識(shí)密度。

跨模態(tài)交互數(shù)據(jù) 為了增強(qiáng)模型跨模態(tài)交互能力,作者合成了一系列視覺(jué)-音頻-文本跨模態(tài)交互數(shù)據(jù),包括圖像-音頻-文本和視頻-音頻-文本數(shù)據(jù)集。對(duì)于圖像-文本數(shù)據(jù),作者將文本數(shù)據(jù)按1:3比例分割,使用文本轉(zhuǎn)語(yǔ)音(TTS)技術(shù)將初始四分之一文本轉(zhuǎn)換為音頻描述。作者的音頻涵蓋44種音色,確保音色豐富多樣。這種設(shè)置由任務(wù) Prompt 補(bǔ)充,如“請(qǐng)聽(tīng)以下描述圖像內(nèi)容的音頻。您的任務(wù)是在聽(tīng)后整合圖像補(bǔ)充更多信息”,旨在預(yù)測(cè)文本描述的后三分之三。對(duì)于視頻-文本數(shù)據(jù),作者直接從視頻中提取音頻作為跨模態(tài)音頻組件。

2.2 多模態(tài)對(duì)齊預(yù)訓(xùn)練

在本節(jié)中,作者將進(jìn)一步闡明圖像語(yǔ)言、視頻語(yǔ)言和音頻語(yǔ)言分支的預(yù)訓(xùn)練和對(duì)齊過(guò)程。

2.2.1 圖像-語(yǔ)言分支

作者使用Siglip-384px作為視覺(jué)編碼器,該編碼器處理一個(gè)384384的圖像輸入并生成182個(gè) Token ,通過(guò)一個(gè)由兩個(gè)層MLP和22卷積層組成的視覺(jué) Projector 實(shí)現(xiàn)。為了在保持高分辨率圖像復(fù)雜細(xì)節(jié)的同時(shí),將輸入圖像擴(kuò)展到任意分辨率,作者采用AnyRes [50],該方法將圖像分割成網(wǎng)格,并將下采樣圖像的特征拼接在一起以提供全局上下文。

作者的圖像語(yǔ)言分支訓(xùn)練分為三個(gè)階段:

  • 第一階段:作者通過(guò)圖像描述生成任務(wù),使視覺(jué) Projector 在圖像表示和文本之間建立初始對(duì)齊。在這一階段,作者凍結(jié)了語(yǔ)言模型和視覺(jué)編碼器,只以的學(xué)習(xí)率訓(xùn)練視覺(jué) Projector 。

  • 第二階段:作者凍結(jié)LLM模型,并以較小的學(xué)習(xí)率分別訓(xùn)練 Projector (projector)和視覺(jué)編碼器(visual encoder)。除了通用的VQA任務(wù)外,作者還針對(duì)OCR和圖表任務(wù)專門(mén)合成了130k高質(zhì)量問(wèn)答數(shù)據(jù),以增強(qiáng)模型對(duì)抽象視覺(jué)理解的把握。此外,作者還引入了交錯(cuò)數(shù)據(jù)和圖像描述數(shù)據(jù),有助于保持并促進(jìn)圖像與文本表示之間的更好對(duì)齊,減輕在解凍視覺(jué)編碼器后,由于圖像特征空間變化而產(chǎn)生的對(duì)齊偏移。

  • 第三階段: 在第二階段的基礎(chǔ)上,作者解凍了LLM,并繼續(xù)以的學(xué)習(xí)率更新所有模型組件的參數(shù),以進(jìn)一步提高視覺(jué)語(yǔ)言性能。除了VQA和圖像-描述對(duì),作者還引入了交錯(cuò)數(shù)據(jù)和純文本數(shù)據(jù),以更好地保持LLM的原有能力。

2.2.2 視頻-語(yǔ)言分支

基于從圖像語(yǔ)言分支預(yù)訓(xùn)練中獲得的視覺(jué)能力,作者使用凍結(jié)的視覺(jué)編碼器(Siglip-384px,與圖像語(yǔ)言分支中使用的一致)和語(yǔ)言模型(LLM) Backbone 進(jìn)行視頻 Projector 的訓(xùn)練。這種訓(xùn)練過(guò)程采用低學(xué)習(xí)率以細(xì)化與語(yǔ)言模態(tài)的對(duì)齊。

在訓(xùn)練階段,輸入視頻幀以每秒1幀的速度進(jìn)行采樣,最多為每視頻48幀。每個(gè)輸入幀都被重新縮放到最大分辨率為384768像素,以保持最佳的質(zhì)量和細(xì)節(jié)。此外,在視頻 Projector 之前應(yīng)用了一個(gè)22卷積層。這個(gè)卷積步驟有助于調(diào)節(jié)視頻 Token 序列的長(zhǎng)度,確保至少182個(gè) Token ,最多546個(gè) Token 。這種深思熟慮的配置在性能和效率之間取得了平衡,有助于有效地進(jìn)行模型訓(xùn)練,同時(shí)管理計(jì)算負(fù)載。

而非立即使用純視頻-文本對(duì)進(jìn)行視頻語(yǔ)言分支的預(yù)訓(xùn)練,作者選擇了一種更為精細(xì)的兩階段方法。首先,作者利用圖像-文本預(yù)訓(xùn)練數(shù)據(jù)來(lái)增強(qiáng)模型的視覺(jué)理解能力。在建立了一個(gè)堅(jiān)實(shí)的基礎(chǔ)之后,作者逐步將混合圖像-文本對(duì)和視頻-文本對(duì)引入訓(xùn)練體系。這種策略已經(jīng)證明可以獲得更好的結(jié)果。通過(guò)逐漸增強(qiáng)模型的視覺(jué)能力,作者為視頻預(yù)訓(xùn)練流程提供了有價(jià)值的指導(dǎo),使模型更好地理解和整合視頻數(shù)據(jù)的語(yǔ)言復(fù)雜性。這種方法強(qiáng)調(diào)了采用綜合訓(xùn)練策略的重要性,該策略結(jié)合了多種數(shù)據(jù)模式以提高對(duì)齊和性能。

2.2.3 音頻-語(yǔ)言分支

音頻語(yǔ)言分支通過(guò)結(jié)合來(lái)自Whisper-large-v3模型的音頻編碼器和新引入的音頻 Projector ,擴(kuò)展了一個(gè)在視覺(jué)和視頻數(shù)據(jù)上預(yù)訓(xùn)練的LLM。

音頻編碼器將音頻信號(hào)(30s,128 Mel-spectrum)處理成1280個(gè)通道的特征表示,而音頻 Projector (通常為線性 Projector或MLP)將其映射到LLM的嵌入空間。在投影之前,傳統(tǒng)上使用步長(zhǎng)為n的池化操作將音頻表示降采樣為更少的 Token (即幀)。然而,當(dāng)作者激進(jìn)地減少音頻 Token 的數(shù)量時(shí),這種簡(jiǎn)單的池化方法會(huì)導(dǎo)致音頻信息損失。在作者的方法中,作者用卷積-門(mén)控MLP(Conv-GMLP)替代池化,利用卷積層進(jìn)行降采樣以保留更多的音頻信息。

圖5說(shuō)明了Conv-GMLP架構(gòu),其功能類似于gated MLP,但用卷積層替代了線性層。這兩個(gè)卷積層將音頻表示的序列長(zhǎng)度減少了一個(gè)因子n,同時(shí)按比例擴(kuò)展了特征空間。在作者的 Projector 中,與Conv-GMLP一起使用的是殘差快捷方式,以實(shí)現(xiàn)更高效的梯度反向傳播。第4.5.3節(jié)的結(jié)果證明了,當(dāng)設(shè)置下采樣率3n時(shí),在音頻性能方面具有強(qiáng)大的魯棒性。

在訓(xùn)練過(guò)程中,LLM保持凍結(jié),僅音頻編碼器和解碼器使用長(zhǎng)達(dá)音頻文本序列(最多4K Token )進(jìn)行訓(xùn)練。為了提高性能,采用余弦學(xué)習(xí)率調(diào)度器。

2.2.4 圖像-視頻-音頻全方位對(duì)齊

圖4的右側(cè)部分說(shuō)明了“Omni-Alignment”階段,該階段遵循了圖像語(yǔ)言、視頻語(yǔ)言和音頻語(yǔ)言分支的個(gè)體訓(xùn)練。在這個(gè)階段,所有模塊在混合高質(zhì)量圖像文本、視頻文本和音頻文本對(duì)的情況下一起進(jìn)行訓(xùn)練,以發(fā)展全面的多模態(tài)理解。

2.3 多模態(tài)監(jiān)督微調(diào)

在本節(jié)中,作者描述了旨在提高模型在各種任務(wù)上遵循復(fù)雜、多模態(tài)指令能力的多模態(tài)監(jiān)督微調(diào)過(guò)程。作者利用了一個(gè)多樣化的開(kāi)源、合成和內(nèi)部標(biāo)注數(shù)據(jù)集,涵蓋超過(guò)200個(gè)不同的任務(wù),總計(jì)約60萬(wàn)個(gè)對(duì),涉及文本、音頻、圖像文本、視頻文本和圖像音頻模態(tài)。

文本數(shù)據(jù)。 文本數(shù)據(jù)涵蓋廣泛的任務(wù),包括知識(shí)問(wèn)答、數(shù)學(xué)、邏輯推理、代碼生成、文本創(chuàng)作、信息處理、基于人格的任務(wù)和安全相關(guān)數(shù)據(jù)。為了進(jìn)一步強(qiáng)化模型處理復(fù)雜、多步驟任務(wù)的能力,作者包括了具有復(fù)雜指令的專門(mén)數(shù)據(jù)集,其中一些數(shù)據(jù)集包含一個(gè)系統(tǒng)消息,用于構(gòu)建更復(fù)雜的場(chǎng)景。

圖像理解數(shù)據(jù)。 對(duì)于涉及圖像理解的任務(wù),作者主要使用了vFLAN數(shù)據(jù)集,重點(diǎn)關(guān)注其指令遵循數(shù)據(jù)。鑒于部分樣本存在質(zhì)量問(wèn)題,作者采用基于損失的過(guò)濾方法來(lái)清理數(shù)據(jù)集:

作者使用預(yù)訓(xùn)練模型計(jì)算了所有vFLAN英語(yǔ)指令樣例的損失,并將計(jì)算出的值擬合到高斯分布中。

如果樣本的損失值超出 的范圍,則會(huì)被移除。1. 損失值小于 的樣本通常包含一些簡(jiǎn)單的問(wèn)題,例如 Prompt 和回復(fù)內(nèi)容幾乎相同的情況。2. 損失值大于 的樣本往往存在嚴(yán)重問(wèn)題,例如 Prompt -回復(fù)對(duì)被顛倒或者回復(fù)中存在錯(cuò)覺(jué)。

經(jīng)過(guò)清理的vFLAN指令數(shù)據(jù)部分被翻譯成中文,然后進(jìn)行手動(dòng)重新標(biāo)注以確保高質(zhì)量的配對(duì)。同時(shí),作者還將一些其他開(kāi)源數(shù)據(jù)集集成到vFLAN中,包括synthdog-en/zh,手寫(xiě)OCR,街景OCR,參考地面和基于地面的描述對(duì)齊任務(wù),以及ImageInWords。這些數(shù)據(jù)集大部分已經(jīng)被翻譯成中文。對(duì)于ImageInWords,作者確保如果圖像包含可識(shí)別的實(shí)體,相應(yīng)的描述會(huì)明確引用該實(shí)體的名稱(例如,通過(guò)品種識(shí)別薩摩耶狗,而不僅僅是將其 Token 為“狗”)。

盡管vFLAN涵蓋了191項(xiàng)任務(wù),但作者發(fā)現(xiàn)它在與指令類型的多樣性方面存在不足。為了解決這個(gè)問(wèn)題,作者從作者的文本SFT數(shù)據(jù)集中采樣數(shù)據(jù),并將一些 Prompt 渲染成圖像,以增加基于圖像的指令的多樣性。此外,為了增強(qiáng)模型與圖像的數(shù)學(xué)推理能力,生成了一大批涉及圖像的多模態(tài)數(shù)學(xué)問(wèn)題數(shù)據(jù)集。

在實(shí)驗(yàn)中,作者發(fā)現(xiàn)向模型中添加過(guò)多的外部世界知識(shí),這些知識(shí)模型本身并不知道,會(huì)導(dǎo)致性能回報(bào)下降。為了緩解這一問(wèn)題,從構(gòu)建的SFT數(shù)據(jù)集中排除未知數(shù)據(jù)。

百川開(kāi)源第1個(gè)7B多模態(tài)大模型 Baichuan-Omni | 能夠同時(shí)分析圖像/視頻/音頻/文

視頻理解數(shù)據(jù)。 視頻-文本數(shù)據(jù)主要來(lái)源于VideoInstruct100K數(shù)據(jù)集。盡管該數(shù)據(jù)集中的每個(gè)視頻包含多個(gè)指令,但指令往往相對(duì)同質(zhì),通常專注于簡(jiǎn)單的視頻描述。為了增強(qiáng)基于視頻的任務(wù)的多樣性,作者對(duì)每個(gè)視頻的指令進(jìn)行語(yǔ)義去重,并將數(shù)據(jù)集翻譯成中文,從而豐富了模型基于視頻的任務(wù)的種類。

音頻理解數(shù)據(jù)。 大部分音頻數(shù)據(jù)是通過(guò)TTS 4生成的, Prompt 來(lái)自純文本、圖像文本和視頻文本的數(shù)據(jù)集。為了確保合成的音頻質(zhì)量,作者使用ASR模型轉(zhuǎn)錄生成的音頻,并將轉(zhuǎn)錄與原始 Prompt 進(jìn)行比較。只保留那些準(zhǔn)確轉(zhuǎn)錄的音頻樣本作為最終音頻 Prompt 。為了進(jìn)一步豐富音頻數(shù)據(jù),作者還包括人類錄制的音頻樣本,這些樣本捕捉了各種方言、口音和背景噪音。

除了一般的QA任務(wù)外,作者還構(gòu)建了一個(gè)特定的ASR數(shù)據(jù)集,該數(shù)據(jù)集來(lái)源于開(kāi)源數(shù)據(jù)和內(nèi)部日志。為了提高訓(xùn)練效率,作者過(guò)濾掉了容易識(shí)別的樣本,而是專注于更具有挑戰(zhàn)性的音頻數(shù)據(jù)進(jìn)行有監(jiān)督的微調(diào)。

3.1 語(yǔ)言性能

3.1.1 評(píng)估基準(zhǔn)

作者在4個(gè)全面的基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估,包括MMLU,CMMLU,AGIEval和C-Eval。MMLU包括57個(gè)獨(dú)特的任務(wù),包括不同領(lǐng)域的選擇題,包括人文科學(xué)、社會(huì)科學(xué)和硬科學(xué)。CMMLU代表了一個(gè)廣泛的評(píng)估框架,旨在評(píng)估LLM在漢語(yǔ)和文化背景下的復(fù)雜知識(shí)和推理能力。

AGIEval是一個(gè)以人為中心的基準(zhǔn),用于評(píng)估基礎(chǔ)模型的通用認(rèn)知和問(wèn)題解決能力,這些測(cè)試是根據(jù)為人類參與者設(shè)計(jì)的官方、公共和資格考試設(shè)計(jì)的。C-EVAL提供了一個(gè)全面的中文評(píng)估工具集,用于評(píng)估LLM在漢語(yǔ)背景下的高級(jí)知識(shí)和推理技能,涵蓋52個(gè)不同學(xué)科的13,948個(gè)選擇題,從人文科學(xué)到工程。作者使用零樣本測(cè)量進(jìn)行了所有評(píng)估。

3.1.2 主要性能

作者將Baichuan-Omni與最先進(jìn)的專有多模態(tài)模型進(jìn)行了比較,如Gemini 1.5 Pro,GPT-40,以及一系列具有競(jìng)爭(zhēng)力的開(kāi)源LLM和MLLM,如VITA,MAP-Neo,Qwen1.5-Chat,Llama3-Instruct和OLMo。作者在表1中列出了在全面基準(zhǔn)測(cè)試上的主要結(jié)果。

如圖1所示,Baichuan-Omni在綜合基準(zhǔn)上顯著優(yōu)于開(kāi)源的、通用的純文本LLMs。與開(kāi)源的多模態(tài)模型VITA相比,Baichuan-Omni在中文基準(zhǔn)測(cè)試上取得了顯著優(yōu)勢(shì),例如CMMLU(72.2% vs 46.6%)和C-Eval(68.9% vs 56.7%),并且在AGIEval上(47.7% vs 46.2%)略勝一籌。

3.2 圖像理解

3.2.1 評(píng)估基準(zhǔn)

作者在13個(gè)代表性的視覺(jué)語(yǔ)言基準(zhǔn)測(cè)試上評(píng)估Baichuan-Omni,包括MMBench-EN,MMBench-CN,M3GIA,SEEDBench,RealWorldQA,MMMU,MathVista,MME,MMVet,TextVQA,OCRBench,ChartQA,以及HallusionBench。

為了確??芍貜?fù)的評(píng)估結(jié)果,作者使用VLMEvalKit對(duì)所有評(píng)估進(jìn)行統(tǒng)一。所有評(píng)估都采用零樣本方式進(jìn)行,遵循模型的原始設(shè)置以確保所有模型和基準(zhǔn)之間的公平和一致比較。

3.2.2 主要性能

作者將Baichuan-Omni與最先進(jìn)的專有多模態(tài)模型(如Gemini 1.5 Pro,以及GPT-4o)以及一系列具有競(jìng)爭(zhēng)力的開(kāi)源多模態(tài)模型(如VITA和Qwen2-VL)進(jìn)行比較。

作者在表2和表3中列出了在VQA(視覺(jué)問(wèn)答)基準(zhǔn)測(cè)試上的主要結(jié)果和在MCQ(多選題和是非題)基準(zhǔn)測(cè)試上的結(jié)果。

如圖2和圖3所示,Baichuan-Omni在多個(gè)視覺(jué)任務(wù)上全面超過(guò)了VITA-8*7b,后者具有12B激活參數(shù)。除了在VQA基準(zhǔn)測(cè)試和MCQ基準(zhǔn)測(cè)試上表現(xiàn)出色外,作者還展示了與開(kāi)源圖像專業(yè)模型(如MiniCPM-Llama3-V 2.5)相當(dāng)甚至更好的性能。

具體來(lái)說(shuō),Baichuan-Omni在大多數(shù)VQA任務(wù)上超過(guò)了MiniCPM-Llama3-V 2.5,包括MMBench-CN, SEED-IMG, MME, HallusionBench和MMMU,這些任務(wù)需要專家級(jí)的感知和推理。然而,盡管在將額外音頻模式集成方面具有相對(duì)于Qwen2-VL的優(yōu)勢(shì),但Baichuan-Omni在圖像任務(wù)上的性能與Qwen2-VL之間仍然存在明顯的差距。此外,值得注意的是,除了Qwen2-VL之外,開(kāi)源和閉源模型的巨大差異仍然存在。

3.3 視頻理解

3.3.1 評(píng)估基準(zhǔn)

作者對(duì)通用視頻理解任務(wù)(通用VQA)和開(kāi)放式視頻問(wèn)答(開(kāi)放式VQA)進(jìn)行了全面的評(píng)估,以全面評(píng)估Baichuan-Omni的視頻理解能力。

對(duì)于一般的視頻理解任務(wù),選擇Perception-Test,MVBench,VideoMME,和EgoSchema用于長(zhǎng)篇視頻-語(yǔ)言理解。作者對(duì)所有基準(zhǔn)測(cè)試報(bào)告了top-1準(zhǔn)確率。對(duì)于VideoMME,作者在"w/o subs"設(shè)置下報(bào)告了結(jié)果。對(duì)于開(kāi)放式視頻問(wèn)答部分,作者選擇ActivityNet-QA和MSVD-QA作為評(píng)估基準(zhǔn)。作者使用GPT評(píng)估回答片段的質(zhì)量。具體來(lái)說(shuō),使用GPT-3.5-Turbo對(duì)答案的正確性進(jìn)行"Yes-or-No"決策,并從0到5提供一個(gè)評(píng)分。作者報(bào)告"Yes"響應(yīng)的百分比作為Accuracy,并報(bào)告平均評(píng)分作為Score。

作者在進(jìn)行所有評(píng)估時(shí)采用零樣本方法,避免使用復(fù)雜的 Prompt 。此外,作者遵循原始模型的設(shè)置,關(guān)于(最大)幀數(shù)、幀采樣率等,以實(shí)現(xiàn)對(duì)所有模型和基準(zhǔn)的公平、一致的比較。

3.3.2 主要性能

作者將Baichuan-Omni與最先進(jìn)的多模態(tài)專有模型進(jìn)行了比較,例如Gemini 1.5 Pro,GPT 4V和GPT 4o,以及一系列具有競(jìng)爭(zhēng)力的開(kāi)源多模態(tài)模型,如VITA,Qwen2-VL,AnyGPT,VideoLLaMA 2,VideoChat2,LLaVA-NeXT-Video,以及Video-LLaVA。

作者在表4中列出了在通用視頻理解基準(zhǔn)測(cè)試上的主要結(jié)果,并在表5中列出了在開(kāi)放式視頻問(wèn)答上的結(jié)果。

表4顯示,Baichuan-Omni在Egoschema和MVBench等專有模型上展現(xiàn)了與競(jìng)爭(zhēng)對(duì)手相當(dāng)?shù)慕Y(jié)果,同時(shí)在開(kāi)源多模態(tài)模型上實(shí)現(xiàn)了強(qiáng)大的性能,這表明Baichuan-Omni具有全面的視頻理解能力。

與VITA相比,具有約12億激活參數(shù)的MoE全模態(tài)LLM Baichuan-Omni(7B)在所有通用視頻問(wèn)答基準(zhǔn)測(cè)試上均優(yōu)于它,平均提高了約4%。此外,Baichuan-Omni在VideoLLaMA 2、VideoChat2、LLaVA-NeXT-Vide和Video-LLaVA等開(kāi)源模型上也表現(xiàn)出色。值得注意的是,Baichuan-Omni還在MVBench(43.7%)和Egoschema(55.6%)上超過(guò)了專有模型GPT 4V。

關(guān)于開(kāi)放式視頻問(wèn)答基準(zhǔn)測(cè)試的結(jié)果。Open-ended VQA上的性能如表5所示。Baichuan-Omni在ActivityNet-QA和MSVD-QA的所有開(kāi)源模型上(包括最新的多模態(tài)模型VITA和Qwen2 VL)都展示了最先進(jìn)的性能(準(zhǔn)確率和分?jǐn)?shù)),并擊敗了專有模型Gemini 1.5 Pro(56.7%)在ActivityNet-QA上的表現(xiàn)。這些出色的結(jié)果表明,Baichuan-Omni在開(kāi)放式問(wèn)題回答方面也有效,即Baichuan-Omni更擅長(zhǎng)生成有信息和描述性的回答。

3.4 音頻理解

3.4.1 評(píng)估基準(zhǔn)

為了驗(yàn)證Baichuan-Omni在音頻理解能力方面的表現(xiàn),作者在三個(gè)任務(wù)上的基準(zhǔn)測(cè)試評(píng)估結(jié)果如下:

**自動(dòng)語(yǔ)音識(shí)別(ASR)。**這是音頻語(yǔ)言模型預(yù)訓(xùn)練的基本任務(wù),它直接將音頻轉(zhuǎn)換為文本。在ASR的一般場(chǎng)景下,作者在Fleurs中文(zh)和英語(yǔ)(en)測(cè)試集,以及WenetSpeech test_net數(shù)據(jù)集上報(bào)告結(jié)果。為了評(píng)估在更具挑戰(zhàn)性的ASR場(chǎng)景中的性能,作者還包括WenetSpeech test_meeting數(shù)據(jù)集和KeSpeech測(cè)試集的結(jié)果,這些數(shù)據(jù)集評(píng)估模型在’會(huì)議’和’中文方言’環(huán)境下的ASR能力。對(duì)于WenetSpeech,作者使用Word Error Rate(WER)和Character Error Rate(CER)作為評(píng)估指標(biāo),而對(duì)于其他數(shù)據(jù)集,只使用WER。

語(yǔ)音轉(zhuǎn)文本(S2TT)的任務(wù)是將源語(yǔ)言的音頻信號(hào)翻譯成目標(biāo)語(yǔ)言。作者使用Covost2數(shù)據(jù)集的zh2en和en2zh子集,以BLEU分?jǐn)?shù)作為評(píng)估指標(biāo),來(lái)評(píng)估模型在中文和英文之間的S2TT性能。

AIR-Bench的目標(biāo)是評(píng)估AI在遵循給定音頻指令方面的對(duì)話能力。作者在聊天基準(zhǔn)測(cè)試集(測(cè)試集)上評(píng)估聊天性能,使用評(píng)分作為指標(biāo)。

3.4.2 主要性能

對(duì)比了Baichuan-Omni與最先進(jìn)的 Baseline ,包括ASR、S2TT和SER任務(wù),包括最近最先進(jìn)的音頻語(yǔ)言模型Qwen2-Audio-Instruct和大型多模態(tài)語(yǔ)言模型VITA。此外,還展示了經(jīng)典預(yù)訓(xùn)練音頻語(yǔ)言模型Whisper-large-v3在ASR任務(wù)上的性能,以及SALMONN在S2TT任務(wù)上的性能。

在ASR基準(zhǔn)測(cè)試上的結(jié)果。 Baichuan-Omni在表6中展示了強(qiáng)大的音頻轉(zhuǎn)錄能力。Baichuan-Omni主要針對(duì)中文語(yǔ)料庫(kù)。

在整體的中文ASR場(chǎng)景中,與Qwen2-Audio-Instruct相比,Baichuan-Omni在Fleurs測(cè)試-zh子集上具有2.0%的WER(2.6%的CER)優(yōu)勢(shì),并在與Qwen2-Audio-Instruct的WenetSpeech測(cè)試的比較中,實(shí)現(xiàn)了4.1%的WER(4.2%的CER)提升。WenetSpeech上的評(píng)估結(jié)果持續(xù)表明,Baichuan-Omni在VITA之上具有優(yōu)勢(shì)。Baichuan-Omni在VITA的CER性能上實(shí)現(xiàn)了近50%的改進(jìn),無(wú)論是測(cè)試(7.1% v.s 12.2%),還是測(cè)試_meeting(8.9% v.s 16.5%)子集。

在更具挑戰(zhàn)性的中文方言基準(zhǔn),KeSpeech上,Baichuan-Omni保持全面領(lǐng)先,平均CER為所有方言的6.7%,優(yōu)于其他方言。值得注意的是,盡管Baichuan-Omni在中文音頻轉(zhuǎn)錄方面表現(xiàn)出色,但Baichuan-Omni在英語(yǔ)ASR上也保持了強(qiáng)大的通用性能。作者實(shí)現(xiàn)了4.7%的WER,比Qwen2-Audio-Instruct高出11%的WER。

**S2TT和AIR-Bench基準(zhǔn)上的結(jié)果。**除了ASR之外,Baichuan-Omni在S2TT和SER任務(wù)上都表現(xiàn)出色。評(píng)估結(jié)果匯總在表7中。

值得注意的是,在從英語(yǔ)到中文的Covost-2 en2zh測(cè)試集上翻譯時(shí),Baichuan-Omni相對(duì)于Qwen2-Audio-Instruct大約提高了7個(gè)BLEU分。對(duì)于反向翻譯,即從中文到英語(yǔ),作者在Covost-2 zh2en測(cè)試集上的性能與Qwen2-Audio-Instruct相當(dāng),展示了Baichuan-Omni生成逼真人類語(yǔ)音和聲音的優(yōu)越能力。在AirBench上,Baichuan-Omni在語(yǔ)音和聲音方面分別獲得了7.42和7.26分,優(yōu)于Qwen2-Audio-Instruct,顯示出Baichuan-Omni在生成逼真人類語(yǔ)音和聲音方面的優(yōu)勢(shì)。

3.5 消融研究

3.5.1 圖像-語(yǔ)言分支

視覺(jué)編碼器。 為了比較Baichuan-Omni中不同視覺(jué)編碼器的性能,作者在各種參數(shù)大小、輸入分辨率和輸出 Token 計(jì)數(shù)不同的視覺(jué)編碼器上進(jìn)行了實(shí)驗(yàn),總共選擇了五種主流視覺(jué)編碼器:OpenAI的CLIP系列,Google的Siglip系列,蘋(píng)果的DFN系列,OpenGVLab的InternViT系列,以及BAI的EVA系列,總共14個(gè)模型。

所有模型都使用對(duì)比學(xué)習(xí)進(jìn)行訓(xùn)練,參數(shù)范圍從300M(ViT-L)到18B。視覺(jué)編碼器在預(yù)訓(xùn)練期間的訓(xùn)練數(shù)據(jù)使用從400M到10B,輸入分辨率從224224到448448,輸出 Token 計(jì)數(shù)從256到1024。所有比較實(shí)驗(yàn)在相同的實(shí)驗(yàn)條件下進(jìn)行,具體使用批量大小為8,IFT訓(xùn)練數(shù)據(jù)(數(shù)據(jù)比設(shè)置為Caption: Interleaved數(shù)據(jù): Pure text為0.45: 0.45: 0.1)。

如圖8所示,雖然提高分辨率確實(shí)會(huì)導(dǎo)致性能提升(eva-448與eva-224,InternViT-6B-224px與InternViT-6B-448px),但編碼器參數(shù)的數(shù)量與指標(biāo)之間并沒(méi)有直接關(guān)系。

總體而言,siglip-so400m-patch14-384 獲得了最高的平均分?jǐn)?shù),并在六項(xiàng)任務(wù)中的四項(xiàng)中表現(xiàn)出色,特別是在OCR方面表現(xiàn)尤為出色。考慮到這些因素以及效率問(wèn)題,作者最終選擇了siglip-so400m-patch14-384作為Baichuan-Omni的視覺(jué)編碼器。

作者進(jìn)一步研究了在模型中使用AnyRes對(duì)視覺(jué)語(yǔ)言性能的影響。作者發(fā)現(xiàn),與固定輸入384像素相比,使用AnyRes可以顯著提高性能,尤其是在依賴于圖像細(xì)節(jié)的任務(wù)上,如視覺(jué)文檔理解,如表9所示。

關(guān)于Projector,作者比較了以下方法:

(1) MLP:直接通過(guò)一個(gè)兩層MLP,使尺寸與LLM相匹配,不減少圖像 Token 的數(shù)量。

(2) C-abs:通過(guò)兩個(gè)卷積層和一個(gè)池化層,使尺寸與LLM相匹配,根據(jù)需要減少 Token 數(shù)量(例如,從576減少到144)。

(3) Concat:將相鄰 Token 連接起來(lái),然后通過(guò)一個(gè)MLP進(jìn)行處理,允許 Token 數(shù)量減少,但增加參數(shù)數(shù)量(因?yàn)镸LP的輸入維度增加)。

(4) Mean Pool:在通過(guò)一個(gè)帶有步長(zhǎng)為2的卷積層進(jìn)行池化之前,應(yīng)用一個(gè)卷積層,使 Token 數(shù)量減少,同時(shí)保持與MLP一致的參數(shù)數(shù)量。

在早期實(shí)驗(yàn)中,作者發(fā)現(xiàn)使用不同 Projector 的模型在整體圖像理解上差別不大,但在添加100萬(wàn)純中文OCR VQA數(shù)據(jù)后,它們?cè)谥形腛CR理解上存在差異。結(jié)果表明,雖然使用C-abs Projector 的模型在學(xué)習(xí)和掌握中文OCR能力方面存在困難,而使用MLP Projector 的模型開(kāi)始適應(yīng)數(shù)據(jù),并在0.75個(gè)epoch后展現(xiàn)出零樣本學(xué)習(xí)的能力。

最終,作者將 Projector 排名如下:MLP > Mean Pool > Concat > C-abs。另一方面,為了在AnyRes操作(MLP產(chǎn)生729個(gè) Token ,而Mean Pool、Concat和C-abs各自產(chǎn)生182個(gè) Token )后最小化子圖像中的 Token 數(shù)量,作者選擇Mean Pool作為視覺(jué) Projector 。

3.5.2 視頻-語(yǔ)言分支

對(duì)于視頻模態(tài),作者從三個(gè)方面進(jìn)行深入分析,以全面研究各種因素對(duì)模型性能的影響。

幀數(shù)。 在考慮上下文長(zhǎng)度的限制下,作者系統(tǒng)性地調(diào)整幀采樣率以控制輸入視頻幀的最大數(shù)量。

視覺(jué)編碼器的分辨率。作者研究了不同視覺(jué)編碼器分辨率對(duì)模型提取有意義視覺(jué)特征的能力的影響。作者的調(diào)查從固定分辨率(如384 × 384像素)擴(kuò)展到動(dòng)態(tài)分辨率方法,如AnyRes。

視頻語(yǔ)言預(yù)訓(xùn)練。 作者評(píng)估模型在有和沒(méi)有視頻語(yǔ)言預(yù)訓(xùn)練時(shí)的性能。這種比較有助于作者量化利用大規(guī)模多模態(tài)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的好處,可能增強(qiáng)模型理解視頻文本關(guān)系和泛化到各種視頻理解任務(wù)的能力。

如表10所示,模型在視頻理解方面的性能受到處理輸入幀數(shù)量的影響。當(dāng)輸入幀的數(shù)量從64減少到48時(shí),模型理解和解釋視頻內(nèi)容的能力(平均值從54.7%下降到50.1%)明顯下降。

在測(cè)試模型時(shí),總共輸入了48幀。結(jié)果表明,使用AnyRes技術(shù)的模型與固定分辨率為384x384的模型相比,性能更優(yōu)。這種性能優(yōu)勢(shì)在各種基準(zhǔn)測(cè)試中都很明顯,包括MVBench、VideoMME和ActivityNet-QA。實(shí)際上,啟用AnyRes的模型相對(duì)于固定分辨率的模型平均提高了約5%。

此外,從表的第一行和第三行可以看出,將視頻文本預(yù)訓(xùn)練納入模型中會(huì)對(duì)模型的視頻理解能力產(chǎn)生顯著影響。例如,在MVBench中,沒(méi)有預(yù)訓(xùn)練的模型大約落后于有預(yù)訓(xùn)練的模型6%。

總體而言,作者發(fā)現(xiàn)增加視頻幀數(shù)、提高視覺(jué)編碼器分辨率以及預(yù)訓(xùn)練階段整合視頻文本數(shù)據(jù),都能提高模型理解視頻的能力。作者將這些因素在輸入超出上下文長(zhǎng)度(增加幀數(shù)和分辨率)的情況下的探索留待未來(lái)工作。

3.5.3 音頻-語(yǔ)言分支

音頻語(yǔ)言分支中的音頻Projector在音頻與自然語(yǔ)言模態(tài)表示之間起到了關(guān)鍵作用。值得一提的是,Conv-GMLPProjector展示了特征下采樣率的強(qiáng)大性能魯棒性。

對(duì)于分析,作者在Fleurs、WenetSpeech和KeSpeech的所有ASR基準(zhǔn)測(cè)試集上測(cè)量平均WER,這些基準(zhǔn)測(cè)試集分別采用了2、4、8三種不同的降采樣率進(jìn)行訓(xùn)練。為了模擬Baichuan-Omni中音頻分支的實(shí)際訓(xùn)練過(guò)程,作者只訓(xùn)練音頻編碼器和解碼器,同時(shí)讓語(yǔ)言模型保持凍結(jié)。這種設(shè)置與第3.2.3節(jié)中描述的配置一致。

從圖6中作者可以觀察到,當(dāng)降采樣率設(shè)置為2時(shí),音頻語(yǔ)言模型實(shí)現(xiàn)了最佳的ASR性能,平均WER為7.7%。當(dāng)降采樣率調(diào)整為4和8時(shí),ASR性能略有下降,但降低幅度很小(從0.3%到0.6%)。令人驚訝的是,盡管降采樣率更大,但降采樣率為8的模型優(yōu)于降采樣率為4的模型(8.0% vs. 8.3%)。這突顯了Conv-GMLP的非凡的序列壓縮能力。

3.5.4 多模態(tài)監(jiān)督微調(diào)

表11和表12比較了Baichuan-Omni在各種圖像和視頻基準(zhǔn)測(cè)試上的性能,在有和沒(méi)有多模態(tài)監(jiān)督微調(diào)(SFT)的情況下。結(jié)果表明,與僅進(jìn)行指令微調(diào)(IFT)的版本相比,經(jīng)過(guò)多模態(tài)SFT的模型在整體性能上表現(xiàn)出優(yōu)越性。這種改進(jìn)可以歸因于使用高質(zhì)量、多樣化的指令和作者SFT數(shù)據(jù)構(gòu)建方法,同時(shí)避免了基礎(chǔ)模型的能力受損。

Baichuan-Omni的這一版本在將理解集成到視頻、圖像、文本和音頻方面已經(jīng)達(dá)到了領(lǐng)先水平。

盡管其表現(xiàn)令人鼓舞,但每個(gè)單一模態(tài)的基礎(chǔ)能力仍然有顯著的提高空間。這包括:(1)增強(qiáng)文本提取能力;
(2)支持更長(zhǎng)的視頻理解;
(3)開(kāi)發(fā)一個(gè)與LLM集成的端到端文本轉(zhuǎn)語(yǔ)音(TTS)系統(tǒng);
(4)提高不僅理解人類聲音,還能理解如流水、鳥(niǎo)鳴和碰撞噪音等自然環(huán)境聲音的能力。

參考
[0]. BAICHUAN-OMNI TECHNICAL REPORT.

AI大模型作為人工智能領(lǐng)域的重要技術(shù)突破,正成為推動(dòng)各行各業(yè)創(chuàng)新和轉(zhuǎn)型的關(guān)鍵力量。抓住AI大模型的風(fēng)口,掌握AI大模型的知識(shí)和技能將變得越來(lái)越重要。

學(xué)習(xí)AI大模型是一個(gè)系統(tǒng)的過(guò)程,需要從基礎(chǔ)開(kāi)始,逐步深入到更高級(jí)的技術(shù)。

這里給大家精心整理了一份,包括:AI大模型全套學(xué)習(xí)路線圖(從入門(mén)到實(shí)戰(zhàn))、精品AI大模型學(xué)習(xí)書(shū)籍手冊(cè)、視頻教程、實(shí)戰(zhàn)學(xué)習(xí)、面試題等,!

要學(xué)習(xí)一門(mén)新的技術(shù),作為新手一定要先學(xué)習(xí)成長(zhǎng)路線圖方向不對(duì),努力白費(fèi)。

這里,我們?yōu)樾率趾拖胍M(jìn)一步提升的專業(yè)人士準(zhǔn)備了一份詳細(xì)的學(xué)習(xí)成長(zhǎng)路線圖和規(guī)劃??梢哉f(shuō)是最科學(xué)最系統(tǒng)的學(xué)習(xí)成長(zhǎng)路線。

書(shū)籍和學(xué)習(xí)文檔資料是學(xué)習(xí)大模型過(guò)程中必不可少的,我們精選了一系列深入探討大模型技術(shù)的書(shū)籍和學(xué)習(xí)文檔,它們由領(lǐng)域內(nèi)的頂尖專家撰寫(xiě),內(nèi)容全面、深入、詳盡,為你學(xué)習(xí)大模型提供堅(jiān)實(shí)的理論基礎(chǔ)(書(shū)籍含電子版PDF)

對(duì)于很多自學(xué)或者沒(méi)有基礎(chǔ)的同學(xué)來(lái)說(shuō),書(shū)籍這些純文字類的學(xué)習(xí)教材會(huì)覺(jué)得比較晦澀難以理解,因此,我們提供了豐富的大模型視頻教程,以動(dòng)態(tài)、形象的方式展示技術(shù)概念,幫助你更快、更輕松地掌握核心知識(shí)。

行業(yè)分析主要包括對(duì)不同行業(yè)的現(xiàn)狀、趨勢(shì)、問(wèn)題、機(jī)會(huì)等進(jìn)行系統(tǒng)地調(diào)研和評(píng)估,以了解哪些行業(yè)更適合引入大模型的技術(shù)和應(yīng)用,以及在哪些方面可以發(fā)揮大模型的優(yōu)勢(shì)。

學(xué)以致用 ,當(dāng)你的理論知識(shí)積累到一定程度,就需要通過(guò)項(xiàng)目實(shí)戰(zhàn),在實(shí)際操作中檢驗(yàn)和鞏固你所學(xué)到的知識(shí),同時(shí)為你找工作和職業(yè)發(fā)展打下堅(jiān)實(shí)的基礎(chǔ)。

面試不僅是技術(shù)的較量,更需要充分的準(zhǔn)備。

在你已經(jīng)掌握了大模型技術(shù)之后,就需要開(kāi)始準(zhǔn)備面試,我們將提供精心整理的大模型面試題庫(kù),涵蓋當(dāng)前面試中可能遇到的各種技術(shù)問(wèn)題,讓你在面試中游刃有余。

全套的AI大模型學(xué)習(xí)資源已經(jīng)整理打包,有需要的小伙伴可以,免費(fèi)領(lǐng)取【】

轉(zhuǎn)載請(qǐng)注明來(lái)自宜賓民心創(chuàng)傷骨科醫(yī)院有限責(zé)任公司,本文標(biāo)題:《百川開(kāi)源第1個(gè)7B多模態(tài)大模型 Baichuan-Omni | 能夠同時(shí)分析圖像/視頻/音頻/文》

百度分享代碼,如果開(kāi)啟HTTPS請(qǐng)參考李洋個(gè)人博客
每一天,每一秒,你所做的決定都會(huì)改變你的人生!
Top
 尋甸最新最近招聘消息網(wǎng)  鄭州市西郊最新房?jī)r(jià)信息  蘭州保安最新招聘信息  團(tuán)貸網(wǎng)最新動(dòng)態(tài)  高山小鎮(zhèn)最新版  永修人才網(wǎng)招聘信息最新  軒轅杯最新信息  最新版僵尸袋鼠  熊熙的最新視頻  欒城最新抓人信息  東方尋寶最新信息  焦化港口最新信息  樟木頭印刷招聘信息最新  小雞小雞舞最新版  辛辛那提金融最新信息  嘉興宏陶招聘信息最新  臨沂臨港最新招聘信息網(wǎng)  pug地鐵逃生最新版  玉樓村更新的最新消息  ftapp最新版下載  鴻蒙發(fā)布最新信息  中興通訊的最新研報(bào)  追伴最新版下載  廣德征婚信息最新信息網(wǎng)  蓬萊社區(qū)租房信息最新  壽縣最新招標(biāo)網(wǎng)公告網(wǎng)  鄭州最新出租店鋪網(wǎng)  彈殼最新的歌曲  艾肯最新發(fā)布的聲卡  有融網(wǎng)最新案情通報(bào)