從看清聽(tīng)清到看懂聽(tīng)懂
時(shí)間:2022-03-30 10:48:01 | 來(lái)源:行業(yè)動(dòng)態(tài)
時(shí)間:2022-03-30 10:48:01 來(lái)源:行業(yè)動(dòng)態(tài)
多模態(tài)深度語(yǔ)義理解能讓機(jī)器聽(tīng)清、看清,更能深入理解它背后的含義,深度地理解真實(shí)世界,進(jìn)而更好地支撐各種應(yīng)用。王海峰表示。
視覺(jué)語(yǔ)義化可以讓機(jī)器從看清到看懂視頻,并提煉出結(jié)構(gòu)化語(yǔ)義知識(shí)。百度視覺(jué)技術(shù)部、人臉技術(shù)部、增強(qiáng)現(xiàn)實(shí)技術(shù)部總監(jiān)吳中勤介紹,視覺(jué)語(yǔ)義化技術(shù)首先識(shí)別人、物體和場(chǎng)景,同時(shí)捕捉它們之間的行為和關(guān)系,通過(guò)時(shí)序化、數(shù)字化、結(jié)構(gòu)化的方式形成語(yǔ)義知識(shí),最終結(jié)合領(lǐng)域和場(chǎng)景進(jìn)行智慧推理,落地行業(yè)應(yīng)用。比如在零售領(lǐng)域,它可以準(zhǔn)確判斷每個(gè)人的動(dòng)作、行為,真正實(shí)現(xiàn)顧客拿起商品就走。未來(lái),視覺(jué)語(yǔ)義化技術(shù)還可進(jìn)一步延展,它結(jié)合新型的傳感器和AI芯片,可以在感知層面和計(jì)算層面得到大幅提升;結(jié)合手機(jī)可以帶給用戶更佳地使用體驗(yàn)。未來(lái),百度視覺(jué)語(yǔ)義化技術(shù)將在百度AI開(kāi)放平臺(tái)中開(kāi)放給開(kāi)發(fā)者使用。
語(yǔ)音技術(shù)的升級(jí)則讓機(jī)器更好地聽(tīng)懂世界。百度語(yǔ)音技術(shù)部總監(jiān)高亮表示,百度基于遠(yuǎn)場(chǎng)的語(yǔ)音語(yǔ)義一體化技術(shù)取得重大突破,為業(yè)界提供更頂尖的遠(yuǎn)場(chǎng)語(yǔ)音技術(shù)。語(yǔ)音語(yǔ)義一體化將遠(yuǎn)場(chǎng)交互中高頻Query識(shí)別準(zhǔn)確率提升10個(gè)點(diǎn),并保持普通Query識(shí)別率不降;多語(yǔ)種混合聲學(xué)建模基于Deep Peak2大幅提升中英文混合Query識(shí)別準(zhǔn)確率,相對(duì)錯(cuò)誤率比業(yè)界最好競(jìng)品降低20%;新升級(jí)的TTS技術(shù)業(yè)界首創(chuàng)傳統(tǒng)拼接技術(shù)與Wavenet技術(shù)融合方案,保證合成質(zhì)量的同時(shí)大大降低成本,讓大規(guī)模應(yīng)用落地成為現(xiàn)實(shí)。此外,百度重磅發(fā)布遠(yuǎn)場(chǎng)語(yǔ)音技術(shù)低成本解決方案度小云,它基于Deep Peak V2語(yǔ)音識(shí)別技術(shù)、語(yǔ)音語(yǔ)義一體化技術(shù)及LSTM-VAD深度學(xué)習(xí)語(yǔ)音切分技術(shù),實(shí)現(xiàn)業(yè)界領(lǐng)先的五級(jí)喚醒技術(shù),并擁有基于Wavenet的精致音庫(kù),支持遠(yuǎn)場(chǎng)優(yōu)化的音頻通信技術(shù)。未來(lái)開(kāi)發(fā)者可以平等便捷地一站式獲取百度遠(yuǎn)場(chǎng)語(yǔ)音能力。
想要讓機(jī)器像人一樣擁有智能,將語(yǔ)言變成知識(shí)必不可缺。百度AI技術(shù)平臺(tái)體系執(zhí)行總監(jiān)吳甜表示,百度自然語(yǔ)言處理技術(shù)經(jīng)過(guò)多年的發(fā)展,已形成全面、前沿的格局。百度知識(shí)圖譜已發(fā)展為復(fù)雜、多元、全面的多元語(yǔ)義知識(shí)圖譜,包含實(shí)體圖譜、行業(yè)圖譜、事件圖譜、關(guān)注點(diǎn)圖譜、多媒體圖譜,其中實(shí)體圖譜已經(jīng)能夠覆蓋通用需求中90%的實(shí)體及其屬性。在閱讀理解技術(shù)上,百度大腦已經(jīng)閱讀了千億量級(jí)的文章,相當(dāng)于6萬(wàn)個(gè)中國(guó)國(guó)家圖書(shū)館的藏書(shū),并由此積累了億級(jí)實(shí)體、千億事實(shí)的知識(shí),并通過(guò)學(xué)習(xí)真實(shí)應(yīng)用每天產(chǎn)生的知識(shí)不斷優(yōu)化。在對(duì)話理解方面,百度理解與交互技術(shù)平臺(tái)UNIT升級(jí)至2.0,進(jìn)一步增強(qiáng)冷啟動(dòng)能力,支持像人類一樣在對(duì)話當(dāng)中學(xué)習(xí),同時(shí)開(kāi)放了第一個(gè)工業(yè)級(jí)對(duì)話系統(tǒng)開(kāi)源框架,降低搭建門(mén)檻,讓開(kāi)發(fā)者無(wú)縫對(duì)接云端。百度將持續(xù)開(kāi)源新的技術(shù),提供更靈活便捷的方案,推動(dòng)自然語(yǔ)言理解技術(shù)的創(chuàng)新與發(fā)展。