百度大腦3.0:聚焦多模態(tài)深度語義理解
時間:2022-03-30 07:15:02 | 來源:行業(yè)動態(tài)
時間:2022-03-30 07:15:02 來源:行業(yè)動態(tài)
百度大腦3.0的核心是多模態(tài)深度語義理解,具體是指對文字、聲音、圖片、視頻等多模態(tài)的數(shù)據(jù)和信息進行深層次多維度的語義理解,包括數(shù)據(jù)語義、知識語義、視覺語義、語音語義一體化和自然語言語義等多方面的語義理解技術(shù)。
換句話說,就是要能讓機器聽清、看清,從而深入理解語義背后的含義,深度理解真實世界,更好地支撐各種應(yīng)用。而其中,百度地圖語音助手就是語音語義一體化和自然語言處理技術(shù)結(jié)合最典型的應(yīng)用場景之一。
王海峰介紹,如今百度高噪聲環(huán)境Hand-free語音識別準(zhǔn)確率已提升了10個百分點,語音語義一體化技術(shù)使得遠場語音識別準(zhǔn)確率提升了10個百分點;在語音合成方面,WaveNet 拼接的情感語音合成技術(shù),使得流暢度和自然度也大幅提升。
此外,他還以對話理解和閱讀理解為例,介紹了百度的自然語言理解技術(shù)。事實上,百度的對話理解技術(shù)已經(jīng)積累多年,而百度大腦3.0版本中通過研發(fā)最新的深層注意力匹配模型,比已知的最好結(jié)果又提升了4.1%。在閱讀理解技術(shù)上,百度大腦已經(jīng)閱讀了千億量級的文章,相當(dāng)于6萬個中國國家圖書館的藏書,并由此積累了億級實體、千億事實的知識。
更有趣的是,借助視覺的語義化技術(shù),百度大腦還被應(yīng)用在了世界杯的視頻解析場景中。大會現(xiàn)場,王海峰播放了一段世界杯球賽視頻,視頻中,百度大腦可以通過識別視頻中的裁判、球、球門、球場線等,捕捉射門、進球、角球、換人等畫面,完成機器人解說、精彩片段集錦剪輯、以及數(shù)據(jù)統(tǒng)計分析等等。
知識是機器理解世界的重要基礎(chǔ),為此,在多元語義知識方面,百度也構(gòu)建了包含數(shù)億實體、數(shù)千億級事實的龐大知識圖譜。除了基礎(chǔ)的由實體、屬性、關(guān)系構(gòu)成的實體圖譜,還針對不同的應(yīng)用場景和知識形態(tài),構(gòu)建了關(guān)注點圖譜、事件圖譜、多媒體圖譜、行業(yè)知識圖譜等多種圖譜。所有這些,都構(gòu)成了百度大腦的基礎(chǔ)。
通過持續(xù)獲取和積累知識,百度大腦的理解能力和智能水平還會不斷升級,從而更好地服務(wù)于用戶。王海峰說。