新京報(bào)貝殼財(cái)經(jīng)訊(記者羅亦丹)7月10日,2025貝殼財(cái)經(jīng)年會(huì)開幕。在主題為“建設(shè)‘開源之都’:智AI未來(lái),生態(tài)共澎湃”的首場(chǎng)論壇上,商湯科技集團(tuán)大模型綜合商務(wù)部執(zhí)行商務(wù)總監(jiān)李星冶回顧了人工智能從1.0時(shí)代到2.0時(shí)代的演變,并重點(diǎn)介紹了商湯在多模態(tài)交互技術(shù)上的突破與應(yīng)用落地。他強(qiáng)調(diào),人工智能正從傳統(tǒng)的計(jì)算機(jī)視覺(jué)向“所見即所得”的多模態(tài)交互轉(zhuǎn)型,這將深刻改變教育、文旅、客服等多個(gè)領(lǐng)域。

 

李星冶表示,在AI 1.0時(shí)代,商湯專注于計(jì)算機(jī)視覺(jué)技術(shù),主要服務(wù)于政府和企業(yè)。

 

隨著2023年大模型技術(shù)的興起,AI進(jìn)入2.0時(shí)代,商湯開始推動(dòng)多模態(tài)交互的創(chuàng)新。李星冶解釋,這不僅僅是文字指令的識(shí)別,而且是基于“所見即所得”的理念,整合視頻、圖像、語(yǔ)音等多種模態(tài),實(shí)現(xiàn)與人類的實(shí)時(shí)互動(dòng)。在現(xiàn)場(chǎng),李星冶展示了通過(guò)畫出一個(gè)“太乙真人”的卡通形象,喚起太乙真人語(yǔ)音并進(jìn)行實(shí)時(shí)互動(dòng)的場(chǎng)景。

 

李星冶詳細(xì)介紹了多模態(tài)交互的落地成果。在教育領(lǐng)域,商湯與學(xué)習(xí)機(jī)廠商合作,開發(fā)了“所見即所得”的交互設(shè)備。孩子佩戴設(shè)備后,算法能實(shí)時(shí)感知手寫解題過(guò)程,識(shí)別錯(cuò)誤并提供巧妙解法。針對(duì)低幼兒童,系統(tǒng)支持指讀繪本,將圖片轉(zhuǎn)化為故事并互動(dòng)。目前,商湯已與10所左右學(xué)校合作,打造智能校園助手,處理課程安排、成績(jī)查詢等功能。

 

此外,商湯科技的智能體應(yīng)用是另一亮點(diǎn)。李星冶舉例稱,在倉(cāng)庫(kù)租賃場(chǎng)景中,算法分析行業(yè)數(shù)據(jù)輔助BD銷售,生成租約管理方案等功能。在客服領(lǐng)域,商湯與知名運(yùn)營(yíng)商合作,打造高效智能體。在智能家居方面,提供家庭互動(dòng)功能,以人工智能的技術(shù)豐富家庭交互生活。

 

“多模態(tài)大模型的優(yōu)勢(shì)正在于此:讓交互不再局限于識(shí)別文字指令,更能通過(guò)‘所見即所得’的方式,通過(guò)視覺(jué)等多維度信息,讓大模型與人之間的交互更順暢?!崩钚且闭f(shuō)。


編輯 楊娟娟

校對(duì) 柳寶慶