日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能 正文
發(fā)私信給黃善清
發(fā)送

0

Dropbox 技術(shù)主管葉旭剛:AI 時(shí)代需要什么樣的搜索引擎?

本文作者: 黃善清 編輯:汪思穎 2018-11-29 18:14
導(dǎo)語:面對如今來勢洶洶的 AI 時(shí)代,搜索技術(shù)又該何去何從呢?

雷鋒網(wǎng) AI 科技評論按:搜索技術(shù)從一開始的桌面文件搜索、互聯(lián)網(wǎng)搜索,發(fā)展至今日流行的程序內(nèi)部搜索(In-app search),先后攻克了不同的技術(shù)難點(diǎn),面對如今來勢洶洶的 AI 時(shí)代,搜索技術(shù)又該何去何從呢?

作為 2018TOP100Summit 案例分享嘉賓之一,Dropbox 技術(shù)主管葉旭剛將在本文中分享搜索技術(shù)的發(fā)展的來龍去脈,以及當(dāng)下該領(lǐng)域所面臨的機(jī)會(huì)與挑戰(zhàn)。

Dropbox 技術(shù)主管葉旭剛:AI 時(shí)代需要什么樣的搜索引擎?

葉旭剛,機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)領(lǐng)域資深專業(yè)人士?,F(xiàn)任美國云服務(wù)科技公司 Dropbox 的搜索團(tuán)隊(duì)的技術(shù)主管, 負(fù)責(zé)開發(fā)新一代的云工作空間的智能搜索推薦引擎。曾在美國最大房地產(chǎn)搜索引擎 Zillow 任主任應(yīng)用科學(xué)家, 從事房地產(chǎn)垂直領(lǐng)域的搜索以及自然語言理解的研發(fā)。曾在美國蘋果公司任主任數(shù)據(jù)科學(xué)家, 從事客服搜索的研發(fā)。并曾在美國微軟公司任高級應(yīng)用科學(xué)家, 從事網(wǎng)頁搜索、地區(qū)搜索、企業(yè)搜索的研發(fā)。擁有約翰霍普金斯大學(xué)應(yīng)用數(shù)學(xué)及統(tǒng)計(jì)博士, 并曾在美國國立健康研究所從事生物信息統(tǒng)計(jì)博士后研究。曾獲約翰霍普金斯大學(xué)博士全額研究獎(jiǎng), 美國國立健康研究所優(yōu)秀人才獎(jiǎng), 海軍研究部研究??畹?。曾在運(yùn)籌統(tǒng)計(jì)、生物信息、大數(shù)據(jù)及機(jī)器學(xué)習(xí)方面的期刊及會(huì)議發(fā)表多篇第一作者文章。在頂級會(huì)議 (NIPS, INFORMS, SIAM, ICML, ISMB, CIKM) 做過報(bào)告。

搜索技術(shù)的「前生今世」

搜索領(lǐng)域的發(fā)展最早可追溯至微軟操作系統(tǒng)的基礎(chǔ)檢索功能——桌面文件搜索系統(tǒng)(index),后來隨著互聯(lián)網(wǎng)的普及,用戶搜索范圍不再局限于單機(jī)系統(tǒng),才誕生了互聯(lián)網(wǎng)搜索系統(tǒng)。

雅虎是最早投入互聯(lián)網(wǎng)搜索系統(tǒng)開發(fā)的公司,然而一直未能從門戶網(wǎng)站的商業(yè)邏輯中跳脫出來,導(dǎo)致錯(cuò)過了搜索引擎作為新型商業(yè)模式的風(fēng)口,因而被同期的小公司趕超。這種新型商業(yè)模式后來被谷歌發(fā)揚(yáng)光大,逐漸發(fā)展成今日的體量。

谷歌時(shí)代最重要的技術(shù)里程碑,是強(qiáng)調(diào)了網(wǎng)頁的重要性。谷歌為此進(jìn)行了大量的互聯(lián)網(wǎng)資源整合工作,只要出現(xiàn)一個(gè)站點(diǎn)/網(wǎng)頁,谷歌都會(huì)統(tǒng)一進(jìn)行 Index 標(biāo)注,日積月累下成就了龐大的 Index 系統(tǒng)。Index 系統(tǒng)有效解決了雅虎時(shí)代遺留下的問題,使用戶的查詢輸入同時(shí)映射至多個(gè)結(jié)果,并根據(jù)重要性對搜索結(jié)果進(jìn)行排序,從而保證呈現(xiàn)在用戶面前的都是最優(yōu)的搜索結(jié)果。

為此,谷歌需要付出高昂的基礎(chǔ)設(shè)施維護(hù)代價(jià)。據(jù)了解,單 2016 年,谷歌系統(tǒng)便已累積多達(dá) 10 萬億個(gè)網(wǎng)頁 index 標(biāo)注,耗費(fèi)存儲空間高達(dá) 100 PB(1 PB = 1024 TB)。

最近這幾年,谷歌的搜索模型逐漸從靜態(tài)封閉向開放動(dòng)態(tài)發(fā)展,從單純的「搜索-返回」變?yōu)?strong>通過各種途徑揣測用戶意圖的智能化搜索服務(wù)。換句話說,谷歌系統(tǒng)時(shí)刻關(guān)注著用戶的搜索反饋,這些信息將被完整記錄下來,然后經(jīng)過整理后更新至模型里頭,最后通過對比檢驗(yàn)?zāi)P偷乃阉餍Ч?/p>

「小而精」的 In-app search 時(shí)代

這一階段搜索技術(shù)在的特點(diǎn)是: Index 體量變得越來越大,Index 種類變得越來越豐富,同一時(shí)間模型理解用戶意圖(語境)的能力也在不斷地提高。

與此同時(shí),搜索技術(shù)也迎來了新挑戰(zhàn):

  1. 互聯(lián)網(wǎng)資源底層結(jié)構(gòu)變得多元化,用戶的搜索輸入不再局限于文字,當(dāng)中還包括圖像、語音、視頻等。

  2.  一旦資源庫的體量超出系統(tǒng)可負(fù)荷的臨界點(diǎn),后期可能導(dǎo)致資源管理上的問題。

對應(yīng)的解決方案,是如雨后春筍般冒出的垂直領(lǐng)域搜索引擎。

跟過去不同的是,這些平臺未必在一開始就提供檢索服務(wù),而是在商業(yè)模式取得巨大成功后,沉淀的用戶反哺為平臺帶來了大量內(nèi)容,當(dāng)內(nèi)容豐富到一定程度時(shí),自然而然形成了特定領(lǐng)域的搜索引擎,業(yè)界將之稱作 In-app search——用戶先登陸某個(gè)具體 app 再進(jìn)行特定領(lǐng)域搜索的行為。

當(dāng)中最具有代表性的 In-app search 平臺是 Facebook,F(xiàn)acebook 在社交領(lǐng)域的積淀,使其在做社交搜索方面有著得天獨(dú)厚的優(yōu)勢。有人曾經(jīng)斷言,In-app search 極有可能在未來取代谷歌、Bing 等一般性搜索成為主流搜索工具。

此外,隨著「機(jī)器人時(shí)代」的來臨,搜索趨勢也將從單一輸入理解變成互動(dòng)式交流,由文字過渡至語音、圖像乃至視頻。為了更好地理解用戶的搜索意圖,這些機(jī)器人將擁有強(qiáng)大的自然語言理解能力,可以根據(jù)用戶的搜索需求將之導(dǎo)引至某個(gè)專屬領(lǐng)域 app。

目前看來,擁有龐大的開發(fā)者生態(tài)以及企業(yè)基礎(chǔ)數(shù)據(jù)的蘋果 app store 和 AWS 云平臺,極有可能超越谷歌,成為 In-app search 時(shí)代的弄潮兒。

搜索領(lǐng)域現(xiàn)階段面臨的難點(diǎn)——「內(nèi)容理解」

無論是一般性檢索還是垂直領(lǐng)域檢索,在「機(jī)器人時(shí)代」都不可避免地要面臨「內(nèi)容理解」的難題。

為了讓搜索引擎很好地理解人類意圖,我們必須保證引擎底層的知識結(jié)構(gòu)和人類的知識結(jié)構(gòu)保持一致,自然語言理解在這過程中便扮演了重要的角色。換句話說,自然語言理解是搜索引擎的索引和用戶輸入之間的橋梁,一旦缺少這個(gè)橋梁,我們的檢索技術(shù)相當(dāng)于倒退至幾十年前,基本沒有進(jìn)步。

然而「內(nèi)容理解」面對的內(nèi)容不僅僅是常見的網(wǎng)頁,還包括了其他的文本結(jié)構(gòu)如工作文檔(可進(jìn)一步細(xì)分為 word 文檔、pdf 文檔等)、圖像、視頻等,這就超出了自然語言理解的范疇,必須依賴諸如卷積神經(jīng)網(wǎng)絡(luò)、運(yùn)動(dòng)監(jiān)測、物體檢測等一系列特定技術(shù)才能解決信息提取問題。這也推動(dòng)了目前深度學(xué)習(xí)領(lǐng)域較熱門的 embedding 工作,試圖將字面上的 token 映射至數(shù)字空間上。只有將不同文本結(jié)構(gòu)的信息提取出來,我們才能將對象映射至文本空間上,接著通過文本技術(shù)來解決搜索的問題。

總的來說,「內(nèi)容理解」的目的是要讓搜索引擎找到一種近似人腦對自然觀察理解的方式,然而這塊目前還處于比較初級的階段,目前引擎的信息提取效果大約等同于幾歲小孩,有的時(shí)候甚至還不如一只動(dòng)物。

這是搜索技術(shù)的發(fā)展當(dāng)下所面臨的瓶頸,需要更多的業(yè)界人士參與進(jìn)來一起努力攻克。

附:葉旭剛老師的 TOP100Summit 案例分享詳情

由 msup 主辦的技術(shù)界一年一度的 TOP100Summit 上,葉旭剛老師將與大家分享他在房地產(chǎn)搜索領(lǐng)域關(guān)于自動(dòng)補(bǔ)全與自動(dòng)建議技術(shù)的建模實(shí)現(xiàn)(內(nèi)容鏈接頁:http://www.top100summit.com/think/13504)。作為搜索的輔助手段,智能的自動(dòng)補(bǔ)全和自動(dòng)建議可以幫助用戶快速表達(dá)搜索意圖,同時(shí)避免查詢詞重復(fù)進(jìn)入深層 index 造成系統(tǒng)延遲。

為了實(shí)現(xiàn)這一目的,需要構(gòu)建一套該垂直領(lǐng)域的知識圖譜、詞匯表、字典樹數(shù)據(jù)結(jié)構(gòu),以及相關(guān)性概率的數(shù)學(xué)模型。葉旭剛老師將在報(bào)告中采用基于貝葉斯原則和條件獨(dú)立及非條件獨(dú)立的簡化假設(shè)把相關(guān)性概率分解成區(qū)域化和個(gè)性化兩個(gè)部分。在具體實(shí)現(xiàn)時(shí)采用兩階段貪婪排序。也就是先用區(qū)域化的相關(guān)性概率來找到一個(gè)搜索結(jié)果列,再對這個(gè)列計(jì)算個(gè)性化打分從新排序。此外,葉旭剛老師還會(huì)在報(bào)告中介紹評價(jià)系統(tǒng)表現(xiàn)的模型,以及對應(yīng)的評價(jià)指標(biāo)。

通過本次分享,學(xué)員可以了解自動(dòng)補(bǔ)全和自動(dòng)建議的一個(gè)全貌和具體在一個(gè)垂直領(lǐng)域是如何建模、設(shè)計(jì)和實(shí)現(xiàn)的。學(xué)員可以把該模型和技術(shù)移植到他們自己的搜索領(lǐng)域。比如說常見的場景是開發(fā)商品搜索或?qū)I(yè)知識搜索的移動(dòng)應(yīng)用。

如果你對葉旭剛老師的主題分享感興趣,也想通過活動(dòng)了解更多其他領(lǐng)域的技術(shù)創(chuàng)新/研發(fā)管理實(shí)踐,歡迎大家通過活動(dòng)頁面購買會(huì)議門票:http://www.top100summit.com/apply,會(huì)議提供各種購票組合,大家可以實(shí)際需進(jìn)行購買。

雷鋒網(wǎng) AI 科技評論雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

Dropbox 技術(shù)主管葉旭剛:AI 時(shí)代需要什么樣的搜索引擎?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說