0
| 本文作者: nebula | 2026-05-11 11:44 |
5月11日,記者獲悉,在加拿大蒙特利爾舉行的第42屆IEEE國(guó)際數(shù)據(jù)工程大會(huì)(ICDE 2026)公布了本屆錄用論文,中國(guó)技術(shù)團(tuán)隊(duì)表現(xiàn)亮眼,其中騰訊共有6篇論文入選,攻破了數(shù)據(jù)庫(kù)多項(xiàng)核心技術(shù)的性能瓶頸。
據(jù)了解,ICDE與SIGMOD、VLDB并列數(shù)據(jù)庫(kù)領(lǐng)域三大頂級(jí)學(xué)術(shù)會(huì)議,被中國(guó)計(jì)算機(jī)學(xué)會(huì)評(píng)為A類會(huì)議,近年論文錄用率約為20%,代表了全球數(shù)據(jù)庫(kù)技術(shù)的風(fēng)向標(biāo)。
本屆入選論文的選題來(lái)自生產(chǎn)環(huán)境中的實(shí)際難題,由騰訊與多所頂尖高校聯(lián)合完成。工程團(tuán)隊(duì)從業(yè)務(wù)運(yùn)行中提煉出明確的技術(shù)瓶頸,高校研究者提供算法層面的突破思路,雙方通過(guò)產(chǎn)學(xué)研協(xié)作推進(jìn)解決方案。
例如,傳統(tǒng)數(shù)據(jù)庫(kù)在按關(guān)鍵字查找數(shù)據(jù)時(shí)效率很高,但一旦用戶需要按屬性做范圍篩選——比如查詢“價(jià)格在100到500之間的商品”——響應(yīng)速度就會(huì)大幅下降。騰訊與中國(guó)人民大學(xué)合作完成的《Doux: Decoupling Values from Keys for Real-Time Analytics》,為此設(shè)計(jì)了一種雙路并行的存儲(chǔ)方案,實(shí)測(cè)將范圍篩選速度提升了5倍,同時(shí)數(shù)據(jù)寫入速度提升近3倍。
查詢效率優(yōu)化是另一個(gè)長(zhǎng)期難題。數(shù)據(jù)庫(kù)執(zhí)行查詢前會(huì)將語(yǔ)句改寫為更高效的等價(jià)形式,但改寫能力受限于系統(tǒng)預(yù)置的規(guī)則數(shù)量。騰訊與深圳大學(xué)合作的《Efficient Query Rewrite Rule Discovery via Standardized Enumeration and Learning-to-Rank》,提出用算法自動(dòng)挖掘這類規(guī)則,累計(jì)超100萬(wàn)條,這也是目前公開驗(yàn)證的最大規(guī)模規(guī)則庫(kù)。
當(dāng)數(shù)據(jù)庫(kù)需要同時(shí)處理交易和分析兩類任務(wù)時(shí),還面臨一個(gè)調(diào)度難題:哪些數(shù)據(jù)應(yīng)該提前加載到高速緩存中?判斷失誤會(huì)浪費(fèi)資源或拖慢查詢。騰訊與中國(guó)人民大學(xué)合作的論文《Telescope: A Learned What-If Call for Column Store Selection in HTAP Databases》,通過(guò)機(jī)器學(xué)習(xí)模型預(yù)判加載收益,不必真正加載就能做出決策,預(yù)測(cè)誤差比此前方法降低了68%。
此外,在Data+AI前沿領(lǐng)域,騰訊云與復(fù)旦大學(xué)合作的《CYANSQL: Unlock the Power of NL2SQL via Clustering-based Test-Time Scaling》,聚焦“用自然語(yǔ)言查數(shù)據(jù)”的準(zhǔn)確性。用戶用自然語(yǔ)言描述需求、系統(tǒng)自動(dòng)生成查詢語(yǔ)句的能力已較成熟,但遇到多表關(guān)聯(lián)等復(fù)雜場(chǎng)景時(shí)錯(cuò)誤率仍偏高——根本原因在于提示中的示例難以覆蓋所有復(fù)雜 SQL 邏輯組合。CYANSQL將歷史查詢按邏輯結(jié)構(gòu)歸類,在推理階段從不同結(jié)構(gòu)簇中并行生成多條候選方案,并以執(zhí)行結(jié)果驗(yàn)證篩選,讓模型在推理時(shí)"看到"更全面的邏輯結(jié)構(gòu)。在標(biāo)準(zhǔn)評(píng)測(cè)集 BIRD 上,CYANSQL 召回率較行業(yè)最佳水平提升近 5 個(gè)百分點(diǎn),執(zhí)行準(zhǔn)確率達(dá)到 73.47%。相關(guān)技術(shù)已在騰訊云數(shù)據(jù)分析智能體(TCDataAgent)中落地。
產(chǎn)學(xué)研協(xié)作已成為關(guān)鍵基礎(chǔ)設(shè)施創(chuàng)新的重要路徑。目前,騰訊云數(shù)據(jù)庫(kù)TDSQL已服務(wù)超100家金融機(jī)構(gòu)核心系統(tǒng),穩(wěn)定支撐四大國(guó)有銀行;CYANSQL相關(guān)技術(shù)也已落地騰訊云數(shù)據(jù)智能產(chǎn)品的自然語(yǔ)言查詢功能。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。