日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
特寫 正文
發(fā)私信給游瑞
發(fā)送

12

錄音轉(zhuǎn)文字,聽道可能成為速記終結(jié)者嗎?

本文作者: 游瑞 2015-12-02 09:14
導(dǎo)語:機器替代人工速記,有何不可。

在很多重要的場所或者對話過程中,需要用到速記,它的特點就是記錄速度快、效率高,可以用比漢字快三倍以上的書寫速度來記錄別人的對話。但速記畢竟是個技術(shù)活,不是人人都可以輕松掌握的一項技能,另外專業(yè)速記人員不好請(現(xiàn)場速記略貴)也是一個不爭的事實,所以在很多場景下,將現(xiàn)場錄音轉(zhuǎn)交速記人員轉(zhuǎn)錄成文字成了不二之選。

那么將錄音轉(zhuǎn)錄為文字,能不需要人工嗎?將語音轉(zhuǎn)化為文字,對目前的技術(shù)而言并非難事,很多語音助手都有較高的語音識別度,就連微信也能直接將語音翻譯為文字,就更別說那些能支持語音輸入的輸入法們,所以要將將錄音轉(zhuǎn)為文字,是可以讓機器完成的。

90后創(chuàng)業(yè)團(tuán)隊聽道在做就是這個,用創(chuàng)始人董建成自己的話說就是“我們自己的‘初心’就是讓更多需要技術(shù)來解決問題的人能用得上高新技術(shù),而不是讓技術(shù)成為擺設(shè),有困難的人還是得不到解決,所以我們定位是在技術(shù)層到應(yīng)用層的企業(yè)“。錄音轉(zhuǎn)文字,聽道可能成為速記終結(jié)者嗎?

雷鋒網(wǎng):語音識別技術(shù)是自己做的嗎?

董建成(公眾號:ting dao):目前采用的語音識別技術(shù)雖然不是自己做得,但也不是哪一家的,而是同時選用了多家語音識別的技術(shù)。之所以不自己做,是這塊如果沒有個一二十年的積累,肯定是做不出來的,尤其是對于小團(tuán)隊來說,第一沒這個能力做,第二即便現(xiàn)在去做,也做不過別人。

選擇多家技術(shù)的糅合也不是沒有章法的,經(jīng)過研究對比,我們發(fā)現(xiàn)每個引擎(語音識別技術(shù))都有自己擅長處理的一個領(lǐng)域,有的善于處理KTV環(huán)境下的錄音,有的對大馬路上的錄音處理效果好,不同環(huán)境下,不同領(lǐng)域內(nèi)的詞匯偏重,都會影響最終的轉(zhuǎn)錄效果。

降噪部分我們自己做,有單獨的算法,不但降噪還能自動把每句話是時間點精確地自動地切分好,提高識別效率,不過音源肯定是清晰度越高越好,因為即使有降噪,也會降低識別準(zhǔn)確度,音源清晰發(fā)音清晰最好

我們還能通過對錄音環(huán)境的甄別,領(lǐng)域的劃分,對比結(jié)果后選擇最好的文字呈現(xiàn)給用戶,但是對于口音暫時沒有自動區(qū)分。引擎與最終結(jié)果的選擇,是系統(tǒng)自動完成的。

雷鋒網(wǎng):讓電腦自己去做對比選擇,這是怎么做到的?它如何去判斷這個錄音是在KTV里面錄的還是在大馬路上錄的?它又怎么能知道這個錄音說的是科技領(lǐng)域內(nèi)的東西還是娛樂圈里面的?

董建成:首先在噪音處理這塊,是我們自己做的,所以通過噪音的頻譜以及響度可以大概區(qū)分出來是處于哪個環(huán)境,然后再去初選引擎。

每個引擎會對自動的對自己識別的結(jié)果給出一個評分,也就是置信度,分?jǐn)?shù)越高表示結(jié)果越準(zhǔn)確,所以置信度的高低決定了最終會選用哪個結(jié)果。

最終的結(jié)果還會跟用戶修改后的文字進(jìn)行對比,一并收納進(jìn)大數(shù)據(jù)庫。若下次再在遇到同樣的結(jié)果時,就能直接在我們這邊直接給出更符合用戶需求的文字。

雷鋒網(wǎng):你們跟這些引擎之間有協(xié)議嗎?

董建成:引擎方提供SDK,其中包含了使用協(xié)議,而我們則是直接使用他們的API做了一個應(yīng)用,即便是用于商業(yè)化也沒有問題,微信就是這樣做的。

雷鋒網(wǎng):你們的轉(zhuǎn)化率如何?

董建成:主要是出于兩點考慮,第一個就是之前所說的通過不斷地收集修改前后的文字對比,來完善最終文字。另一點的話,就還是通過選擇多種引擎來提供最為合適的結(jié)果。

錄音轉(zhuǎn)文字,之所以轉(zhuǎn)化率低,不是因為引擎不行,而是錄音這一塊出的問題會比較多。很多引擎說自己的轉(zhuǎn)化率能達(dá)到95%或者99%,其實也沒錯,不過前提是錄音清晰的情況下。

用微信說話的時候,一般都是拿著手機講,距離比較近,所以轉(zhuǎn)錄效果非常好。而正常錄音的話,一般距離較遠(yuǎn),環(huán)境也會更加復(fù)雜,這樣一來就容易造成錄音不清晰,噪音比較大。

未來,我們可能推出自動定向的錄音麥克風(fēng),采用四點麥克風(fēng)陣列,誰在說話時就調(diào)整陣列,只收集說話人的聲音,算法我們已經(jīng)驗證過了,可行,效果也可以。

錄音轉(zhuǎn)文字,聽道可能成為速記終結(jié)者嗎?

雷鋒網(wǎng):與錄音寶如何競爭?

董建成:錄音寶做到比較好的地方是能實時錄音,能夠顯示錄音時的地址,按時間軸存儲文件,一件轉(zhuǎn)錄文字,也可以一鍵導(dǎo)出音頻與文字。但錄音筆實際上是偏重于日常生活,對于處理工作中一小時,兩小時的長時間錄音的話,它就不是那么方便。比如說,在一段很長的錄音文件中,中間可能有一段錄音是不需要的,但是卻沒辦法刪掉,只能導(dǎo)出來之后,手動修改。

而在我們的網(wǎng)頁版上,就能在導(dǎo)出之前勾選你說需要的或者不需要的內(nèi)容。而且能夠就這每一句話聽錄音編輯修改轉(zhuǎn)錄出來的文字。另外一個就是,我們轉(zhuǎn)錄出來的文字是帶有時間節(jié)點的,可以直接生成字幕格式。比如說,你要發(fā)布一個視頻,那么你就不要再去配字幕了,直接就能用。

我們的定位主要是專業(yè)軟件,能夠多平臺同步處理,只要錄音文件上傳到了云端,那么用戶無論是在家還是辦公室,只要打開這個軟件,就能繼續(xù)編輯,這樣的話,就能不受限于工作地點與電腦。我們不是純做技術(shù),我們是底層技術(shù)研發(fā)和解決用戶實際問題之間的橋梁,是為了將現(xiàn)有的技術(shù)真實用來解決用戶實際需求的。

對于文字的編輯這塊,我們也有獨特的地方,比如說對每一句話的起點與終點劃分,十分準(zhǔn)確,而且是修改哪一行,就能播放哪一句聲音。如果在文字內(nèi)容修改時按回車,不僅文字內(nèi)容會拆分,音頻內(nèi)容也會自動分段,依據(jù)是語音與文字對應(yīng)的頻率,還有時間點。其他基本的文字編輯功能與技巧與常有的WORD差不多。

雷鋒網(wǎng):你們會代替速記這個工種嗎?

董建成:將來發(fā)展是有可能替代速記的,但會很久,目前是幫助速記。

就目前的平臺處理速度而言,一小時的文件,需要10分鐘才能出稿。以后,會采用分段處理的方式,將一段錄音分解成無數(shù)小段,同時轉(zhuǎn)錄,雖然會消耗服務(wù)器大量的計算能力,但能保證一小時文件一分鐘左右完成轉(zhuǎn)錄。

小結(jié)

從成本身而言,現(xiàn)在人力成本太高,請一個速記人員到現(xiàn)場除了要按字付錢之外,還得額外給出勤費,按日計算的。時間成本也高,現(xiàn)場速記可不是當(dāng)場結(jié)束就能當(dāng)場給出的,速記人員還得回過去校隊一次,要不然很多東西是看不懂的,而錄音給速記人員去轉(zhuǎn)錄文章的話,1小時的錄音最快也得花一小時轉(zhuǎn)錄出來。

機器轉(zhuǎn)錄的話,目前基本上都是免費的,以后收費也可能是在精度,處理速度與存儲空間上做文章,所以不用太擔(dān)心。時間現(xiàn)在差一點的一小時文件可能上傳,轉(zhuǎn)錄,導(dǎo)出算一起不到20分鐘的樣子,未來會更快。至于,轉(zhuǎn)化率的問題,人工速記的精度并高,還是需要用戶再次校對,那么隨著機器轉(zhuǎn)錄的置信度的提高,需要用戶校對的地方也只會越來越少。

人工速記定會被機器取代,這一點是可以確定的,但這個速記終結(jié)者是不是聽道,就不要一定了,或許是引擎?zhèn)兊目赡苄愿蟆?/p>

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

雷鋒網(wǎng)上海新聞中心,編輯。關(guān)注智能硬件、汽車科技,致力創(chuàng)業(yè)者服務(wù),微信號:OI23432。
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說