百度推出的這個音頻轉(zhuǎn)文本應(yīng)用 據(jù)說比人工速記快1.67倍
百度推出的這個音頻轉(zhuǎn)文本應(yīng)用 據(jù)說比人工速記快1.67倍
百度人工智能中的語音識別技術(shù)正在變革速記行業(yè)。
近日,百度宣布推出一款能將音頻轉(zhuǎn)化為文字的SwiftScribe網(wǎng)頁應(yīng)用,將改變完全依賴人工的速記行業(yè)現(xiàn)狀。該網(wǎng)頁應(yīng)用背靠百度深度語音識別系統(tǒng),將音頻文件轉(zhuǎn)為文本,轉(zhuǎn)化效率較人工速記快1.67倍。
百度首席科學(xué)家吳恩達認為,這一應(yīng)用將改變采訪和視頻字幕生成,他在社交網(wǎng)絡(luò)上評論稱:“該應(yīng)用非常適合將長語音轉(zhuǎn)換為文本的人士,人工智能將實現(xiàn)1+1大于2的效果?!?/p>
具體應(yīng)用方面,用戶可在PC端打開SwiftScribe網(wǎng)頁應(yīng)用,選取wav和mp3格式的文件上傳,系統(tǒng)就能馬上進行處理,時長1分鐘的音頻文件可以在30秒內(nèi)轉(zhuǎn)換完成。用戶可使用鍵盤快捷鍵就能進行加快播放、后退和添加換行符等操作,處理完成后,只需人工調(diào)整大小寫、標點及部分拼寫細節(jié)即可快捷、準確地完成音頻轉(zhuǎn)換。
百度推出的音頻文件轉(zhuǎn)文本應(yīng)用SwiftScribe。
從使用效果看,SwiftScribe可為速記員帶來1.67倍的效率提升,縮短40%的工作時間。目前該系統(tǒng)可處理1小時內(nèi)的音頻文件。
據(jù)悉,百度首先會邀請30-50名速記員對該應(yīng)用的測試版本進行測試。
百度方面透露,該應(yīng)用未來會增加視頻文件的語音識別及自動添加標點符號等功能,并支持更多文件格式,降低用戶使用門檻。
此次推出的SwiftScribe網(wǎng)頁應(yīng)用,依托于百度新一代深度語音識別系統(tǒng)Deep Speech 2,該系統(tǒng)曾被《麻省理工科技評論》評為“2016年十大突破技術(shù)”之一。通過利用長達數(shù)千小時的語音數(shù)據(jù)訓(xùn)練,Deep Speech 2可以不斷“學(xué)習”從語音中識別特定的字或詞。
2016年9月1日,在2016百度世界大會上,百度董事長兼首席執(zhí)行官李彥宏表示,百度語音識別的準確率能夠達到97%,已經(jīng)超過了人對語音的識別能力。
據(jù)了解,百度在2016年推出了應(yīng)用DeepSpeech2的安卓輸入法TalkType,讓用戶能夠用語音快速輸入文字。百度硅谷人工智能實驗室項目領(lǐng)導(dǎo)人Bijit Halder在公告中稱:“TalkType是首款智能語音優(yōu)先輸入法。”
對話機器將成為2017人工智能的發(fā)展風口,百度吳恩達曾在接受《華爾街日報》采訪時表示,隨著準確率的提高和用戶體驗的提升,百度的語音產(chǎn)品已度過用戶心目中的“試用期”。在語音產(chǎn)品迅猛發(fā)展的大環(huán)境下,亞馬遜、蘋果、谷歌(微博)和微軟等科技巨頭都在加緊研發(fā)各自的語音識別技術(shù)。
國內(nèi)的智能語音及語言技術(shù)、人工智能技術(shù)研究公司科大訊飛,此前已經(jīng)推出了以語音轉(zhuǎn)文字為核心業(yè)務(wù)的轉(zhuǎn)寫服務(wù)平臺——訊飛聽見網(wǎng)站。據(jù)該網(wǎng)站介紹,科大訊飛的機器轉(zhuǎn)寫服務(wù)一小時音頻約5分鐘轉(zhuǎn)寫成稿。如果是音質(zhì)清晰、普通話標準的音頻,轉(zhuǎn)寫正確率可達90%以上。
目前,百度SwiftScribe音頻轉(zhuǎn)換服務(wù)免費對外開放。據(jù)百度方面人士透露,未來希望將該應(yīng)用向商業(yè)化應(yīng)用轉(zhuǎn)變。
繼續(xù)閱讀與本文標簽相同的文章