網(wǎng)友評(píng)分: 5分
微軟神經(jīng)網(wǎng)絡(luò)語(yǔ)音合成工具是一款專為語(yǔ)音合成所推出的輔助軟件。它適用于配音、講解、說(shuō)書(shū)、廣告等場(chǎng)景,還有各種語(yǔ)音種類、風(fēng)格、語(yǔ)速、語(yǔ)調(diào)等你調(diào)整,讓你可以合成出更加完美的語(yǔ)音,免費(fèi)下載。
已累計(jì)支持129種語(yǔ)言,330多種神經(jīng)網(wǎng)絡(luò)聲音,是迄今為止做的最自然、最貼近人聲的語(yǔ)音合成技術(shù)。
1. 開(kāi)發(fā)理由
雖然語(yǔ)音合成技術(shù)很早就有,唯一的缺點(diǎn)就是很少有面向普通人的可視化操作工具,一方面開(kāi)發(fā)這種工具變現(xiàn)困難,另一方面這些可視化工具以往依賴于最底層的C類編程語(yǔ)言,不過(guò)都2022年了,許多跨端技術(shù)的出現(xiàn),比如fluent、webview2等,使得以往全棧開(kāi)發(fā)者都可以降維開(kāi)發(fā)桌面跨端app。這也是我開(kāi)發(fā)這套工具的技術(shù)基礎(chǔ)。
本次開(kāi)發(fā)借助wails工具,實(shí)現(xiàn)了go后端+vue前端合并開(kāi)發(fā),最終體積只有3.6Mb,里面包含15種音頻預(yù)覽。這種組合開(kāi)發(fā),既可以全前端wasm實(shí)現(xiàn),也可以用go實(shí)現(xiàn),自由度非常高。除此之外,微軟亞洲研究院也詳細(xì)介紹了fastspech模型和相關(guān)文獻(xiàn)資料,對(duì)科研工作者的故事和背景做了詳細(xì)報(bào)道,反觀國(guó)內(nèi)互聯(lián)網(wǎng)企業(yè),涉及技術(shù)性的東西從來(lái)只是強(qiáng)堆概念,微軟亞洲研究院在這方面做的就很開(kāi)放和自由,帶給閱讀者更多啟發(fā)。
2. 為什么做paper2gui?
當(dāng)今世界,技術(shù)再牛,如果沒(méi)有簡(jiǎn)單的可視化操作入口,只能塵封。價(jià)值來(lái)源于廣泛的使用,挖掘那些論文里被塵封的潛在價(jià)值,就是半年前我創(chuàng)建paper2gui的初衷,讓更人工智能產(chǎn)物更簡(jiǎn)單直接的面向普通大眾。
3. 反內(nèi)耗后的研究思路
在書(shū)寫(xiě)代碼的風(fēng)格里,類yaml格式最符合人腦,也最受歡迎,比如python、pug、stylus,在項(xiàng)目范疇上,通用倉(cāng)庫(kù)更容易獲得青睞,比如antfu大佬寫(xiě)的unplugin系列遠(yuǎn)比unocss受歡迎,后者頂多只能做到類tailwindcss這樣的分流主線,有著創(chuàng)始人意味,而unplugin系列包羅萬(wàn)象,這種兼容性極強(qiáng)的工具,就會(huì)成為類vue或vite,成為萬(wàn)千喜愛(ài)的大眾項(xiàng)目。
國(guó)內(nèi)很多新手眼界很窄,從來(lái)不想想跨領(lǐng)域的事情,只覺(jué)得眼下就是一切,一葉障目很危險(xiǎn)的。像我,不僅廣泛瀏覽和思考全球優(yōu)秀的UI設(shè)計(jì),同時(shí)也全棧開(kāi)發(fā)一些網(wǎng)頁(yè),還有降維操作的桌面app,實(shí)時(shí)查看GitHub感興趣的倉(cāng)庫(kù)代碼變更,從源頭理清開(kāi)發(fā)者思路,雖然不能主動(dòng)提出科研問(wèn)題,卻可以按月實(shí)現(xiàn)一個(gè)自己的小靈感。越是前沿、越是國(guó)際化的東西,實(shí)際上最終都是通用的,讓你感受到的痛點(diǎn)和爽點(diǎn),在程序領(lǐng)域總有類似的群體感覺(jué),所以日常更新迭代就可以逐步趨向大同。
假如你持久跟隨在這些頂尖開(kāi)發(fā)者的邏輯,漸漸的你就有了他們視角之外的想法,從而提出改進(jìn)意見(jiàn)或者干脆自己提個(gè)pull。在追逐nuxt3的更新里,我認(rèn)識(shí)了國(guó)內(nèi)antfu大佬,老外怒贊他一個(gè)人頂十個(gè),精力無(wú)限靈感無(wú)限,更重要的是人家樂(lè)意為開(kāi)源服務(wù)。在追逐ncnn項(xiàng)目時(shí),我認(rèn)識(shí)了nihui這樣的大佬,雖然不像antfu那樣高產(chǎn),但確實(shí)把論文變成普通人使用的工具上有很突破,本次的微軟神經(jīng)網(wǎng)絡(luò)語(yǔ)音合成,讓我認(rèn)識(shí)了Xu Tan譚旭這樣的國(guó)內(nèi)人工語(yǔ)音合成領(lǐng)域的高手。追逐這些頂尖高手的過(guò)程,很有趣,見(jiàn)識(shí)也大漲,不懼怕失敗,也不懼怕錯(cuò)誤,面對(duì)全新的想法付出實(shí)踐時(shí),如果沒(méi)有99%的失敗,證明的你的工作毫無(wú)創(chuàng)意。這也是我連續(xù)數(shù)月不斷挑戰(zhàn)多個(gè)領(lǐng)域,每月一個(gè)新品的現(xiàn)實(shí)行動(dòng),高產(chǎn)出,高實(shí)踐,高挫折,同樣帶給我無(wú)限的喜悅、興奮和自豪。
標(biāo)簽: 微軟
關(guān)于本站|下載幫助|下載聲明|軟件發(fā)布|聯(lián)系我們
Copyright ? 2005-2024 daaijiaoyu.cn.All rights reserved.
浙ICP備06019006號(hào)-1 浙公網(wǎng)安備33038102330474號(hào)