編輯點(diǎn)評(píng):自媒體配音必備的語(yǔ)音合成軟件
非常適合需要自媒體配音的朋友使用,tts語(yǔ)音合成助手是一個(gè)專(zhuān)業(yè)的工具,支持文字轉(zhuǎn)語(yǔ)音,大咖主播,廣告配音,海量的素材可以選擇,還可以將mp3文件導(dǎo)出來(lái)在u播上播放,很實(shí)用。
破解說(shuō)明
已破解付費(fèi)功能,免費(fèi)使用所有功能。
可以選擇語(yǔ)音聲音、調(diào)整語(yǔ)速、免費(fèi)音樂(lè)和導(dǎo)入文本等。
需要制作短視頻配音的同學(xué)可以試試。
功能介紹
1、智能語(yǔ)音合成:專(zhuān)業(yè)配音,一鍵合成。
2、導(dǎo)出Mp3文件:生成的MP3文件可以拷貝到U盤(pán)或者內(nèi)存卡里面播放。
3、藍(lán)牙播放:可連接藍(lán)牙音箱播放,無(wú)需導(dǎo)出文件也可使用。
4、海量背景音樂(lè):支持添加背景音,個(gè)性化定制背景音樂(lè)。
5、文字轉(zhuǎn)語(yǔ)音,簡(jiǎn)單快捷。
優(yōu)勢(shì)介紹
1、操作簡(jiǎn)單,中英文隨意切換,多種發(fā)音人選擇。
2、海量背景音樂(lè),與您的廣告完美搭配。
3、同步導(dǎo)出MP3和歌詞文件,多平臺(tái)分享微信朋友圈和好友。
4、支持藍(lán)牙音箱播放,無(wú)需導(dǎo)出文件免費(fèi)播放。
支持的場(chǎng)景
1、廣告配音:商場(chǎng)廣告促銷(xiāo)、地?cái)偨匈u(mài)、企業(yè)宣傳、影視配音等。
2、英語(yǔ)讀物:制作各類(lèi)英語(yǔ)配音,英語(yǔ)聽(tīng)力音頻制作等。
3、有聲閱讀:小說(shuō)、雜志、課本、童話,打造屬于你的個(gè)性化聽(tīng)書(shū)APP。
4、廣播配音:學(xué)校、企業(yè)、車(chē)站、機(jī)場(chǎng)、商場(chǎng)的廣播播音。
5、配音類(lèi):動(dòng)畫(huà)片、flash影片、各類(lèi)廣播劇。
6、影視配音:廣告片配音、影視片配音、動(dòng)畫(huà)后期配音。
7、工業(yè)用聲:防盜、報(bào)警、車(chē)輛船舶導(dǎo)航系統(tǒng)的語(yǔ)音錄制。
8、出版物:有聲讀物、文藝作品、課件、培訓(xùn)軟件的語(yǔ)音錄制。
9、多媒體:光盤(pán)解說(shuō)、集團(tuán)彩鈴、電信、金融CTI的語(yǔ)音錄制。
10、解說(shuō)配音:企業(yè)專(zhuān)題片、建筑動(dòng)畫(huà)、工程標(biāo)書(shū)解說(shuō)等配音解說(shuō)。
11、教學(xué)配音:電子詞典、教材、電子圖書(shū)、各類(lèi)語(yǔ)音IC系列錄制。
12、自有視頻配音:快手等自媒體視頻快速配音,適配剪映、快影等本地導(dǎo)入功能。
語(yǔ)音和TTS介紹
語(yǔ)音合成基礎(chǔ)(1)——語(yǔ)音和TTS
本文未經(jīng)允許,禁止轉(zhuǎn)載,謝謝合作。
本文我們主要介紹語(yǔ)音合成的一些基礎(chǔ)知識(shí),我們從最基本的發(fā)聲的物理過(guò)程開(kāi)始,逐步深入到語(yǔ)音合成。
1. 語(yǔ)音
發(fā)聲的物理過(guò)程
總體來(lái)說(shuō), 我們首先在腦中產(chǎn)生要說(shuō)的東西的概念,然后大腦會(huì)控制肌肉來(lái)調(diào)整聲道中的空氣流動(dòng),從而產(chǎn)生語(yǔ)音。
空氣從肺(lung)中產(chǎn)生(當(dāng)然一開(kāi)始是你把空氣吸進(jìn)來(lái)的),聲帶(vocal chord)使得空氣產(chǎn)生震動(dòng),因此控制了基礎(chǔ)頻率(base frequency),是聲音產(chǎn)生的起點(diǎn)。
基礎(chǔ)聲波會(huì)依次通過(guò)聲道(vocal tract)、軟顎(palate,即將嘴的上半部分和鼻子分開(kāi)的部分)、口腔(oral cavity)和舌頭(lip)等器官,這些器官相當(dāng)于一個(gè)大的濾波器,調(diào)整了原始聲波的頻率,從而生成了最終的語(yǔ)音。
phone/sound
任何清晰的語(yǔ)音都是phone/sound
phoneme音素
能區(qū)分意義的最小聲音單位
比如dog和fog中,d和f只要改變一個(gè)就改變了意義。
voiced/unvoiced
聲帶振動(dòng)/不振動(dòng)
漢語(yǔ)中一般稱(chēng)這兩個(gè)概念為濁音和清音
清音
簡(jiǎn)單來(lái)說(shuō),發(fā)清音時(shí)聲帶不振動(dòng),因此清音沒(méi)有周期性。
如:[p]pea豌豆、[t]tea茶、[k]key鑰匙、[f]fat肥胖、[s]seat座位
濁音
發(fā)音時(shí)聲帶振動(dòng)的音稱(chēng)為濁音。輔音有清有濁,而多數(shù)語(yǔ)言中的元音均為濁音,鼻音、邊音、半元音也是濁音。
vowel元音
Sound produced with open vocal tract,一般都是voiced,元音的清晰度主要取決于聲道的形狀
consonant輔音
Sound produced with (partially) closed vocal tract,輔音可以是清音也可以是濁音(voice/voiceless)。輔音的質(zhì)量同樣取決于聲道關(guān)閉的形狀,且有很多種類(lèi)的發(fā)音
爆破音Stops/plosives: total closing + “explosive” release,比如p
鼻音Nasals:停止的時(shí)候鼻腔會(huì)張開(kāi), 比如n
摩擦音fricatives:聲道半張半開(kāi),因此產(chǎn)生震動(dòng),比如s, z
半元音approximants:發(fā)音時(shí)聲道先閉合然后再?gòu)堥_(kāi),比如w, j
下圖展示了元音和輔音發(fā)音時(shí)各種發(fā)音器官的變化
2. 語(yǔ)音的頻率
speech wave
語(yǔ)音波是一種compound wave,即包含各種頻率的波。因此在頻域上表示語(yǔ)音更為合適。
pitch音高
聲音的尖銳程度,在頻域中表現(xiàn)為頻率的高低。
基礎(chǔ)頻率F0
正如我們之前介紹的,濁音中存在基礎(chǔ)頻率,而清音中不存在,F(xiàn)0決定了聲音的音高。
formants共振峰
是一種元音特有的在頻域中的現(xiàn)象,因?yàn)橹挥性粲谢A(chǔ)頻率。每個(gè)元音都有兩個(gè)共振峰,可以用來(lái)區(qū)分元音,記為F1和F2。F1,F2取決于基礎(chǔ)頻率,如果基礎(chǔ)頻率太高,共振峰可能會(huì)消失,這種情況下就區(qū)分不出來(lái)元音,這種現(xiàn)象在各種女高音身上比較常見(jiàn)。
timbre音色
音色在廣義上是指聲音不同于其它的特點(diǎn),在語(yǔ)音中不同的音節(jié)都有不同的特點(diǎn),這可以通過(guò)頻域觀察出來(lái),另外,特別地,對(duì)于元音我們可以通過(guò)共振峰來(lái)分辨音色。
noise
噪音、輔音(摩擦音)都會(huì)有broad spectrum,也就是說(shuō)我們無(wú)法通過(guò)共振峰來(lái)識(shí)別它們。
下圖展示了各種聲音在時(shí)頻域中的樣子:
envelope包絡(luò)
在波的時(shí)域和頻域圖中,用來(lái)形容圖形的整體形狀的叫做包絡(luò)。
比如在時(shí)域中,如果時(shí)間的分辨率較低,我們可以看到語(yǔ)音被分成一個(gè)一個(gè)菱形,上半部分三角形的輪廓就叫做包絡(luò)。
3. Utterance
hierarchy of phone
如下圖所示:
可以看到Utterance滿足層次結(jié)構(gòu),一般提取特征也是基于多個(gè)層次來(lái)做的。
syllables
最小的可以發(fā)聲(pronounceable)的單元。
open syllable:以元音為結(jié)尾的音節(jié),日語(yǔ)基本上都是這樣
closed syllable:以輔音為結(jié)尾的音節(jié)
consonant cluster:很多個(gè)輔音連接在一起,英文中常見(jiàn)
accent / stress units
發(fā)音的特性,有些語(yǔ)言通過(guò)聲調(diào)來(lái)區(qū)分意義,比如日語(yǔ)或者中文,而英語(yǔ)是通過(guò)重音來(lái)區(qū)分意義的。
rhythm / isochrony
也就是發(fā)聲時(shí)候的節(jié)奏,比如日語(yǔ)是平假名分隔,而中文是漢字,英文是由重音來(lái)作為分隔的。
prosodic / intonation units
韻律、聲調(diào),針對(duì)單詞和短語(yǔ)
utterances
一般是句子,但也可以變長(zhǎng)。標(biāo)點(diǎn)符號(hào)分隔。
neighboring phones influence each other a lot。
4. 語(yǔ)音合成及其歷史
TTS
Text-To-Speech,語(yǔ)音合成,特指從文字合成出語(yǔ)音
VC
Voice Conversion,聲音轉(zhuǎn)換,就是把一個(gè)人的聲音轉(zhuǎn)成另一個(gè)
ASR
Automatic Speech Recognition,即語(yǔ)音識(shí)別,從語(yǔ)音到文字
歷史
Mechanical speech production system-1790,即機(jī)械系統(tǒng)
Electric system-1930,電子系統(tǒng),鍵盤(pán)操作,貝爾實(shí)驗(yàn)室開(kāi)發(fā)
Computer TTS-1960,基于計(jì)算機(jī)的TTS
Production systems-1980
5. TTS Pipeline
傳統(tǒng)的TTS主要是通過(guò)組合多個(gè)模塊構(gòu)成流水線來(lái)實(shí)現(xiàn)的,整個(gè)系統(tǒng)可以大致分為前端(frontend)和后端(backend)。
frontend
主要是文字處理,使用NLP技術(shù),從離散到離散,包括基本的分詞、text normalization、POS以及特有的Pronunciation標(biāo)注。
前端和后端基本獨(dú)立。
backend
根據(jù)前端結(jié)果生成語(yǔ)音,從離散到連續(xù)
segmentation & normalization
去噪、分句、分詞以及把縮寫(xiě)、日期、時(shí)間、數(shù)字還有符號(hào)都換成可發(fā)音的詞,這一步叫spell out。
基本都基于規(guī)則
grapheme-to-phoneme
利用發(fā)音詞典和規(guī)則,生成音素。
音素一般利用ASCII編碼,比如SAMPA和ARPAbet,這種編碼在深度模型中也可以被支持。
這里的一個(gè)問(wèn)題是pronunciation一般基于上下文,因?yàn)樯舷挛目赡軟Q定了詞的詞性等,比如read的過(guò)去式就有不同的讀音。
IPA(international Phonetic Alphabet)
是一個(gè)基于拉丁字母的語(yǔ)音標(biāo)注系統(tǒng)。IPA只能表示口語(yǔ)的性質(zhì),比如因素,音調(diào),音節(jié)等,如果還想要表示牙齒舌頭的變動(dòng)則還有一個(gè)extension IPA可以用。
IPA中最基本兩種字母是letter和diacritic(變音符號(hào)),后者用來(lái)表示聲調(diào)。
IPA雖然統(tǒng)一了不同語(yǔ)言的發(fā)音,但是英語(yǔ)本身是stress language所以注音很少,而中文這樣依賴(lài)于音調(diào)的語(yǔ)言就會(huì)包含很多音調(diào)。
intonation/stress generation
這一步比較難,基本根據(jù)規(guī)則,或者構(gòu)造統(tǒng)計(jì)模型
SSML(speech synthesis markup language)
一種專(zhuān)門(mén)為語(yǔ)音合成做出來(lái)的語(yǔ)言,基于XML,包含了發(fā)音信息。
waveform synthesis
包含很多方法
formant-based: 基于規(guī)則來(lái)生成共振峰還有其它成分
concatenative: 基于database copy&paste
parametric model: HMM等,神經(jīng)網(wǎng)絡(luò)就是最新的參數(shù)模型
更新日志
2.0.11更新
1、【修復(fù)】部分bug,優(yōu)化用戶(hù)體驗(yàn)
2.0.9更新
1、【修復(fù)】部分已知bug,優(yōu)化用戶(hù)體驗(yàn)
2.0.5更新
1、【修復(fù)】部分已知bug,優(yōu)化用戶(hù)體驗(yàn)
1.4.1120更新
1、【增加】文件分享功能,一鍵分享你的音頻
2、【增加】云端儲(chǔ)存功能,文件查看更便捷
3、【增加】作品集文件管理功能,分類(lèi)更清晰
4、【修復(fù)】部分已知bug,優(yōu)化用戶(hù)體驗(yàn)
1.4.1118更新
1、【修復(fù)】部分Bug,優(yōu)化體驗(yàn)
Windows 10支持( 0 ) 蓋樓(回復(fù))