如今,泰語語音中混用的英語單詞<br>通常以典型的說話風格出現。 因此,為了提高<br>語音識別系統的性能,需要泰英語<br>代碼混合語音語料庫。 本文介紹了<br>LOTUS-BI語料庫的設計和構建:LOTUS-BI<br>混合語音語料庫旨在<br>作為訓練聲學模型和語言模型的基本語音數據庫,<br>以獲得更好的語音識別精度。 LOTUS-BI<br>語料庫包含來自以下四個語音任務的16.5語音小時:採訪,<br>談話,研討會和會議。 現在,<br>從互聯網獲得的採訪,演講和研討會獲得的數據有11.5個語音小時<br>被轉錄和註釋。 而<br>從會議任務開始的5個語音小時的其餘時間已在抄錄。 因此,本文僅<br>分析了11.5個語音小時的數據。<br>此外,<br>基於泰語音素集創建了LOTUS-BI語料庫的詞彙發音詞典。<br>LOTUS-BI語料庫的統計分析表明,<br>代碼混合語音佔37.96%,其中<br>句內語音佔34.23%,句間語音佔3.73%。<br>英語詞彙的出現佔<br>語料庫總詞彙的29.04%。 此外,<br>在全語料庫的所有英語詞彙中有90%屬於名詞,而在其他語法<br>類別中則佔10%。
正在翻譯中..