vConnectPhoneme.h 7.3 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196
  1. #ifndef __vConnectPhoneme_h__
  2. #define __vConnectPhoneme_h__
  3. #include <vorbis/vorbisfile.h>
  4. #include <fftw3.h>
  5. #include <string>
  6. #include "utau/UtauParameter.h"
  7. using namespace std;
  8. using namespace vconnect;
  9. // 音量正規化用のマジックナンバー
  10. const double VOL_NORMALIZE = 0.06;
  11. /// <summary>
  12. /// 音素片の形式に対応した列挙子です.
  13. /// </summary>
  14. enum phonemeMode {
  15. VCNT_UNKNOWN = -1, // 形式不明.
  16. VCNT_COMPRESSED = 0, // Ogg + MelCepstrum に圧縮された形式.
  17. VCNT_RAW = 1, // 波形データをそのまま使う形式.
  18. };
  19. /// <summary>
  20. /// vConnect-STANDの1音素片を格納するクラスです.
  21. /// </summary>
  22. class vConnectPhoneme
  23. {
  24. public: // public method
  25. vConnectPhoneme();
  26. ~vConnectPhoneme();
  27. /// <summary>
  28. /// 与えられた波形を音素片へと変換します.
  29. /// </summary>
  30. /// <param name="wave">波形を格納した配列.</param>
  31. /// <param name="length">波形用配列長.</param>
  32. /// <param name="fs">標本化周波数.</param>
  33. /// <param name="framePeriod">分析シフト長.</param>
  34. /// <param name="cepstrumLength">ケプストラムの次元.</param>
  35. /// <returns>計算に成功したときは 0, 失敗したときは -1 を返します.</returns>
  36. int computeWave(
  37. double *wave,
  38. int length,
  39. int fs,
  40. double framePeriod,
  41. int cepstrumLength = 32 );
  42. /// <summary>
  43. /// 与えられたファイルパスから圧縮形式の音素片を読み込みます.
  44. /// </summary>
  45. /// <param name="path">読み込みたいファイルのパス.</param>
  46. /// <returns>読み込みに成功したときは true, 失敗したときは false を返します.</returns>
  47. bool readPhoneme( const char *path );
  48. /// <summary>
  49. /// 与えられたファイルパスへ圧縮形式の音素片を書き込みます.
  50. /// </summary>
  51. /// <param name="path">書き込みたいファイルのパス.</param>
  52. /// <returns>書き込みに成功したときは true, 失敗したときは false を返します.</returns>
  53. bool writePhoneme( const char *path );
  54. /// <summary>
  55. /// 与えられた UTAU 原音設定から波形を保持する音素片を得ます.
  56. /// </summary>
  57. /// <param name="path">読み込むディレクトリパス.</parm>
  58. /// <param name="params">UTAU 原音設定.</param>
  59. /// <param name="framePeriod">フレーム単位時間.</param>
  60. /// <returns>読み込みに成功したときは true,失敗時は false を返します.</returns>
  61. bool readRawWave( string dir_path, const UtauParameter *params, double framePeriod );
  62. /// <summary>
  63. /// 今保持している音素片の該当箇所のメルケプストラムを取得します.
  64. /// </summary>
  65. /// <param name="index">読み込むフレーム時刻</param>
  66. /// <param name="length">ケプストラムの次元.</param>
  67. /// <returns>成功したときは,該当箇所のケプストラムへのポインタ,失敗したときは NULL を返します.</returns>
  68. float *getMelCepstrum( int index, int *length );
  69. /// <summary>
  70. /// 今保持している音素片の該当箇所の F0 を取得します.
  71. /// </summary>
  72. /// <param name="index">読み込むフレーム時刻</param>
  73. /// <returns>成功したときは,該当箇所の F0,失敗したときは -1 を返します.</returns>
  74. float getF0( int index );
  75. /// <summary>
  76. /// 今保持している音素片の長さを取得します.
  77. /// </summary>
  78. /// <returns>音素片フレーム長.</returns>
  79. int getTimeLength()
  80. {
  81. return timeLength;
  82. }
  83. /// <summary>
  84. /// 今保持している音素片の励起信号 Ogg ストリームを開きます.
  85. /// </summary>
  86. /// <param name="ovf">開きたい Ogg ストリーム.</param>
  87. /// <returns>成功したときは true,失敗したときは false を返します.</returns>
  88. bool vorbisOpen( OggVorbis_File *ovf );
  89. /// <summary>
  90. /// 今保持しているデータの形式を取得します.
  91. /// </summary>
  92. /// <returns>データ保持形式.</returns>
  93. phonemeMode getMode()
  94. {
  95. return mode;
  96. }
  97. /// <summary>
  98. /// 現在保持しているデータが波形の際,対応する箇所の STAR パラメータを計算します.
  99. /// </summary>
  100. /// <param name="starSpec">STAR スペクトルを書き込むバッファ.</param>
  101. /// <param name="residualSpec">PLATINUM 残差スペクトルを書き込むバッファ.</param>
  102. /// <param name="t">計算したいフレーム時刻.</param>
  103. /// <param name="fftLength">FFT 長.</param>
  104. /// <param name="waveform">FFT 長の作業領域.</param>
  105. /// <param name="spectrum">FFT 長の作業領域.</param>
  106. /// <param name="cepstrum">FFT 長の作業領域.</param>
  107. /// <param name="forward_r2c">waveform -> spectrum の FFTW プラン.</param>
  108. /// <param name="forward">spectrum -> cepstrum の FFTW プラン.</param>
  109. /// <param name="inverse">cepstrum -> spectrum の FFTW プラン.</param>
  110. void getOneFrameWorld( double *starSpec,
  111. fftw_complex *residualSpec,
  112. double t, int fftLength,
  113. double *waveform,
  114. fftw_complex *spectrum,
  115. fftw_complex *cepstrum,
  116. fftw_plan forward_r2c,
  117. fftw_plan forward,
  118. fftw_plan inverse);
  119. /// <summary>
  120. /// 現在保持しているデータが波形の際,対応する箇所の STAR パラメータを計算します.
  121. /// </summary>
  122. /// <param name="frameTime"> フレーム時刻 </param>
  123. /// <returns> 該当時刻のフレームインデックス. </returns>
  124. double getFrameTime(int frameTime);
  125. double getBaseFrameTime(int frameTime);
  126. void setTimeAxis(double *t, int length);
  127. void setBaseTimeAxis(double *base, int length);
  128. public: // public static method
  129. /// <summary>
  130. /// 開いた Ogg ストリームを閉じます.
  131. /// </summary>
  132. /// <param name="ovf">閉じたい Ogg ストリーム.</param>
  133. static void vorbisClose(OggVorbis_File *ovf){ ov_clear(ovf); }
  134. private: // private static method
  135. // OggVorbis_File で使用する call back 関数群
  136. static size_t vorbisRead(void *dst, size_t size, size_t maxCount, void *vp);
  137. static int vorbisSeek(void *vp, ogg_int64_t offset, int flag);
  138. static int vorbisClose(void *vp);
  139. static long vorbisTell(void *vp);
  140. private: // private method
  141. void destroy();
  142. private: // private field
  143. struct V_FILE {
  144. char *p;
  145. int pos;
  146. int size;
  147. };
  148. int timeLength;
  149. int cepstrumLength;
  150. int vorbisSize;
  151. float framePeriod;
  152. float **melCepstrum;
  153. float *f0;
  154. float *t;
  155. char *vorbisData;
  156. // 転写用
  157. float *baseTimeAxis;
  158. int baseTimeLength;
  159. double *wave;
  160. int waveLength;
  161. int *pulseLocations;
  162. int waveOffset;
  163. phonemeMode mode;
  164. };
  165. #endif