研究者業績

荒井 隆行

アライ タカユキ  (Arai Takayuki)

基本情報

所属
上智大学 理工学部情報理工学科 教授
学位
工学士(上智大学)
工学修士(上智大学)
博士(工学)(上智大学)

連絡先
araisophia.ac.jp
研究者番号
80266072
J-GLOBAL ID
200901064275514612
researchmap会員ID
1000260131

<国内>
2008年4月  上智大学理工学部情報理工学科 教授(現在に至る)
2006年4月  上智大学理工学部電気・電子工学科 教授
2000年4月  上智大学理工学部電気・電子工学科 助教授
1998年4月  上智大学理工学部電気・電子工学科 専任講師
1994年4月  上智大学理工学部電気・電子工学科 助手
1994年3月  上智大学大学院理工学研究科電気・電子工学専攻博士後期課程 修了
1991年3月  上智大学大学院理工学研究科電気・電子工学専攻博士前期課程 修了
1989年3月  上智大学理工学部電気・電子工学科 卒業

<国外>
2003年10月~2004年9月  アメリカMassachusetts Institute of Technology客員研究員
2000年8月、2001年8月、2002年8月、ならびに 2003年10月~2004年9月
       アメリカ Massachusetts Institute of Technology 客員研究員                 
2001年2月  オランダ Max Planck Institute for Psycholinguistics 客員研究員
2000年8月  アメリカ Massachusetts Institute of Technology 客員研究員
1997年1月~1998年3月 / 1998年8月ならびに1999年8月
       アメリカ California 大学 Berkeley 校付属研究機関
        International Computer Science Institute 客員研究員
1992年9月~1993年8月ならびに1995年6月~1996年12月
        アメリカ Oregon Graduate Institute of Science and Technology 客員研究員

音声コミュニケーションに関わる一連の事象は「ことばの鎖(Speech Chain)」と呼ばれ、音声科学・聴覚科学における基本的な概念となっており、その音声コミュニケーションに関して音声科学・聴覚科学、音響学、音響音声学などに関わる科学的側面とその応用に主な焦点を当てて研究を続けてきている。そして、音に関わるあらゆる側面にも研究の範囲を拡大している。カバーする範囲は、次のような幅の広い学際的な研究分野を含む:
・音響学と音響教育(例:声道模型)
・音響音声学を中心とする言語学分野(音声学・音韻論)とその教育応用(応用言語)
・音声生成を含む音声科学と音声知覚を含む聴覚科学、音や音声を含む認知科学
・実環境での音声知覚・音声明瞭度、音声信号処理・音声強調
・音声に関する福祉工学・障害者支援、障害音声の音響分析や聴覚障害者・高齢者の音声生成や音声知覚
・実時間信号処理を含む音声処理アルゴリズムの開発、音に関わるシステムやアプリの開発
・音声の話者性
・その他、音に関する研究全般など

(研究テーマ)
音響学と音響教育(声道模型を含む)
音響音声学を中心とする言語学分野(音声学・音韻論)とその教育応用(応用言語)
音声生成を含む音声科学と音声知覚を含む聴覚科学、音や音声を含む認知科学
実環境での音声知覚・音声明瞭度、音声信号処理・音声強調
音声に関する福祉工学・障害者支援、障害音声の音響分析や聴覚障害者・高齢者の音声生成や音声知覚
実時間信号処理を含む音声処理アルゴリズムの開発、音に関わるシステムやアプリの開発
音声の話者性

(共同・受託研究希望テーマ)
音情報処理
音声言語情報処理
聴覚情報処理


論文

 608
  • 岡田賢治, 荒井隆行, 金寺登, 百村裕智, 村原雄二
    日本音響学会研究発表会講演論文集 2000(2) 53-54 2000年9月  
  • 金寺登, 荒井隆行, 高橋真保呂, 船田哲男
    電子情報通信学会技術研究報告. SP, 音声 100(240) 15-22 2000年7月  
  • 高橋真保呂, 荒井隆行, 金寺登, 高野友紀子, 村原雄二
    日本音響学会研究発表会講演論文集 2000(1) 369-370 2000年3月  
  • 喜田村朋子, 荒井隆行, 楠本亜希子, 村原雄二
    日本音響学会研究発表会講演論文集 2000(1) 333-334 2000年3月  
  • 織田千尋, 小松雅彦, 荒井隆行, 今富摂子, 河原明子, 出世富久子, 岡崎恵子
    音声言語医学 41(1) 70-70 2000年1月  
  • Y Fuchiwaki, N Usuki, T Arai, Y Murahara
    2000 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, PROCEEDINGS, VOLS I-VI 6 3526-3529 2000年  
    This paper describes digital signal processing (DSP) microprocessor experiments designed for university juniors majoring in electric & electronic (E gr E) engineering. At the time of enrollment, most students have only studied the curriculum for analog signal processing which is taken in the prior semester. The proposed DSP microprocessor experiments are included along with analog signal processing. This early-on introduction to DSP technology allows students to realize that, in comparison with analog circuits, DSP microprocessors can process the same signals in real-time with broader flexibility. Such an understanding is considered important to instill strong incentive fur students to become interested in the field of DSP.
  • S Sakaguchi, T Arai, Y Murahara
    2000 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, PROCEEDINGS, VOLS I-VI 2 917-920 2000年  
    In this paper we investigate how polarity inversion of speech signals effects human perception, and we apply this technique for data hiding. In most languages, glottal airflow during phonation is uni-directional, causing constant polarity of the speech waveform. On the other hand, the human auditory system cannot discriminate between speech signals with positive and negative polarity. Based on these facts, we developed an algorithm to hide data in speech signals. We assigned one bit to each syllable of speech, and inverted the polarity of the signal at every syllable according to the assigned bit. We performed a test using 20 sentences from the TIMIT corpus to determine both whether a human could distinguish between the original and polarity-inverted signal and whether we could automatically restore the embedded binary data. We found that we were able to successfully hide data and restore it automatically.
  • A Kusumoto, T Arai, T Kitamura, M Takahashi, Y Murahara
    2000 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, PROCEEDINGS, VOLS I-VI 2 853-856 2000年  
    In this paper we report on a meth od for reducing the degradation of speech intelligibility in public halls caused severe reverberation. Hall reverberation makes speech more difficult to understand, particularly for the hearing-impaired. Our method involves processing the speech audio signal between a microphone and a loudspeaker that radiates the speech into the room. As there is a strong correlation between the modulation spectrum and the intelligibility of speech, we filtered the speech in the modulation frequency domain. Using several modulation filters, we conducted perceptual experiments with hearing-impaired subjects and asked their preference in a church. The experiments indicate that enhancing the modulation frequencies between 2 and 8 Hz improves intelligibility in reverberant environments. The four hearing-impaired subjects rated the processed speech easier to hear than the unprocessed speech.
  • 楠本亜希子, 荒井隆行, 喜田村朋子, 高橋真保呂, 村原雄二
    日本音響学会研究発表会講演論文集 1999(2) 389-390 1999年9月  
  • 金寺登, 高野友紀子, 荒井隆行, 高橋真保呂
    日本音響学会研究発表会講演論文集 1999(2) 361-362 1999年9月  
  • 淵脇陽介, 荒井隆行, 穴見繁幸, 中島健晴, 村原雄二
    日本音響学会研究発表会講演論文集 1999(2) 301-302 1999年9月  
  • 荒井 隆行
    Eurospeech : European Conference on Speech Communication and Technology 6 2687-2690 1999年9月  
  • 荒井 隆行
    Eurospeech : European Conference on Speech Communication and Technology 3 1075-1078 1999年9月  
  • 荒井 隆行
    Eurospeech : European Conference on Speech Communication and Technology 1 391-394 1999年9月  
  • 荒井 隆行
    Proceedings of the 14th international congress of phonetic sciences. 2 1055-1058 1999年8月  
  • 荒井 隆行
    Proc. Of the XIV International Congress of Phonetic Sciences 2 857-860 1999年8月  
  • 荒井隆行
    Proc. of the XIV International Congress of Phonetic Sciences 1 615-618 1999年8月  
  • 今富摂子, 荒井隆行, 三村優子, 加藤正子, 大久保文雄, 保阪善昭
    日本口蓋裂学会誌 24(2) 209-209 1999年6月  
  • N Kanedera, T Arai, H Hermansky, M Pavel
    SPEECH COMMUNICATION 28(1) 43-55 1999年5月  
    We measured the accuracy of speech recognition as a function of band-pass filtering of the time trajectories of spectral envelopes. We examined (i) several types of recognizers such as dynamic time warping (DTW) and hidden Markov model (HMM), and (ii) several types of features, such as filter bank output, mel-frequency cepstral coefficients (MFCC), and perceptual linear predictive (PLP) coefficients. We used the resulting recognition data to determine the relative importance of information in different modulation spectral components of speech for automatic speech recognition. We concluded that: (1) most of the useful linguistic information is in modulation frequency components from the range between 1 and 16 Hz, with the dominant component at around 4 Hz; (2) in some realistic environments, the use of components from the range below 2 Hz or above 16 Hz can degrade the recognition accuracy. (C) 1999 Elsevier Science B.V. All rights reserved.
  • T Arai, M Pavel, H Hermansky, C Avendano
    JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA 105(5) 2783-2791 1999年5月  
    The intelligibility of syllables whose cepstral trajectories were temporally filtered was measured. The speech signals were transformed to their LPC cepstral coefficients, and these coefficients were passed through different filters. These filtered trajectories were recombined with the residuals and the speech signal reconstructed. The intelligibility of the reconstructed speech segments was then measured in two perceptual experiments for Japanese syllables. The effect of various low-pass, high-pass, and bandpass filtering is reported, and the results summarized using a theoretical approach based on the independence of the contributions in different modulation bands. The overall results suggest that speech intelligibility is not severely impaired as long as the filtered spectral components have a rate of change between 1 and 16 Hz. (C) 1999 Acoustical Society of America. [S0001-4966(99)01705-1].
  • 村原雄二, 酒本勝之, 藤井麻美子, 荒井隆行, 金井寛
    医用電子と生体工学. 特別号, 日本ME学会大会論文集 : 日本ME学会雑誌 37 230-230 1999年4月  
  • 荒井 隆行
    Proc. Of the International Conf. on Spoken Language Processing 6 2803-2806 1998年11月  
  • 荒井隆行, 金寺登, 船田哲男, 山田洋士
    電子情報通信学会技術研究報告. SP, 音声 98(178) 45-52 1998年7月  
  • ARAI TAKAYUKI
    16th international congress on acoustics, and 135th meeting, Acoustical Society of America : the sound of the future 4 2677-2678 1998年6月  
  • N Kanedera, H Hermansky, T Arai
    PROCEEDINGS OF THE 1998 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, VOLS 1-6 2 613-616 1998年  
    We report on the effect of band-pass filtering of the time trajectories of spectral envelopes on speech recognition. Several types of filter (linear-phase FIR, DCT, and DFT) are studied. Results indicate the relative importance of different components of the modulation spectrum of speech for ASR. General conclusions are: (1) most of the useful linguistic information is in modulation frequency components from the range between 1 and 16 Hz, with the dominant component at around 4 Hz, (2) it is important to preserve the phase information in modulation frequency domain, (3) The features which include components at around 4 Hz in modulation spectrum outperform the conventional delta features, (4) The features which represent the several modulation frequency bands with appropriate center frequency and band width increase recognition performance.
  • T Arai, S Greenberg
    PROCEEDINGS OF THE 1998 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, VOLS 1-6 2 933-936 1998年  
    The spectrum of spoken sentences was partitioned into quarter-octave channels and the onset of each channel shifted in time relative to the others so as to desynchronize spectral information across the frequency axis. Human listeners are remarkably tolerant of cross-channel spectral asynchrony induced in this fashion. Speech intelligibility remains relatively unimpaired until the average asynchrony spans three or more phonetic segments. Such perceptual robustness is correlated with the magnitude of the low-frequency (3-6 Hz) modulation spectrum and thus highlights the importance of syllabic segmentation and analysis for robust processing of spoken language. High-frequency channels (>1.5 kHz) play a particularly important role when the spectral asynchrony is sufficiently large as to significantly reduce the power in the low-frequency modulation spectrum (analogous to acoustic reverberation) and may thereby account for the deterioration of speech intelligibility among the hearing impaired under conditions of acoustic interference (such as background noise and reverberation) characteristic of the real world.
  • 金寺登, Hermansky Hynek, 荒井隆行, 船田哲男
    電子情報通信学会技術研究報告. SP, 音声 97(441) 15-22 1997年12月  
    CMS法や動的特徴は変調周波数特性を操作することにより音声認識性能が向上することが知られているが、どの変調周波数がどの程度重要であるのかという定量的な検討は行われていない。そこで本研究では、様々な変調周波数特性を持った入力に対し、音声認識性能の違いを種々の雑音環境、認識方式、特徴量のもとで調べた。その結果、以下のことが分かった: 1)言語情報のほとんどが1〜16Hzの変調周波数帯域に存在し、その中でも4Hz付近が最も重要である。2)変調スペクトルにおいては位相情報も重要である。3)4Hz付近の変調周波数を含む特徴量を用いることで動的特徴量と同等以上の結果が得られる。4)適切な中心周波数と帯域幅をもつ複数のサブバンドを変調周波数上で用いることにより、認識性能がさらに向上する。
  • 荒井隆行, 岡崎恵子, 今富摂子, 吉田裕一
    Journal of the Acoustical Society of Japan (E) 18(6) 297-304 1997年11月  
    Palatalized articulation (PA) is frequently observed in speech uttered by postoperative cleft palate patients. Provided the acoustical and perceptual cues of PA can be found, speech therapists will be able to use these cues to diagnose PA non-invasively and objectively. We tested human perception of certain synthetic sounds to verify the cues of the PA of /s/ in Japanese. To synthesize the fricatives, we modified the center frequency and the bandwidth of a complex-conjugate pole pair of an all-pole filter obtained from the linear predictive analysis of the PA of /s/. First, we shifted the center frequency from 1,000 to 3,000 Hz, while the relative bandwidth, or Q factor, was fixed at 10. Subsequently, we shifted the Q factor from 1 to 10, while the center frequency was fixed at 1,800 Hz. The results of a perceptual experiment involving nine speech therapists were conclusive that fricatives having a peak between 1,600 and 2,400 Hz tend to be identified as the PA of /s/, and fricatives having a peak at 1,800 Hz with the Q factor &gt5, tend to be identified as the PA of /s/. The two-tube model also showed that a peak around 2 kHz characterizes the PA of /s/.
  • T Arai, Y Yoshida
    IEEE TRANSACTIONS ON SIGNAL PROCESSING 45(10) 2593-2595 1997年10月  
    Our procedure of real-zero conversion uses a spectrum-reversal technique to convert the information of a bandlimited signal to real zeros, We conducted a simple reconstruction experiment and showed that our proposed method is essentially equivalent to the conventional technique of sine-wave crossings.
  • 荒井 隆行
    Eurospeech : European Conference on Speech Communication and Technology 3 1079-1082 1997年9月  
  • 荒井 隆行
    Eurospeech : European Conference on Speech Communication and Technology 2 1011-1014 1997年9月  
  • 荒井隆行, Greenberg Steven
    電子情報通信学会技術研究報告. SP, 音声 97(114) 25-32 1997年6月  
  • T Arai, M Pavel, H Hermansky, C Avendano
    ICSLP 96 - FOURTH INTERNATIONAL CONFERENCE ON SPOKEN LANGUAGE PROCESSING, PROCEEDINGS, VOLS 1-4 4 2490-2493 1996年  
    The effect of filtering the time trajectories of spectral envelopes on speech intelligibility was investigated. Since LPC cepstrum forms the basis of many automatic speech recognition systems, we filtered time trajectories of LPC cepstrum of speech sounds, and the modified speech was reconstructed after the filtering. For processing, we applied tow-pass, high-pass and band-pass filters. The results of the accuracy from the perceptual experiments for Japanese syllables show that speech intelligibility is not severely impaired as long as the filtered spectral components have 1) a rate of change faster than 1 Hz when high-pass filtered, 2) a rate of change slower than 24 Hz when low-pass filtered, and 3) a rate of change between 1 and 16 Hz when band-pass filtered.
  • 荒井 隆行
    Eurospeech : European Conference on Speech Communication and Technology 3 1725-1728 1995年9月3日  
  • T ARAI
    IEICE TRANSACTIONS ON INFORMATION AND SYSTEMS E78D(6) 705-711 1995年6月  
    In this paper approaches to language identification based on the sequential information of phonemes are described. These approaches assume that each language can be identified from its own phoneme structure, or phonotactics. To extract this phoneme structure, we use phoneme classifiers and grammars for each language. The phoneme classifier for each language is implemented as a multi-layer perceptron trained on quasi-phonetic hand-labeled transcriptions. After training the phoneme classifiers, the grammars for each language are calculated as a set of transition probabilities for each phoneme pair. Because of the interest in automatic language identification for worldwide voice communication, we decided to use telephone speech for this study. The data for this study were drawn from the OGI (Oregon Graduate Institute)-TS (telephone speech) corpus, a standard corpus for this type of research. To investigate the basic issues of this approach, two languages, Japanese and English, were selected. The language classification algorithms are based on Viterbi search constrained by a bigram grammar and by minimum and maximum durations. Using a phoneme classifier trained only on English phonemes, we achieved 81.1% accuracy. We achieved 79.3% accuracy using a phoneme classifier trained on Japanese phonemes. Using both the English and the Japanese phoneme classifiers together, we obtained our best result: 83.3%. Our results were comparable to those obtained by other methods such as that based on the hidden Markov model.
  • 荒井隆行, 岡崎恵子, 今富摂子
    医用電子と生体工学. 特別号, 日本ME学会大会論文集 : 日本ME学会雑誌 33 446-446 1995年5月  
  • 吉永真之, 荒井隆行, 吉田裕一
    日本音響学会研究発表会講演論文集 1995(1) 77-78 1995年3月  
  • 荒井隆行, 岡崎恵子, 今富摂子
    電子情報通信学会技術研究報告. SP, 音声 SP94-100 15-20 1995年3月  
  • 荒井隆行, 岡崎恵子, 今富摂子
    音声言語医学 36(1) 144-145 1995年1月  
  • 平井沢子, 加藤正子, 岡崎恵子, 荒井隆行
    音声言語医学 36(1) 143-144 1995年1月  
  • 荒井隆行, 岡崎恵子, 今富摂子
    音声言語医学 36(3) 350-354 1995年  
  • 荒井 隆行
    日本音響学会研究発表会講演論文集 219-220 1994年10月  
  • 荒井 隆行, 大附克年, 白井克彦
    日本音響学会研究発表会講演論文集 211-212 1994年10月  
  • 荒井 隆行, 吉永真之, 吉田裕一
    日本音響学会研究発表会講演論文集 21-22 1994年10月  
  • 平井沢子, 岡崎恵子, 荒井隆行
    聴能言語学研究 11(2) 96-96 1994年9月  
  • 平井沢子, 岡崎恵子, 荒井隆行
    音声言語医学 35(2) 199-206 1994年4月  
  • 荒井 隆行, R.Cole, E.Barnard
    日本音響学会研究発表会講演論文集 169-170 1994年3月  
  • 平井沢子, 荒井隆行, 岡崎恵子
    音声言語医学 35(1) 115-116 1994年1月  
  • KM BERKLING, T ARAI, E BARNARD
    ICASSP-94 - PROCEEDINGS, VOL 1 1 289-292 1994年  
  • 荒井 隆行
    Eurospeech : European Conference on Speech Communication and Technology 2 1307-1310 1993年9月  

MISC

 71

講演・口頭発表等

 227

Works(作品等)

 11

共同研究・競争的資金等の研究課題

 36

学術貢献活動

 1

社会貢献活動

 1

その他

 55
  • 2006年4月 - 2008年6月
    英語によるプレゼンテーションを学ぶ講義の中で、自分のプレゼンテーションを客観的に学生に示すため、発表風景をビデオに収め、後で学生にそれを見て自己評価させるようにしている。また、同内容で2回目のプレゼンテーションを行わせ、改善する努力を促す工夫もしている。
  • 2003年 - 2008年6月
    音響教育に関する委員会の委員を務め、教育セッション(例えば2006年12月に行われた日米音響学会ジョイント会議における教育セッション)をオーガナイズするなど。
  • 2003年 - 2008年6月
    音響教育に関する委員会の委員を務め、教育セッション(例えば2004年4月に行われた国際音響学会議における教育セッション)をオーガナイズするなど。特に2005年からは委員長を仰せつかり、精力的に活動している(例えば、2006年10月に国立博物館にて科学教室を開催)。
  • 2002年4月 - 2008年6月
    本学に赴任して以来、「Progress Report」と称して研究室の教育研究活動に関する報告書を作成し発行している。これにより、研究室の学生の意識の向上にも役立ち、効果を発揮している。
  • 2002年4月 - 2008年6月
    普段から英語に慣れておくことが重要であると考え、研究室の定例ミーティングの中で定期的に英語によるミーティングを行っている。また、2006年度からは研究グループごとに行われる毎回の進捗報告も英語で行うことを義務付けている。