研究者業績

荒井 隆行

アライ タカユキ  (Arai Takayuki)

基本情報

所属
上智大学 理工学部情報理工学科 教授
学位
工学士(上智大学)
工学修士(上智大学)
博士(工学)(上智大学)

連絡先
araisophia.ac.jp
研究者番号
80266072
J-GLOBAL ID
200901064275514612
researchmap会員ID
1000260131

<国内>
2008年4月  上智大学理工学部情報理工学科 教授(現在に至る)
2006年4月  上智大学理工学部電気・電子工学科 教授
2000年4月  上智大学理工学部電気・電子工学科 助教授
1998年4月  上智大学理工学部電気・電子工学科 専任講師
1994年4月  上智大学理工学部電気・電子工学科 助手
1994年3月  上智大学大学院理工学研究科電気・電子工学専攻博士後期課程 修了
1991年3月  上智大学大学院理工学研究科電気・電子工学専攻博士前期課程 修了
1989年3月  上智大学理工学部電気・電子工学科 卒業

<国外>
2003年10月~2004年9月  アメリカMassachusetts Institute of Technology客員研究員
2000年8月、2001年8月、2002年8月、ならびに 2003年10月~2004年9月
       アメリカ Massachusetts Institute of Technology 客員研究員                 
2001年2月  オランダ Max Planck Institute for Psycholinguistics 客員研究員
2000年8月  アメリカ Massachusetts Institute of Technology 客員研究員
1997年1月~1998年3月 / 1998年8月ならびに1999年8月
       アメリカ California 大学 Berkeley 校付属研究機関
        International Computer Science Institute 客員研究員
1992年9月~1993年8月ならびに1995年6月~1996年12月
        アメリカ Oregon Graduate Institute of Science and Technology 客員研究員

音声コミュニケーションに関わる一連の事象は「ことばの鎖(Speech Chain)」と呼ばれ、音声科学・聴覚科学における基本的な概念となっており、その音声コミュニケーションに関して音声科学・聴覚科学、音響学、音響音声学などに関わる科学的側面とその応用に主な焦点を当てて研究を続けてきている。そして、音に関わるあらゆる側面にも研究の範囲を拡大している。カバーする範囲は、次のような幅の広い学際的な研究分野を含む:
・音響学と音響教育(例:声道模型)
・音響音声学を中心とする言語学分野(音声学・音韻論)とその教育応用(応用言語)
・音声生成を含む音声科学と音声知覚を含む聴覚科学、音や音声を含む認知科学
・実環境での音声知覚・音声明瞭度、音声信号処理・音声強調
・音声に関する福祉工学・障害者支援、障害音声の音響分析や聴覚障害者・高齢者の音声生成や音声知覚
・実時間信号処理を含む音声処理アルゴリズムの開発、音に関わるシステムやアプリの開発
・音声の話者性
・その他、音に関する研究全般など

(研究テーマ)
音響学と音響教育(声道模型を含む)
音響音声学を中心とする言語学分野(音声学・音韻論)とその教育応用(応用言語)
音声生成を含む音声科学と音声知覚を含む聴覚科学、音や音声を含む認知科学
実環境での音声知覚・音声明瞭度、音声信号処理・音声強調
音声に関する福祉工学・障害者支援、障害音声の音響分析や聴覚障害者・高齢者の音声生成や音声知覚
実時間信号処理を含む音声処理アルゴリズムの開発、音に関わるシステムやアプリの開発
音声の話者性

(共同・受託研究希望テーマ)
音情報処理
音声言語情報処理
聴覚情報処理


論文

 608
  • Toshimasa Suzuki, Hirofumi Nakajima, Hideo Tsuru, Takayuki Arai, Kazuhiro Nakadai
    2010 4th International Universal Communication Symposium, IUCS 2010 - Proceedings 215-220 2010年  
    To achieve ultra-realistic communications (URC), a three-dimensional (3D) sound field recording and reproducing system using spatial sound features is promising. It utilizes sound source positions and original source signals as features. On the other hand, sound source orientations (such as speaker's orientation) have been neglected, though they are necessary for high-performance URC. In this paper, we propose a 3D sound field recording and reproducing system that includes sound source orientation. For the recording part, we applied and evaluated a sound source orientation estimation method based on orientation-extended beamforming. This method requires transfer functions for all possible source positions and orientations, which should be either measured or calculated. Measured transfer functions have high accuracy because all characteristics, such as reverberations and diffractions, are taken into account. Calculated transfer functions are obtained for any environment without measurements. We performed experiments to evaluate the orientation estimation method using transfer functions obtained by both practical measurements and calculations using acoustic simulation based on wave theory. The experimental results show that our estimation method has sufficient capability using both measured and calculated transfer functions. For the reproducing part, we evaluated impulse responses versus sound source orientation. The evaluation results revealed significant differences in both objective and subjective scores. This proves that our system achieves higher performance than conventional ones that do not utilize orientation features. ©2010 IEEE.
  • Hinako Masuda, Takayuki Arai
    11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 3 AND 4 1866-1869 2010年  
    Numerous research has investigated how first language influences the perception of foreign sounds. The present study focuses on the perception of voiceless English fricatives by Japanese listeners with advanced and intermediate level English proficiency, and compares their results with that of English native listeners. Listeners identified consonants embedded in /a _ a/ in quiet, multi-speaker babble and white noise (SNR=0 dB). Results revealed that intermediate level learners scored the lowest among all listener groups, and /th/-s/ confusions were unique to Japanese listeners. Confusions of /th/-/f/ were observed among all listener groups, which suggest that those phoneme confusions may be universal.
  • Takayuki Arai, Nao Hodoshima
    11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 3 AND 4 1620-+ 2010年  
    The current paper discusses two approaches to enhanced speech in reverberation/noise: machine signal processing and human speech production. We reviewed the speech enhancement techniques, including steady-state suppression and compared the modulation spectra of speech signals before and after processing. We also introduced the Lombard-like effect of speech in reverberation, and compared the characteristics of speech signals, including the modulation spectra between speech signals uttered in quiet and reverberation. We found that the enhanced speech signals have distinct characteristics that yield higher speech intelligibility.
  • Takayuki Arai
    11TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2010 (INTERSPEECH 2010), VOLS 1-2 1025-1028 2010年  
    Arai has developed several physical models of the human vocal tract for education and has reported that they are intuitive and helpful for students of acoustics and speech science. We first reviewed dynamic models, including the sliding three-tube (S3T) model and the flexible-tongue model. We then developed a head-shaped model with a sliding tongue, which has the advantages of both the S3T and flexible-tongue models. We also developed a computer-controlled version of the Umeda & Teranishi model, as the original model was hard to manipulate precisely by hand. These models are useful when teaching the dynamic aspects of speech.
  • Takayuki Arai
    Acoustical Science and Technology 31(2) 188-190 2010年  
    We tested how a time-reversed signal effectively masks a target speech signal by reversing the time frame preceding the target frame to obtain a masking signal. We confirmed that this proposed masker, which is robust against speaker change and has advantages for implementation on a DSP chip, can effectively mask an input speech signal. In fact, a proposed masker was recently implemented with a DSP in our laboratory. We will further investigate the performance of the algorithm to produce the masking signal by increasing the number of stimuli and listeners. © 2010 The Acoustical Society of Japan.
  • Hinako Masuda, Takayuki Arai
    Acoustical Science and Technology 31(5) 320-327 2010年1月  
    Previous research has revealed that Japanese native speakers are highly likely to both perceive and produce epenthetic vowels between consonants. The goal of the present study is to investigate the influence of English learning backgrounds in the perception and production of consonant clusters by Japanese native speakers. In Experiment 1, a forced-choice AXB task to identify VC(u)CV is assigned to 17 highly fluent Japanese-English bilinguals and 22 Japanese monolinguals. Results show that monolinguals made significantly more errors than bilinguals. In Experiment 2, the influence of English proficiency on the production of consonant clusters, and the effect of consonant voicing on vowel epenthesis are investigated. The epenthetic vowels are acoustically analyzed and categorized into three degrees: full, partial and no epenthesis. The voicing combinations of the consonant clusters are C[+voice]-C[+voice], C[−voice]-C[+voice], and C[−voice]-C[−voice]. Results show that monolinguals inserted more epenthetic vowels than bilinguals, and that the influence of consonant voicing was stronger in monolinguals than bilinguals. Furthermore, monolinguals' epenthetic vowels between C[−voice]-C[+voice] and C[−voice]-C[−voice] tended to become devoiced than bilinguals. This result suggests a stronger L1 influence on monolinguals. The results of the two experiments thus suggest that the English proficiency influences the perception and production of consonant clusters.
  • Natasha Warner, Takashi Otake, Takayuki Arai
    LANGUAGE AND SPEECH 53(1) 107-131 2010年  
    While listeners are recognizing words from the connected speech stream, they are also parsing information from the intonational contour. This contour may contain cues to word boundaries, particularly if a language has boundary tones that occur at a large proportion of word onsets. We investigate how useful the pitch rise at the beginning of an accentual phrase (APR) would be as a potential word-boundary cue for Japanese listeners. A corpus study shows that it should allow listeners to locate approximately 40-60% of word onsets, while causing less than 1% false positives. We then present a word-spotting study which shows that Japanese listeners can, indeed, use accentual phrase boundary cues during segmentation. This work shows that the prosodic patterns that have been found in the production of Japanese also impact listeners' processing.
  • 小林奈々子, 進藤美津子, 荒井隆行
    コミュニケーション障害学 26(3) 219 2009年12月  
  • 小松雅彦, 荒井隆行
    音声研究 13(3) 85-89 2009年12月  
    日本語発話における変調スペクトルとリズムを構成する単位の関係を調べた。変調スペクトルは,音声の単位の出現するタイミングと関係がある。英語の音節の方が日本語よりも長いにも関わらず,英語発話と日本語発話の変調スペクトルは類似している。「日本語MULTEXT」から得られた変調スペクトルのピークは,4〜5Hzであり,200〜250msの時間長に相当する。モーラの長さは短く,変調スペクトルのピークには対応しない。音節の長さは,ほとんどのものが短かったが,2モーラ以上から構成されている音節は200〜250msに分布していると推定された。連続する2モーラおよび2音節の長さは200〜250msであった。これらのことから,単独のモーラや音節ではなく,2モーラまたは2音節からなる脚が変調スペクトルのピークに対応していることが分かる。変調スペクトルと2モーラまたは2音節からなる脚の関係を示すことができた。2モーラまたは2音節の脚は,かなり一定の間隔で現れ,強さ曲線への影響が大きい。
  • 程島奈緒, 荒井隆行, 栗栖清浩
    電子情報通信学会技術研究報告. SP, 音声 109(308) 43-48 2009年11月  
  • 松井和貴, 網野加苗, 荒井隆行, 道又爾, 鎌田浩史
    電子情報通信学会技術研究報告. SP, 音声 109(308) 37-42 2009年11月  
  • 安啓一, 荒井隆行, 小林敬, 進藤美津子
    日本音響学会研究発表会講演論文集 1365-1368 2009年9月  
  • 網野加苗, 荒井隆行
    日本音響学会研究発表会講演論文集 1331-1334 2009年9月  
  • 荒井隆行, 中嶋雄大, 安啓一
    日本音響学会研究発表会講演論文集 1145-1148 2009年9月  
  • 鈴木淑正, 中島弘史, 荒井隆行, 中臺一博, 長谷川雄二
    日本音響学会研究発表会講演論文集 821-824 2009年9月  
  • 松井和貴, 網野加苗, 荒井隆行, 道又爾, 鎌田浩史
    日本音響学会研究発表会講演論文集 601-604 2009年9月  
  • 高橋亮介, 荒井隆行, 安啓一, 小林敬, 進藤美津子
    日本音響学会研究発表会講演論文集 593-596 2009年9月  
  • 程島奈緒, 荒井隆行, 栗栖清浩
    日本音響学会研究発表会講演論文集 587-590 2009年9月  
  • 篠田貴彦, 荒井隆行, 安啓一, 廣實真弓
    日本音響学会研究発表会講演論文集 435-438 2009年9月  
  • 千葉亜矢子, 荒井隆行, 栗栖清浩, 程島奈緒, 吉田航
    日本音響学会研究発表会講演論文集 427-430 2009年9月  
  • Hinako Masuda, ARAI TAKAYUKI
    Proc. Autumn Meet. Acoust. Soc. Jpn. 421-424 2009年9月  
  • Pek Kimhuoch, 荒井隆行, 金寺登, 吉井順子
    日本音響学会研究発表会講演論文集 155-158 2009年9月  
  • 鈴木 淑正, 中島 弘史, 中臺 一博, 荒井 隆行, 長谷川 雄二
    電子情報通信学会技術研究報告. SP, 音声 109(100) 109-114 2009年6月  
  • 荒井隆行
    音響技術 38(2) 25-30 2009年6月  
  • 荒井隆行
    電子情報通信学会技術研究報告. SP, 音声 109(10) 7-12 2009年4月  
  • 程島奈緒, 増田斐那子, 安啓一, 荒井隆行
    電子情報通信学会技術研究報告. SP, 音声 109(10) 1-6 2009年4月  
  • Hodoshima, N, Yasu, K, Masuda, H, Arai, T
    Proc. International Conference on English Needed by Scientists and Engineers in Today’s Global Society 2009年3月  
  • 荒井隆行
    日本音響学会研究発表会講演論文集 1387-1390 2009年3月  
  • 佐藤史明, 矢野博夫, 橘秀樹, 上野佳奈子, 横山栄, 坂本慎一, 中村健太郎, 荒井隆行
    日本音響学会研究発表会講演論文集 1385-1386 2009年3月  
  • 荒井隆行, 道又爾, 鎌田浩史
    日本音響学会研究発表会講演論文集 579-582 2009年3月  
  • 篠田貴彦, 荒井隆行, 安啓一, 廣實真弓
    日本音響学会研究発表会講演論文集 459-462 2009年3月  
  • 網野加苗, 荒井隆行
    日本音響学会研究発表会講演論文集 453-456 2009年3月  
  • 春日梨恵, 片岡竜太, 荒井隆行, 木村智江, 今井智子
    日本音響学会研究発表会講演論文集 401-404 2009年3月  
  • 増田斐那子, 荒井隆行
    日本音響学会研究発表会講演論文集 397-400 2009年3月  
  • ペク キムホーチ, 荒井隆行, 金寺登, Pek Kimhuoch, 吉井順子
    日本音響学会研究発表会講演論文集 133-136 2009年3月  
  • 伊藤憲三, 荒井隆行
    日本音響学会誌 65(3) 132-136 2009年3月  
  • 荒井隆行, 上羽貞行
    日本音響学会誌 65(3) 130-131 2009年3月  
  • Kanae Amino, Takayuki Arai
    FORENSIC SCIENCE INTERNATIONAL 185(1-3) 21-28 2009年3月  
    Investigation on human speaker identification enables us to know the indexical cues to speakers, and it may consequently lead to the effective acoustical parameters that can be used for forensic speaker recognition. It is known that speaker individuality interacts with the phonological or linguistic information contained in speech signals. As proof, the accuracy of perceptual speaker identification (PSI) performances depends on what types of sounds are presented to the listeners. In a series of our previous experiments, we have been investigating the effective sounds for PSI, and the stimuli containing a nasal were found to be the ones. In this present study, we conducted another PSI experiment in order to examine the reproducibility of the nasal effectiveness, and to see the effects of the following vowels. Coronal nasals were shown to be effective despite the different speaker set or-the following vowels, and the stimuli containing a nasal were significantly better than those without it. In the second part of this paper, we introduce the results of the acoustical analysis of the stimuli. The contours of the energy transitions showed variations in shape among speakers for all three types of the analysis targets; nasals, stops, and fricatives, although the inter-speaker difference in the energy slopes for the consonant articulation was significant especially in nasal sounds. We also examined the effects of the sampling frequencies and the speech codecs, and found that the speaker-dependent shapes of these energy contours were maintained as long as the speech materials were uncompressed. The contours of the nasals appeared to be stable within a speaker, compared to other types of sounds. (c) 2008 Elsevier Ireland Ltd. All rights reserved.
  • 荒井 隆行, 竹内 京子
    外国語教育学研究のフロンティア : 四技能から異文化理解まで 99-108 2009年1月  
  • Kanae Amino, Takayuki Arai
    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 2243-2246 2009年  
    This study investigates the characteristics of the two major dialects of Japanese: Osaka and Tokyo dialects. We recorded the utterances of the speakers of both dialects, and analysed the differences that appear in the accentuation of the words at the phonetic-acoustic level. The Japanese words that are phonologically identical in both dialects were used as the analysis target. The results showed that the pitch patterns contained the dialect-dependent features of Osaka Japanese. Furthermore, these patterns could not be fully mimicked by speakers of Tokyo Japanese. These results show that there is a phonetics-phonology gap in the dialectal differences, and that we may exploit this gap for forensic purposes.
  • Takayuki Arai
    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 780-783 2009年  
    In the speech-related field, physical models of the vocal tract are effective tools for education in acoustics. Arai's cylinder-type models are based on Chiba and Kajiyama's measurement of vocal-tract shapes. The models quickly and effectively demonstrate vowel production. In this study, we developed physical models with simplified shapes as educational tools to illustrate how vocal-tract shape accounts for differences among vowels. As a result, the five Japanese vowels were produced by tube-connected models, where several uniform tubes with different cross-sectional areas and lengths are connected as Pant's and Arai's three-tube models.
  • Takayuki Arai
    INTERSPEECH 2009: 10TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2009, VOLS 1-5 60-63 2009年  
    In a previous study, Arai implemented a sliding vocal-tract model based on Fant's three-tube model and demonstrated its usefulness for education in acoustics and speech science. The sliding vocal-tract model consists of a long outer cylinder and a short inner cylinder, which simulates tongue constriction in the vocal tract. This model can produce different vowels by sliding the inner cylinder and changing the degree of constriction. In this study, we investigated the model's coverage of vowels on the vowel space and explored its application for vowel production in the speech and hearing sciences.
  • Nao Hodoshima, Peter Svensson, Takayuki Arai
    Acoustical Science and Technology 30(1) 59-62 2009年  
    The effect of steady-state suppression (SSS) in situations where listeners hear natural and electroacoustical sounds, was investigated. The study found out that how multiple sound source listeners hear, how loudspeaker gain, and how the input to the PA system affect the performance of SSS. The listening test on young people with normal hearing using natural and steady-state suppressed speech under simulated reverberant environments in which PA systems were virtually installed on computer, was done to verify the study. Results from these tests showed that SSS improved syllable identification in cases when listeners receive sounds either from a single source or from two sources. Increasing the loudspeaker gain changed the performance of SSS, and the effect of the mixture of electroacoustical sounds with sounds from a talker at the talker microphone is found to be negligible when the direct to reverberation ratio is high.
  • Kanae Amino, Takayuki Arai
    Acoustical Science and Technology 30(2) 89-99 2009年  
    There are several factors that affect human speaker recognition. In this study, two experiments were conducted in order to see the effects that the stimulus contents and the familiarity to the speakers give to the perception of the speakers. The results showed that: a) stimuli including a nasal were effective for accurate speaker identification b) coronal nasals were more effective than the labial nasal, and c) the familiarity to the speakers gives a great influence on the performance. The tendencies a) and b) were observed both in familiar and unknown speaker identifications. The results of the acoustical analyses also showed that there were correspondences between the perception of the speaker identity and the cepstral distances among the speakers. The inter-speaker cepstral distances were greater in vowel intervals than in the consonant intervals especially, notably they were greater in nasals than in orals in the consonant intervals. © 2009 The Acoustical Society of Japan.
  • 荒井隆行, 田中希美, 片岡竜太
    電子情報通信学会技術研究報告. SP, 音声 108(338) 143-148 2008年12月  
  • 荒井 隆行, 畑岸由紀子, 平井沢子, 進藤美津子
    コミュニケーション障害学 25(3) 245 2008年12月  
  • 網野加苗, 荒井隆行
    聴覚研究会資料 38(6) 579-584 2008年10月  
  • 吉田航, 程島奈緒, 荒井隆行
    日本音響学会秋季研究発表会講演論文集 493-496 2008年9月  

MISC

 71

講演・口頭発表等

 227

Works(作品等)

 11

共同研究・競争的資金等の研究課題

 36

学術貢献活動

 1

社会貢献活動

 1

その他

 55
  • 2006年4月 - 2008年6月
    英語によるプレゼンテーションを学ぶ講義の中で、自分のプレゼンテーションを客観的に学生に示すため、発表風景をビデオに収め、後で学生にそれを見て自己評価させるようにしている。また、同内容で2回目のプレゼンテーションを行わせ、改善する努力を促す工夫もしている。
  • 2003年 - 2008年6月
    音響教育に関する委員会の委員を務め、教育セッション(例えば2006年12月に行われた日米音響学会ジョイント会議における教育セッション)をオーガナイズするなど。
  • 2003年 - 2008年6月
    音響教育に関する委員会の委員を務め、教育セッション(例えば2004年4月に行われた国際音響学会議における教育セッション)をオーガナイズするなど。特に2005年からは委員長を仰せつかり、精力的に活動している(例えば、2006年10月に国立博物館にて科学教室を開催)。
  • 2002年4月 - 2008年6月
    本学に赴任して以来、「Progress Report」と称して研究室の教育研究活動に関する報告書を作成し発行している。これにより、研究室の学生の意識の向上にも役立ち、効果を発揮している。
  • 2002年4月 - 2008年6月
    普段から英語に慣れておくことが重要であると考え、研究室の定例ミーティングの中で定期的に英語によるミーティングを行っている。また、2006年度からは研究グループごとに行われる毎回の進捗報告も英語で行うことを義務付けている。