研究者詳細 - 入野　俊夫

2024/12/19 更新

写真a

イリノ　トシオ

入野　俊夫

所属

システム工学部メディアデザインメジャー

職名

教授

兼務

情報学領域（教授）

emailアドレス

emailアドレス

ホームページ

外部リンク

学歴

1982年

-

1987年

東京工業大学大学院理工学研究科電気電子工学専攻博士課程
1978年

-

1982年

東京工業大学工学部電気・電子工学科

学位

工学博士 1987年

経歴

2005年

-

2007年

統計数理研究所客員教授
2002年

-

継続中

和歌山大学システム工学部教授
2000年

-

2002年

NTTコミュニケーション科学基礎研究所主任研究員
1997年

-

2000年

ATR人間情報通信研究所主任研究員
1993年

-

1994年

英国MRC-APU 客員研究員
1987年

-

1997年

NTT基礎研究所研究主任〜主任研究員

▼全件表示

所属学協会

米国音響学会 (ASA)
電子情報通信学会
IEEE
日本音響学会
ISCA
ARO

▼全件表示

研究分野

人文・社会 / 実験心理学
情報通信 / 知覚情報処理
ライフサイエンス / 認知脳科学
人文・社会 / 臨床心理学
人文・社会 / 言語学
情報通信 / 統計科学
情報通信 / 知能ロボティクス

▼全件表示

【学部】授業等（実験、演習、卒業論文指導、卒業研究、課題研究を含む）

2024年度卒業研究（MD) 専門教育科目
2024年度音響設計論専門教育科目
2024年度卒業研究（MD・後期）専門教育科目
2024年度メディアデザインセミナー１Ｂ専門教育科目
2024年度メディアデザインセミナー１Ａ専門教育科目
2024年度メディア情報数理専門教育科目
2023年度メディア情報数理専門教育科目
2023年度音響設計論専門教育科目
2023年度卒業研究専門教育科目
2023年度最新情報技術概論専門教育科目
2023年度メディアデザインセミナー２Ａ専門教育科目
2023年度メディアデザインセミナー１Ｂ専門教育科目
2023年度メディアデザインセミナー２Ｂ専門教育科目
2023年度メディアデザインセミナー１Ａ専門教育科目
2023年度卒業研究（MD・後期）専門教育科目
2023年度卒業研究（MD) 専門教育科目
2023年度メディアデザインセミナー２Ａ専門教育科目
2023年度メディアデザインセミナー２Ｂ専門教育科目
2023年度メディアデザインセミナー１Ａ専門教育科目
2023年度メディアデザインセミナー１Ｂ専門教育科目
2023年度音響設計論専門教育科目
2023年度メディア情報数理専門教育科目
2022年度ロボット学教養教育科目
2022年度卒業研究専門教育科目
2022年度音響設計論専門教育科目
2022年度メディア情報数理専門教育科目
2022年度メディアデザインセミナー２Ｂ専門教育科目
2022年度メディアデザインセミナー２Ａ専門教育科目
2022年度メディアデザインセミナー１Ｂ専門教育科目
2022年度メディアデザインセミナー１Ａ専門教育科目
2022年度システム工学入門セミナー専門教育科目
2021年度音響設計論専門教育科目
2021年度卒業研究専門教育科目
2021年度ロボット学教養教育科目
2021年度メディアデザインセミナー２Ｂ専門教育科目
2021年度メディアデザインセミナー２Ａ専門教育科目
2021年度メディアデザインセミナー１Ｂ専門教育科目
2021年度メディアデザインセミナー１Ａ専門教育科目
2021年度メディア情報数理専門教育科目
2020年度卒業研究専門教育科目
2020年度メディアデザインセミナーⅡ 専門教育科目
2020年度メディア情報数理専門教育科目
2020年度音響設計論専門教育科目
2020年度卒業研究専門教育科目
2020年度卒業研究専門教育科目
2020年度卒業研究専門教育科目
2020年度メディアデザインセミナー２Ｂ専門教育科目
2020年度メディアデザインセミナー２Ａ専門教育科目
2020年度メディアデザインセミナー１Ｂ専門教育科目
2020年度メディアデザインセミナー１Ａ専門教育科目
2020年度メディア情報数理専門教育科目
2019年度メディアデザインセミナーⅡ 専門教育科目
2019年度メディアデザインセミナーⅠ 専門教育科目
2019年度サウンドプログラミング演習専門教育科目
2019年度メディア情報数理専門教育科目
2019年度システム工学入門セミナー専門教育科目
2019年度音響設計論専門教育科目
2019年度システム工学入門セミナー専門教育科目
2019年度音響設計論専門教育科目
2019年度メディア情報数理専門教育科目
2019年度卒業研究専門教育科目
2019年度メディアデザインセミナーⅡ 専門教育科目
2019年度サウンドプログラミング演習専門教育科目
2019年度音響設計論専門教育科目
2019年度メディアデザインセミナーⅠ 専門教育科目
2018年度メディア情報数理専門教育科目
2018年度卒業研究専門教育科目
2018年度メディアデザインセミナーⅡ 専門教育科目
2018年度メディアデザインセミナーⅠ 専門教育科目
2018年度サウンドプログラミング演習専門教育科目
2018年度音響設計論専門教育科目
2018年度音響設計論専門教育科目
2018年度メディアデザインセミナーⅠI 専門教育科目
2018年度卒業研究専門教育科目
2018年度サウンドプログラミング演習専門教育科目
2018年度メディア情報数理専門教育科目
2018年度メディアデザインセミナーⅠ 専門教育科目
2017年度メディアデザインセミナーⅠI 専門教育科目
2017年度システム工学自主演習Ⅳ 専門教育科目
2017年度メディアデザインセミナーⅠ 専門教育科目
2017年度サウンドプログラミング演習専門教育科目
2017年度メディア情報数理専門教育科目
2017年度システム工学入門セミナー専門教育科目
2017年度卒業研究専門教育科目
2017年度システム工学入門セミナー教養教育科目
2017年度サウンドプログラミング演習専門教育科目
2017年度メディア情報数理専門教育科目
2017年度メディアデザインセミナーⅡ 専門教育科目
2017年度メディアデザインセミナーⅠ 専門教育科目
2016年度音響設計論専門教育科目
2016年度卒業研究専門教育科目
2016年度デザイン情報セミナーⅡ 専門教育科目
2016年度デザイン情報セミナーⅠ 専門教育科目
2016年度システム工学自主演習Ⅴ 専門教育科目
2016年度システム工学自主演習Ⅳ 専門教育科目
2016年度サウンドプログラミング演習専門教育科目
2016年度音響設計論専門教育科目
2016年度メディア情報数理専門教育科目
2015年度情報応用数理専門教育科目
2015年度メディア情報処理専門教育科目
2015年度デザイン情報セミナーⅠ 専門教育科目
2015年度ディジタル信号処理専門教育科目
2015年度システム工学入門セミナー専門教育科目
2015年度システム工学自主演習Ⅴ 専門教育科目
2015年度システム工学自主演習Ⅲ 専門教育科目
2015年度メディアサイエンス基礎専門教育科目
2015年度デザイン情報セミナーⅡ 専門教育科目
2015年度システム工学自主演習Ⅱ 専門教育科目
2015年度メディアサイエンス基礎専門教育科目
2015年度メディア情報処理専門教育科目
2015年度システム工学入門セミナー教養教育科目
2015年度ディジタル信号処理専門教育科目
2015年度デザイン情報セミナーⅠ 専門教育科目
2015年度情報応用数理専門教育科目
2014年度デザイン情報セミナーⅡ 専門教育科目
2014年度デザイン情報セミナーⅠ 専門教育科目
2014年度情報応用数理専門教育科目
2014年度メディアサイエンス基礎専門教育科目
2014年度デザイン情報入門セミナー専門教育科目
2014年度ディジタル信号処理専門教育科目
2014年度デザイン情報入門セミナー専門教育科目
2014年度生活の中の情報システム教養教育科目
2014年度ディジタル信号処理専門教育科目
2014年度メディアサイエンス基礎専門教育科目
2014年度情報応用数理専門教育科目
2013年度デザイン情報セミナーⅡ 専門教育科目
2013年度デザイン情報セミナーⅠ 専門教育科目
2013年度情報応用数理専門教育科目
2013年度メディアサイエンス基礎専門教育科目
2013年度デザイン情報入門セミナー専門教育科目
2013年度ディジタル信号処理専門教育科目
2013年度生活の中の情報システム教養教育科目
2013年度基礎教養セミナー教養教育科目
2013年度メディアサイエンス基礎専門教育科目
2013年度生活の中の情報システム教養教育科目
2013年度デザイン情報入門セミナー専門教育科目
2013年度デザイン情報セミナーⅠ 専門教育科目
2013年度ディジタル信号処理専門教育科目
2013年度メディアサイエンス基礎専門教育科目
2013年度卒業研究専門教育科目
2013年度デザイン情報セミナーⅡ 専門教育科目
2013年度情報応用数理専門教育科目
2013年度基礎教養セミナー教養教育科目
2012年度卒業研究専門教育科目
2012年度情報応用数理専門教育科目
2012年度デザイン情報入門セミナー専門教育科目
2012年度デザイン情報セミナーⅠ 専門教育科目
2012年度ディジタル信号処理専門教育科目
2012年度システム工学自主演習Ⅴ 専門教育科目
2012年度システム工学自主演習Ⅲ 専門教育科目
2012年度生活の中の情報システム教養教育科目
2012年度メディアサイエンス基礎専門教育科目
2012年度デザイン情報セミナーⅡ 専門教育科目
2011年度システム工学自主演習Ⅳ 専門教育科目
2011年度システム工学自主演習Ⅲ 専門教育科目
2011年度システム工学自主演習Ⅱ 専門教育科目
2011年度システム工学自主演習Ⅰ 専門教育科目
2011年度メディアサイエンス基礎専門教育科目
2011年度生活の中の情報システム教養教育科目
2011年度卒業研究専門教育科目
2011年度デザイン情報入門セミナー専門教育科目
2011年度ディジタル信号処理専門教育科目
2011年度情報応用数理専門教育科目
2011年度デザイン情報セミナーI 専門教育科目
2011年度デザイン情報セミナーII 専門教育科目
2010年度生活の中の情報システム教養教育科目
2010年度卒業研究専門教育科目
2010年度デザイン情報入門セミナー専門教育科目
2010年度メディアサイエンス基礎専門教育科目
2010年度ディジタル信号処理専門教育科目
2010年度情報応用数理専門教育科目
2010年度デザイン情報セミナーI 専門教育科目
2010年度デザイン情報セミナーII 専門教育科目
2009年度デザイン情報セミナーII 専門教育科目
2009年度デザイン情報セミナーI 専門教育科目
2009年度情報応用数理専門教育科目
2009年度ディジタル信号処理専門教育科目
2009年度メディアサイエンス基礎専門教育科目
2009年度デザイン情報入門セミナー専門教育科目
2009年度卒業研究専門教育科目
2009年度生活の中の情報システム教養教育科目
2008年度デザイン情報セミナーII 専門教育科目
2008年度デザイン情報セミナーI 専門教育科目
2008年度情報応用数理専門教育科目
2008年度ディジタル信号処理専門教育科目
2008年度メディアサイエンス基礎専門教育科目
2008年度デザイン情報入門セミナー専門教育科目
2008年度卒業研究専門教育科目
2008年度生活の中の情報システム教養教育科目
2007年度デザイン情報セミナーII 専門教育科目
2007年度デザイン情報セミナーI 専門教育科目
2007年度情報応用数理専門教育科目
2007年度ディジタル信号処理専門教育科目
2007年度メディアサイエンス基礎専門教育科目
2007年度デザイン情報入門セミナー専門教育科目
2007年度卒業研究専門教育科目
2007年度生活の中の情報システム教養教育科目

▼全件表示

【学部】自主演習

2016年度スピーカー製作と音や音響機器に関する基礎知識の修得
2015年度スピーカー通じて音の出る仕組みを理解しよう
2015年度ドラムとボイスパーカッションの特徴比較
2011年度高級オーディオに匹敵するステレオシステムの製作
2011年度音響増幅装置製作
2010年度聴覚とスピーカーのしくみ
2010年度音響提示装置作製
2010年度身体動作と聴覚の関係の基礎検討

▼全件表示

【大学院】授業等

2024年度システム工学特別研究博士後期
2024年度システム工学特別講究Ⅱ 博士後期
2024年度システム工学特別講究Ⅰ 博士後期
2024年度システム工学講究ⅠＢ（システム知能）博士前期
2024年度システム工学講究ⅡＢ（システム知能）博士前期
2024年度システム工学講究ⅠＢ（システム知能）博士前期
2024年度システム工学講究ⅡＢ（システム知能）博士前期
2024年度システム工学研究ⅠＡ（システム知能）博士前期
2024年度システム工学研究ⅠＢ（システム知能）博士前期
2024年度システム工学研究ⅡＡ（システム知能）博士前期
2024年度システム工学研究ⅡＢ（システム知能）博士前期
2024年度システム工学研究ⅡＢ博士前期
2023年度システム工学研究ⅡＢ（システム知能）博士前期
2023年度システム工学研究ⅡＡ（システム知能）博士前期
2023年度システム工学研究ⅠＢ（システム知能）博士前期
2023年度システム工学研究ⅠＡ（システム知能）博士前期
2023年度システム工学講究ⅡＢ（システム知能）博士前期
2023年度システム工学講究ⅡＡ（システム知能）博士前期
2023年度システム工学講究ⅠＢ（システム知能）博士前期
2023年度システム工学講究ⅠＡ（システム知能）博士前期
2023年度システム工学特別講究Ⅰ 博士後期
2023年度システム工学特別講究Ⅱ 博士後期
2023年度システム工学特別研究博士後期
2023年度システム工学グローバル講究Ⅰ 博士後期
2023年度システム工学グローバル講究Ⅰ 博士後期
2023年度システム工学グローバル講究Ⅱ 博士後期
2023年度システム工学グローバル講究Ⅱ 博士後期
2023年度システム工学講究ⅠＢ博士前期
2023年度システム工学特別講究Ⅰ 博士後期
2023年度システム工学特別講究Ⅱ 博士後期
2023年度システム工学特別研究博士後期
2023年度システム工学講究ⅠＡ博士前期
2023年度システム工学講究ⅡＡ博士前期
2023年度システム工学講究ⅡＢ博士前期
2023年度システム工学研究ⅠＡ博士前期
2023年度システム工学研究ⅠＢ博士前期
2023年度システム工学研究ⅡＡ博士前期
2023年度システム工学研究ⅡＢ博士前期
2022年度システム工学グローバル講究Ⅱ 博士後期
2022年度システム工学グローバル講究Ⅰ 博士後期
2022年度システム工学特別研究博士後期
2022年度システム工学特別講究Ⅱ 博士後期
2022年度システム工学特別講究Ⅰ 博士後期
2022年度システム工学研究ⅡＢ博士前期
2022年度システム工学研究ⅡＡ博士前期
2022年度システム工学研究ⅠＢ博士前期
2022年度システム工学研究ⅠＡ博士前期
2022年度システム工学講究ⅡＢ博士前期
2022年度システム工学講究ⅡＡ博士前期
2022年度システム工学講究ⅠＢ博士前期
2022年度システム工学講究ⅠＡ博士前期
2021年度システム工学グローバル講究Ⅱ 博士後期
2021年度システム工学講究ⅠＡ博士前期
2021年度システム工学講究ⅠＢ博士前期
2021年度システム工学講究ⅡＡ博士前期
2021年度システム工学講究ⅡＢ博士前期
2021年度システム工学研究ⅠＡ博士前期
2021年度システム工学研究ⅠＢ博士前期
2021年度システム工学研究ⅡＡ博士前期
2021年度システム工学研究ⅡＢ博士前期
2021年度システム工学特別講究Ⅰ 博士後期
2021年度システム工学特別講究Ⅱ 博士後期
2021年度システム工学特別研究博士後期
2021年度システム工学グローバル講究Ⅰ 博士後期
2021年度システム工学グローバル講究Ⅱ 博士後期
2020年度システム工学講究ⅠB 博士前期
2020年度システム工学研究ⅡB 博士前期
2020年度システム工学講究ⅠIB 博士前期
2020年度システム工学研究ⅠB 博士前期
2020年度システム工学研究ⅠＡ博士前期
2020年度システム工学研究ⅡＡ博士前期
2020年度システム工学講究ⅠＡ博士前期
2020年度システム工学講究ⅠIＡ博士前期
2020年度システム工学グローバル講究Ⅱ 博士後期
2020年度システム工学グローバル講究Ⅰ 博士後期
2020年度システム工学特別研究博士後期
2020年度システム工学特別講究Ⅱ 博士後期
2020年度システム工学特別講究Ⅰ 博士後期
2020年度システム工学研究ⅡＢ博士前期
2020年度システム工学研究ⅡＡ博士前期
2020年度システム工学研究ⅠＢ博士前期
2020年度システム工学研究ⅠＡ博士前期
2020年度システム工学講究ⅡＢ博士前期
2020年度システム工学講究ⅡＡ博士前期
2020年度システム工学講究ⅠＢ博士前期
2020年度システム工学講究ⅠＡ博士前期
2019年度システム工学特別講究Ⅱ 博士後期
2019年度システム工学特別講究Ⅱ 博士後期
2019年度システム工学特別研究博士後期
2019年度システム工学特別研究博士後期
2019年度システム工学講究ⅡＢ博士前期
2019年度システム工学講究ⅡＡ博士前期
2019年度システム工学講究ⅠＢ博士前期
2019年度システム工学講究ⅠＡ博士前期
2019年度システム工学グローバル講究Ⅱ 博士後期
2019年度システム工学グローバル講究Ⅱ 博士後期
2019年度システム工学研究ⅡＢ博士前期
2019年度システム工学研究ⅡＡ博士前期
2019年度システム工学研究ⅠＢ博士前期
2019年度システム工学研究ⅠＡ博士前期
2019年度システム工学研究ⅡＡ博士前期
2019年度システム工学研究ⅠＢ博士前期
2019年度システム工学研究ⅠＡ博士前期
2019年度システム工学講究ⅡＢ博士前期
2019年度システム工学講究ⅡＡ博士前期
2019年度システム工学講究ⅠＢ博士前期
2019年度システム工学研究ⅡＢ博士前期
2018年度システム工学グローバル講究Ⅰ 博士後期
2018年度システム工学特別研究博士後期
2018年度システム工学特別講究Ⅰ 博士後期
2018年度システム工学研究ⅡＢ博士前期
2018年度システム工学研究ⅡＡ博士前期
2018年度システム工学研究ⅠＢ博士前期
2018年度システム工学研究ⅠＡ博士前期
2018年度システム工学講究ⅡＢ博士前期
2018年度システム工学講究ⅡＡ博士前期
2018年度システム工学講究ⅠＢ博士前期
2018年度システム工学講究ⅠＡ博士前期
2018年度システム工学特別研究博士後期
2018年度システム工学グローバル講究Ⅰ 博士後期
2018年度システム工学講究ⅡＡ博士前期
2018年度システム工学講究ⅡＢ博士前期
2018年度システム工学研究ⅡＢ博士前期
2018年度システム工学研究ⅠＢ博士前期
2018年度システム工学研究ⅠＡ博士前期
2018年度システム工学研究ⅡＡ博士前期
2018年度システム工学講究ⅡＢ博士前期
2018年度システム工学グローバル講究Ⅱ 博士後期
2018年度システム工学講究ⅠＡ博士前期
2017年度システム工学グローバル講究Ⅰ 博士後期
2017年度システム工学特別講究Ⅱ 博士後期
2017年度システム工学グローバル講究Ⅱ 博士後期
2017年度システム工学特別研究博士後期
2017年度システム工学研究ⅡＢ博士前期
2017年度システム工学研究ⅡＡ博士前期
2017年度システム工学研究ⅠＢ博士前期
2017年度システム工学研究ⅠＡ博士前期
2017年度システム工学講究ⅡＢ博士前期
2017年度システム工学講究ⅡＡ博士前期
2017年度システム工学講究ⅠＢ博士前期
2016年度システム工学グローバル講究Ⅱ 博士後期
2016年度システム工学特別研究博士後期
2016年度システム工学研究ⅡＢ博士前期
2016年度システム工学研究ⅠＢ博士前期
2016年度システム工学研究ⅠＡ博士前期
2016年度システム工学講究ⅡＢ博士前期
2016年度システム工学講究ⅠＢ博士前期
2016年度システム工学講究IA 博士前期
2016年度システム工学講究IIA 博士前期
2016年度システム工学研究IIA 博士前期
2016年度システム工学特別講究Ⅱ 博士後期
2015年度システム工学特別講究Ⅰ その他
2015年度システム工学講究ⅡＡその他
2015年度システム工学講究ⅠＡ博士前期
2015年度システム工学研究ⅡＡその他
2015年度システム工学研究ⅠＡその他
2015年度システム工学特別講究Ⅰ その他
2015年度システム工学特別研究その他
2015年度システム工学講究ⅡＢその他
2015年度システム工学講究ⅠＢ博士前期
2015年度システム工学研究ⅡＢその他
2015年度システム工学研究ⅠＢその他
2015年度システム工学グローバル講究Ⅰ その他
2015年度システム工学講究ⅡB その他
2015年度システム工学研究ⅠIA その他
2015年度システム工学研究ⅠA その他
2014年度システム工学特別研究その他
2014年度システム工学特別研究その他
2014年度システム工学特別講究Ⅱ その他
2014年度システム工学特別講究Ⅱ その他
2014年度システム工学特別講究Ⅰ その他
2014年度システム工学特別講究Ⅰ その他
2014年度システム工学研究ⅡＢその他
2014年度システム工学研究ⅡＡその他
2014年度システム工学研究ⅠＢその他
2014年度システム工学研究ⅠＡその他
2014年度システム工学講究ⅡＢその他
2014年度システム工学講究ⅡＡその他
2014年度システム工学講究ⅠＢその他
2014年度システム工学講究ⅠＡその他
2014年度システム工学研究IIB その他
2014年度システム工学研究IIA その他
2014年度システム工学研究IA その他
2014年度システム工学研究IＢその他
2014年度システム工学特別講究ⅡA その他
2014年度システム工学特別講究ⅡB その他
2014年度システム工学講究ⅠＢその他
2014年度システム工学特別講究ⅠA その他
2014年度システム工学研究ⅡＢその他
2014年度システム工学特別研究その他
2014年度システム工学講究ⅠＡその他
2013年度システム工学特別研究その他
2013年度システム工学特別研究その他
2013年度システム工学特別講究Ⅱ その他
2013年度システム工学特別講究Ⅱ その他
2013年度システム工学特別講究Ⅰ その他
2013年度システム工学特別講究Ⅰ その他
2013年度システム工学研究ⅡＢその他
2013年度システム工学研究ⅡＡその他
2013年度システム工学研究ⅠＢその他
2013年度システム工学研究ⅠＡその他
2013年度システム工学講究ⅡＢその他
2013年度システム工学講究ⅡＡその他
2013年度システム工学講究ⅠＢその他
2013年度システム工学講究ⅠＡその他
2012年度システム工学特別講究Ⅱ その他
2012年度システム工学特別講究Ⅰ その他
2012年度システム工学特別研究その他
2012年度システム工学講究ⅡＡその他
2012年度システム工学講究ⅠＡその他
2012年度システム工学研究ⅡＡその他
2012年度システム工学研究ⅠＡその他
2012年度システム工学特別講究Ⅱ その他
2012年度システム工学特別講究Ⅰ その他
2012年度システム工学特別研究その他
2012年度システム工学講究ⅡＢその他
2012年度システム工学講究ⅠＢその他
2012年度システム工学研究ⅡＢその他
2012年度システム工学研究ⅠＢその他
2011年度システム工学研究ⅡＢその他
2011年度システム工学研究ⅡＡその他
2011年度システム工学研究ⅠＢその他
2011年度システム工学研究ⅠＡその他
2011年度システム工学特別研究その他
2011年度システム工学特別研究その他
2011年度システム工学講究（ⅠＢ・ⅡＢ）その他
2011年度システム工学講究（ⅠＡ・ⅡＡ）その他
2011年度システム工学特別講究Ⅱ その他
2011年度システム工学特別講究Ⅱ その他
2011年度システム工学特別講究Ⅰ その他
2011年度システム工学特別講究Ⅰ その他
2010年度システム工学講究IA・IB 博士前期
2010年度システム工学講究IIA・IIB 博士前期
2010年度システム工学研究IIA・IIB 博士前期
2010年度システム工学研究IA・IB 博士前期
2009年度システム工学研究IIA・IIB 博士前期
2009年度システム工学研究IA・IB 博士前期
2009年度システム工学講究IIA・IIB 博士前期
2009年度システム工学講究IA・IB 博士前期
2008年度システム工学研究IIA・IIB 博士前期
2008年度システム工学研究IA・IB 博士前期
2008年度システム工学講究IIA・IIB 博士前期
2008年度システム工学講究IA・IB 博士前期
2007年度システム工学研究II 博士前期
2007年度システム工学研究I 博士前期
2007年度システム工学講究II 博士前期
2007年度システム工学講究I 博士前期
2005年度システム工学講究ⅠIＡその他
2005年度システム工学講究ⅠＡその他

▼全件表示

研究キーワード

▼全件表示

論文

Effects of age and hearing loss on speech emotion discrimination

Toshio Irino, Yukiho Hanatani, Kazuma Kishida, Shuri Naito, Hideki Kawahara (担当区分：筆頭著者,　責任著者 )

Scientific Reports ( Springer Science and Business Media LLC ) 14 ( 1 ) 2024年08月 [査読有り]

DOI
Improving Auditory Filter Estimation by Incorporating Absolute Threshold and a Level-dependent Internal Noise

Toshio Irino, Kenji Yokota, Roy D. Patterson (担当区分：筆頭著者,　責任著者 )

Trends in Hearing ( SAGE Publications ) 27 2023年10月 [査読有り]

　概要を見る

Auditory filter (AF) shape has traditionally been estimated with a combination of a notched-noise (NN) masking experiment and a power spectrum model (PSM) of masking. However, there are several challenges that remain in both the simultaneous and forward masking paradigms. We hypothesized that AF shape estimation would be improved if absolute threshold (AT) and a level-dependent internal noise were explicitly represented in the PSM. To document the interaction between NN threshold and AT in normal hearing (NH) listeners, a large set of NN thresholds was measured at four center frequencies (500, 1000, 2000, and 4000 Hz) with the emphasis on low-level maskers. The proposed PSM, consisting of the compressive gammachirp (cGC) filter and three nonfilter parameters, allowed AF estimation over a wide range of frequencies and levels with fewer coefficients and less error than previous models. The results also provided new insights into the nonfilter parameters. The detector signal-to-noise ratio ([Formula: see text]) was found to be constant across signal frequencies, suggesting that no frequency dependence hypothesis is required in the postfiltering process. The ANSI standard “Hearing Level-0dB” function, i.e., AT of NH listeners, could be applied to the frequency distribution of the noise floor for the best AF estimation. The introduction of a level-dependent internal noise could mitigate the nonlinear effects that occur in the simultaneous NN masking paradigm. The new PSM improves the applicability of the model, particularly when the sound pressure level of the NN threshold is close to AT.

DOI
Hearing Impairment Simulator Based on Auditory Excitation Pattern Playback: WHIS

Toshio Irino (担当区分：筆頭著者,　責任著者 )

IEEE Access ( Institute of Electrical and Electronics Engineers (IEEE) ) 11 78419 - 78430 2023年07月 [査読有り]

DOI
Speech intelligibility of simulated hearing loss sounds and its prediction using the Gammachirp Envelope Similarity Index (GESI)

Toshio Irino, Honoka Tamaru, Ayako Yamamoto (担当区分：筆頭著者,　責任著者 )

Proc. Interspeech2022 2022年09月 [査読有り]
Improving auditory filter estimation with level-dependent cochlear noise floor

Toshio Irino, Kenji Yokota, Roy Patterson (担当区分：筆頭著者,　責任著者 )

International Symposium on Hearing 2022 10.5281/zenodo.6576893 2022年06月 [査読有り]

DOI
Modelling speaker-size discrimination with voiced and unvoiced speech sounds based on the effect of spectral lift

Toshie Matsui, Toshio Irino, Ryo Uemura, Kodai Yamamoto, Hideki Kawahara, Roy D. Patterson (担当区分：責任著者 )

Speech Communication ( Elsevier BV ) 136 23 - 41 2022年01月 [査読有り]

DOI
GEDI: Gammachirp envelope distortion index for predicting intelligibility of enhanced speech

Katsuhiko Yamamoto, Toshio Irino, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani (担当区分：責任著者 )

Speech Communication 123 43 - 58 2020年10月 [査読有り]
The gammachirp auditory filter and its application to speech perception

Toshio Irino, Roy D. Patterson (担当区分：筆頭著者,　責任著者 )

Acoust, Sci. & Tech. 41 ( 1 ) 99 - 107 2020年01月 [査読有り] [招待有り]

DOI
Auditory Representation Effective for Estimating Vocal Tract Information

Toshio Irino, Shintaro Doan (担当区分：筆頭著者,　責任著者 )

2023 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) ( IEEE ) 2023年10月 [査読有り]

DOI
Impact of Residual Noise and Artifacts in Speech Enhancement Errors on Intelligibility of Human and Machine

Shoko Araki, Ayako Yamamoto, Tsubasa Ochiai, Kenichi Arai, Atsunori Ogawa, Tomohiro Nakatani, Toshio Irino (担当区分：最終著者 )

INTERSPEECH 2023 ( ISCA ) 2023年08月 [査読有り]

DOI
Effective data screening technique for crowdsourced speech intelligibility experiments: Evaluation with IRM-based speech enhancement,

Ayako Yamamoto, Toshio Irino, Shoko Araki, Kenichi Ara, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani (担当区分：責任著者 )

Proc. APSIPA ASC 2022 2022年11月 [査読有り]
Intelligibility Prediction of Enhanced Speech Using Recognition Accuracy of End-To-End ASR System

Kenichi Arai, Atsunori Ogawa, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani, Naoyuki Kamo, Toshio Irino (担当区分：最終著者 )

Proc. APSIPA ASC2022 2022年11月 [査読有り]
Speech Intelligibility Prediction Through Direct Estimation of Word Accuracy Using Conformer

Naoyuki Kamo, Kenichi Arai, Atsunori Ogawa, Shoko Araki, Tomohiro Nakatani, Keisuke Kinoshita, Marc Delcroix, Tsubasa Ochiai, Toshio Irino (担当区分：最終著者 )

Proc. APSIPA ASC 2022 2022年11月 [査読有り]
Comparison of Remote Experiments Using Crowdsourcing and Laboratory Experiments on Speech Intelligibility

Ayako Yamamoto, Toshio Irino, Kenichi Arai, Shoko Araki, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani (担当区分：責任著者 )

Interspeech 2021 ( ISCA ) 2021年08月 [査読有り]

DOI
Observational and accelerometer analysis of head movement patterns in psychotherapeutic dialogue

Masashi Inoue, Toshio Irino, Nobuhiro Furuyama, Ryoko Hanada

Sensors 21 ( 9 ) 2021年05月 [査読有り]
Interactive and real-time acoustic measurement tools for speech data acquisition and presentation: Application of an extended member of time stretched pulses

Hideki Kawahara, Kohei Yatabe, Ken Ichi Sakakibara, Mitsunori Mizumachi, Masanori Morise, Hideki Banno, Toshio Irino (担当区分：最終著者 )

Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH 3 2197 - 2198 2021年

　概要を見る

Objective measurements of speech data acquisition and presentation processes are crucial for assuring reproducibility and reusability of experimental results and acquired materials. We introduce setting and measurement examples of those conditions using an interactive and real-time acoustic measurement tool based on an extended time-stretched pulse. We also introduce supporting tools.
Mixture of Orthogonal Sequences Made from Extended Time-Stretched Pulses Enables Measurement of Involuntary Voice Fundamental Frequency Response to Pitch Perturbation.

Hideki Kawahara, Toshie Matsui, Kohei Yatabe, Ken-Ichi Sakakibara, Minoru Tsuzaki, Masanori Morise, Toshio Irino (担当区分：最終著者 )

Interspeech ( ISCA ) 4 3206 - 3210 2021年 [査読有り]

　概要を見る

Auditory feedback plays an essential role in the regulation of the fundamental frequency of voiced sounds. The fundamental frequency also responds to auditory stimulation other than the speaker’s voice. We propose to use this response of the fundamental frequency of sustained vowels to frequency-modulated test signals for investigating involuntary control of voice pitch. This involuntary response is difficult to identify and isolate by the conventional paradigm, which uses step-shaped pitch perturbation. We recently developed a versatile measurement method using a mixture of orthogonal sequences made from a set of extended time-stretched pulses (TSP). In this article, we extended our approach and designed a set of test signals using the mixture to modulate the fundamental frequency of artificial signals. For testing the response, the experimenter presents the modulated signal aurally while the subject is voicing sustained vowels. We developed a tool for conducting this test quickly and interactively. We make the tool available as an open-source and also provide executable GUI-based applications. Preliminary tests revealed that the proposed method consistently provides compensatory responses with about 100 ms latency, representing involuntary control. Finally, we discuss future applications of the proposed method for objective and non-invasive auditory response measurements.

DOI
Implementation of Interactive Tools for Investigating Fundamental Frequency Response of Voiced Sounds to Auditory Stimulation

Hideki Kawahara, Toshie Matsui, Kohei Yatabe, Ken Ichi Sakakibara, Minoru Tsuzaki, Masanori Morise, Toshio Irino (担当区分：最終著者 )

2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2021 - Proceedings abs/2109.11594 897 - 903 2021年 [査読有り]

　概要を見る

We introduced a measurement procedure for the involuntary response of voice fundamental-frequency to frequency modulated auditory stimulation. This involuntary response plays an essential role in voice fundamental frequency control while less investigated due to technical difficulties. This article introduces an interactive and real-time tool for investigating this response and supporting tools adopting our new measurement method. The method enables simultaneous measurement of multiple system properties based on a novel set of extended time-stretched pulses combined with orthogonalization. We made MATLAB implementation of these tools available as an open-source repository. This article also provides the detailed measurement procedure using the interactive tool followed by offline measurement tools for conducting subjective experiments and statistical analyses. It also provides technical descriptions of constituent signal processing subsystems as appendices. This application serves as an example for adopting our method to biological system analysis.
Predicting Intelligibility of Enhanced Speech Using Posteriors Derived from DNN-based ASR System

Kenichi Arai, Shoko Araki, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani, Toshio Irino (担当区分：最終著者 )

Interspeech 2020 2020年10月 [査読有り]
Speech clarity improvement by vocal self-training using a hearing impairment simulator and its correlation with an auditory modulation index

Toshio Irino, Soichi Higashiyama, Hanako Yoshigi (担当区分：筆頭著者,　責任著者 )

Interspeech 2020 2020年10月 [査読有り]
Speech intelligibility prediction using a multi-resolution gammachirp envelope distortion index with common parameters for different noise conditions

Katsuhiko Yamamoto, Toshio Irino, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani (担当区分：責任著者 )

Acoust, Sci. & Tech. 41 ( 1 ) 396 - 399 2020年01月 [査読有り]

DOI
Frequency domain variant of Velvet noise and its application to acoustic measurements,

Hideki Kawahara, Ken-Ichi Sakakibara, Mitsunori Mizumachi, Hideki Banno, Tomoki Toda, Toshio Irino (担当区分：最終著者 )

APSIPA ASC 2019 ( IEEE ) 1523 - 1532 2019年11月 [査読有り]

　概要を見る

APSIPA ASC 2019 ,Lanzhou, China, 18-21 Nov. 2019,

DOI
Predicting speech intelligibility of enhanced speech using phone accuracy of DNN-based ASR systems,

Kenichi Arai, Shoko Araki, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani, Katsuhiko Yamamoto, Toshio Irino (担当区分：最終著者 )

Interspeech 2019 ( ISCA ) 4275 - 4279 2019年09月 [査読有り]

　概要を見る

Graz, Austria, 15-19 Sep. 2019

DOI
Modification of piano performance by simulated hearing loss: Analyses on the key velocities and output powers,

Minoru Tsuzaki, Noriko Maegawa, Chie Ohsawa, Hideki Banno, Toshio Irino (担当区分：最終著者 )

International Symposium on Performance Science 2019 2019年07月 [査読有り]

　概要を見る

(ISPS2019), 16-20 July 2019.
Rising-frequency chirp stimulus to effectively enhance wave-I amplitude of auditory brainstem response,

Takashi Morimoto, Yoh-ichi Fujisaka, Yasuhide Okamoto, Toshio Irino (担当区分：最終著者 )

Hear. Res 377 104 - 108 2019年06月 [査読有り]

　概要を見る

(Short communication)
臨床心理面接における「傾聴」の再考に向けた時系列連続評価アプローチの提案

花田里欧子, 入野俊夫, 古山宣洋, 井上雅史, 門田圭祐

東京女子大学心理臨床センター紀要 9 41 - 62 2019年03月
Speech intelligibility prediction with the dynamic compressive gammachirp filterbank and modulation power spectrum,

Katsuhiko Yamamoto, Toshio Irino, Toshie Matsui, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani (担当区分：責任著者 )

Acoust. Sci. & Tech 40 ( 2 ) 84 - 92 2019年03月 [査読有り]

DOI
Two-Point Method for Measuring the Temporal Modulation Transfer Function.

Takashi Morimoto, Toshio Irino, Kouta Harada, Takeshi Nakaichi, Yasuhide Okamoto, Ayako Kanno, Sho Kanzaki, Kaoru Ogawa (担当区分：責任著者 )

Ear and hearing 40 ( 1 ) 55 - 62 2019年01月 [査読有り]

　概要を見る

OBJECTIVE: The temporal modulation transfer function (TMTF) has been proposed to estimate the temporal resolution abilities of listeners with normal hearing and listeners with hearing loss. The TMTF data of patients would be useful for clinical diagnosis and for adjusting the hearing instruments at clinical and fitting sites. However, practical application is precluded by the long measurement time of the conventional method, which requires several measurement points. This article presents a new method to measure the TMTF that requires only two measurement points. DESIGN: Experiments were performed to estimate the TMTF of normal listeners and listeners with hearing loss to demonstrate that the two-point method can estimate the TMTF parameter and the conventional method. Sixteen normal hearing and 21 subjects with hearing loss participated, and the difference between the estimated TMTF parameters and measurement time were compared. RESULTS: The TMTF parameters (the peak sensitivity Lps and cutoff frequency fcutoff) estimated by the conventional and two-point methods showed significantly high correlations: the correlation coefficient for Lps was 0.91 (t(45) = 14.3; p < 10) and that for fcutoff was 0.89 (t(45) = 13.2; p < 10). There were no fixed and proportional biases. Therefore, the estimated values were in good agreement. Moreover, there was no systematic bias depending on the subject's profile. The measurement time of the two-point method was approximately 10 min, which is approximately one-third that of the conventional method. CONCLUSION: The two-point method enables the introduction of TMTF measurement in clinical diagnosis.

DOI
A real time hearing loss simulator

Nicolas Grimault, Toshio Irino, Samar Dimachki, Alexandra Corneyllie, Roy D. Patterson, Samuel Garcia

Acta Acustica united with Acustica 104 ( 5 ) 904 - 908 2018年10月 [査読有り]

DOI
Auditory filter derivation at low levels where masked threshold interacts with absolute threshold

Toshio Irino, Kenji Yokota, Toshie Matsui, Roy D. Patterson (担当区分：筆頭著者,　責任著者 )

Acta Acustica united with Acustica 104 ( 5 ) 887 - 890 2018年10月 [査読有り]

DOI
Speech intelligibility prediction using a multi-resolution gammachirp envelope distortion index with common parameters for different noise conditions,

Katsuhiko Yamamoto, Toshio Irino, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani (担当区分：責任著者 )

Seminar on brain, hearing and speech sciences for universal speech communication 2018年10月 [査読有り]

　概要を見る

Tohoku Univ., Sendai, Japan, 25 - 26 Oct 2018, (発表：25 Oct 2018)
Multi-resolution Gammachirp Envelope Distortion Index for Intelligibility Prediction of Noisy Speech

Katsuhiko Yamamoto, Toshio Irino, Narumi Ohashi, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani (担当区分：責任著者 )

Proc. Interspeech 2018 1863 - 1867 2018年08月 [査読有り]

DOI
Frequency Domain Variants of Velvet Noise and Their Application to Speech Processing and Synthesis

Hideki Kawahara, Ken-Ichi Sakakibara, Masanori Morise, Hideki Banno, Tomoki Toda, Toshio Irino (担当区分：最終著者 )

Proc. Interspeech 2018 ( ISCA ) 2027 - 2031 2018年08月 [査読有り]

DOI
高齢難聴者の文聴取における文節休止の効果―模擬難聴システムを用いたシミュレーションによる検討―

畑山春菜, 長谷川純, 吐師道子, 松井淑恵, 入野俊夫 (担当区分：最終著者 )

県立広島大紀要人間と科学 ( 県立広島大学保健福祉学部学術誌編集委員会 ) 18 ( 1 ) 19‐26 - 26 2018年03月

　概要を見る

"難聴のある高齢者に話しかける際に，聞き取りを助ける方法の１つとして，文節の間をあけて話すことが推奨されている。こうした文節休止が文の聴取に与える効果について，模擬難聴システムを用いて高齢者の聴力をシミュレーションし，若年健聴者を対象に聴取実験を行なって検討した。その結果，文節休止0.6 秒，文節休止0.1秒，文節休止なしの順に文聴取の正答率が高く，文節休止は聞き取りの向上につながると考えられた。また，ごく短い0.1 秒の休止でも，一定の効果があることが示唆された。"When speaking to elderly people with hard of hearing, it is commonly recommended to insert short pauses between phrases of a sentence in order to assist their listening comprehension. In this study, the effectiveness of inter-phrase pausing for listening comprehension of sentences was investigated by simulating elderly people's hearing utilizing a hearing impairment simulator. Young adults with normal hearing participated in an experiment in which they listened to sentences through the hearing impairment simulator and were asked to repeat the sentences as they heard them. The results showed that the correct answer rate was highest with a 0.6 second pausing, followed by a 0.1 second pausing, and lowest when sentences were presented without pausing. It can be concluded that inter-phrase pausing facilitates listening comprehension of sentences and even a very short pausing of 0.1 second is effective.原著
高齢難聴者の文聴取における文節休止の効果模擬難聴システムを用いたシミュレーションによる検討

畑山春菜, 長谷川純, 吐師道子, 松井淑恵, 入野俊夫

人間と科学: 県立広島大学保健福祉学部誌 ( 県立広島大学保健福祉学部学術誌編集委員会 ) 18 ( 1 ) 19 - 26 2018年03月
An Auditory Model of Speaker Size Perception for Voiced Speech Sounds.

Toshio Irino, Eri Takimoto, Toshie Matsui,Roy D. Patterson (担当区分：筆頭著者,　責任著者 )

Interspeech 2017, 18th Annual Conference of the International Speech Communication Association, Stockholm, Sweden, August 20-24, 2017 ( ISCA ) 2017- 1153 - 1157 2017年08月 [査読有り]

　概要を見る

An auditory model was developed to explain the results of behavioral experiments on perception of speaker size with voiced speech sounds. It is based on the dynamic, compressive gammachirp (dcGC) filterbank and a weighting function (SSI weight) derived from a theory of size-shape segregation in the auditory system. Voiced words with and without high-frequency emphasis (+6 dB/octave) were produced using a speech vocoder (STRAIGHT). The SSI weighting function reduces the effect of glottal pulse excitation in voiced speech, which, in turn, makes it possible for the model to explain the individual subject variability in the data.

DOI
A New Cosine Series Antialiasing Function and its Application to Aliasing-Free Glottal Source Models for Speech and Singing Synthesis.

Hideki Kawahara, Ken-Ichi Sakakibara, Masanori Morise, Hideki Banno, Tomoki Toda, Toshio Irino (担当区分：最終著者 )

Interspeech 2017, 18th Annual Conference of the International Speech Communication Association, Stockholm, Sweden, August 20-24, 2017 ( ISCA ) abs/1702.06724 1358 - 1362 2017年08月 [査読有り]

　概要を見る

We Formulated And Implemented A Procedure To Generate Aliasing-Free Excitation Source Signals. It Uses A New Antialiasing Filter In The Continuous Time Domain Followed By An Iir Digital Filter For Response Equalization. We Introduced A Cosine-Series-Based General Design Procedure For The New Antialiasing Function. We Applied This New Procedure To Implement The Antialiased Fujisaki-Ljungqvist Model. We Also Applied It To Revise Our Previous Implementation Of The Antialiased Fant-Liljencrants Model. A Combination Of These Signals And A Lattice Implementation Of The Time Varying Vocal Tract Model Provides A Reliable And Flexible Basis To Test FO Extractors And Source Ape-Riodicity Analysis Methods. Matlab Implementations Of These Antialiased Excitation Source Models Are Available As Part Of Our Open Source Tools For Speech Science.

DOI
The Effect of Spectral Tilt on Size Discrimination of Voiced Speech Sounds.

Toshie Matsui, Toshio Irino, Kodai Yamamoto, Hideki Kawahara,Roy D. Patterson (担当区分：責任著者 )

Interspeech 2017, 18th Annual Conference of the International Speech Communication Association, Stockholm, Sweden, August 20-24, 2017 ( ISCA ) 2017- 601 - 605 2017年08月 [査読有り]

　概要を見る

A number of studies, with either voiced or unvoiced speech, have demonstrated that a speaker's geometric mean formant frequency (MFF) has a large effect on the perception of the speaker's size, as would be expected. One study with unvoiced speech showed that lifting the slope of the speech spectrum by 6 dB/octave also led to a reduction in the perceived size of the speaker. This paper reports an analogous experiment to determine whether lifting the slope of the speech spectrum by 6 dB/octave affects the perception of speaker size with voiced speech (words). The results showed that voiced speech with high-frequency enhancement was perceived to arise from smaller speakers. On average, the point of subjective equality in MFF discrimination was reduced by about 5%. However, there were large individual differences
some listeners were effectively insensitive to spectral enhancement of 6 dB/octave
others showed a consistent effect of the same enhancement. The results suggest that models of speaker size perception will need to include a listener specific parameter for the effect of spectral slope.

DOI
Predicting Speech Intelligibility Using a Gammachirp Envelope Distortion Index Based on the Signal-to-Distortion Ratio.

Katsuhiko Yamamoto, Toshio Irino, Toshie Matsui, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani (担当区分：責任著者 )

Interspeech 2017, 18th Annual Conference of the International Speech Communication Association, Stockholm, Sweden, August 20-24, 2017 ( ISCA ) 2017- 2949 - 2953 2017年08月 [査読有り]

　概要を見る

A new intelligibility prediction measure, called "Gammachirp Envelope Distortion Index (GEDI)" is proposed for the evaluation of speech enhancement algorithms. This model calculates the signal-to-distortion ratio (SDR) in envelope responses SDRenv derived from the gammachirp filterbank outputs of clean and enhanced speech, and is an extension of the speech based envelope power spectrum model (sEPSM) to improve prediction and usability. An evaluation was performed by comparing human subjective results and model predictions for the speech intelligibility of noise-reduced sounds processed by spectral subtraction and a recent Wiener filtering technique. The proposed GEDI predicted the subjective results of the Wiener filtering better than those predicted by the original sEPSM and well-known conventional measures, i.e., STOI, CSII, and HASPI.

DOI
Pitch: The perceptual ends of the periodicity; but of what periodicity?

Minoru Tsuzaki, Sawa Hanada, Junko Sonoda, Satomi Tanaka, Toshio Irino

Proceedings of the INTER-NOISE 2016 - 45th International Congress and Exposition on Noise Control Engineering: Towards a Quieter Future ( German Acoustical Society (DEGA) ) 6687 - 6698 2016年08月 [査読有り] [招待有り]

　概要を見る

The model for pitch assumes that pitch is based on the periodicity in the neural activities after the cochlear filtering. One could argue that the auditory system "uses" the pitch as cue for stream segregation. A question, however, would whether pitch is a cause or an end of such grouping. We investigated the case where two pulse trains with an identical periodicity are added with variable temporal disparities. The second pulse train with the identical IPI was added with various phase delays. When the phase delay was 50 %, the pitch raised by an octave. This impression of the octave shift appeared to be continuous as a function of the degree of the phase delay except for a hump was observed at 25 % point. The auditory model could not provide any corresponding peak in the time interval histogram of the neural activities. Another series of experiments by the authors indicated that aged absolute pitch possessors tended to perceive pitches higher than young AP possessors. An additional experiment using experimental sounds indicated that similar results could be obtained only for sounds having temporal information in the lower order region.
The Effect of Peripheral Compression on Syllable Perception Measured with a Hearing Impairment Simulator

Toshie Matsui, Toshio Irino, Misaki Nagae, Hideki Kawahara, Roy D. Patterson (担当区分：責任著者 )

PHYSIOLOGY, PSYCHOACOUSTICS AND COGNITION IN NORMAL AND IMPAIRED HEARING ( SPRINGER-VERLAG BERLIN ) 894 307 - 314 2016年 [査読有り]

　概要を見る

Hearing impaired (HI) people often have difficulty understanding speech in multi-speaker or noisy environments. With HI listeners, however, it is often difficult to specify which stage, or stages, of auditory processing are responsible for the deficit. There might also be cognitive problems associated with age. In this paper, a HI simulator, based on the dynamic, compressive gammachirp (dcGC) filterbank, was used to measure the effect of a loss of compression on syllable recognition. The HI simulator can counteract the cochlear compression in normal hearing (NH) listeners and, thereby, isolate the deficit associated with a loss of compression in speech perception. Listeners were required to identify the second syllable in a three-syllable "nonsense word", and between trials, the relative level of the second syllable was varied, or the level of the entire sequence was varied. The difference between the Speech Reception Threshold (SRT) in these two conditions reveals the effect of compression on speech perception. The HI simulator adjusted a NH listener's compression to that of the "average 80-year old" with either normal compression or complete loss of compression. A reference condition was included where the HI simulator applied a simple 30-dB reduction in stimulus level. The results show that the loss of compression has its largest effect on recognition when the second syllable is attenuated relative to the first and third syllables. This is probably because the internal level of the second syllable is attenuated proportionately more when there is a loss of compression.

DOI
Speech intelligibility prediction based on the envelope power spectrum model with the dynamic compressive gammachirp auditory filterbank

Katsuhiko Yamamoto, Toshio Irino, Toshie Matsui, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani (担当区分：責任著者 )

17TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2016), VOLS 1-5 ( ISCA-INT SPEECH COMMUNICATION ASSOC ) 2885 - 2889 2016年 [査読有り]

　概要を見る

In this study, we develop a new method to realize speech intelligibility prediction of synthetic sounds processed by nonlinear speech enhancement algorithms. A speech envelope power spectrum model (sEPSM) was proposed to account for subjective results on a spectral subtraction, but it is untested by recent state-of-the-art speech enhancement algorithms. We introduce a dynamic compressive gammachirp auditory filterbank as the front-end of the sEPSM (dcGC-sEPSM) to improve the predictability. We perform subjective experiments on speech intelligibility (SI) of noise-reduced sounds processed by the spectral subtraction, and a recently developed Wiener filter algorithm. We compare the subjective SI scores with the objective SI scores predicted by the proposed dcGC-sEPSM, the original GT-sEPSM, the three-level coherence SII (CSII), and the short time objective intelligibility (STOI). The results show that the proposed dcGC-sEPSM performs better than the conventional models.

DOI
Aliasing-free implementation of discrete-time glottal source models and their applications to speech synthesis and F0 extractor evaluation.

Hideki Kawahara, Ken-Ichi Sakakibara, Hideki Banno, Masanori Morise, Tomoki Toda, Toshio Irino

Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA 2015, Hong Kong, December 16-19, 2015 ( IEEE ) 520 - 529 2015年12月 [査読有り]

　概要を見る

A closed-form representation of anti-aliased L-F model is derived for a LPF function family based on cosine series. The Matlab based implementation of the derived form provides virtually aliasing-free source signal, which is applicable to speech synthesis and F0 extractor evaluation. This aliasing-free representation is also suitable for testing perceptual effects of wave shape parameters in the L-F model, since possible artifacts caused by spurious component are completely removed. A post processing procedure for fine tuning spectral shape is also introduced. An interactive tool for investigating speech production model parameters is designed using this Matlab implementation and will be made freely available.

DOI
How the slope of the speech spectrum affects the perception of speaker size.

Kodai Yamamoto, Toshio Irino, Ryuichi Nisimura, Hideki Kawahara,Roy D. Patterson (担当区分：責任著者 )

INTERSPEECH 2015, 16th Annual Conference of the International Speech Communication Association, Dresden, Germany, September 6-10, 2015 ( ISCA ) 1556 - 1560 2015年09月 [査読有り]

　概要を見る

We performed a behavioral experiment to demonstrate the effect of spectral slope on the perception of speaker size, and we developed an auditory model based on the dynamic compressive gammachirp filterbank (dcGC-FB) to explain the results. STRAIGHT was used to generate "unvoiced" and "whispered" versions of naturally recorded words; the only difference was that the spectral slope of the whispered words was tilted up 6 dB/octave with respect to that of the unvoiced words. The experiment confirmed that the whispered words are heard to come from smaller speakers. The auditory model uses the tonotopic excitation pattern, Ep, as the internal representation of speech sounds. The model is found to be much more effective when the gradient of the excitation pattern, del Ep, is included in the size discrimination process. It is particularly useful for explaining individual subject variability.
劣化音声認識における単語の音響的連続性とモーラ遷移情報の影響の評価

森本隆司, 入野俊夫, 西村竜一, 河原英紀 (担当区分：責任著者 )

日本音響学会誌 ( 一般社団法人日本音響学会 ) 70 ( 11 ) 578 - 588 2014年11月 [査読有り]

　概要を見る

模擬難聴を実現する一手段として劣化音声を用いることが考えられている。日常会話における聴取特性を調べたい場合,単音節ではなく単語以上の単位の音声を使うことが望ましい。しかし,音声発話に伴う調音や韻律の連続性や心的辞書内のモーラ遷移情報がどの程度結果に影響しているか分かっていない。そこで本研究では,単語了解度試験用リストFW03中の低親密度単語の劣化音声における音響的な連続性やモーラ遷移情報の影響を評価することを試みた。まず,自然発話単語の劣化音声の聴取実験の結果と対比するために,単音節を有意味あるいは無意味に並ぶようにした単音節系列劣化音声を用いた聴取実験を行った。更に,自動音声認識器を用いて自然発話単語における劣化音声の認識実験を行い,人間の聴取実験結果と対比して考察した。この結果,人間でも自動音声認識器で抽出可能な音響的な連続性やモーラ遷移情報に支えられて劣化音声を認識していることが示唆された。

DOI
Excitation source analysis for high-quality speech manipulation systems based on an interference-free representation of group delay with minimum phase response compensation.

Hideki Kawahara, Masanori Morise, Tomoki Toda, Hideki Banno, Ryuichi Nisimura, Toshio Irino (担当区分：最終著者 )

INTERSPEECH 2014, 15th Annual Conference of the International Speech Communication Association, Singapore, September 14-18, 2014 ( ISCA ) 2243 - 2247 2014年09月 [査読有り]

　概要を見る

（発表日 17 Sept.）
Proposal for an Interactive 3D Sound Playback Interface Controlled by User behavior.

Ryuichi Nisimura, Kazuki Hashimoto, Hideki Kawahara, Toshio Irino (担当区分：最終著者 )

HCI International 2014 - Posters' Extended Abstracts - International Conference, HCI International 2014, Heraklion, Crete, Greece, June 22-27, 2014. Proceedings, Part I ( Springer ) 434 446 - 450 2014年06月 [査読有り]

　概要を見る

Springer International Publishing, (2014), presented at HCI International 2014 (Poster), Heraklion, Crete, Greece,

DOI
Excitation source design for high-quality speech manipulation systems based on a temporally static group delay representation of periodic signals

Hideki Kawahara, Masanori Morise, Tomoki Toda, Hideki Banno, Ryuichi Nisimura, Toshio Irino

2014 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA) ( IEEE ) 1 - 10 2014年 [査読有り]

　概要を見る

A new group delay representation, which yields value zero for periodic signals irrespective to the initial phase and the relative level of each harmonic component. This new group delay representation provides a unified basis for defining "aperiodicity" in speech sounds. For example, the periodic to noise ratio or harmonic to noise ratio is directly derived from the deviation of this group delay representation from value zero, after removing FM effects of harmonic frequencies and removing AM effects of harmonic component level. The derived deviation is combined with estimated excitation duration information and used to design aperiodic components of excitation source for high-quality synthetic speech. The proposed group delay representation is based on F0-adaptive weighted average of frequency shifted versions and temporally shifted versions of group delays with power spectral weighting.

DOI
Hearing Impairment Simulator Based on Compressive Gammachirp Filter

Misaki Nagae, Toshio Irino, Ryuich Nisimura, Hideki Kawahara, Roy D. Patterson

2014 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA) ( IEEE ) 1 - 4 2014年 [査読有り]

　概要を見る

This paper describes a simulator for presenting normal hearing (NH) listeners with the experience of a hearing impaired (HI) listener. The simulator is based on the compressive gammachirp (cGC) filter used to derive level-dependent filter shapes and the cochlear compression function from to notched noise masking data. The level dependence of the cGC is reversed to produce inverse compression which is used to resynthesize sounds that cancel the compression applied by the auditory system of the NH listener. A frame-based analysis/synthesis procedure is newly introduced to improve processing speed for a graphical user interface (GUI) that allows the users to control the degree of compression within the range of the audiogram of the HI person. The simulator is intended for speech-language hearing therapists (ST) and patients' families.

DOI
Development of a Mobile Application for Crowdsourcing the Data Collection of Environmental Sounds

Minori Matsuyama, Ryuichi Nisimura, Hideki Kawahara, Junnosuke Yamada, Toshio Irino

HUMAN INTERFACE AND THE MANAGEMENT OF INFORMATION: INFORMATION AND KNOWLEDGE DESIGN AND EVALUATION, PT I ( SPRINGER-VERLAG BERLIN ) 8521 514 - 524 2014年 [査読有り]

　概要を見る

Our study introduces a mobile navigation system enabling a sound input interface. To realize high-performance environmental sound recognition system using Android devices, we organized a database of environmental sounds collected in our daily lives. Crowdsourcing is a useful approach for organizing a database based on collaborative works of people. We recruited trial users to test our system via a web-based crowdsourcing service provider in Japan. However, we found that improvement of the system is important for maintaining the motivation of users in order to continue the collection of sounds. We believe that the improved user interface (UI) design introduced to facilitate the annotation task. This paper describes an overview of our system, focusing on a method for utilizing the crowdsourcing approach using Android devices, and its UI design. We developed a touch panel UI for the annotation task by selecting an appropriate class of a sound source.

DOI
Vocal tract length estimation based on vowels using a database consisting of 385 speakers and a database with MRI-based vocal tract shape information

Hideki Kawahara, Tatsuya Kitamura, Hironori Takemoto, Ryuichi Nisimura, Toshio Irino

15TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2014), VOLS 1-4 ( ISCA-INT SPEECH COMMUNICATION ASSOC ) 870 - 874 2014年 [査読有り]

　概要を見る

A highly-reproducible estimation method of vocal tract length (VTL) and text independent VTL estimation method are proposed based on a Japanese vowel database spoken by 385 male and female speakers ranging from age 6 to 56 and other vowel database with MRI-based vocal tract shape information. Proposed methods are based on interference-free power spectral representation and systematic suppression of biasing factors. MRI data is used to calibrate VTL estimation result to be represented in terms of physically meaningful unit. These databases are normalized based on the estimated VTL information to provide a reference template, which is used to implement a text independent VTL estimation method. A prototype system for text independent estimation of VTL is implemented using Mat lab and runs faster than realtime on a PC.
Continuous Annotations for Dialogue Status and Their Change Points

Masashi Inoue, Toshio Irino, Ryoko Hanada, Nobuhiro Furuyama, Hiroyasu Massaki

LREC 2014 - NINTH INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION ( EUROPEAN LANGUAGE RESOURCES ASSOC-ELRA ) 2014年 [査読有り]

　概要を見る

This paper presents an attempt to continuously annotate the emotion and status of multimodal corpora for understanding pyschotherapeutic interviews. The collected continuous annotations are then used as the signal data to find change points in the dialogues. Our target dialogues are carried between clients with some psychological problems and their therapists. We measured two values, namely the degree of the dialogue progress and the degree of clients being listened to. The first value reflects the goal-oriented nature of the target dialogues. The second value corresponds to the idea of active listening that is considered as an important aspect in psychotherapy. We have modified an existing continuous emotion annotation toolkit that has been created for tracking generic emotion of dialogues. By applying a change point detection algorithm on the obtained annotations, we evaluated the validity and utility of the collected annotation based on our method.
Spectrally estimaed vocal tract lengths of singing voices and their contributing factors,

入野俊夫

Proc. MAVEBA 2013 , Firenze, Italy, 16 - 18 Dec. 2013. 2013年12月 [査読有り]

　概要を見る

(発表 17 Dec. 2013)
Vocal tract length estimation for voiced and whispered speech using gammachirp filterbank.

Toshio Irino, Erika Okamoto, Ryuichi Nisimura,Array

Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA 2013, Kaohsiung, Taiwan, October 29 - November 1, 2013 ( IEEE ) 1 - 4 2013年10月 [査読有り]

　概要を見る

(発表 30 Oct. 2013)

DOI
Controlling linguistic information and filtered sound identity for a new cross-synthesis vocoder.

Taiki Nishi, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

Acoust. Sci. & Tech. (ed. by the Acoustical Society of Japan) 34 ( 4 ) 287 - 288 2013年07月 [査読有り]

　概要を見る

A study was conducted to propose a new cross-synthesis framework based on an interference-free representation of a power spectrum combined with normalization and modulation transfer function design for spectral envelope preprocessing of speech sounds. The proposed cross-synthesis enabled control of the linguistic information and the timbre identity. The spectral envelope of speech was extracted in the proposed method using a F0-adaptive procedure called TANDEM-STRAIGHT. It was demonstrated that the procedure effectively removed interference caused by periodic excitation from the spectrogram of the speech and yielded a smooth representation. A two-staged procedure was also introduced to remove the timbre-modifying components from the speech spectral envelope. The primary procedure involved the approximation of the global spectral shape and the secondary one was the filtering of temporal modulations.

DOI
The role of size normalization in vowel recognition and speaker identification,

Roy D. Patterson, Toshio Irino

The 21st International Congress on Acoustics, ICA2013 , 1pSCb7, ASA Proceedings of Meetings on Acoustics (POMA) 19, 060038, Montreal, Canada, 2 - 7, June, 2013. 2013年06月 [査読有り]

　概要を見る

(発表 3 June 2013)

DOI
Estimated relative vocal tract lengths from vowel spectra based on fundamental frequency adaptive analyses and their relations to relevant physical data of speakers,

Mayuko Kobayashi, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

ICA2013 , 5aCb44, ASA Proceedings of Meetings on Acoustics (POMA) 19, 060288, Montreal, Canada, 2 - 7, June, 2013. 19 2013年06月 [査読有り]

　概要を見る

(発表 7 June 2013)

DOI
Optimizing the simultaneous estimation of frequency selectivity and compression using notched-noise maskers with asymmetric levels,

Tomofumi Fukawatase, Toshio Irino, Ryuichi Nisimura, Hideki Kawahara, Roy D. Patterson

The 21st International Congress on Acoustics, ICA2013 , 1aPP3, ASA Proceedings of Meetings on Acoustics (POMA) 19, 050022, Montreal, Canada, 2 - 7, June, 2013. 19 2013年06月 [査読有り]

　概要を見る

It is important for the development of hearing aids and other audio devices to estimate the frequency selectivity and compression of the auditory filter accurately. Previously, we reported a technique for estimating the compression of the auditory filter that combined data from a simultaneous notched-noise experiment and a temporal masking curve (TMC) experiment. Unfortunately, the TMC data derived for individual listeners in forward masking is not stable
the cue to the presence of the signal is not entirely clear in forward masking. In this paper, we report attempts to make the traditional simultaneous notched-noise technique more sensitive to the effects of cochlear compression by varying the relative levels of the noise bands. Asymmetric-level maskers (ALMs) make it possible to estimate the filter shape and compression of the auditory filter simultaneously and reliably
the slope of the input-output function is substantially lower than with symmetric-level maskers. We also describe a procedure for incorporating a sensitivity analysis into the filter-fitting process to determine the minimum number of notched-noise conditions required to produce reliable estimates of selectivity and compression, in hopes of being able to employ the technique with hearing impaired listeners. © 2013 Acoustical Society of America.

DOI
Higher order waveform symmetry measure and its application to periodicity detectors for speech and singing with fine temporal resolution.

Hideki Kawahara, Masanori Morise, Ryuichi Nisimura, Toshio Irino

IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2013, Vancouver, BC, Canada, May 26-31, 2013 ( IEEE ) 6797 - 6801 2013年05月 [査読有り]

　概要を見る

(発表 30 May 2013)

DOI
Accurate estimation of compression in simultaneous masking enables the simulation of hearing impairment for normal-hearing listeners.

Irino T, Fukawatase T, Sakaguchi M, Nisimura R, Kawahara H, Patterson RD

Advances in experimental medicine and biology ( SPRINGER ) 787 73 - 80 2013年 [査読有り]

　概要を見る

This chapter presents a unified gammachirp framework for estimating cochlear compression and synthesizing sounds with inverse compression that cancels the compression of a normal-hearing (NH) listener to simulate the experience of a hearing-impaired (HI) listener. The compressive gammachirp (cGC) filter was fitted to notched-noise masking data to derive level-dependent filter shapes and the cochlear compression function (e.g., Patterson et al., J Acoust Soc Am 114:1529-1542, 2003). The procedure is based on the analysis/synthesis technique of Irino and Patterson (IEEE Trans Audio Speech Lang Process 14:2222-2232, 2006) using a dynamic cGC filterbank (dcGC-FB). The level dependency of the dcGC-FB can be reversed to produce inverse compression and resynthesize sounds in a form that cancels the compression applied by the auditory system of the NH listener. The chapter shows that the estimation of compression in simultaneous masking is improved if the notched-noise procedure for the derivation of auditory filter shape includes noise bands with different levels. Since both the estimation and resynthesis are performed within the gammachirp framework, it is possible for a specific NH listener to experience the loss of a specific HI listener.

DOI
Perceptual outcomes by rapid alternation of the resonant scaling and its relation to the fundamental frequency.

Minoru Tsuzaki, Takeshima Chihiro, Matsui Toshie, Irino Toshio

Proceedings of Meetings on Acoustics 19 2013年 [査読有り]

　概要を見る

Timbre provided by the resonant characteristics of the vibrating body can be represented as spectral envelope patterns and can contribute as one of the important cues for sound source identification. However, its concept is not so strictly established as that of loudness, and of pitch. Recently, the fact that the spectral pattern can be decomposed into two factors, i.e., the shape and size of the resonant body, has been reconsidered. Several psychophysical findings have successfully suggested tat a "bottom-up" perceptual mechanism of the decomposition might be implemented. Manipulating the scaling factor of resonance can change the perceptual size of the sound source. By concatenating synthesized vowel segments whose resonant scale (RS) alternates between two values in an "ABA-ABA-" fashion, one can generate series of test stimuli for stream segregation with the galloping rhythm paradigm. The experimental results revealed that th e RS factor could provide a reliable cue for streaming. As an extreme variation of this RS alternation, scale alternating wavelet sequences (SAWSs) have been proposed. In the SAWS, the RS alternates at every regular time grid. When the difference between the two RS factors exceeded a certain limit, perceived pitch shifted downwards by an octave. © 2013 Acoustical Society of America.

DOI
Controlling "shout" expression in a Japanese POP singing performance: analysis and suppression study.

Yuri Nishigaki, Ken-Ichi Sakakibara, Masanori Morise, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

INTERSPEECH 2013, 14th Annual Conference of the International Speech Communication Association, Lyon, France, August 25-29, 2013 ( ISCA ) 2905 - 2909 2013年 [査読有り]

　概要を見る

Degree of "shout" singing performance is effectively controlled by combining global spectral shape equalization, peak cancellation in frequency modulation spectrum of FO trajectory, and synchronized shape-modulation of voice spectral envelope. This "shout-reduction" processing is based on a symmetry based FO extractor with fine temporal resolution, a temporally stable representation of instantaneous frequency of periodic signals, and the TANDEM-STRAIGHT, a speech analysis, modification and resynthesis framework. The proposed procedure successfully converted an expressive Japanese POP song performance with "shout" into a plain performance without damaging original naturalness. Possibility of adding artificial "shout" to plain performance is also discussed.
Beyond bandlimited sampling of speech spectral envelope imposed by the harmonic structure of voiced sounds.

Hideki Kawahara, Masanori Morise, Tomoki Toda, Ryuichi Nisimura, Toshio Irino

INTERSPEECH 2013, 14th Annual Conference of the International Speech Communication Association, Lyon, France, August 25-29, 2013 ( ISCA ) 34 - 38 2013年 [査読有り]

　概要を見る

A new spectral envelope estimation procedure is proposed to recover details beyond band limitation imposed by the Shannon's sampling theory when interpreting periodic excitation of voiced sounds as the sampling operation in the frequency domain. The proposed procedure is a hybrid of STRAIGHT, a FO-adaptive spectral envelope estimation and the auto regressive model parameter estimation. Wavelet analyses of these spectral models on the frequency domain enabled objective evaluation of this recovery procedure. The proposed procedure provides better speech quality especially when parameter manipulation is introduced.
Comparison of performance with voiced and whispered speech in word recognition and mean-formant-frequency discrimination

Toshio Irino, Yoshie Aoki, Hideki Kawahara, Roy D. Patterson

SPEECH COMMUNICATION ( ELSEVIER SCIENCE BV ) 54 ( 9 ) 998 - 1013 2012年11月 [査読有り]

　概要を見る

There has recently been a series of studies concerning the interaction of glottal pulse rate (GPR) and mean-formant-frequency (MFF) in the perception of speaker characteristics and speech recognition. This paper extends the research by comparing the recognition and discrimination performance achieved with voiced words to that achieved with whispered words. The recognition experiment shows that performance with whispered words is slightly worse than with voiced words at all MFFs when the GPR of the voiced words is in the middle of the normal range. But, as GPR decreases below this range, voiced-word performance decreases and eventually becomes worse than whispered-word performance. The discrimination experiment shows that the just noticeable difference (JND) for MFF is essentially independent of the mode of vocal excitation; the JND is close to 5% for both voiced and voiceless words for all speaker types. The interaction between GPR and VTL is interpreted in terms of the stability of the internal representation of speech which improves with GPR across the range of values used in these experiments. (c) 2012 Elsevier B.V. All rights reserved.

DOI
Accurate estimation of compression in simultaneous masking enables the simulation of hearing impairment for normal hearing listeners,

Toshio Irino, Tomofumi Fukawatase, Makoto Sakaguchi, Ryuichi Nisimura, Hideki Kawahara, Roy D. Patterson

16th International Symposium on Hearing (ISH2012) , St John's College, Cambridge UK, 23-27 July, 2012 ( SPRINGER ) 787 73 - 80 2012年07月 [査読有り]

　概要を見る

（発表日 23 July)

DOI
Multimodal corpus for psychotherapeutic situation,

Masashi Inoue, Ryoko Hanada, Nobuhiro Furuyama, Toshio Irino, Takako Ichinomiya, Hiroyasu Massaki

Workshop on Multimodal corpora: How Should Multimodal corpora Deal with the Situation? , (Pre-conference workshop of LREC 2012 ), Istanbul, Turkey, 22 May 2012. 2012年05月 [査読有り]

　概要を見る

（発表日 22 May）
Modulation transfer function design for a flexible cross synthesis VOCODER based on F0 adaptive spectral envelope recovery

Taiki Nishi, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC) ( IEEE ) 1 - 7 2012年 [査読有り]

　概要を見る

A new design procedure for flexible cross synthesis VOCODER is proposed based on TANDEM-STRAIGHT framework, a F0 adaptive spectral envelope estimator, and modulation transfer function design. The proposed design procedure enables control of speech intelligibility and timber identity of musical instruments or animal voices. Removal of the averaged and smoothed logarithmic spectrum of speech from the filter reduced the timbre modification effect of filtered sounds and manipulation of cut-off frequencies of modulation transfer function for designing the filter enabled control of trade-offs between intelligibility and timbre preservation.
Deviation measure of waveform symmetry and its application to high-speed and temporally-fine F0 extraction for vocal sound texture manipulation

Hideki Kawahara, Masanori Morise, Ryuichi Nisimura, Toshio Irino

13TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2012 (INTERSPEECH 2012), VOLS 1-3 ( ISCA-INT SPEECH COMMUNICATION ASSOC ) 386 - 389 2012年 [査読有り]

　概要を見る

A simple and high-speed F0 extractor with high temporal resolution is proposed based on a waveform symmetry measure. Strictly speaking, it is not an F0 extractor. Instead, it is a detector of the lowest prominent sinusoidal component with a salience measure. It can make use of an F0 refinement procedure, when the signal under investigation is a sum of harmonic sinusoidal components. The refinement procedure is based on a stable representation of instantaneous frequency of periodic signals. Application of the proposed algorithm revealed that rapid temporal modulations in both F0 trajectory and spectral envelope exist typically in expressive voices such as lively singing performance. Manipulation of these temporal fine structures (texture) effectively modified perceptual expressiveness, while somewhat preserving perceptual vocal effort and register.
Detecting child speaker based on auditory feature vectors for VTL estimation

Ryuichi Nisimura, Shoko Miyamori, Erika Okamoto, Hideki Kawahara, Toshio Irino

2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC) ( IEEE ) 1 - 5 2012年 [査読有り]

　概要を見る

We introduce novel auditory features in the hidden Markov model (HMM) system for detecting child speakers. The features derived by the gammachirp auditory filterbank (GCFB) have been demonstrated to be suitable for vocal tract length (VTL) estimation, both theoretically and experimentally. We performed numerical experiments to distinguish between child and adult speakers using HMMs trained on 2,360 speech samples collected through a web-based query interface, and we compared the performance of the common mel-frequency cepstral coefficients (MFCC) and the GCFB-based feature vectors. We also introduced the modulation features as the substitution of delta parameters. It has been clearly demonstrated that the error rate distinguishing a child from an adult is reduced by GCFB. To enhance our method for use as a web application, we applied our original voice-enabled web framework to the front-end interface of the proposed system.
An interference-free representation of group delay for periodic signals

Hideki Kawahara, Masanori Morise, Ryuichi Nisimura, Toshio Irino

2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC) ( IEEE ) 1 - 4 2012年 [査読有り]

　概要を見る

This article introduces a new group delay representation for periodic signals. The proposed method yields a group delay representation that is free from interferences due to repetitive excitation. Power spectrum-weighted averaged group delay using shifted copies of the weighted group delay separated by a half fundamental frequency is proven to have the desired property.
Developing a method to build Japanese speech recognition system based on 3-gram language model expansion with Google database,

Toshiaki Shimada, Ryuichi Nisimura, Masayasu Tanaka, Hideki Kawahara, Toshio Irino

IEEE International Conference on Intelligent Computing and Integrated Systems ICISS2011 , Guilin, China, 24-26 Oct 2011. ( IEEE Computer Society ) 2011年10月 [査読有り]

　概要を見る

We have developed a method to build a Japanese automatic speech recognition (ASR) system based on 3-gram language model expansion with the Google database. Our aim is to enhance the recognition accuracy of ASR systems based on the 3-gram language model, even in cases where the language model is trained using short text segments. We investigate a practical approach to expanding language models by using 3-gram information from external web documents. In addition, we filter 3-gram entries on the basis of term frequency-inverse document frequency (TF-IDF) scores and the output of the Yahoo! web API to prevent the unnecessary addition of redundant or irrelevant 3-gram entries. In the experiments, we achieved an improvement of 0.71% in the word error rate and proved that the recognition accuracy can be improved by combining the proposed method and the traditional back-off smoothing technique without any costs being incurred in collecting additional text for training the model. © 2013 IEEE.

DOI
スペクトルピークを強調したFO適応型スペクトル包絡抽出法の最適化と評価

赤桐隼人, 森勢将雅, 入野俊夫, 河原英紀

電子情報通信学会論文誌. A, 基礎・境界 = The transactions of the Institute of Electronics, Information and Communication Engineers. A ( 一般社団法人電子情報通信学会 ) 94 ( 8 ) 557 - 567 2011年08月 [査読有り]

　概要を見る

窓の位置に依存しない周期信号のパワースペクトルの計算方法と,対数スペクトル上での基本周波数に適応したスペクトル平滑化及び補償処理を組み合わせることにより,聴覚的に重要であるスペクトルピーク周辺での近似精度を改善した,スペクトル包絡の抽出法を提案する.提案法はケプストラムのlifterとして実装されており,1個の調整用パラメータを有する.本研究では,MRIに基づく声道形状及び梨状窩や音源波形モデルから求められるスペクトルを目標としたシミュレーションにより,このパラメータを数値的に最適化する.なお,最適化のための精度の評価には,聴覚の特性を反映した周波数軸重みを加えた板倉-斎藤距離を用いる.その結果,数値的に最適化された提案法は,短時間パワースペクトル,ケプストラムの次数打切りによる平滑化,線形予測分析,STRAIGHTの従来の実装のいずれよりも高い近似精度であることが示された.
Evaluation of voice morphing using vocal tract length normalization based on auditory filterbank,

Erika Okamoto, Toshio Irino, Ryuichi Nishimura, Hideki Kawahara

J. Signal Processing (信号処理） ( 〔信号処理学会〕 ) 15 ( 4 ) 283 - 286 2011年07月
A proposal of expanding language model using web data resources for Japanese automatic speech recognition systems,

Ryuichi Nisimura, Toshiaki Shimada, Yuuki Nagai, Hideki Kawahara, Toshio Irino

2011 International Conference on Data Engineering and Internet Technology ( DEIT 2011 ),429-432, Bali Dynasty Resort, Bali, Indonesia, 15-17 March 2011. 429 - 432 2011年03月 [査読有り]

　概要を見る

（発表日 16 Mar.）
Evaluation of Voice Morphing Using Vocal Tract Length Normalization Based on Auditory Filterbank,

Erika Okamoto, Toshio Irino, Ryuichi Nisimura, Hideki Kawahara

2011 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing ( NCSP'11 )Tianjin SaiXiang Hotel, Tianjin, China, 1-3 March , 2011. 187 - 190 2011年03月 [査読有り]

　概要を見る

（発表日 2 Mar.）
A New Formulation of a Multiple Periodicity Extractor for Expressive and Pathological Voices,

Yoshika Wada, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

2011 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing ( NCSP'11 ),Tianjin SaiXiang Hotel, Tianjin, China, 1-3 March , 2011. 336 - 339 2011年03月 [査読有り]

　概要を見る

（発表日 3 Mar.）
AN INTERFERENCE-FREE REPRESENTATION OF INSTANTANEOUS FREQUENCY OF PERIODIC SIGNALS AND ITS APPLICATION TO F0 EXTRACTION

H. Kawahara, T. Irino, M. Morise

2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING ( IEEE ) 5420 - 5423 2011年 [査読有り]

　概要を見る

An interference-free representation of the instantaneous frequency of constituent harmonic components of periodic signals is introduced. The power weighted average instantaneous frequency of a band-pass filter yields this property when the effective passband of the filter covers up to two harmonic components and the two windows used in averaging are separated by a half pitch period. The proposed representation eliminates the abrupt changes found in usual instantaneous frequency representations and is applicable to any periodic signals consisting of multiple harmonic components. An F0 extractor of voiced sounds based on this representation is introduced as an example of prospective applications.

DOI
Development of Web-Based Voice Interface to Identify Child Users Based on Automatic Speech Recognition System

Ryuichi Nisimura, Shoko Miyamori, Lisa Kurihara, Hideki Kawahara, Toshio Irino

HUMAN-COMPUTER INTERACTION: USERS AND APPLICATIONS, PT IV ( SPRINGER-VERLAG BERLIN ) 6764 607 - 616 2011年 [査読有り]

　概要を見る

We propose a method to identify child speakers, which can be adopted in Web filtering systems to protect children from the dangers of the Internet. The proposed child identification method was developed relies on an automatic speech recognition (ASR) algorithm, that uses an acoustic hidden Markov model (HMM) and a support vector machine (SVM). To extend the proposed method for use in a Web application, we used our voice-enabled Web system (the w3voice system) as a front-end interface for a prototype system. In this paper, we present an overview of the prototype system to elucidate our proposal. We also evaluate the efficacy of the proposed method in identifying child speakers by using voices captured from real Web users.

DOI
Manual and Accelerometer Analysis of Head Nodding Patterns in Goal-oriented Dialogues

Masashi Inoue, Toshio Irino, Nobuhiro Furuyama, Ryoko Hanada, Takako Ichinomiya, Hiroyasu Massaki

HUMAN-COMPUTER INTERACTION: INTERACTION TECHNIQUES AND ENVIRONMENTS, PT II ( SPRINGER-VERLAG BERLIN ) 6762 259 - 267 2011年 [査読有り]

　概要を見る

We studied communication patterns in face-to-face dialogues between people for the purpose of identifying conversation features that can be exploited to improve human-computer interactions. We chose to study the psychological counseling setting as it provides good examples of task-oriented dialogues. The dialogues between two participants, therapist and client, were video recorded. The participants' head movements were measured by using head-mounted accelerometers. The relationship between the dialogue process and head nodding frequency was analyzed on the basis of manual annotations. The segments where nods of the two participants correlated were identified on the basis of the accelerometer data. Our analysis suggests that there are characteristic nodding patterns in different dialogue stages.

DOI
Auditory Filterbank Improves Voice Morphing

Erika Okamoto, Toshio Irino, Ryuichi Nisimura, Hideki Kawahara

12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5 ( ISCA-INT SPEECH COMMUNICATION ASSOC ) 2528 - 2531 2011年 [査読有り]

　概要を見る

This paper presents a new method for vocal tract length (VTL) estimation and normalization based on a gammachirp auditory filterbank (GCFB) to improve the sound quality in voice morphing. VTL ratios between 28 speakers were estimated based on the spectral distances for all permutations (756 = P-28(27)). The VTL estimation using the mel-frequency filterbank (MFFB), which is a preprocessor for calculating MFCCs commonly used in ASR, was also evaluated for comparison. The results of subjective listening tests of morphed voice sounds with and without VTL normalization are also reported. The objective and subjective results indicate that VTL normalization is essential for voice morphing, and the proposed GCFB-based method outperforms the MFCC-based method.
Comparing Abilities of Humans and Machine for Child Speaker Identification based on Web Utterances Collection,

Shoko Miyamori, Ryuichi Nisimura, Lisa Kurihara, Toshio Irino, Hideki Kawahara

Proceedings of the Second APSIPA Annual Summit and Conference (APSIPA 2010)(Student Symposium) 9 2010年12月 [査読有り]

　概要を見る

Biopolis, Singapore, 14-17 Dec. 2010. (発表日 14 Dec.)
Optimization of a multiple local periodicity detector for vocal excitation structure analysis

Yoshika Wada, Masanori Morise, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

APSIPA ASC 2010 - Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, Biopolis, Singapor, 14-17 Dec. 2010 518 - 521 2010年12月 [査読有り]

　概要を見る

Non-periodic voices play indispensable roles in expressive speech, traditional theatrical performance, various types of singing and other vocal activities. Such voices usually have complex excitation structures, which are not readily represented by a single number, F0. This article introduces optimization of system parameters and evaluation of our new analysis procedure called XSX (eXcitation Structure eXtractor), designed for such complex excitation signals. The proposed method, XSX consists of two subsystems; an integrated periodicity detector which extracts simultaneous multiple periodicity candidates and a frequency refinement procedure based on instantaneous frequency of F0 and harmonic components. Firstly, the candidate detector is optimized followed by optimization of the refinement procedure. Secondly, comparative test with conventional F0 extractors were conducted and revealed that the proposed method outperforms those procedures in terms of accuracy and tracking speed.
Real world utterance collection using voice-enabled web system for child speaker identification,

Shoko Miyamori, Ryuichi Nisimura, Lisa Kurihara, Toshio Irino, Hideki Kawahara

13th Oriental COCOSDA Workshop, O-COCOSDA 2010, 2010年11月 [査読有り]

　概要を見る

Kathmandu, Nepal, 24-25, Nov., 2010. (発表日 25 Nov.)
解説記事はじめての聴覚フィルタ

入野俊夫

日本音響学会誌 ( 一般社団法人日本音響学会 ) 66 ( 10 ) 506 - 512 2010年10月 [招待有り]

DOI
Simplification and extension of non-periodic excitation source representations for high-quality speech manipulation systems.

Hideki Kawahara, Masanori Morise, Toru Takahashi, Hideki Banno, Ryuichi Nisimura, Toshio Irino

INTERSPEECH 2010, 11th Annual Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September 26-30, 2010 ( ISCA ) 38 - 41 2010年09月 [査読有り]

　概要を見る

Makuhari, Japan, 26-30 Sep., 2010. (発表日 27 Sep.)
Evaluation and optimization of F0-adaptive spectral envelope estimation based on spectral smoothing with peak emphasis,

Hayato Akagiri, Masanori Morise, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

20th International Congress on Acoustics, ICA2010, 2010年08月 [査読有り]

　概要を見る

Sydney, Australia, 23-27 Aug., 2010. (発表日 24 Aug.)
Analysis and synthesis of singing with hoarse vocal expressions,

Hideki Kawahara, Hanae Itagaki, Yoshika Wada, Masanori Morise, Ryuichi Nisimura, Toshio Irino

20th International Congress on Acoustics, ICA2010 2010年08月 [査読有り]

　概要を見る

Sydney, Australia, 23-27 Aug., 2010. (発表日 26 Aug.)
Auditory speech processing for scale-shift covariance and its evaluation in automatic speech recognition.

Roy D. Patterson, Thomas C. Walters, Jessica Monaghan, Christian Feldbauer, Toshio Irino

International Symposium on Circuits and Systems (ISCAS 2010), May 30 - June 2, 2010, Paris, France ( IEEE ) 3813 - 3816 2010年05月 [査読有り]

　概要を見る

(発表日 2 Jun 2010)

DOI
High-quality and light-weight voice transformation enabling extrapolation without perceptual and objective breakdown.

Array,Ryuichi Nisimura, Toshio Irino, Masanori Morise, Toru Takahashi, Hideki Banno

Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2010, 14-19 March 2010, Sheraton Dallas Hotel, Dallas, Texas, USA ( IEEE ) 4818 - 4821 2010年03月 [査読有り]

　概要を見る

(発表日 19 Mar 2010)

DOI
Perception of vowel sequence with varying speaker size

Chihiro Takeshima, Minoru Tsuzaki, Toshio Irino

Acoustical Science and Technology 31 ( 2 ) 156 - 164 2010年03月 [査読有り]

　概要を見る

Speech sounds convey information about the size of the speaker. Several studies have demonstrated that human vowel recognition is possible even for an unnatural size range, and have revealed that size factor normalization can be achieved automatically in the auditory system. In this study, we further investigated the characteristics of the size normalization process, using vowel sequences with temporal changes in the speaker size. In the current experiments, listeners were presented with six-vowel sequences in which the vocal-tract length was alternated vowel by vowel. The experimental results for the identification of the vowel sequence showed that it was increasingly difficult for listeners to identify vowels in the correct order as size alternation was applied with a higher speed and to a larger degree. However, they showed the high performance of vowel recognition when serial order judgment between vowels was not required, and in this case the performance deterioration caused by size alternation became small. The observed deterioration of sequence identification is likely to have been caused not by a failure in size normalization in the auditory system but because of a difficulty in judging the serial order between vowels in the sequence with rapid size changes. The results suggest that the auditory system has a fast process for normalizing speaker-size information and that it operates appropriately even when a sequence contains the temporal alternation of vocal-tract length. © 2010 The Acoustical Society of Japan.

DOI
音の持続時間が音源の大きさ知覚に及ぼす影響 : 母音刺激を用いた検討(日本基礎心理学会第28回大会,大会発表要旨)

竹島千尋, 津崎実, 入野俊夫

基礎心理学研究 ( 日本基礎心理学会 ) 28 ( 2 ) 278 - 278 2010年

DOI
A bottom-up procedure to extract periodicity structure of voiced sounds and its application to represent and restoration of pathological voices.

Hanae Itagaki, Masanori Morise, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

Sixth International Workshop on Models and Analysis of Vocal Emissions for Biomedical Applications, MAVEBA 2009, Florence, Italy, December 12-14, 2009 ( Firenze University Press / ISCA ) 115 - 118 2009年12月 [査読有り]

　概要を見る

(発表日 15 Dec.)
Development of speech input method for interactive voiceweb systems

Ryuichi Nisimura, Jumpei Miyake, Hideki Kawahara, Toshio Irino

Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) ( SPRINGER-VERLAG BERLIN ) 5611 LNCS 710 - 719 2009年10月

　概要を見る

We have developed a speech input method called "w3voice" to build practical and handy voice-enabled Web applications. It is constructed using a simple Java applet and CGI programs comprising free software. In our website (http://w3voice.jp/), we have released automatic speech recognition and spoken dialogue applications that are suitable for practical use. The mechanism of voice-based interaction is developed on the basis of raw audio signal transmissions via the POST method and the redirection response of HTTP. The system also aims at organizing a voice database collected from home and office environments over the Internet. The purpose of the work is to observe actual voice interactions of human-machine and human-human. We have succeeded in acquiring 8,412 inputs (47.9 inputs per day) captured by using normal PCs over a period of seven months. The experiments confirmed the user-friendliness of our system in human-machine dialogues with trial users. © 2009 Springer Berlin Heidelberg.

DOI
Topic-Dependent Language Modeling for VoiceWeb Systems

Kentaro Suzuta, Ryuichi Nisimura, Hideki Kawahara, Toshio Irino

WESPAC X 2009 , Beijing, China, 21-23 Sept. 2009 2009年09月 [査読有り]

　概要を見る

(発表日23 Sept.)
Influences of vowel duration on speaker-size estimation and discrimination.

Chihiro Takeshima, Minoru Tsuzaki, Toshio Irino

INTERSPEECH 2009, 10th Annual Conference of the International Speech Communication Association, Brighton, United Kingdom, September 6-10, 2009 ( ISCA ) 128 - 131 2009年09月 [査読有り]

　概要を見る

(発表日 7 Sept.)
Observation of empirical cumulative distribution of vowel spectral distances and its application to vowel based voice conversion.

Hideki Kawahara, Masanori Morise, Toru Takahashi, Hideki Banno, Ryuichi Nisimura, Toshio Irino

INTERSPEECH 2009, 10th Annual Conference of the International Speech Communication Association, Brighton, United Kingdom, September 6-10, 2009 ( ISCA ) 2647 - 2650 2009年09月 [査読有り]

　概要を見る

(発表日 10 Sept.)
Brain regions for auditory size processing of speech sounds,

Toshio Irino, Yuki Tsukada, Yoshikazu Oya, Hideki Kawahara, Roy D. Patterson

Auditory Cortex 2009, Magdeburg, Germany, 29 Aug. - 2 Sept. 2009 2009年08月 [査読有り]

　概要を見る

(発表日 30-31 Aug)
Size Perception for acoustically scaled sounds of naturally pronounced and whispered words,

Toshio Irino, Yoshie Aoki, Hideki Kawahara, Roy D. Patteson

15th International Symposium on Hearing (ISH2009) , Salamanca, Spain, 1 - 5 Jun. 2009 ( SPRINGER ) 235 - + 2009年06月 [査読有り]

　概要を見る

(発表日 2 Jun )

DOI
Temporally variable multi-aspect auditory morphing enabling extrapolation without objective and perceptual breakdown.

Array,Ryuichi Nisimura, Toshio Irino, Masanori Morise, Toru Takahashi, Hideki Banno

Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2009, 19-24 April 2009, Taipei, Taiwan ( IEEE ) 3905 - 3908 2009年04月 [査読有り]

　概要を見る

(発表日 23 Apr. 2009)

DOI
Perception of size modulated vowel sequence: Can we normalize the size of continuously changing vocal tract?

Minoru Tsuzaki, Chihiro Takeshima, Toshio Irino

Acoust. Sci. & Tech. ( ACOUSTICAL SOCIETY OF JAPAN ) 30 ( 2 ) 83 - 88 2009年03月 [査読有り]

　概要を見る

Changes in vocal tract size vary the formant frequencies, even when the shape of vocal tracts is the same and the spoken vowels are categorized to be the same. Several studies have demonstrated that the normalization of vocal tract size can be achieved in a bottom-up manner. To investigate how fast this process works, the identification of vowel sequences was examined under conditions where the size was sinusoidally modulated with several frequencies (0.24–62.50 Hz). The performance level changed slightly, but significantly depending on the modulation frequency, and the dependence was not monotonic. The performance dropped for modulation around 4 Hz. The nonmonotonic function could not be predicted by a simple assumption of usage of a single size-estimator that requires a certain processing time. Mismatches were prominent for high frequencies: a deterioration was predicted because of the limited processing time, while the actual performance showed a recovery. This indicates that a switching of the process mode for modulation occurs at around 4 Hz. Below 4 Hz, the auditory system can successfully normalize the size change. Above 4 Hz, the auditory system segregates the sounds using the size cue and the recognition of each vowel is not critically affected.

DOI
分析時刻に依存しない周期信号のパワースペクトル推定法を用いた音声分析

森勢将雅, 高橋徹, 河原英紀, 入野俊夫

電子情報通信学会論文誌 ( 一般社団法人電子情報通信学会 ) J92-A ( 3 ) 163 - 171 2009年03月 [査読有り]

　概要を見る

本論文では,周期信号から分析時刻に依存した成分を除去できるパワースペクトル推定法TANDEMを音声分析に用いる場合の評価を行う.TANDEMは,基本周期の半分だけ離れた位置に配置した二つの窓関数で切り出した周期信号のパワースペクトルを平均することで,分析時刻に依存しないパワースペクトルを推定する方法として提案されている.TANDEMの導出においては,サイドローブによる影響と基本周波数の時間変化が無視できるものとしていた.しかし,有限長の窓関数にはサイドローブが存在し,音声の基本周波数は時間的に変化する.本論文では,分析時刻に依存したパワースペクトルの変動量を指標とし,分析対象となる信号の基本周波数が既知という条件で計算機シミユレーションを行い,基本周波数が時間とともに変化し,雑音が混在する音声の分析に適したTANDEM窓を選定する.選定されたTANDEM窓により得られたスペクトル包絡は,従来法よりも分析時刻に依存した変動が少なく,時間分解能,耐雑音性においても優れていることを示す.
Vowel-based voice conversion and its application to singing-voice manipulation

Yuri Yoshida, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

AES 35th Int. Conf. Audio for Games, 11-13 Feb. 2009, London, UK. 2009年02月 [査読有り]

　概要を見る

(発表日 13 Feb. 2009)
Vowel-based frequency alignment function design and recognition-based time alignment for automatic speech morphing.

Masato Onishi, Toru Takahashi, Toshio Irino,Array

2008 IEEE Spoken Language Technology Workshop, SLT 2008, Goa, India, December 15-19, 2008 ( IEEE ) 25 - 28 2008年12月 [査読有り]

　概要を見る

(発表日 15 Dec 2008)

DOI
Speech-to-text input method for web system using JavaScript.

Ryuichi Nisimura, Jumpei Miyake,Array, Toshio Irino

2008 IEEE Spoken Language Technology Workshop, SLT 2008, Goa, India, December 15-19, 2008 ( IEEE ) 209 - 212 2008年12月 [査読有り]

　概要を見る

(発表日 17 Dec. 2008)

DOI
Spectral envelope recovery beyond the nyquist limit for high-quality manipulation of speech sounds.

Hideki Kawahara, Masanori Morise, Hideki Banno, Toru Takahashi, Ryuichi Nisimura, Toshio Irino

INTERSPEECH 2008, 9th Annual Conference of the International Speech Communication Association, Brisbane, Australia, September 22-26, 2008 ( ISCA ) 650 - 653 2008年09月 [査読有り]

　概要を見る

(発表日 24 Sept.)
A unified approach for F0 extraction and aperiodicity estimation based on a temporally stable power spectral representation,

Hideki Kawahara, Masanori Morise, Toru Takahashi, Ryuichi Nisimura, Hideki Banno, Toshio Irino

ISCA Tutorial and Research Workshop (ITRW) on "Speech Analysis and Processing for Knowledge Discovery" Aalborg University 2008年06月 [査読有り]

　概要を見る

Aalborg, Denmark, 4 - 6, Jun. 2008, (発表日 4 Jun. )
A method for fundamental frequency estimation and voicing decision: application to infant utterances recorded in real acoustical environments

Tomohiro Nakatani, Shigeaki Amano, Toshio Irino, Kentaro Ishizuka, Tadahisa Kondo

Speech Communication ( ELSEVIER SCIENCE BV ) 50 ( 3 ) 203 - 214 2008年03月 [査読有り]

　概要を見る

This paper proposes a method for fundamental frequency (F0) estimation and voicing decision that can handle wide-ranging speech signals including adult and infant utterances recorded in real noisy environments. In particular, infant utterances have unique characteristics that are different from those of adults, such as a wide F0 range, F0 abrupt transitions, and unique energy distribution patterns over frequencies. Therefore, conventional methods that were developed mainly for adult utterances do not necessarily work well for infant utterances especially when the signals are contaminated by background noise. Several techniques are introduced into the proposed method to cope with this problem. We show that the ripple-enhanced power spectrum based method (REPS) can estimate the F0s robustly, and that the use of instantaneous frequency (IF) enables us to refine the accuracy of the F0 estimates. In addition, the degree of dominance defined based on the IF is introduced as a robust voicing decision measure. The effectiveness of the proposed method is confirmed in terms of gross pitch errors and voicing decision errors in comparison with the recently proposed methods, Praat and YIN, using both longitudinal recordings of Japanese infant utterances and adult utterances. © 2007 Elsevier B.V. All rights reserved.

DOI
Tandem-STRAIGHT: A temporally stable power spectral representation for periodic signals and applications to interference-free spectrum, F0, and aperiodicity estimation.

Hideki Kawahara, Masanori Morise, Toru Takahashi, Ryuichi Nisimura, Toshio Irino, Hideki Banno

Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2008, March 30 - April 4, 2008, Caesars Palace, Las Vegas, Nevada, USA ( IEEE ) 3933 - 3936 2008年03月 [査読有り]

　概要を見る

(発表日 1 Apr. )

DOI
Vowel-based voice conversion and its objective evaluation,

Masato Onishi, Toru Takahashi, Masanori Morise, Toshio Irino, Hideki Kawahara

2008 RISP International Workshop on Nonlinear Circuits and Signal Processing (NCSP'08), pp.275-278, Gold Coast, Australia, 6-8 Mar. 2008 2008年03月 [査読有り]

　概要を見る

(発表日 7 Mar. )
窓関数による分析時刻の影響を受けにくい周期信号のパワースペクトル推定法(研究速報)

森勢将雅, 高橋徹, 河原英紀, 入野俊夫

電子情報通信学会論文誌. D, 情報・システム ( 社団法人電子情報通信学会 ) 90 ( 12 ) 3265 - 3267 2007年12月 [査読有り]

　概要を見る

信号分析に広く短時間フーリエ変換が用いられている.しかし,周期信号を対象とした場合,推定されるパワースペクトルが分析時刻により変動する問題がある.本論文では二つのハニング窓を用いた分析法により,この問題を実質的に解消できることを示す.
Detection of temporal modulation of size in vowel sequences

Chihiro Takeshima, Minoru Tsuzaki, Toshio Irino

Acoust. Sci. & Tech. ( ACOUSTICAL SOCIETY OF JAPAN ) 28 ( 5 ) 349 - 351 2007年09月 [査読有り]

　概要を見る

Size extraction, Resonance characteristics, Size modulation detection, Timbre perception Experiments were performed with listeners to detect the STSM in a vowel sequence. The measured characteristics appeared to be high-pass. The observed high-pass tendency suggested that a more efficient cue was available based on the differences in fine temporal structures caused by the resonance change within a vowel. This indicated that the current experimental paradigm was not appropriate to measure the limit of tracking speed of the VTL extraction process. Therefore, further study will be required by using stimuli that cannot be judged as STSM on the basis of the fine structural cues.

DOI
Continuous time-frequency coordinate mapping with sparse anchoring templates and its application to auditory morphing,

Toru Takahashi, Toshio Irino, Hideki Kawahara

19th International Congress on Acoustics (ICA2007) , Madrid, Spain, 2-7 Sept. 2007 2007年09月 [査読有り]

　概要を見る

(発表日 2 Sept.)
Group delay for acoustic event representation and its application for speech aperiodicity analysis.

Hideki Kawahara, Masanori Morise, Toru Takahashi, Toshio Irino, Hideki Banno, Osamu Fujimura

15th European Signal Processing Conference, EUSIPCO 2007, Poznan, Poland, September 3-7, 2007 ( IEEE ) 2219 - 2223 2007年09月 [査読有り]

　概要を見る

(発表日 7 Sept. )
単母音による歌唱音声スペクトルの統計的分析に基づく音色制御法の提案と評価

森勢将雅, 田原佳代子, 高橋徹, 入野俊夫, 河原英紀

第６回情報科学技術フォーラム（情報科学技術レターズ） FIT 2007 119 - 122 2007年09月 [査読有り]

　概要を見る

中京大学, 愛知, 2007年9月5日-7日.(発表日 9月6日)
測定用信号として音声を用いたクロススペクトル法によるインパルス応答推定の誤差評価

森勢将雅, 入野俊夫, 河原英紀

電子情報通信学会論文誌 A ( 一般社団法人電子情報通信学会 ) J90-A ( 7 ) 559 - 566 2007年07月 [査読有り]

　概要を見る

クロススペクトル法の測定用信号を音声とした場合におけるインパルス応答推定の推定誤差を調査する.先行研究では,時間窓の種類と推定誤差との関係を示し,インパルス応答推定に適した時間窓を提案している.しかし,これはホワイトノイズを測定用信号とした場合における結論である.音声のように,周期的で振幅周波数特性が平たんではない信号を測定用信号とした場合のインパルス応答推定に適した時間窓は,示されていない.本論文では,クロススペクトル法の測定用信号を音声とした場合に生じる推定誤差の要因を示し,推定誤差の小さい時間窓を明らかにする.測定用信号と推定誤差との関係を,様々な測定用信号を用いて調査した.インパルス応答の推定誤差は,測定用信号の振幅周波数特性におけるダイナミックレンジに依存することが明らかとなった.音声のようにダイナミックレンジが40dBを超えるような信号においては,ホワイトノイズにおいて最適とされた時間窓の推定誤差は大きく,ハニング窓,ブラックマン窓のようにサイドローブの小さな時間窓の推定誤差が小さいという結論が得られた.
Implementation of realtime STRAIGHT speech manipulation system: Report on its first implementation

Hideki Banno, Hiroaki Hata, Masanori Morise, Toru Takahashi, Toshio Irino, Hideki Kawahara

Acoust. Sci. & Tech. ( ACOUSTICAL SOCIETY OF JAPAN ) 28 ( 3 ) 140 - 146 2007年05月 [査読有り]

　概要を見る

A very high quality speech analysis, modification and synthesis system—STRAIGHT—has now been implemented in C language and operated in realtime. This article first provides a brief summary of STRAIGHT components and then introduces the underlying principles that enabled realtime operation. In STRAIGHT, the built-in extended pitch synchronous analysis, which does not require analysis window alignment, plays an important role in realtime implementation. A detailed description of the processing steps, which are based on the so-called "just-in-time" architecture, is presented. Further, discussions on other issues related to realtime implementation and performance measures are also provided. The software will be available to researchers upon request.

DOI
Auditory stream segregation based on speaker size, and identification of size-modulated vowel sequences

Minoru Tsuzaki, Chihiro Takeshima, Toshio Irino, Roy D. Patterson

HEARING - FROM SENSORY PROCESSING TO PERCEPTION ( SPRINGER-VERLAG BERLIN ) 285 - + 2007年 [査読有り]
Discrimination and Recognition of Scaled Word Sounds

Toshio Irino, Yoshie Aoki, Yoshie Hayashi, Hideki Kawahara, Roy D. Patterson

INTERSPEECH 2007: 8TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, VOLS 1-4 ( ISCA-INT SPEECH COMMUNICATION ASSOC ) 321 - + 2007年 [査読有り]

　概要を見る

Smith et al. [2] and Ives et al. [3] demonstrated that humans could extract information about the size of a speaker's vocal tract from speech sounds (vowels and syllables, respectively). We have extended their discrimination and recognition experiments to naturally pronounced words. The Just Noticeable Difference (JND) for size discrimination was between 5.5% and 19% depending on the listener. The smallest JND is comparable to that of the syllable experiments; the average JND is comparable to that of the vowel experiments. The word recognition scores remain above 50% for speaker sizes beyond the normal range for humans. The fact that good performance extends over such a large range of acoustic scales supports Irino and Patterson's hypothesis [1] that the auditory system segregates size and shape information at an early stage in the processing.
Warped-TSP: An acoustic measurement signal robust to background noise and harmonic distortion

Masanori Morise, Toshio Irino, Hideki Banno, Hideki Kawahara

ELECTRONICS AND COMMUNICATIONS IN JAPAN PART III-FUNDAMENTAL ELECTRONIC SCIENCE ( SCRIPTA TECHNICA-JOHN WILEY & SONS ) 90 ( 4 ) 18 - 26 2007年 [査読有り]

　概要を見る

TSP (Time-Stretched Pulse, lin-TSP afterwards) and logarithmic TSP (log-TSP) are commonly used in impulse response measurements of audio systems and room acoustics. But the optimal test signal for each environment is different. It is necessary to choose an appropriate test signal for each environment to achieve a better SNR in the measured impulse response. A new acoustic measurement signal that is a hybrid signal of lin-TSP and log-TSP is proposed. The proposed signal, called "warped-TSP," achieves an SNR higher than that obtained by lin-TSP and log-TSP. It also provides a means to eliminate harmonic distortion due to the reproduction system. In this paper, the definition and features of warped-TSP are introduced in comparison with lin-TSP and log-TSP. We also present the relations between the parameters of warped-TSP, the amplitude frequency characteristics of warped-TSP, and the effects on the representation components due to harmonic distortion. Based on these discussions, a method of selecting the optimal parameters of warped-TSP for a specific measuring environment is given. A series of impulse response measurements performed under different ambient noise conditions revealed that the proposed method outperformed lin-TSP and log-TSP under all conditions in terms of the SNR of the measured impulse response. (C) 2006 Wiley Periodicals, Inc.

DOI
A Dynamic Compressive Gammachirp Auditory Filterbank.

Irino T, Patterson RD

IEEE transactions on audio, speech, and language processing ( 6 ) 14 ( 6 ) 2222 - 2232 2006年11月 [査読有り]

　概要を見る

It is now common to use knowledge about human auditory processing in the development of audio signal processors. Until recently, however, such systems were limited by their linearity. The auditory filter system is known to be level-dependent as evidenced by psychophysical data on masking, compression, and two-tone suppression. However, there were no analysis/synthesis schemes with nonlinear filterbanks. This paper describe 18300060s such a scheme based on the compressive gammachirp (cGC) auditory filter. It was developed to extend the gammatone filter concept to accommodate the changes in psychophysical filter shape that are observed to occur with changes in stimulus level in simultaneous, tone-in-noise masking. In models of simultaneous noise masking, the temporal dynamics of the filtering can be ignored. Analysis/ synthesis systems, however, are intended for use with speech sounds where the glottal cycle can be long with respect to auditory time constants, and so they require specification of the temporal dynamics of auditory filter. In this paper, we describe a fast-acting level control circuit for the cGC filter and show how psychophysical data involving two-tone suppression and compression can be used to estimate the parameter values for this dynamic version of the cGC filter (referred to as the "dcGC" filter). One important advantage of analysis/synthesis systems with a dcGC filterbank is that they can inherit previously refined signal processing algorithms developed with conventional short-time Fourier transforms (STFTs) and linear filterbanks.

DOI
Speech Segregation Using an Auditory Vocoder With Event-Synchronous Enhancements.

Irino T, Patterson RD, Kawahara H

IEEE transactions on audio, speech, and language processing ( 6 ) 14 ( 6 ) 2212 - 2221 2006年11月 [査読有り]

　概要を見る

We propose a new method. to segregate concurrent speech sounds using an auditory version of a channel vocoder. The auditory representation of sound, referred to as an "auditory image' " preserves fine temporal information, unlike conventional window-based processing systems. This makes it possible to segregate speech sources with an event synchronous procedure. Fundamental frequency information is used to estimate the sequence of glottal pulse times for ' a target speaker, and to repress the glottal events of other speakers. The procedure leads to robust extraction of the target speech and effective segregation even when the signal-to-noise ratio is as low as 0 dB. Moreover, the segregation performance remains high when the speech contains jitter, or when the estimate of the fundamental frequency F0 is inaccurate. This contrasts with conventional comb-filter methods where errors in F0 estimation produce a mark ed reduction in performance. We compared the new method to a comb-filter method using a cross-correlation measure and perceptual recognition experiments. The results suggest that the new method has the potential to supplant comb-filter and harmonic-selection methods for speech enhancement.

DOI
Speech style conversion based on the statistics of vowel spectrograms and nonlinear frequency mapping.

Toru Takahashi, Hideki Banno, Toshio Irino, Hideki Kawahara

14th European Signal Processing Conference, EUSIPCO 2006, Florence, Italy, September 4-8, 2006 ( IEEE ) 1 - 5 2006年09月 [査読有り]

　概要を見る

(発表日 8 Sept.)
Analyzing dialogue data for real-world emotional speech classification.

Ryuichi Nisimura, Souji Omae, Hideki Kawahara, Toshio Irino

INTERSPEECH 2006 - ICSLP, Ninth International Conference on Spoken Language Processing, Pittsburgh, PA, USA, September 17-21, 2006 ( ISCA ) 1822 - 1825 2006年09月 [査読有り]

　概要を見る

In order to obtain an understanding of the user's emotion in human-machine dialogues, an analysis of dialogical utterances in the real world was performed. This work comprises three major steps. (1) The actual conditions of 16 basic emotions were evaluated using Japanese child voices, which were collected through the field test of the public spoken dialogue system. (2) Two factors were derived by a factor analysis. The factors were defined as fundamental psychological factors representing "delightful" and "hateable" emotions. (3) The relationships between the factors and the physical acoustic features were investigated to establish a capability to sense a user's mental state for the dialogue system. In the experimental discriminations between the delightful and hateable emotions, a correct rate of 98.8% was achieved in classifying child's utterances by the SVM (Support Vector Machine) with 11 acoustic features.
Logarithmic temporal processing applied to accurate empirical transfer function measurements in vocal sound propagation.

Masanori Morise, Toshio Irino, Hideki Kawahara

14th European Signal Processing Conference, EUSIPCO 2006, Florence, Italy, September 4-8, 2006 ( IEEE ) 1 - 5 2006年09月 [査読有り]

　概要を見る

(発表日 8 Sept.)
Comparison of the roex and gammachirp filters as representations of the auditory filter.

Unoki M, Irino T, Glasberg B, Moore BC, Patterson RD

The Journal of the Acoustical Society of America ( 3 ) 120 ( 3 ) 1474 - 1492 2006年09月 [査読有り]

　概要を見る

Although the rounded-exponential (roex) filter has been successfully used to represent the magnitude response of the auditory filter, recent studies with the roex(p,w,t) filter reveal two serious problems: the fits to notched-noise masking data are somewhat unstable unless the filter is reduced to a physically unrealizable form, and there is no time-domain version of the roex(p, w, t) filter to support modeling of the perception of complex sounds. This paper describes a compressive gammachirp (cGC) filter with the same architecture as the roex(P I w,t) which can be implemented in the time domain. The gain and asymmetry of this parallel cGC filter are shown to be comparable to those of the roex(p,w,t) filter, but the fits to masking data are still somewhat unstable. The roex(p,w,t) and parallel cGC filters were also compared with the cascade cGC filter [Patterson et al., J. Acoust. Soc. Am. 114, 1529-1542 (2003)], which was found to provide an equivalent fit with 25% fewer coefficients. Moreover, the fits were stable. The advantage of the cascade cGC filter appears to derive from its parsimonious representation of the high-frequency side of the filter. It is concluded that cGC filters offer better prospects than roex filters for the representation of the auditory filter. (c) 2006 Acoustical Society of America.

DOI
Automatic assignment of anchoring points on vowel templates for defining correspondence between time-frequency representations of speech samples.

Toru Takahashi, Masashi Nishi, Toshio Irino, Hideki Kawahara

INTERSPEECH 2006 - ICSLP, Ninth International Conference on Spoken Language Processing, Pittsburgh, PA, USA, September 17-21, 2006 ( ISCA ) 2514 - 2517 2006年09月 [査読有り]

　概要を見る

(発表日 21 Sept.)
Auditory stream segregation by size and idenfication of size-modulated vowel sequences,

Minoru Tsuzaki, Chihiro Takeshima, Toshio Irino, Roy D. Patterson

14 th International Symposium on Hearing (ISH2006) 220 - 226 2006年08月 [査読有り]

　概要を見る

(発表日 20 Aug.)
Human-robot interaction interface using GMM-based noise recognition

Ryuichi Nisimura, Aki Hashizume, Toshio Irino, Hideki Kawahara

WESPAC IX 2006, (9th Western Pacific Acoustics Conference) 347 - 352 2006年06月 [査読有り]

　概要を見る

Seoul, Korea, 26-28 June 2006
General framework for flexible speech style manipulation and synthesis,

Tohru Takahashi, Toshio Irino, Hideki Kawahara

WESPAC IX 2006, (9th Western Pacific Acoustics Conference), pp.254-259, Seoul, Koria, 26-28 June 2006 2006年06月 [査読有り]

　概要を見る

(発表日 26 Sept.)
Dynamic, Compressive Gammachirp Auditory Filterbank for Perceptual Signal Processing.

Toshio Irino,Roy D. Patterson

2006 IEEE International Conference on Acoustics Speech and Signal Processing, ICASSP 2006, Toulouse, France, May 14-19, 2006 ( IEEE ) 133 - 136 2006年05月 [査読有り]

　概要を見る

(発表日 17 May)

DOI
暗騒音と高調波ひずみに頑健なインパルス応答測定用信号 : Warped-TSP(電気音響, 音響一般)

森勢将雅, 入野俊夫, 坂野秀樹, 河原英紀

電子情報通信学会論文誌. A, 基礎・境界 ( 社団法人電子情報通信学会 ) 89 ( 1 ) 7 - 14 2006年01月 [査読有り]

　概要を見る

音響機器や室内伝達関数のインパルス応答測定に線形時間軸伸長のTSP(Linear Time-Stretched Pulse, Lin-TSP)や対数時間軸伸長のLogarithmic TSP(Log-TSP)が従来からよく用いられている. しかし, 暗騒音の特性によって最適な測定用信号は異なっており, 高いSN比を得るには, 測定環境に応じて両信号を使い分ける必要がある. そこで, 本論文では, 両信号を接続した測定用信号"Warped-TSP"を提案する. このWarped-TSPを用いると, 音響機器や室内伝達関数のインパルス応答を, Lin-TSP・Log-TSPより高いSN比で測定できる. 更に, 再生系における高調波ひずみを簡単な操作で除去できるという性質も有している. まずWarped-TSPの定義をLin-TSPやLog-TSPと対比させて述べる. 更に特徴を示し, Warped-TSPに含まれるパラメータと特性の関係や高調波ひずみの影響を明らかにする. 更に測定環境に適したパラメータ設定の方法を述べる. 暗騒音の特性が異なる二つの環境でインパルス応答測定を行い, SN比が改善できることを示す.
Dynamic, compressive gammachirp auditory filterbank for perceptual signal processing

Toshio Irino, Roy D. Patterson

2006 IEEE International Conference on Acoustics, Speech and Signal Processing, Vols 1-13 ( IEEE ) 4991 - 4994 2006年 [査読有り]

　概要を見る

A gammachirp auditory filter was developed 1) to extend the domain of the gammatone auditory filter, 2) to simulate the changes in filter shape that occur with changes in stimulus level, 3) to explain a large body of simultaneous masking data, 4) to explain the compressive characteristics of the auditory filter system, and 5) to facilitate the development of a nonlinear, analysis/synthesis framework. What remains is to specify the dynamics of how the stimulus level controls the filter parameters. In this paper, we use psychophysical data involving compression to derive the details of the level control circuit for the dynamic version of the cGC (dcGC) filter and filterbank. The dcGC filterbank enhances spectral contrasts and reduces the dynamic range. This property with the analysis/synthesis framework should be useful in various forms of perceptual signal processing.
Spectral fluctuation mapping model for Japanese speech style conversion based on statistics in emotional speech database

Toru Takahashi, Hideki Banno, Ryuich Nisimura, Toshio Irino, Hideki Kawahara

Oriental COCOSDA 2005 , Indonesia, 6-8 Dec. 2005. 111 - 116 2005年12月 [査読有り]
Speech intelligibility derived from time-frequency and source smearing.

Toshio Irino, Satoru Satou, Shunsuke Nomura, Hideki Banno, Hideki Kawahara

INTERSPEECH 2005 - Eurospeech, 9th European Conference on Speech Communication and Technology, Lisbon, Portugal, September 4-8, 2005 ( ISCA ) 1737 - 1740 2005年09月 [査読有り]
Nearly defect-free F0 trajectory extraction for expressive speech modifications based on STRAIGHT.

Hideki Kawahara, Alain de Cheveigné, Hideki Banno, Toru Takahashi, Toshio Irino

INTERSPEECH 2005 - Eurospeech, 9th European Conference on Speech Communication and Technology, Lisbon, Portugal, September 4-8, 2005 ( ISCA ) 537 - 540 2005年09月 [査読有り]

　概要を見る

(発表日 5 Sept.)
Voice and emotional expression transformation based on statistics of vowel parameters in an emotional speech database.

Toru Takahashi, Takeshi Fujii, Masashi Nishi, Hideki Banno, Toshio Irino, Hideki Kawahara

INTERSPEECH 2005 - Eurospeech, 9th European Conference on Speech Communication and Technology, Lisbon, Portugal, September 4-8, 2005 ( ISCA ) 1853 - 1856 2005年09月 [査読有り]

　概要を見る

(発表日 7 Sept.)
A test signal robust against background noise in the measurement of acoustic impulse responses: Warped-TSP,

Masanori Morise, Toshio Irino, Hideki Banno, Hideki Kawahara

The 34th International Congress and Exposition on Noise Control Engineering (Internoise 2005) , Rio de Janeiro, Brazil, 2005年08月 [査読有り]

　概要を見る

7-10 Aug. 2005 (発表日 8 Aug.)
A Study of Talker Localization Based on Subband CSP Analysis in Real Noisy Environments,

Yuki Denda, Takanobu Nishiura, Hideki Kawahara, Toshio Irino

IEEE International Workshop on Nonlinear Signal and Image Processing 2005 (NISP 05) 320 - 323 2005年05月 [査読有り]

　概要を見る

Sapporo, Japan, 18-20, May 2005.
The processing and perception of size information in speech sounds

DRR Smith, RD Patterson, R Turner, H Kawahara, T Irino

JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA ( ACOUSTICAL SOC AMER AMER INST PHYSICS ) 117 ( 1 ) 305 - 318 2005年01月 [査読有り]

　概要を見る

There is information in speech sounds about the length of the vocal tract; specifically, as a child grows, the resonators in the vocal tract grow and the formant frequencies. of the vowels decrease. It has been hypothesized that the auditory system applies a scale transform to all sounds to segregate size information from resonator shape information, and thereby enhance both size perception, and speech recognition [Irino. and Patterson, Speech Commun.. 36, 181-203 (2002)]. This paper describes size discrimination experiments and vowel recognition experiments designed to provide evidence for ' an auditory scaling mechanism. Vowels were scaled to represent people with vocal tracts much longer and shorter than normal, and with pitches much higher and lower than normal. The results of the discrimination experiments show that listeners can make fine Judgments about the relative size of speakers, and they can do so for vowels scaled well beyond the normal range. Similarly, the recognition experiments show good performance for vowels in the normal range, and for vowels scaled Well beyond the normal range of experience. Together, the experiments support the hypothesis that the auditory system automatically normalizes for the size information in communication sounds. (C) 2005 Acoustical Society of America.

DOI
Comparison of the compressive-gammachirp and double-roex auditory filters

RD Patterson, M Unoki, T Irino

AUDITORY SIGNAL PROCESSINGP: PHYSIOLOGY, PSYCHOACOUSTICS, AND MODELS ( SPRINGER ) 21 - 29 2005年 [査読有り]

　概要を見る

( to appear in "Auditory signal processing: physiology, psychoacoustics, and models," Pressnitzer, D., de Cheveigne A., McAdams, S., Collet, L. Eds., Springer Verlag, New York, 2004. )
Underlying principles of a high-quality speech manipulation system STRAIGHT and its application to speech segregation

H Kawahara, T Irino

SPEECH SEPARATION BY HUMANS AND MACHINES ( SPRINGER ) 167 - 180 2005年 [査読有り]
Speech segregation using an event-synchronous auditory image and STRAIGHT

T Irino, RD Patterson, H Kawakhara

SPEECH SEPARATION BY HUMANS AND MACHINES ( SPRINGER ) 155 - 165 2005年 [査読有り]
Robust and accurate fundamental frequency estimation based on dominant harmonic components

T Nakatani, T Irino

JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA ( ACOUSTICAL SOC AMER AMER INST PHYSICS ) 116 ( 6 ) 3690 - 3700 2004年12月 [査読有り]

　概要を見る

This paper presents a new method for robust and accurate fundamental frequency (F-0) estimation in the presence of background noise and spectral distortion. Degree of dominance and dominance spectrum are defined based on instantaneous frequencies. The degree of dominance allows one to evaluate the magnitude of individual harmonic components of the speech signals relative to background noise while reducing the influence of spectral distortion. The fundamental frequency is more accurately estimated from reliable harmonic components which are easy to select given the dominance spectra. Experiments are performed using white and babble background noise with and without spectral distortion as produced by a SRAEN filter. The results show that the present method,is better than previously reported methods in terms of both gross and fine F-0 errors. (C) 2004 Acoustical Society of America.

DOI
Intelligibility of degraded speech from smeared STRAIGHT spectrum.

Hideki Kawahara, Hideki Banno, Toshio Irino, Jiang Jin

INTERSPEECH 2004 - ICSLP, 8th International Conference on Spoken Language Processing, Jeju Island, Korea, October 4-8, 2004 ( ISCA ) 2004年10月 [査読有り]
An evaluation of in-car speech enhancement techniques with microphone array steering,

Masato Nakayama, Yuki Denda, Takanobu Nishiura, Hideki Kawahara, Toshio Irino

18th International Congress on Acoustics (ICA2004) 4 3041 - 3044 2004年04月 [査読有り]

　概要を見る

Kyoto, Japan, 4-9 Apr. 2004 (abstract review)
Speech segregation using an auditory vocoder with event-synchronous enhancements,

Toshio Irino, Roy D. Patterson, Hideki Kawahara

18th International Congress on Acoustics 4 3025 - 3028 2004年04月 [査読有り]

　概要を見る

Kyoto, Japan, 4-9 Apr. 2004 (abstract review)
Algorithm amalgam: Morphing waveform based methods, sinuisoidal models and straight

H Kawahara, H Banno, T Irino, P Zolfaghari

2004 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL I, PROCEEDINGS ( IEEE ) I 13 - 16 2004年 [査読有り]

　概要を見る

A tool to investigate an important fundamental question in speech processing is proposed aiming to promote research on voice quality and para and non linguistic aspects of speech. The proposed method effectively emulates waveform-based methods, sinusoidal models and the high quality source filter model STRAIGHT The Key idea that enables blending these seemingly disjoint algorithms is a group delay based representation of signal excitation. By using a STRAIGHT-based smoothed time-frequency representation that is shared by these three types of speech processing methods, a unified source representation is used to implement the proposed system. Informal listening tests using the proposed system indicated that phase manipulation introduces different timbre, but it does not need to reproduce the exact waveform to reproduce the same timbre. This may suggest that the possibility of further information reduction exists in synthesizing close to natural quality speech.

DOI
A design of audio-visual talker tracking system based on CSP analysis and frame difference in real noisy environments

Y Denda, T Nishiura, H Kawahara, T Irino

2004 IEEE 6TH WORKSHOP ON MULTIMEDIA SIGNAL PROCESSING ( IEEE ) 63 - 66 2004年 [査読有り]

　概要を見る

It is very important to capture distant-talking speech with high-quality for voice-controlled systems or teleconferencing systems. A microphone array steering is an ideal candidate for this purpose. However, for the microphone array steering, it is necessary to track the target talker. Conventional talker tracking algorithms with only audio signal (ex. CSP (Cross-power Spectrum Phase) analysis) have a difficulty estimating the target talker direction accurately in higher noisy environments. To overcome with this problem, we propose a new target talker tracking algorithm that not only utilize the audio signal, but also utilize the visual signal. The proposed algorithm is based on integration of CSP analysis with audio signal and frame difference with visual signal. As a result of evaluation experiments in a real room, we confirmed that the proposed algorithm could track target talker accurately than the conventional algorithm.

DOI
Speech recognition with wavelet spectral subtraction in real noisy environment

N Denda, T Nishiura, H Kawahara, T Irino

2004 7TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING PROCEEDINGS, VOLS 1-3 ( PUBLISHING HOUSE ELECTRONICS INDUSTRY ) 638 - 641 2004年 [査読有り]

　概要を見る

In this paper, we focused the effectiveness of the wavelet spectral subtraction in noisy speech recognition. For this purpose, Fourier spectral subtraction is a conventional effective technique, for example. It is a suitable technique for stationary noise reduction (ex. white Gaussian like noise), because the short-time Fourier transform provides a uniform time-frequency resolution on each frequency band. However, it can not reduce suddenly noise effectively, etc. On the other hand.. the wavelet transform may be a suitable technique for suddenly signal analysis, etc. (non-stationary, signal analysis), because it admits a non-uniform time-frequency resolution on each frequency band. Therefore, we reported to provide effectively performance of noise reduction using the Fourier spectral subtraction,, the wavelet spectral subtraction and the microphone array steering in real noisy environments on EUROSPEECH2003. However, it was not clear that what kind of noise characteristics could be reduced with the wavelet spectral subtraction. In this paper, to cope with this problem, we evaluated the performance of the wavelet spectral subtraction and the Fourier spectral subtraction in various noisy environments. As a result of evaluation experiments, we confirmed that the wavelet spectral subtraction could effectively reduce suddenly noise or higher frequency noise than the Fourier spectral subtraction.
Speech segregation based on fundamental event information using an auditory vocoder.

Toshio Irino,Roy D. Patterson, Hideki Kawahara

8th European Conference on Speech Communication and Technology, EUROSPEECH 2003 - INTERSPEECH 2003, Geneva, Switzerland, September 1-4, 2003 ( ISCA ) 2003年09月 [査読有り]
Dominance spectrum based v/UV classification and f_0 estimation.

Tomohiro Nakatani, Toshio Irino, Parham Zolfaghari

8th European Conference on Speech Communication and Technology, EUROSPEECH 2003 - INTERSPEECH 2003, Geneva, Switzerland, September 1-4, 2003 ( ISCA ) 2313 - 2316 2003年09月 [査読有り]
Extending the domain of center frequencies for the compressive gammachirp auditory filter

RD Patterson, M Unoki, T Irino

JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA ( ACOUSTICAL SOC AMER AMER INST PHYSICS ) 114 ( 3 ) 1529 - 1542 2003年09月 [査読有り]

　概要を見る

The gammatone filter was imported from auditory physiology to provide a time-domain version of the roex auditory filter and enable the development of a realistic auditory filterbank for models of auditory perception [Patterson et al., J. Acoust. Soc. Am. 98, 1890-1894 (1995)]. The gammachirp auditory filter was developed to extend the domain of the gammatone auditory filter and simulate the changes in filter shape that occur with changes in stimulus level. Initially, the gammachirp filter was limited to center frequencies in the 2.0-kHz region where there were sufficient "notched-noise" masking data to define its parameters accurately. Recently, however, the range of the masking data has been extended in two massive studies. This paper reports how a compressive version of the gammachirp auditory filter was fitted to these new data sets to define the filter parameters over the extended frequency range. The results show that the shape of the filter can be specified for the entire domain of the data using just six constants (center frequencies from 0.25 to 6.0 kHz and levels from 30 to 80 dB SPL). The compressive, gammachirp auditory filter also has the advantage of being consistent with physiological studies of cochlear filtering insofar as the compression of the filter is mainly limited to the passband and the form of the chirp in the impulse response is largely independent of level. (C) 2003 Acoustical Society of America.

DOI
Glottal closure instant synchronous sinusoidal model for high quality speech analysis/synthesis.

Parham Zolfaghari, Tomohiro Nakatani, Toshio Irino, Hideki Kawahara, Fumitada Itakura

8th European Conference on Speech Communication and Technology, EUROSPEECH 2003 - INTERSPEECH 2003, Geneva, Switzerland, September 1-4, 2003 ( ISCA ) 2441 - 2444 2003年09月 [査読有り]
Speech segregation using event synchronous auditory vocoder

T Irino, RD Patterson, H Kawahara

2003 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL V, PROCEEDINGS ( IEEE ) 525 - 528 2003年 [査読有り]

　概要を見る

We present a new auditory method to segregate concurrent speech sounds. The system is based on an auditory vocoder developed to resynthesize speech from an auditory Mellin representation using the vocoder STRAIGHT. The quality of the transmitted sound is improved by introducing an event synchronous procedure to estimate glottal pulse times. The auditory representation preserves fine temporal information, unlike conventional window-based processing, which makes it possible to segregate the speech synchronously. The results show that the segregation is good even when the SNR is 0 dB; the extracted target speech was a little distorted but entirely intelligible (like telephone speech), whereas the distracter speech was reduced to a non-speech sound that was not perceptually disturbing. So, this auditory vocoder has potential for speech enhancement in applications such as hearing aids.

DOI
Robust fundamental frequency estimation against background noise and spectral distortion.

Tomohiro Nakatani, Toshio Irino

7th International Conference on Spoken Language Processing, ICSLP2002 - INTERSPEECH 2002, Denver, Colorado, USA, September 16-20, 2002 ( ISCA ) 3 1733 - 1736 2002年09月 [査読有り]
Evaluation of a speech recognition / generation method based on HMM and straight.

Toshio Irino, Yasuhiro Minami, Tomohiro Nakatani, Minoru Tsuzaki, H. Tagawa

7th International Conference on Spoken Language Processing, ICSLP2002 - INTERSPEECH 2002, Denver, Colorado, USA, September 16-20, 2002 ( ISCA ) 2545 - 2548 2002年09月 [査読有り]
Auditory vocoder to playback sound from an auditory Mellin representation,

Toshio Irino, Roy D. Patterson, Hideki Kawahara

Dynamics of Speech Production and Perception, NATO Advanced Study Institute , Il Ciocco, Itary, 24 June - 6 July, 2002. 2002年06月 [査読有り]
Segregating information about the size and shape of the vocal tract using a time-domain auditory model:The Stabilised Wavelet Mellin Transform

Toshio Irino, Roy D.Patterson

Speech Communication 36 ( 3-4 ) 181 - 203 2002年01月 [査読有り]

　概要を見る

We hear vowels pronounced by men and women as approximately the same although the length of the vocal tract varies considerably from group to group. At the same time, we can identify the speaker group. This suggests that the auditory system can extract and separate information about the size of the vocal-tract from information about its shape. The duration of the impulse response of the vocal tract expands or contracts as the length of the vocal tract increases or decreases. There is a transform, the Mellin transform, that is immune to the effects of time dilation; it maps impulse responses that differ in temporal scale onto a single distribution and encodes the size information separately as a scalar constant. In this paper we investigate the use of the Mellin transform for vowel normalisation. In the auditory system, sounds are initially subjected to a form of wavelet analysis in the cochlea and then, in each frequency channel, the repeating patterns produced by periodic sounds appear to be stabilised by a form of time-interval calculation. The result is like a two-dimensional array of interval histograms and it is referred to as an auditory image. In this paper, we show that there is a two-dimensional form of the Mellin transform that can convert the auditory images of vowel sounds from vocal tracts with different sizes into an invariant Mellin image (MI) and, thereby, facilitate the extraction and separation of the size and shape information associated with a given vowel type. In signal processing terms, the MI of a sound is the Mellin transform of a stabilised wavelet transform of the sound. We suggest that the MI provides a good model of auditory vowel normalisation, and that this provides a good framework for auditory processing from cochlea to cortex. © 2002 Elsevier Science B.V. All rights reserved.

DOI
Auditory VOCODER: Speech resynthesis from an auditory Mellin representation

T Irino, RD Patterson, H Kawahara

2002 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOLS I-IV, PROCEEDINGS ( IEEE ) II 1921 - 1924 2002年 [査読有り]

　概要を見る

We assume that speech morphing, noise suppression, and speech segregation would improve if they were more accurately based on human perception, Accordingly, an Auditory VOCODER was developed to resynthesize speech from an auditory Mellin representation used to explain human perception. The Auditory VOCODER has three modules: an Auditory Mellin Image model [9,10], a STRAIGHT VOCODER [2], and a mapping module consisting of warped-frequency cepstral analysis and nonlinear, multivariate regression analysis (MRA). We describe the modules and an evaluation of the system. Informal listening indicates that the sound quality is reasonable.

DOI
Improvement of an IIR asymmetric compensation gammachirp filter

Unoki Masashi, Irino Toshio, Patterson Roy D

Acoustical science and technology ( ACOUSTICAL SOCIETY OF JAPAN ) 22 ( 6 ) 426 - 430 2001年11月 [査読有り]

　概要を見る

An IIR implementation of the gammachirp filter has been proposed to simulate basilar membrane motion efficiently (Irino and Unoki, 1999). A reasonable filter response was provided by a combination of a gammatone filter and an IIR asymmetric compensation (AC) filter. It was noted, probably however, that the rms error was high when the absolute values of the parameters are large, because the coefficients of the IIR-AC filter were selected heuristically. In this report, we show that this is due to the sign inversion of the phase of poles and zeros in the conventional model. We propose a new definition of the IIR-AC filter and we describe a method of systematic determining the optimum coefficients and number of cascade for the second-order filter. This results in a reduction of the error to about 1/3 that produced by the conventional model.

DOI
Sound resynthesis from Auditory Mellin Image using STRAIGHT,

Toshio Irino, Roy D. Patterson, Hideki Kawahara

CRAC (Consistent and Reliable Acoustic Cues for sound analysis) workshop , Aalborg, Denmark, 2nd Sept. 2001 2001年09月 [査読有り]
A compressive gammachirp auditory filter for both physiological and psychophysical data

Toshio Irino, Roy D.Patterson

J.Acoust.Soc.Amer. ( ACOUSTICAL SOC AMER AMER INST PHYSICS ) 109 ( 5,Pt.1 ) 2008 - 2022 2001年05月 [査読有り]

　概要を見る

A gammachirp auditory filter was developed by Irino and Patterson [J. Acoust. Soc. Am. 101, 412-419 (1997)] to provide a level-dependent version of the linear, gammatone auditory filter, with which to explain the level-dependent changes in cochlear filtering observed in psychophysical masking experiments. In this 'analytical' gammachirp filter, the chirp varied with level and there was no explicit representation of the change in filter gain or compression with level. Subsequently, Carney et al. [J. Acoust. Soc. Am. 105, 2384-2391 (1999)] reviewed Carney and Yin's [J. Neurophysiol. 60, 1653-1677 (1988)] reverse-correlation (revcor) data and showed that the frequency glide of the chirp does not vary with level in their data. In this article, the architecture of the analytical gammachirp is reviewed with respect to cochlear physiology and a new form of gammachirp filter is described in which the magnitude response, the gain, and the compression vary with level but the chirp does not. This new 'compressive' gammachirp filter is used to fit the level-dependent revcor data reported by Carney et al. (1999) and the level-dependent masking data reported by Rosen and Baker [Hear. Res. 73, 231-243 (1994)] . © 2001 Acoustical Society of America.

DOI
解説記事トピックス1 聴覚フィルタ/蝸牛の周波数分析機能

入野俊夫

日本音響学会誌 ( 一般社団法人日本音響学会 ) 57 ( 1 ) 56 - 56 2001年01月 [招待有り]
An analysis/synthesis auditory filterbank based on an IIR gammachirp filter

T Irino, M Unoki

COMPUTATIONAL MODELS OF AUDITORY FUNCTION ( I O S PRESS ) 312 49 - 64 2001年 [査読有り]
調波成分の瞬時周波数を用いた基本周波数推定方法(音声情報処理 : 現状と将来技術論文特集)

阿竹義徳, 入野俊夫, 河原英紀, 陸金林, 中村哲, 鹿野清宏

電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 ( 社団法人電子情報通信学会 ) 83 ( 11 ) 2077 - 2086 2000年11月 [査読有り]

　概要を見る

河原らにより開発されたSTRAIGHTは, VOCODER型分析合成方式であるにもかかわらず, 原音に迫る高い自然性をもった分析合成音を得ることが可能である.しかし, 耐雑音性が低く, 雑音環境下では合成音声の品質が大きく劣化するという弱点があった.それは, STRAIGHTが処理の各段階に基本周期にした処理を積極的に利用していて, 雑音により推定された基本周波数が誤差を含んだ場合, その影響を大きく受けることが原因と考えられる.そこで本論文では, その欠点を克服するために耐雑音性の高い基本周波数推定方法を提案する.このため, 従来のTEMPO法で用いられてきた基本波成分だけではなく, その調波成分も利用し, Cohenの帯域幅方程式を用いて統合する新しい方法を提案する.また, 提案手法の性能の評価のために, 音声データとEGGデータを同時収録したデータベースを作成した.これを用いて提案法及びTEMPO法などの従来法と推定精度の比較をした結果, 提案法は他の従来法に比べて無雑音では同等以上で, 雑音付加時の推定精度は大幅に改善されることがわかった.
解説記事音源の形状情報と寸法情報を分離する聴覚でのイメージング

入野俊夫

日本音響学会誌 ( 一般社団法人日本音響学会 ) 56 ( 7 ) 505 - 508 2000年07月 [招待有り]

DOI
解説記事聴覚イメージ:複雑な音が聴覚システムでいかに表現されるか

パターソンロイ D, 入野俊夫

日本音響学会誌 ( 一般社団法人日本音響学会 ) 56 ( 7 ) 503 - 504 2000年07月 [招待有り]

DOI
Mellin images of vowel sounds and the phonological distinctiveness of multi-formant vowels

RD Patterson, S Uppenkamp, T Irino

BRITISH JOURNAL OF AUDIOLOGY ( WHURR PUBLISHERS LTD ) 34 ( 2 ) 118 - 118 2000年04月 [査読有り]
Robust fundamental frequency estimation using instantaneous frequencies of harmonic components

Yoshinori Atake, Toshio Irino, Toshio Irino, Hideki Kawahara, Hideki Kawahara, Hideki Kawahara, Jinlin Lu, Satoshi Nakamura, Kiyohiro Shikano

6th International Conference on Spoken Language Processing, ICSLP 2000 2 907 - 910 2000年01月

　概要を見る

This paper proposes a noise-tolerant method for fundamental frequency (F0) extraction. This method includes several new ideas, including the estimation of the instantaneous frequencies of the higher harmonic components, and the design of an adaptive weighting function based on a bandwidth equation that combines the F0 information in the harmonic components. To evaluate the proposed method, we constructed a relatively large database of simultaneous recordings of speech waveforms and EGG (Electro Glotto Graphy). The database consists of 30 sentences pronounced by 14 male and 14 female normal subjects, i.e., 840 sentences in total. The duration of the sound is about 35 minutes including about 20 minutes of voicing. The experiments were performed with additive noise for four pitch extraction methods, i.e., the proposed method, the original TEMPO, an improved cepstrum method, and a common F0 extraction program in ESPS. The results were as follows: 1) the proposed method is always better than any of the other methods when the SNR is greater than about 2 dB; 2) for high SNR values (> 15 dB), the correct rates of the proposed method and the original TEMPO are about 95% and much better than the improved cepstrum method (92%) and the ESPS function (89%); and 3) all of the methods degrade to less than 62% when the SNR is 0 dB. As a result, the proposed method improves the performance for low SNR values and also maintains high accuracy inherent from the original TEMPO for high SNR values.
A gammachirp perspective of cochlear mechanics that can also explain human auditory masking quantitatively

T Irino, RD Patterson

PROCEEDINGS OF THE INTERNATIONAL SYMPOSIUM ON RECENT DEVELOPMENTS IN AUDITORY MECHANICS ( WORLD SCIENTIFIC PUBL CO PTE LTD ) 230 - 236 2000年 [査読有り]

　概要を見る

Recently, the gammachirp function was proposed as an auditory filter for explaining psychoacoustical masking data [7]. It can also account for some basic physiological observations such as the frequency glide in basilar membrane motion (BMM), but it cannot readily account for other observations such as the nonlinear compressive relationship between signal level and BMM. In this paper, the gammachirp filter is extended to include an extra stage of filtering as suggested by the NonLinear Resonant Tectorial Membrane (NL-RTM) hypothesis [1,2]. The extra filter was initially proposed for an IIR implementation of the gammachirp [8]. The new gammachirp filter provides excellent fits to human masking data, and it enables us to unify physiological and psychoacoustical data within a common modelling framework.
An analysis/synthesis auditory filterbank based on an llR implementation of the gammachirp"

Toshio Irino, Masashi Unoki

J.Acoust.Soc.Japan(E) ( Acoustical Society of Japan ) 20 ( 6 ) 397 - 406 1999年11月 [査読有り]

　概要を見る

This paper proposes a new auditory filterbank that enables signal resynthesis from dynamic representations produced by a level-dependent auditory filterbank. The filterbank is based on a new IIR implementation of the gammachirp, which has been shown to be an excellent candidate for asymmetric, level-dependent auditory filters. Initially, the gammachirp filter is shown to be decomposed into a combination of a gammatone filter and an asymmetric function. The asymmetric function is excellently simulated with a minimum-phase IIR filter, named the `asymmetric compensation filter'. Then, two filterbank structures are presented each based on the combination of a gammatone filterbank and a bank of asymmetric compensation filters controlled by a signal level estimation mechanism. The inverse filter of the asymmetric compensation filter is always stable because the minimum-phase condition is satisfied. When a bank of inverse filters is utilized after the gammachirp analysis filterbank and the idea of wavelet transform is applied, it is possible to resynthesize signals with small time-invariant errors and achieve a guaranteed precision. This feature has never been accomplished by conventional active auditory filterbanks. The proposed analysis/synthesis gammachirp filterbank is expected to be useful in various applications where human auditory filtering has to be modeled.

DOI
Stabilised wavelet mellin transform: an auditory strategy for normalising sound-source size.

Toshio Irino,Roy D. Patterson

Sixth European Conference on Speech Communication and Technology, EUROSPEECH 1999, Budapest, Hungary, September 5-9, 1999 ( ISCA ) 1899 - 1902 1999年09月 [査読有り]
Extracting size and shape information of sound source in an optimal auditory processing model,

Toshio Irino, Roy D. Patterson

Workshop on Computational Auditory Scene Analysis (CASA), International Joint Conference on Artificial Intelligence (IJCAI'99) , Stockholm, Sweden, 1st August 1999. 1999年08月 [査読有り]
Noise suppression using a time-varying, analysis/synthesis gammachirp filterbank

T Irino

ICASSP '99: 1999 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, PROCEEDINGS VOLS I-VI ( IEEE ) 97 - 100 1999年 [査読有り]

　概要を見る

Spectral subtraction has been cited most often as a noise suppression method for speech signals in steady background noise, because it is basically a non-parametric method and simple enough to implement for various applications using FFT. It has also been well known, however, that spectral subtraction produces so called "musical noise" in synthetic sounds. Since such musical noise, even at low levels, can often bother humans in speech perception, spectral subtraction has not been very successful in signal processing applications for human listeners. To suppress noise without producing musical noise, an alternative method has been developed using a time-varying, analysis/synthesis gammachirp filterbank; this was initially proposed as an auditory filterbank. The present method achieves about the same SNR improvement as spectral subtraction when using the same information on the non-speech interval. Moreover, the synthetic sounds only contain steady white-like noise at reduced levels when the original noise is white. This method is, therefore, advantageous in various applications for human listeners.

DOI
Modeling temporal asymmetry in the auditory system

RD Patterson, T Irino

JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA ( ACOUSTICAL SOC AMER AMER INST PHYSICS ) 104 ( 5 ) 2967 - 2979 1998年11月 [査読有り]

　概要を見る

Sound sources in the environment produce waves that are almost invariably asymmetric in time, and human listeners are highly sensitive to temporal asymmetry. The spectral analysis and neural transduction processes in the cochlea enhance temporal asymmetry, as do time-domain models of cochlear processes, but it appears that the resulting asymmetry is not sufficient to explain the observed perceptual asymmetry. In the auditory image model (AIM) of hearing, the temporal asymmetry in the neural activity produced by the cochlea is further enhanced by the "strobed" temporal integration that converts the neural activity pattern into an auditory image, and the temporal asymmetry in the auditory image is sufficient to explain the perceptual asymmetry. Modern versions of the "duplex model" of pitch have time-domain cochlea simulations that produce neural activity with temporal asymmetry similar to that produced by AIM. In the final stage, however, they apply autocorrelation to the neural pattern and autocorrelation is a symmetric process in time. In this paper the effect of autocorrelation on temporal asymmetry is examined in a range of auditory models with varying forms of auditory filterbank, compression, and neural transduction. It is concluded that autocorrelation does not enhance temporal asymmetry and often reduces it, and that autocorrelogram models cannot explain the magnitude of the perceptual asymmetry in their current form. Then, the original version of strobed-temporal-integration is reviewed with regard to temporal asymmetry, and the delta-gamma theory of temporal asymmetry [Irino and Patterson, J. Acoust. Soc. Am. 99, 2316-2331 (1996)] is used to develop a new version of strobed-temporal-integration that is more robust and physiologically more plausible. (C) 1998 Acoustical Society of America. [S0001-4966(98)05711-7]

DOI
A time-varying analysis/synthesis auditory filterbank based on an IIR gammachirp filter

Toshio Irino, Masashi Unoki

NATO Advanced Study Institute, Computational Hearing 205 - 210 1998年07月 [査読有り]

　概要を見る

Il Ciocco (Tuscany), Italy, July 1 - July 12, 1998.
The gammachirp for optimal auditory filtering

T Irino, RD Patterson

ICONIP'98: THE FIFTH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING JOINTLY WITH JNNS'98: THE 1998 ANNUAL CONFERENCE OF THE JAPANESE NEURAL NETWORK SOCIETY - PROCEEDINGS, VOLS 1-3 ( OHMSHA LTD ) 1322 - 1326 1998年 [査読有り]

　概要を見る

This paper reviews the "gammachirp" auditory filter based on physical theory and supported by psychoacoustical 'and physiological observations. Various studies have demonstrated that the auditory filter cannot be simulated by the Gabor function that is well-known as an optimal function in terms of minimal uncertainty in a time-frequency representation. This seems to suggest that the auditory system is non-optimal. However, for a time-scale representation, the function minimizing uncertainty is the gammachirp. With a frequency-modulation term. the gammachirp is an extension of the gammatone filter that is often used in functional auditory filterbanks. The gammachirp is found to provide an excellent tit to human masking data that show level-dependent asymmetry in the frequency characteristic. Moreover, it is consistent with recent physiological observations of the frequency-modulation in the impulse response of the basilar membrane.
A time-varying, analysis/synthesis auditory filterbank using the gammachirp

T Irino, M Unoki

PROCEEDINGS OF THE 1998 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, VOLS 1-6 ( IEEE ) VI 3653 - 3656 1998年 [査読有り]

　概要を見る

A time-varying, analysis/synthesis auditory filterbank has been developed using a new implementation of the "gammachirp", which has been shown to be an excellent function for the asymmetric, level-dependent auditory filter. The gammachirp filter is shown to be implemented through a combination of a gammatone filter and an IIR asymmetric compensation filter; which largely reduces the computational cost for time-varying filtering. The gammachirp filterbank is designed using a linear gammatone filterbank and a bank of time-varying asymmetric compensation filters controlled by the sound pressure level estimated at the output of the filterbank. Since the inverse filter of the asymmetric compensation filter is always stable, it is possible to resynthesize signals from time-varying, level-dependent auditory representations. The resynthesis error is only determined by the linear analysis/synthesis gammatone filterbank. The proposed filterbank is applicable to various types of signal processing required to model human auditory filtering.

DOI
A time-domain,leve-dependent auditory filter:the gammachirp

Toshio Irino, Roy D.Patterson

J.Acoust.Soc.Amer. ( ACOUSTICAL SOC AMER AMER INST PHYSICS ) 101 ( 1 ) 412 - 419 1997年01月 [査読有り]

　概要を見る

A frequency modulation term has been added to the gammatone auditory filter to produce a filter with an asymmetric amplitude spectrum. When the degree of asymmetry in this 'gammachirp' auditory tiller is associated with stimulus level, the gammachirp is found to provide an excellent fit to 12 sets of notched-noise masking data from three different studies. The gammachirp has a well-defined impulse response, unlike the conventional roex auditory filter, and so it is an excellent candidate for an asymmetric, level-dependent auditory filterbank in time-domain models of auditory processing.

DOI
Temporal asymmetry in the auditory system

T Irino, RD Patterson

JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA ( ACOUSTICAL SOC AMER AMER INST PHYSICS ) 99 ( 4 ) 2316 - 2331 1996年04月 [査読有り]

　概要を見る

When a damped exponential with a half-life of 4-8 ms is repeated every 25-50 ms and used to modulate a sinusoid or a wideband noise, it suppresses the sound quality typically associated with the carrier. When the envelopes of these ''damped'' sounds are reversed in time, producing ''ramped'' sounds, a continuous component with the sound quality of the carrier is restored to the perception. This paper presents an experiment that measures the temporal asymmetry revealed by this perceptual contrast. A ramped sinusoid or noise with a given half-life was presented with a damped sinusoid or noise having the same or greater half-life, to determine the damped half-life required to produce a continuous component with the equivalent relative strength in the two sounds. The results with sinusoidal carriers show that the half-life of the damped sound has to be, on average, about five times the half-life of the ramped sound if the tonal component of the two perceptions is to have the same relative strength. The asymmetry for the noise carrier is about half that of the sinusoidal carrier and, again, the damped sound has the greater matching half-life. Several multichannel auditory models based on a gammatone filterbank are used to try to explain the data in terms of traditional leaky integration, but they produce neither sufficient asymmetry nor the correct pattern of asymmetry. A ''delta-gamma'' theory is then developed to provide a framework for understanding temporal asymmetry in the auditory system. The theory is used to compare the temporal asymmetry produced by several auditory models and to explain when and how they can accommodate the perceptual asymmetry observed in the experiments. (C) 1996 Acoustical Society of America.

DOI
A 'gammachirp' function as an optimal auditory filter with the Mellin transform

Toshio, I

1996 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, CONFERENCE PROCEEDINGS, VOLS 1-6 ( IEEE ) II 981 - 984 1996年 [査読有り]

　概要を見る

Atlanta, Georgia, May 7-10, 1996.

DOI
An Optimal Auditory Filter,

Toshio Irino

IEEE SP 1995 Workshop on Applications of Signal Processing to Audio and Acoustics , IEEE Signal Processing Society, Mohonk, New Paltz, NY, October 15-18, 1995. 1995年10月 [査読有り]
A theory of asymmetric intensity enhancement around acoustic transients.

Toshio Irino,Roy D. Patterson

The 3rd International Conference on Spoken Language Processing, ICSLP 1994, Yokohama, Japan, September 18-22, 1994 ( ISCA ) 4 1955 - 1958 1994年09月 [査読有り]
SIGNAL RECONSTRUCTION FROM MODIFIED AUDITORY WAVELET TRANSFORM

T IRINO, H KAWAHARA

IEEE TRANSACTIONS ON SIGNAL PROCESSING ( IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC ) 41 ( 12 ) 3549 - 3554 1993年12月 [査読有り]

　概要を見る

We propose a new method for signal modification in auditory peripheral representation: an auditory wavelet transform and algorithms for reconstructing a signal from a modified wavelet transform. We present the characteristics of signal analysis, synthesis, and reconstruction and also the data reduction criteria for signal modification.

DOI
SIGNAL RECONSTRUCTION FROM MODIFIED WAVELET TRANSFORM - AN APPLICATION TO AUDITORY SIGNAL-PROCESSING

T IRINO, H KAWAHARA

ICASSP-92 - 1992 INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOLS 1-5 ( I E E E ) 1 A85 - A88 1992年 [査読有り]

　概要を見る

© 1992 IEEE. A new method of signal reconstruction from a modified auditory representation is presented. This consists of four parts: 1) an algorithm to reconstruct a signal from its modified wavelet transform with a general wavelet; 2) obtaining an auditory representation using an auditory wavelet transform whose analyzing wavelet is the impulse response of an auditory peripheral model; 3) estimating the reconstruction algorithm both with and without data reduction; 4) an example of its application to the time-scale modification of speech. This wavelet reconstruction algorithm is the counterpart of the signal reconstruction algorithm which uses the short-time Fourier transform. High-quality speech successfully generated by time-scale modification shows that the reconstruction method is suitable for various applications as well as making experimental auditory stimuli.

DOI
A method for designing neural networks using nonlinear multivariate analysis—application to speaker‐independent vowel recognition

Toshio Irino, Hideki Kawahara

Systems and Computers in Japan 21 ( 9 ) 80 - 88 1990年01月 [査読有り]

　概要を見る

This paper proposes a method of constructing a multilayered neural network, using the multiple logistic model (MLM). The model is a nonlinear multivariate analysis considering the output logistic function of each unit, which is used in the back‐propagation method (BP). The idea can be applied directly to the determination of the multilayered neural network structure. The model can also be utilized as a systematic method to introduce such information as pattern distribution into the neural network structure. Considering the speaker‐independent vowel recognition as the problem, this paper compares the results by the proposed method (MLM), the construction by the linear multiple regression analysis (MRA), the learning by BP with the weight being defined at random as the initial value, and the learning by BP with the initial weight determined by MLM or MRA. It is seen as a result that the recognition rate is the best when BP is applied after introducing the speaker distribution information by the proposed method. It is seen also that the computation time is reduced compared with the BP, with the initial weight being defined at random. Copyright © 1990 Wiley Periodicals, Inc., A Wiley Company

DOI
A Method for Designing Neural Networks Using Nonlinear Multivariate Analysis: Application to Speaker-Independent Vowel Recognition.

Toshio Irino, Hideki Kawahara

Neural Computation 2 ( 3 ) 386 - 397 1990年 [査読有り]

DOI
多層神経回路網の非線形多変量解析による構成法--不特定話者母音認識への適用 (新しい音声処理技術特集)

入野俊夫, 河原英紀

電子情報通信学会論文誌 D-2 情報・システム ( 電子情報通信学会情報・システムソサイエティ ) 72 ( 8 ) p1187 - 1193 1989年08月
Theoretical analysis of Stoneley waves propagating along an interface between two substrates of the same piezoelectric material

Toshio Irino, Yasutaka Shimizu

Electronics and Communications in Japan, Part III: Fundamental Electronic Science (English translation of Denshi Tsushin Gakkai Ronbunshi) 72 1 - 12 1989年04月 [査読有り]

　概要を見る

A theoretical investigation of Stoneley waves propagating along an interface between two substrates of the same piezoelectric material is presented. A method of determining the upper cutoff velocity of Stonely waves is described Stoneley waves can also occur in trigonal LiNbO 3 and LiTaO 3 and also with one of the substrates turned over, even without a short-circuit plate. The degree of energy concentration, velocity and the electromechanical coupling coefficient k 2 of Stoneley waves in LiNbO 3 are calculated for various cuts and propagation velocities. The occurrence or nonoccurrence of Stoneley waves when two substrates of different cuts are joined and when two substrates of the same cut are joined with different orientations in the plane is investigated.
OPTIMIZED STONELEY WAVE DEVICE BY PROPER CHOICE OF GLASS OVERCOAT

T IRINO, Y SHIMIZU

IEEE TRANSACTIONS ON ULTRASONICS FERROELECTRICS AND FREQUENCY CONTROL ( IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC ) 36 ( 2 ) 159 - 167 1989年03月 [査読有り]

　概要を見る

The characteristics of Stoneley wave propagated along an interface between a piezoelectric material and an isotropic material were investigated both theoretically and experimentally. First, the condition for existence of Stoneley waves was shown for various piezoelectric materials. A rule of thumb for selecting the combination of the two materials was obtained. Then, LiTa03 was selected for a piezoelectric material and Si02 was selected for an isotropic material. After the calculation of the Stoneley wave characteristics, actual devices were fabricated and measured. The experimental results were found to be in good agreement with the theory; zero slope temperature (TCD = 0) and high electromechanical coupling coefficient (K2 = 1.5 percent) were obtained for Stoneley wave propagation between Si02/X-148° LiTa03. As a result, future surface-acoustic-wave (SAW) devices can be made without any package. © 1989 IEEE

DOI
Propagation of Boundary Acoustic Waves Along a ZnO Layer between Two Materials

Toshio Irino, Yoshimasa Shirosaki, Yasutaka Shimizu

IEEE Transactions on Ultrasonics, Ferroelectrics, and Frequency Control ( IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC ) 35 ( 6 ) 701 - 707 1988年11月

　概要を見る

Theoretical and experimental results on boundary acoustic waves (BAW) propagated along a ZnO layer sandwiched between two materials are presented. The dispersion curve of the propagation velocity, the electromechanical coupling coefficient (K2) and the displacements were obtained theoretically as a function of the normalized thickness of the ZnO layer. The temperature coefficients of delay time (TCD) were also calculated and become zero at a particular thickness. Boundary acoustic waves can exist only when the material constants of three materials satisfy the particular conditions obtained in the work. The existence regions are larger than those of the Stoneley waves the authors presented elsewhere. Experiments on SiO2/Zn0/SiO2 were also performed to verify the theoretical prediction of the existence of boundary waves. A ZnO film and a thick SiO2 layer were fabricated on a fused quartz substrate by a sputtering technique. Then the boundary waves were excited and received by interdigital transducers and propagated along the ZnO layer. Propagation loss was practically the same value as for Rayleigh waves, indicating a proper mode of the system. These results lead us to expect that future SAW devices can be made without any package. © 1988 IEEE

DOI
Vowel-feature extraction from cochlear vibration using neural networks.

Toshio Irino, Hideki Kawahara

Neural Networks 1 ( Supplement-1 ) 300 - 301 1988年09月 [査読有り]

　概要を見る

First annual conference of International Neural Network Society (INNS), Boston, Sept. 1988.

DOI
Propagation of boundary acoustic waves along a ZnO layer between two materials

Toshio Irino, Yoshimasa Shirosaki, Yasutaka Shimizu

Electronics and Communications in Japan (Part II: Electronics) 71 ( 5 ) 1 - 12 1988年01月 [査読有り]

　概要を見る

This paper describes the theoretical and experimental results on the propagation of boundary acoustic waves along a ZnO layer between two materials. It was proven theoretically that the boundary acoustic waves propagate in SiO 2 /ZnO/SiO 2 , SiO 2 /ZnO/PYREX and SiO 2 /ZnO/(Z – X)Si structures. The propagation velocity, electromechanical coupling coefficient K 2 , and the concentration of energy to the mid‐layer were calculated as a function of the ZnO film thickness. The thermal coefficient of delay time TCD was also calculated for the SiO 2 /ZnO/SiO 2 and SiO 2 /ZnO/(Z – X)Si structures, showing that a certain ZnO film thickness provides zero TCD. Next, requirements of a glass substrate for propagation of boundary acoustic waves along the ZnO film sandwiched by SiO 2 and glass substrate or glass film and glass substrate is discussed. As a result, as the thickness of the ZnO film and the second velocity increase, the boundary acoustic wave has a better chance to exist. Finally, the device with SiO 2 /ZnO/SiO 2 structure was actually fabricated and it was confirmed that the boundary acoustic wave was excited and propagated in the device. If the Rayleigh wave characteristic is taken into account, the experimental and theoretical results agree. Copyright © 1988 Wiley Periodicals, Inc., A Wiley Company

DOI
Zero slope tempartures SiO<inf>2</inf>/LiTaO<inf>3</inf> structure substrate for stoneley waves

Toshio Irino, Yasutaka Shimizu, Takaya Watanabe

Electronics and Communications in Japan (Part II: Electronics) 71 ( 6 ) 55 - 62 1988年01月 [査読有り]

　概要を見る

A theoretical and experimental study has been conducted on Stoneley waves propagating along the interface between LiTaO 3 and SiO 2 . First, it is shown that Stoneley waves can exist for specific cuts and propagation directions. The velocity, electromechanical coupling coefficient, energy concentration, delay time temperature coefficient, and delay time temperature characteristics are calculated. In an SiO 2 /X‐148°Y LiTaO 3 structure, a zero temperature coefficient which is not available for a Rayleigh wave on an LiTaO 3 substrate has been realized. In addition, the electromechanical coupling coefficient is larger. Next, a device of this structure has been fabricated. It is confirmed that Stoneley waves can be excited and received by interdigital electrodes. The characteristics observed have been found to agree well with the theoretical predictions. Also, a zero temperature coefficient is obtained with an SiO 2 /X‐148.5°Y LiTaO 3 structure and the quadratic temperature coefficient is about the same as in an ST cut quartz Rayleigh wave substrate. Copyright © 1988 Wiley Periodicals, Inc., A Wiley Company

DOI
Zero slope temperature sic/sio<inf>2</inf>/litao<inf>3</inf>substrate for boundary acoustic waves

Toshio Irino, Takaya Watanabe, Yasutaka Shimizu

Japanese Journal of Applied Physics ( JAPAN J APPLIED PHYSICS ) 27-1 154 - 156 1988年01月 [査読有り]

　概要を見る

Zero slope temperature SiO 2 /X-148ºY LiTaO 3 substrate has been proposed for use in packageless SAW devices. However, the SiO 2 film is required to be about three times the wavelength and, therefore, is easily removed by temperature variation. In this paper, SiC overcoat on SiO 2 to reduce the film thickness is proposed. The calculated energy concentration to the middle layer is better than the two media structure. The experimental result agreed with the theory and zero slope temperature was obtained when the total thickness of SiC and SiO 2 was about 2.5 times the wavelength. © 1988 The Japan Society of Applied Physics.

DOI
ZERO SLOPE TEMPERATURE SIO//2/LITAO//3 STRUCTURE SUBSTRATE FOR STONELEY WAVES.

Toshio Irino, Takaya Watanabe, Yasutaka Shimizu

Ultrasonics Symposium Proceedings 257 - 260 1987年12月 [査読有り]

　概要を見る

Theoretical and experimental results on Stoneley waves along an interface between LiTaO//3 and SiO//2 are presented. Stoneley waves can exist only when the material constants of a piezoelectric material and an isotropic material satisfy particular conditions. After the cut angle and propagation direction of LiTaO//3 with SiO//2 were determined from the calculated characteristics, an experiment was performed showing the measured values to be in good agreement with the theory. Zero slope temperature (TCD equals 0) and higher coupling coefficient (K**2 equals 1. 5%) were obtained with Stoneley waves in the SiO//2/X-148 degree Y LiTaO//3 structure. These results indicate that future SAW devices could be made without package.
零温度係数をもつSiO2/LiTaO3構造ストンリ-波基板

入野俊夫, 渡辺隆弥, 清水康敬

電子情報通信学会論文誌 C エレクトロニクス ( 電子情報通信学会 ) 70 ( 7 ) p1070 - 1075 1987年07月 [査読有り]
PROPAGATION OF BOUNDARY ACOUSTIC-WAVES ALONG A ZNO LAYER BETWEEN 2 MATERIALS

T IRINO, Y SHIROSAKI, Y SHIMIZU

IEEE TRANSACTIONS ON ULTRASONICS FERROELECTRICS AND FREQUENCY CONTROL ( IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC ) 34 ( 3 ) 390 - 390 1987年05月 [査読有り]
ZnOを中間層に持つ3媒質構造中に伝搬する弾性境界波の検討

入野俊夫, 白崎良昌, 清水康敬

電子情報通信学会論文誌 C エレクトロニクス ( 電子情報通信学会 ) 70 ( 1 ) p59 - 68 1987年01月 [査読有り]
PROPAGATION OF BOUNDARY ACOUSTIC WAVES ALONG A ZnO LAYER BETWEEN TWO MATERIALS.

Toshio Irino, Yoshimasa Shirosaki, Yasutaka Shimizu

Ultrasonics Symposium Proceedings 195 - 200 1986年12月 [査読有り]

　概要を見る

Theoretical and experimental results are presented for boundary acoustic waves propagated along a ZnO layer sandwiched between two materials. The dispersion curve of the propagation velocity, the electromechanical coupling coefficient and the displacements were obtained theoretically as a function of the normalized thickness of the ZnO layer. The temperature coefficients of delay time were also calculated and found to become zero at a particular thickness. Boundary acoustic waves can exist only when the material constants of three materials satisfy the particular conditions obtained here. Experiments on SiO//2/ZnO/SiO//2 were also performed to verify theoretical prediction of the existence of boundary waves. Propagation loss was practically the same value as for Rayleigh waves.
同一圧電体を接合した境界面に伝搬するストンリー波の理論的検討

入野俊夫, 清水康敬

電子通信学会論文誌 A ( 電子通信学会 ) 69 ( 9 ) 1144 - 1153 1986年09月 [査読有り]
Acoustic boundary waves propagating along a thin layer between two bonded substrates

Toshio Irino, Yasutaka Shimizu

Japanese Journal of Applied Physics 25 ( 1 ) 130 - 132 1986年01月 [査読有り]

　概要を見る

The characteristics of boundary waves propagating along a thin layer between two bonded substrates were investigated both theoretically and experimentally. The structures are PZT/ADHESIVE/PZT and PZT/ADHESIVE/GLASS. It was found that the propagation loss of the devices is greater than theoretical results because of a non-uniform adhesive layer. Therefore, the two substrates must be carefully and accurately bonded to decrease the propagation loss. © 1986 The Japan Society of Applied Physics.

DOI
Theoretical analysis of stoneley waves propagating along an interface between piezoelectric material and isotropic material

Toshio Irino, Yasutaka Shimizu

Electronics and Communications in Japan (Part II: Electronics) 68 ( 3 ) 29 - 36 1985年01月 [査読有り]

　概要を見る

Conventional surface acoustic wave (SAW) devices mainly use Rayleigh waves that propagate on the substrate surface. Therefore, they require protective packaging and are expensive as well as unreliable. This paper reports an effort to develop SAW devices that do not require packaging. To this end we study the Stoneley waves propagating along the interface between the piezoelectric and isotropic materials. A range of material constants of isotropic materials is obtained which allows the Stoneley wave if combined with piezoelectric materials with various cuts and propagation directions. We obtain the relation of the allowable range to the maximum velocity of the Stoneley wave and the velocity of the Rayleigh wave. It is found that the Stoneley wave can be supported with a combination of glass and LiTaO 3 , PZT 4 and ZnO. It is not possible to concentrate the energy near the interface if LiNbO 3 and Bi 12 GeO 20 are used. Copyright © 1985 Wiley Periodicals, Inc., A Wiley Company

DOI
STONELEY WAVES PROPAGATING ALONG AN INTERFACE BETWEEN PIEZOELECTRIC MATERIAL AND GLASS

Y SHIMIZU, T IRINO

IEEE TRANSACTIONS ON SONICS AND ULTRASONICS ( IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC ) 32 ( 1 ) 105 - 105 1985年 [査読有り]
圧電体と等方体の境界面を伝搬するStoneley波の理論的検討

入野俊夫, 清水康敬

電子通信学会論文誌 C ( 電子通信学会 ) 67 ( 10 ) 727 - 732 1984年10月 [査読有り]
STONELEY WAVES PROPAGATING ALONG AN INTERFACE BETWEEN PIEZOELECTRIC MATERIAL AND ISOTROPIC MATERIAL.

Yasutaka Shimizu, Toshio Irino

Ultrasonics Symposium Proceedings 1 373 - 376 1983年12月 [査読有り]

　概要を見る

IEEE Ultrasonics Symposium, Atlanta, GA, Nov, 1983.
Stoneley Waves Propagating along an Interface between Piezoelectric Material and Glass : Surface Acoustic Waves and Devices

SHIMIZU Yasutaka, IRINO Toshio

Japanese journal of applied physics. Supplement ( 社団法人応用物理学会 ) 22 ( 3 ) 145 - 147 1983年07月 [査読有り]
ZnOとガラスの境界面を伝搬するストンリー波の理論的検討

清水康敬, 入野俊夫

電子通信学会論文誌 C ( 電子通信学会 ) 65 ( 11 ) 883 - 890 1982年11月 [査読有り]
The theoretical analysis of stoneley waves propagating along an interface between Zno and glass

Yasutaka Shimizu, Toshio Irino

Electronics and Communications in Japan (Part I: Communications) 65 ( 11 ) 108 - 117 1982年01月 [査読有り]

　概要を見る

Conventional surface acoustic wave devices mainly use a Rayleigh wave, propagating along the surface of the substrate. Therefore, they require packaging. How—ever, the cost of packaging is high. Also, if the packaging quality is poor, water drops accumulate on the substrate surface at low temperature and the device may malfunction. This paper describes devices that do not require packaging and examine Stoneley waves, propagating along the interface between a piezoelectric ZnO layer, which can excite a surface wave, and a glass layer, in which material constants can be changed relatively easily. We find the range of the material constants of the glass which, in combination with ZnO, can generate Stoneley waves. We obtain the velocity, electromechanical coupling coefficient and energy concentration at the interface within this range. The effect of the material constants on these parameters is also considered. It is found that there are glasses that support Stoneley waves and others that do not. Copyright © 1982 Wiley Periodicals, Inc., A Wiley Company

DOI

▼全件表示

書籍等出版物

聴覚 (音響学講座 5 )

古川茂人, 堀川順生, 入野俊夫, 鈴木陽一, 飯田一博, 津崎実, 柏野牧夫, 小澤賢司, 森周司, 北川智利, 日高聡太, 坂田俊文, 白石君男( 担当：共著, 担当範囲: 第2章周波数分析機能)

コロナ社 2021年03月
人工知能学大辞典

人工知能学会編( 担当：共著, 担当範囲: 入野俊夫 "聴覚系のモデル,")

共立出版 2017年07月 ISBN: 9784320124202
Perspectives on Auditory Research

A. N. Popper, R. R. Fay( 担当：共著, 担当範囲: Roy D. Patterson and Toshio Irino, "Size Matters in Hearing: How the Auditory System Normalizes the Sounds of Speech and Music for Source Size,")

Springer 2014年 ISBN: 9781461491019

　概要を見る

Springer Handbook of Auditory Research Vol. 50
聴覚モデル

森周司, 香田徹, 日比野浩, 任書晃, 倉智嘉久, 入野俊夫, 鵜木祐史, 鈴木陽一, 牧勝弘, 津崎実( 担当：共著, 担当範囲: 第4章"聴覚フィルタの心理物理実験とモデル," 第7章"シミュレータによる内部表現と特徴量,")

コロナ社 2011年 ISBN: 9784339013238

　概要を見る

日本音響学会編音響サイエンスシリーズ
Neurophysiological Bases of Auditory Perception

Enrique A. Lopez-Poveda, Alan R. Palmer, Ray Meddis( 担当：共著, 担当範囲: Toshio Irino, Yoshie Aoki, Hideki Kawahara, and Roy D. Patterson, "Size Perception for acoustically scaled sounds of naturally pronounced and whispered words,")

Springer, LaVergne, TN USA 2010年04月 ISBN: 9781441956859
Computer Processing of Asian Spoken Languages

Shuichi Itahashi, Chiu-yu Tseng( 担当：共著, 担当範囲: Hideki Kawahara, Masanori Morise, Toru Takahashi, Ryuich Nishimura, Hideki Banno, Toshio Irino, "STRAIGHT, a framework for speech analysis, modification and synthesis,")

Consideration Books, Los Angeles, USA 2010年03月 ISBN: 9780935047721
現代数理科学辞典（第２版）

広中平祐, 他( 担当：共著, 担当範囲: 入野俊夫, 河原英紀, "聴覚認知過程の数理,")

丸善, 東京 2009年12月 ISBN: 9784621081259
新編感覚知覚心理学ハンドブック Part 2 (分担："聴覚初期過程の機能モデル")

大山正, 今井省吾, 和氣典二, 菊池正編( 担当：共著, 担当範囲: 入野俊夫, 津崎実第III部聴覚 "聴覚初期過程の機能モデル,")

誠信書房 2007年09月 ISBN: 9784414305043
The Dynamics of Speech Production and Perception (分担："Vowel normalisation: Time-domain processing of the internal dynamics of speech,"

Pierre Divenyi, Steven Greenberg, George Meyer( 担当：共著, 担当範囲: Richard E. Turner, Marc A. Al-Hames, David R. R. Smith, Hideki Kawahara, Toshio Irino, and Roy D. Patterson "Vowel normalisation: Time-domain processing of the internal dynamics of speech,")

IOS press, Amsterdam 2006年 ISBN: 1586036661

　概要を見る

NATO Science Series, Series A: Life Sciences,
Speech Separation by Humans and Machines

Pierre Divenyi( 担当：共著, 担当範囲: "Speech Segregation Using an Event-Synchronous Auditory Image and STRAIGHT," "Underlying Principles of a High-quality Speech Manipulation Systsem STRAIGHT and Its Application to Speech Segregation,")

Kluwer Academic Publishers, Dordrechet (The Netherlands) 2005年 ISBN: 1402080018
Auditory Signal Processing: Physiology, Psychoacoustics, and Models

Pressnitzer, D, de Cheveigne A, McAdams, S, Collet, L( 担当：共著, 担当範囲: Roy D. Patterson, Masashi Unoki, and Toshio Irino, "Comparison of the compressive-gammachirp and double-roex auditory filters,")

Springer, New York 2005年 ISBN: 0387219153
Computational Models of Auditory Function NATO Science Series, Series A: Life Sciences, Vol. 312

Greenberg, S, Slaney, M( 担当：共著, 担当範囲: Toshio Irino and Masashi Unoki, "An analysis/synthesis auditory filterbank based on an IIR gammachirp filter")

IOS Press, Amsterdam 2001年 ISBN: 9051994575
Physiological and Psychophysical Bases of Auditory Function,

Breebaart, D.J, Houstsma, A.J.M, Kohlrausch, A, Prijs, V.F, Schoonhoven, R( 担当：共著, 担当範囲: Toshio Irino and Roy D. Patterson ,"A gammachirp framework of auditory filtering : Unification of cochlear frequency-glide data and Psychoacoustical masking data,")

Shaker Publishing, The Netherlands 2001年 ISBN: 9042301155
Recent Developments in Auditory Mechanics

Wada, H, Takasaka, T, Ikeda, K, Ohyama, K, Koike, T( 担当：共著, 担当範囲: Toshio Irino and Roy D. Patterson , "A gammachirp perspective of cochlear mechanics that can also explain human auditory masking quantitatively,")

World Scientific, Singapole 2000年 ISBN: 9810241704
Psychophysical and Physiological Advances in Hearing

A.R.Palmer, A.Rees, A.Q.Summerfield, R.Meddis( 担当：共著, 担当範囲: Roy D. Patterson and Toshio Irino "Auditory temporal asymmetry and autocorrelation")

Whurr Publishers, London 1998年 ISBN: 1861560699
Mathematics Applied to Biology and Medicine

J. Demongeot, V. Capasso( 担当：共著, 担当範囲: Thierry Herve, Toshio Irino, Hideki Kawahara, "How synaptic delays change the response of a massively parallel post-cochlear neural network,")

Wuerz Publishing Ltd., Winnipeg, Canada 1993年 ISBN: 0920063632

▼全件表示

Misc

Subjective intelligibility of speech sounds enhanced by ideal ratio mask via crowdsourced remote experiments with effective data screening,

Ayako Yamamoto, Toshio Irino, Shoko Araki, Kenichi Arai, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani (担当区分：責任著者 )

arXiv arXiv:2203.16760 2022年03月
GESI: Gammachirp Envelope Similarity Index for Predicting Intelligibility of Simulated Hearing Loss Sounds

Ayako Yamamoto, Toshio Irino, Fuki Miyazaki, Honoka Tamaru (担当区分：責任著者 )

arXiv.2310.15399 preprint 2023年12月

DOI
Speech intelligibility of simulated hearing loss sounds and its prediction using the Gammachirp Envelope Similarity Index (GESI)

Toshio Irino, Honoka Tamaru, Ayako Yamamoto (担当区分：筆頭著者,　責任著者 )

arXiv.2206.06573 preprint --- accepted to Interspeech2022 2022年06月

DOI
Comparison of remote experiments using crowdsourcing and laboratory experiments on speech intelligibility

Ayako Yamamoto, Toshio Irino, Kenichi Arai, Shoko Araki, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani (担当区分：責任著者 )

arXiv ( ISCA ) 2104.10001 2021年08月

DOI
音声資料の収録・再生環境の簡易な把握に向けて:オールパスフィルタの従属接続に基づく拡張された時間伸長パルスの応用

河原英紀, 矢田部浩平, 榊原健一, 水町光徳, 森勢将雅, 坂野秀樹, 入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2021 2021年
音声の基本周波数に対する聴覚の影響の測定への周波数領域ベルベットノイズの応用について

河原英紀, 榊原健一, 津崎実, 松井淑恵, 森勢将雅, 入野俊夫

電子情報通信学会技術研究報告 119 ( 440(SIP2019 103-169) ) 2020年
GEDI: Gammachirp envelope distortion index for predicting intelligibility of enhanced speech

Katsuhiko Yamamoto, Toshio Irino, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani

arXiv 1904.02096 2019年04月
音響システムの各種特性の計測における周波数領域velvet noiseの応用について

河原英紀, 榊原健一, 水町光徳, 森勢将雅, 坂野秀樹, 入野俊夫

電子情報通信学会技術研究報告 119 ( 253(EA2019 36-49) ) 2019年
コンプリメントのアノテーション (ヒューマンコミュニケーション基礎)

井上雅史, 中島隆太郎, 花田里欧子, 古山宣洋, 入野俊夫

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 電子情報通信学会 ) 117 ( 509 ) 11 - 15 2018年03月
臨床心理面接における傾聴度変化の評価:臨床心理士と初学者の比較

花田里欧子, 中島隆太郎, 井上雅史, 古山宣洋, 入野俊夫

人工知能学会全国大会論文集 ( 一般社団法人人工知能学会 ) 2018 3C1OS14a02 - 3C1OS14a02 2018年

　概要を見る

<p>臨床心理面接という対話の評価において，傾聴は欠くことのできない重要な軸の一つである．これまで傾聴を構成する要素に関する知見はあるが[アイビイ1985]，面接全体として傾聴が真に成立したかどうかについて評価測定するための手法は，まだ十分確立していない．特に傾聴に際してそうしているつもりでも相手はそう感じていないといったすれ違いがつきまとうことはこの課題をいっそう困難にしている．しかし面接の質の把握や向上のためには，傾聴の評価測定をすすめていく必要がある．本研究ではそのためのひとつのアプローチとして次の手順で実験を実施し，評価の実際と課題について明らかにする．(1)第三者の臨床心理士が面接ビデオを視聴し，感情評価値入力手法により傾聴度を時系列入力，(2)傾聴度時系列データの変化点（上昇／下降）を多重解像度分析によって自動検出, (3)同じ臨床心理士によって，なぜ変化点をそのように評価したのかの記述, (4)その変化点が上昇か下降かの判断を初学者の集団で実験, (5)両者の評価の比較と統計的分析．</p>

DOI
模擬難聴システムを用いた言語聴覚士養成課程での演習とWebアプリ化の検討 (ヒューマンコミュニケーション基礎)

米満麻弥, 入野俊夫, 松井淑恵, 西村竜一, 吐師道子, 長谷川純

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 電子情報通信学会 ) 117 ( 29 ) 277 - 282 2017年05月
Aliasing-free Fujisaki-Ljungqvist model and its application to voice quality perception

KAWAHARA Hideki, TSUZAKI Minoru, MATSUI Toshie, IRINO Toshio, SAKAKIBARA Ken-Ichi

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 47 ( 2 ) 71 - 76 2017年03月
感情推移観測システム(EMO system)による傾聴評価とマイクロカウンセリングのタグ付けとの関連 (ヒューマンコミュニケーション基礎)

花田里欧子, 入野俊夫, 古山宣洋, 井上雅史, 中島隆太郎

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 電子情報通信学会 ) 116 ( 524 ) 113 - 118 2017年03月
臨床心理面接コーパスと感情推移観測システム(EMO system)を用いた傾聴学習支援 (ヒューマンコミュニケーション基礎)

花田里欧子, 入野俊夫, 古山宣洋, 井上雅史, 中島隆太郎

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 電子情報通信学会 ) 116 ( 436 ) 5 - 10 2017年01月
動的圧縮型ガンマチャープフィルタバンクを用いた音声明瞭度予測法の改良

山本克彦, 入野俊夫, 松井淑恵

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 46 ( 1 ) 35 - 40 2016年02月
無声音の高域強調処理が寸法知覚に与える影響に関する検討

山本航大, 入野俊夫, 岡本江美

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 45 ( 8 ) 681 - 686 2015年11月
Study on predicting speech intelligibility of enhanced speech sounds using the dynamic compressive gammachirp auditory filterbank and modulation filterbank

YAMAMOTO Katsuhiko, IRINO Toshio, ARAKI Shoko

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 45 ( 7 ) 569 - 574 2015年10月
高次対称性に基づく基本周波数推定法のモデル化とfilled pauseの分析への応用について (音声)

河原英紀, 西村竜一, 入野俊夫

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 ) 114 ( 475 ) 307 - 312 2015年03月

　概要を見る

日常の環境で使われている音声の物理特性は、様々な要因で大きく変動する。発話の途中などに出現するfilled pauseでは、声帯振動が不安定になる場合が多く、通常の分析法では、基本周波数の抽出に大きな誤差が含まれるなどの問題が生ずる。本報告では、局所的な周期性を波形の対称性に基づいて評価する方法と統計的手法を組み合わせることにより、基本波の抽出と基本周波数の初期推定における頑健性を改善する方法を提案する。
聴覚末梢の圧縮特性のキャンセル処理による模擬難聴を通した音声の同定

松井淑恵, 入野俊夫, 永江美沙貴

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 45 ( 2 ) 93 - 98 2015年03月
音声の高域強調処理による寸法知覚特性変化と計算理論について

山本航大, 入野俊夫, 西村竜一

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 45 ( 2 ) 99 - 104 2015年03月
声道形状と声帯音源特性を用いたグロウル系歌唱音声への実時間変換の提案

溝渕翔平, 西村竜一, 入野俊夫, 河原英紀

情報処理学会研究報告. [音楽情報科学] ( 一般社団法人情報処理学会 ) 2015 ( 12 ) 1 - 6 2015年02月

　概要を見る

本研究では通常歌唱音声をグロウル系歌唱音声の印象をもつ音声に変換するシステムについて検討している.これまでの研究よりグロウル系歌唱音声特有の物理的特徴としてスペクトル形状の高速な変動が確認された.本発表ではスペクトル形状の高速な変動を声帯音源特性と声道形状の変化としてモデル化し,グロウルの印象を付与する方法を提案する.声帯音源特性の時間変化は LF model を用いることでスペクトル傾斜の時間変化をモデル化した.声道形状の変化は入力音声について分析した声道断面積関数を操作することで実現した.提案手法による変換処理はフィルタリングで構成されているため,原理上はリアルタイム処理が可能である.
音声の好感度改善補助ツールの開発を目指した好感度改善方法の検討

吉元照貴, 西村竜一, 入野俊夫, 河原英紀

情報処理学会研究報告. [音楽情報科学] ( 一般社団法人情報処理学会 ) 2015 ( 25 ) 1 - 6 2015年02月

　概要を見る

本稿では,音声の好感度改善トレーニング補助を目的とした簡易ツールの紹介と,音声の好感度改善の具体的な方法について述べる.これまで,音声から受ける印象の一つである好感度と音声の物理属性との関係を,音声モーフィングの技術を用いて調べてきた.それらの検討から,(1) 音声の物理属性の中では,基本周波数やスペクトル形状が好感度へ与える影響が大きいこと,(2) 話者の音声から聞き手が受ける好感度は,聞き手によって大きく異なっていること,(3) 聞き手が好感度を改善するように音声を操作する際に,操作された音声の話者性が変化して感じられると好感度の判断が大きく影響されることが示唆された.今回報告する好感度改善手法では,これらの知見を考慮し,音声パラメタの基本周波数とスペクトル形状を操作することで好感度の改善を図る.また,好感度を改善する操作の妨害要因となっていた話者性が変化する問題を解決するために,演劇部の学生が好感度の異なる話し方で演技した音声から求められる音声の物理属性の変化量を求めた.この変化量を好感度が低い他者の音声の物理属性の操作に用いた.ここでは,変化量を抽出した話者と聞き手および操作対象となった話者の組み合わせについて好感度の改善の効果を調べた.これらの結果に基づいて,提案する簡易ツールの概要を説明する.
声道形状と声帯音源特性を用いたグロウル系歌唱音声への実時間変換の提案

溝渕翔平, 西村竜一, 入野俊夫, 河原英紀

研究報告エンタテインメントコンピューティング（EC） ( 一般社団法人情報処理学会 ) 2015 ( 12 ) 1 - 6 2015年02月

　概要を見る

本研究では通常歌唱音声をグロウル系歌唱音声の印象をもつ音声に変換するシステムについて検討している．これまでの研究よりグロウル系歌唱音声特有の物理的特徴としてスペクトル形状の高速な変動が確認された．本発表ではスペクトル形状の高速な変動を声帯音源特性と声道形状の変化としてモデル化し，グロウルの印象を付与する方法を提案する．声帯音源特性の時間変化は LF model を用いることでスペクトル傾斜の時間変化をモデル化した．声道形状の変化は入力音声について分析した声道断面積関数を操作することで実現した．提案手法による変換処理はフィルタリングで構成されているため，原理上はリアルタイム処理が可能である．Outline of a system to convert usual singing voice to growl-like performance in realtime is introduced. Relatively high-speed periodic variations (around 70Hz) in spectral shapes and fundamental frequency trajectories were found dominant features of growl-like singing in our pervious investigations. A set of simulations revealed that these spectral shape variations can be closely replicated by introducing vocal tract shape variations around spura-glottal structures and shape variations in glottal source waveform using the LF-model. Despite the fact that realtime extraction of LF parameters from input voice is not feasible, the simulation results indicated that the net effect of the variation can be represented by simple spectral slope variations. For vocal tract shape variation, several set of spectral models for approximating simulated variations can be suggested. These indicate that by using these approximated models, it is possible to design a realtime system for converting usual singing voices to growl-like voices.
音声の好感度改善補助ツールの開発を目指した好感度改善方法の検討

吉元照貴, 西村竜一, 入野俊夫, 河原英紀

情報処理学会研究報告. EC, エンタテインメントコンピューティング ( 一般社団法人情報処理学会 ) 2015 ( 25 ) 1 - 6 2015年02月

　概要を見る

本稿では,音声の好感度改善トレーニング補助を目的とした簡易ツールの紹介と,音声の好感度改善の具体的な方法について述べる.これまで,音声から受ける印象の一つである好感度と音声の物理属性との関係を,音声モーフィングの技術を用いて調べてきた.それらの検討から,(1) 音声の物理属性の中では,基本周波数やスペクトル形状が好感度へ与える影響が大きいこと,(2) 話者の音声から聞き手が受ける好感度は,聞き手によって大きく異なっていること,(3) 聞き手が好感度を改善するように音声を操作する際に,操作された音声の話者性が変化して感じられると好感度の判断が大きく影響されることが示唆された.今回報告する好感度改善手法では,これらの知見を考慮し,音声パラメタの基本周波数とスペクトル形状を操作することで好感度の改善を図る.また,好感度を改善する操作の妨害要因となっていた話者性が変化する問題を解決するために,演劇部の学生が好感度の異なる話し方で演技した音声から求められる音声の物理属性の変化量を求めた.この変化量を好感度が低い他者の音声の物理属性の操作に用いた.ここでは,変化量を抽出した話者と聞き手および操作対象となった話者の組み合わせについて好感度の改善の効果を調べた.これらの結果に基づいて,提案する簡易ツールの概要を説明する.
聴覚におけるスケール分析のための末梢系フィルタバンクのウェーブレット性と非線形性 (ウェーブレット解析とサンプリング理論)

入野俊夫, 河原英紀, Patterson Roy D.

数理解析研究所講究録 ( 京都大学 ) 1928 27 - 57 2014年12月
Invited talk : The role of STRAIGHT in research on the perception of size in speech and music (音声)

PATTERSON Roy D., 入野俊夫

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 ) 114 ( 272 ) 71 - 75 2014年10月

　概要を見る

あらまし15年ほど前、ガンマチャープ聴覚フィルタの数学的導出の研究過程で、音声と音楽の知覚においてもスケール不変性があることに気がついた。たとえば、人の声を聞く時、ピッチや平均ホルマント周波数に関わらず理解できる。また、楽器属(管楽器、弦楽器)は大きさや音域にかかわらず同じ形で作られている。そこで、聴覚系において、音声や楽器音の正規化を行う「安定化ウェーブレットメリン変換」がどのように利用可能かを示し、それらの音の知覚不変性の研究を開始することとした。言うは易いが、そのためには自然な音の音響スケール変数を操作する必要がある。運が良いことに、同時期に河原先生が音声のピッチと声道長や楽器音を高品質で操作できるSTRAIGHTを発表された。本報告では、STRAIGHTでスケール変数を操作した音の寸法知覚に関する一連の研究を紹介する。また、STRAIGHTの合成系を楽器音操作にどのように適用したかも述べる。これらの研究は、STRAIGHTがいかに自然音の知覚研究の原動力になったかの一つの大きな事例となっている。
招待講演音声と楽器音の寸法知覚研究におけるSTRAIGHTの役割

PATTERSON Roy D., 入野俊夫

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 44 ( 7 ) 473 - 477 2014年10月
線形予測分析を用いた声道断面積関数推定のための前処理の検討(オーガナイズドセッション:ポスター発表,分析,特徴量,音声一般,聴覚一般)

伊佐衣代, 吉元照貴, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 114 ( 272 ) 27 - 28 2014年10月

　概要を見る

線形予測分析を用いた声道断面積関数推定では、声帯音源波形、口唇の放射特性などにより誤差が生ずる。これらの影響の除去のため高域強調やスペクトル平坦化処理などの前処理について検討している。ここでは、母音データベースの音声に様々な前処理を加えて分析した結果について報告する。
グロウル系歌唱から求められる声道断面積関数の特徴について(オーガナイズドセッション:ポスター発表,分析,特徴量,音声一般,聴覚一般)

溝渕翔平, 伊佐衣代, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 114 ( 272 ) 29 - 30 2014年10月

　概要を見る

グロウル系歌唱では、2から4kHz付近のスペクトル形状に、高速でほぼ周期的な変動が認められる。この変動を見通し良くモデル化することを目的に、歌唱音声の分析により求めた声道断面積関数の変動を調べた。本稿では、スペクトル概形補償の前処理と、周期性に起因する系統誤差を軽減するためにTANDEM-STRAIGHTを用いた1msのフレーム周期での分析結果を報告する。
ささやき声からの寸法知覚の手がかり獲得と保持について (音声音学シンポジウム2014)

山本航大, 入野俊夫, 西村竜一, 河原英紀

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 ) 114 ( 52 ) 237 - 242 2014年05月

　概要を見る

人間の聴覚系には,音源の寸法情報と形状情報を分離抽出する機能があるという理論が提案されている.先行研究にて,音声刺激を用いた寸法知覚の弁別閾が測定されており,約5%であると示されている.ところが,これは寸法情報の知覚手がかりを把握している場合であり,この実験の未経験者においては弁別閾がそれほど小さくないことも多い.そこで本研究では,弁別訓練による手がかり情報の獲得,またその保持について検討する.無声音声を用いた寸法弁別実験において,プリテスト,訓練,ポストテストを被験者8名で行った.ポストテストの結果,訓練効果があることがわかったが,弁別閾が小さいHP群と大きいLP群に分かれた,HP群は一定期間後,手がかり保持に関するテストを行い,弁別精度に違いがないことが確認できた.LP群は再訓練を行うことにより弁別閾が小さくなることを確認した.これらのことより,手がかりが十分把握できれば先行研究と同程度の弁別閾になることがわかった.
ROCKON : スマホを用いた環境音の収集と認識システム (音声音学シンポジウム2014)

松山みのり, 津田貴彦, 西村竜一, 河原英紀, 山田順之介, 入野俊夫

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 ) 114 ( 52 ) 181 - 186 2014年05月

　概要を見る

本研究では、身の回りの環境音を認識することで、ユーザに有益な情報を提供できるモバイルアプリケーションを開発する。本稿では、環境音の認識アルゴリズムとして比較したHMMとAdaBoostによる性能評価と、クラウドソーシングを用いた環境音サンプルの収集方法について述べる。評価実験の結果、Android端末を用いて収集した実環境の環境音サンプルに対して、AdaBoostがHMMよりも認識性能および処理スピードにおいて有利な結果を示した。今後、対応音源の種類を増やすためには多くの環境音サンプルが必要となってくる。そのため、環境音収集アプリの改良をした。環境音を収集する際に協力者に与える負担の軽減を目指して、本研究では2種類のユーザインタフェーズ(UI)を提案する。実験協力者を用いた調査では、提案する2種類のUIの併用が妥当であるという結論が得られた。そこで、改良後の環境音収集アプリには両手法を併用したUIを実装することにした。
受験者を焦らせない音声入力ウェブ試験システムを目指したデザインの検討 (音声音学シンポジウム2014)

田藤千弘, 西村竜一, 河原英紀, 入野俊夫

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 ) 114 ( 52 ) 337 - 342 2014年05月

　概要を見る

本研究は、音声入力機能を備えたウェブ試験システムにおけるユーザインタフェース(UI)のデザイン指針を検討する。本研究で対象とするウェブ試験システムの問題提示画面では、問題文の他、音声の入力状態を確認するためのレベルメータと解答時間の残りを示すタイムゲージが受験者に提示される。従来のシステムでは、この二つの視覚的情報提示が似ており、受験者に混同されることがあった。受験者に適切な問題提示画面を提供するために、UIデザインを改良した。実験では、発話によって計算問題を解答するシステムを試作し、タイムゲージに着目して、解答の際に受験者が感じる「焦り」と「体感時間の速さ」を調査した。その結果、1秒ずつ離散的に区切って表示するブロック型のデザインが適切であることを確認した。受験者の発話態度と音声認識率の関係を調査したところ、機械との対話を意識しなかった人の精度は低くなる傾向があった。また、本研究では、音声入力UIの実装言語をHTML5とした。その結果、PCおよびモバイル端末(Android)から利用できるシステムを実現することができた。
歌声にグロウルの味を加えるGUIについて (音声音学シンポジウム2014)

溝渕翔平, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 ) 114 ( 52 ) 279 - 284 2014年05月

　概要を見る

本研究では通常歌唱をグロウル系統の歌唱音声の印象をもつ音声に変換するシステムの検討を行っている.先行研究では簡単な信号処理で歌唱音声にグロウルらしさを付与する方法が提案された.本報告では提案手法で用いる特徴付与のパラメタを対話的に操作し,歌唱音声にグロウルらしさを付与するGUIについて紹介する.提案手法は時間変調による基本周波数の高速な時間振動の付与,FIRフィルタによる処理範囲に共通した帯域強調処理,及び近似時変フィルタによる第3フォルマント周辺の高速な時間変調の付与の3つより構成されている.提案手法は変換処理に分析・合成を必要としないためリアルタイム処理を可能とし,ライブで一種のエフェクターとして用いることが出来る.GUIの開発は主にデモやポスターセッションの場で本手法による処理内容と処理の影響について直感的理解を促すことを目的としている.開発したGUIは実際にポスターセッションの場で操作し,操作性やデザイン性についてコメントを頂きたい.
歌声にグロウルの味を加えるGUIについて

溝渕翔平, 西村竜一, 入野俊夫, 河原英紀

研究報告音楽情報科学（MUS） 2014 ( 55 ) 1 - 6 2014年05月

　概要を見る

本研究では通常歌唱をグロウル系統の歌唱音声の印象をもつ音声に変換するシステムの検討を行っている．先行研究では簡単な信号処理で歌唱音声にグロウルらしさを付与する方法が提案された．本報告では提案手法で用いる特徴付与のパラメタを対話的に操作し，歌唱音声にグロウルらしさを付与する GUI について紹介する．提案手法は時間変調による基本周波数の高速な時間振動の付与，FIR フィルタによる処理範囲に共通した帯域強調処理，及び近似時変フィルタによる第 3 フォルマント周辺の高速な時間変調の付与の 3 つより構成されている．提案手法は変換処理に分析・合成を必要としないためリアルタイム処理を可能とし，ライブで一種のエフェクターとして用いることが出来る．GUI の開発は主にデモやポスターセッションの場で本手法による処理内容と処理の影響について直感的理解を促すことを目的としている．開発した GUI は実際にポスターセッションの場で操作し，操作性やデザイン性についてコメントを頂きたい．A set of GUIs is designed to add and manipulate growl-like taste in singing voice based on a set of simple signal processing procedures, proposed in our previous report. It consists of a temporal axis modulator for simulating rapid F0 variations, an equalizer to modify global spectral shape, and an approximate time varying filter for simulating rapid spectral modulation around F3 area. The proposed set of procedures is potentially applicable to realtime applications, such as live performance. This set of GUIs will be presented in the poster session for demonstrating possibilities of the proposed procedures and acquiring feedback and comments from prospective participants.
ROCKON:スマホを用いた環境音の収集と認識システム

松山みのり, 津田貴彦, 西村竜一, 河原英紀, 山田順之介, 入野俊夫

研究報告音楽情報科学（MUS） 2014 ( 37 ) 1 - 6 2014年05月

　概要を見る

本研究では、身の回りの環境音を認識することで、ユーザに有益な情報を提供できるモバイルアプリケーションを開発する。本稿では、環境音の認識アルゴリズムとして比較した HMM と AdaBoost による性能評価と、クラウドソーシングを用いた環境音サンプルの収集方法について述べる。評価実験の結果、Android 端末を用いて収集した実環境の環境音サンプルに対して、AdaBoost が HMM よりも認識性能および処理スピードにおいて有利な結果を示した。今後、対応音源の種類を増やすためには多くの環境音サンプルが必要となってくる。そのため、環境音収集アプリの改良をした。環境音を収集する際に協力者に与える負担の軽減を目指して、本研究では 2 種類のユーザインタフェース (UI) を提案する。実験協力者を用いた調査では、提案する 2 種類の UI の併用が妥当であるという結論が得られた。そこで、改良後の環境音収集アプリには両手法を併用した UI を実装することにした。We have been developing an Android mobile application which can provide an useful information for users by recognizing environmental sounds around us. This paper evaluates environmental sound recognition methods in comparison with the AdaBoost and the HMMs (Hidden Markov Models). The experimental results proved that AdaBoost could obtain better performances from the viewpoint of the accuracy and the processing speed. Further collection of environmental sounds based on the crowdsourcing approach needs to introduce the Android app with the improved user interface (UI) for annotating a source type of a sound. Crowdsourcing proved useful for easily developing the sound database. However,we discovered that improvements to the system were necessary to maintain the motivation of trial users in order for them to continue the sound collection activity. We developed a new UI that enables users to simply select an appropriate sound source class from a list prepared in advance. In the experiments in evaluating two types of UIs: a hierarchical type and a list view type, we concluded that there is no significant difference between both UIs in terms of convenience. In order to utilize the advantages of both types, we implemented an annotation UI that can be switched between both types of UIs.
ささやき声からの寸法知覚の手がかり獲得と保持について

山本航大, 入野俊夫, 西村竜一, 河原英紀

研究報告音楽情報科学（MUS） 2014 ( 47 ) 1 - 6 2014年05月

　概要を見る

人間の聴覚系には，音源の寸法情報と形状情報を分離抽出する機能があるという理論が提案されている．先行研究にて，音声刺激を用いた寸法知覚の弁別閾が測定されており，約 5％であると示されている．ところが，これは寸法情報の知覚手がかりを把握している場合であり，この実験の未経験者においては弁別閾がそれほど小さくないことも多い．そこで本研究では，弁別訓練による手がかり情報の獲得，またその保持について検討する．無声音声を用いた寸法弁別実験において，プリテスト，訓練，ポストテストを被験者 8 名で行った．ポストテストの結果，訓練効果があることがわかったが，弁別閾が小さい HP 群と大きい LP 群に分かれた，HP 群は一定期間後，手がかり保持に関するテストを行い，弁別精度に違いがないことが確認できた LP 群は再訓練を行うことにより弁別閾が小さくなることを確認した．これらのことより，手がかりが十分把握できれば先行研究と同程度の弁別閾になることがわかった．We have suggested that the auditory system can extract and separate information about vocal tract shape from information about vocal tract length (VTL) (strictly speaking, acoustic scale). The previous research shows that just noticeable difference (JND) values using the speech stimuli is about 5%. This is the case when the subjects have acquired size perception clue. The JND values is not necessarily small particularly for naive subjects. This parer presents a series of experiments to survey the characteristics of acquisition and retention of the perceptual cue for size discrimination task. We performed pretest, training session, posttest, and retention test using whispered words in the same procedure as reported previously. From the results of the first posttest, eight subjects was grouped into high performance (HP) group and low performance (LP) group. HP group performed the retention test after one month to confirm the JND values are almost the same. LP group was trained again to improve the JND values similar to the HP's values. As a result, given the sufficient acquisition of size perception clue, the JND values become the same as the values reported in the previous studies.
受験者を焦らせない音声入力ウェブ試験システムを目指したデザインの検討

田藤千弘, 西村竜一, 河原英紀, 入野俊夫

研究報告音楽情報科学（MUS） 2014 ( 65 ) 1 - 6 2014年05月

　概要を見る

本研究は、音声入力機能を備えたウェブ試験システムにおけるユーザインタフェース（UI）のデザイン指針を検討する。本研究で対象とするウェブ試験システムの問題提示画面では、問題文の他、音声の入力状態を確認するためのレベルメータと解答時間の残りを示すタイムゲージが受験者に提示される。従来のシステムでは、この二つの視覚的情報提示が似ており、受験者に混同されることがあった。受験者に適切な問題提示画面を提供するために、UI デザインを改良した。実験では、発話によって計算問題を解答するシステムを試作し、タイムゲージに着目して、解答の際に受験者が感じる「焦り」と「体感時間の速さ」を調査した。その結果、1 秒ずつ離散的に区切って表示するブロック型のデザインが適切であることを確認した。受験者の発話態度と音声認識率の関係を調査したところ、機械との対話を意識しなかった人の精度は低くなる傾向があった。また、本研究では、音声入力 UI の実装言語を HTML5 とした。その結果、PC およびモバイル端末 (Android) から利用できるシステムを実現することができた。We have investigated the user interface (UI) design of the web-based test system with a voice input function. As for the visual feedbacks to the examinee, a time gauge indicating the remainder of the answer time and a level meter for checking an input state of the speech are located on the screen of our system displaying the questions. In the previous UI, the similarities of two visual presentations often caused confusions of the examinees. In order to provide the appropriate presentations of the questions on the web screen, we improved the design of the voice-enabled UI. In the experiment for evaluating the improved UI, we have developed a system to answer computational questions via the speech web interface. By focusing on the time gauge, we investigated "time guage speed and impatience" which the users feel in the time of using the system. As a result, we confirmed the suitability that the brick-type time gauge displaying elapsed time based on discreted indicators dividing the time into 1 second. Based on investigations of the relationship of examinees' speaking styles and speech recognition rates, we found a tendency for the accuracy of the person who did not aware of the interaction with the machine is low. Because we adopted HTML5 as a implementation language of the voice-enabled UI, the improved system could run on the Android mobile machine and PCs.
加齢に伴う絶対音感のシフト : 音域の影響

津崎実, 松井淑恵, 入野俊夫

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 44 ( 2 ) 81 - 86 2014年03月
D-9-25 クラウドソーシングによる環境音収集に向けたスマホアプリの開発(D-9.ライフインテリジェンスとオフィス情報システム,一般セッション)

松山みのり, 津田貴彦, 西村竜一, 山田順之介, 入野俊夫, 河原英紀

電子情報通信学会総合大会講演論文集 ( 一般社団法人電子情報通信学会 ) 2014 ( 1 ) 109 - 109 2014年03月
Realtime conversion of growl-type voice qualities based on modulation and approximate time-varying filtering driven by a non-linear oscillator: Formulation

Hideki Kawahara, Shohei Mizobuchi, Masanori Morise, Ken-ichiSakakibara, Ryuichi Nisimura, Toshio Irino

研究報告音楽情報科学（MUS） ( 一般社団法人情報処理学会 ) 2014 ( 14 ) 1 - 6 2014年02月

　概要を見る

A formulation of voice conversion to add growl-like voice qualities to singing voices is proposed based on our findings of features in such singing performances. The proposed method does not consist of any analysis and synthesis stage(s). A preliminary implementation using Matlab demonstrated that its throughput is faster than realtime. The proposed formulation provides not only post processing capabilities of rendering styles of existing performances to recorded materials but also realtime capabilities of adding growl-like voice qualities in live performances.A formulation of voice conversion to add growl-like voice qualities to singing voices is proposed based on our findings of features in such singing performances. The proposed method does not consist of any analysis and synthesis stage(s). A preliminary implementation using Matlab demonstrated that its throughput is faster than realtime. The proposed formulation provides not only post processing capabilities of rendering styles of existing performances to recorded materials but also realtime capabilities of adding growl-like voice qualities in live performances.
模擬難聴実現のための逆圧縮特性処理とユーザインタフェース

永江美沙貴, 入野俊夫, 西村竜一

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 44 ( 1 ) 13 - 18 2014年02月
圧縮特性推定における非対称レベルノッチマスキング法と時間マスキング曲線法の対比

深渡瀬智史, 入野俊夫, 西村竜一

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 44 ( 1 ) 7 - 12 2014年02月
文章音声の好感度評価と属性別モーフィングを用いた要因の検討について (音声) -- (オーガナイズドセッション多様な音声の認識・合成へ向けて)

吉元照貴, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 ) 113 ( 404 ) 49 - 54 2014年01月

　概要を見る

著者らが新しく定式化した時変多属性任意事例数音声モーフィングアルゴリズムを利用した音声の好感度の評価と制御法の検討を提案する。この新しいアルゴリズムでは、任意の個数の音声試料を一段階の処理でモーフィングすることができる。モーフィングの割合は、それぞれの試料の5種類の物理属性毎に時系列として指定することができ、負の割合も許容される。ここでは、まず好感度が大きく異なる文章音声試料を複数選択し、それらの試料間のモーフィングにより好感度が系統的に制御されることを確認した。次いで、各属性により張られる5次元超立方体の頂点にあるモーフィング音声の好感度を、対比較により評価し、それぞれの属性の影響を調べた。さらに、新しいアルゴリズムにより可能となった、音声の平均化と外挿によるカリカチュア化による探索的検討を今後の課題として提案した。
音声認識を用いた日本語スピーキングテストとそのユーザインタフェースデザインの検討

田藤千弘, 西村竜一, 河原英紀, 入野俊夫, 今井新悟

教育システム情報学会全国大会講演論文集(CD-ROM) 39th 2014年
日本語スピーキングテストS-CATの音声入力インタフェース設計

田藤千弘, 西村竜一, 河原英紀, 入野俊夫, 今井新悟

日本音響学会研究発表会講演論文集(CD-ROM) 2014 2014年
周期信号の群遅延の静的表現と音声の非周期成分への応用について

河原英紀, 森勢将雅, 榊原健一, 戸田智基, 坂野秀樹, 西村竜一, 入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2014 2014年
加齢に伴う絶対音感のシフト : 気導聴力検査結果との関係

津崎実, 松井淑恵, 入野俊夫

日本音響学会研究発表会講演論文集日本音響学会編 ( 日本音響学会 ) 549 - 552 2014年
加齢による絶対音感シフトと耳音響反射との関連性について

津崎実, 松井淑恵, 入野俊夫

日本音響学会研究発表会講演論文集日本音響学会編 ( 日本音響学会 ) 479 - 482 2014年
聴覚末梢系の圧縮特性の心理物理測定と模擬難聴への応用

入野俊夫

日本音響学会研究発表会講演論文集日本音響学会編 ( 日本音響学会 ) 1579 - 1582 2014年
SAWS(スケール交替ウェーブレッド系列)刺激のピッチ移動に対するスペクトル-時間受容野モデルからの検討 : フーリエ分析による検討も交えて

津崎実, 入野俊夫, 竹島千尋

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 43 ( 8 ) 631 - 638 2013年11月
説明対話における韻律情報および頭部運動と感情評価値の関連性分析の試み (音声)

八木みゆき, 森田礼子, 中井正人, 西村竜一, 河原英紀, 入野俊夫

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 ) 113 ( 220 ) 15 - 20 2013年09月

　概要を見る

音声のパラ言語情報と感情の関連性については音声研究の初期段階から検討されている.感情の評価値は通常発話区間ごとに付与されているため,対話者の感情の変化度を検討しているものは少ないと考えられる.また,音声以外にも重要と考えられる,頷きや身振り,手振りなどのジェスチャーを含めた検討は多くない.そこで本研究では,対話における音声やそれ以外の情報が対話の感情推移とどのように関連づけられるか検討することを目指した.まず,目的指向対話の一例として,認知心理の身振り研究でよく用いられるアニメーション説明課題を対象として対話の様子を音声,動画,加速度データの同時計測を行った.その上で収録より得られた動画データを見ながら,感情評価値をGUIで連続的に入力を行った.その上で,評価者によらず感情評価が同傾向で変化する時点を検討した.また,音声や頭部の頷きの物理量から,感情評価値やその推移を線形モデルで説明できるかを検討した.
歌唱音声のスペクトル形状の線形伸縮に影響する要因の検討 (応用音響)

坂口諒, 小林真優子, 入野俊夫, 西村竜一, 河原英紀

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 ) 113 ( 134 ) 9 - 14 2013年07月

　概要を見る

短時間Fourier変換に基づく簡易な方法により,相対的な声道長を高い再現性で推定する方法を明らかにしてきた.この方法では,駆動信号の周期性に起因する調波構造の影響を取り除いた音声スペクトル包絡に,声帯音源波形や唇からの放射特性に起因するスペクトル概形の除去と,声道の分岐や声門閉止区間の存在や個々の声道共鳴の鋭さの違いによるスペクトル形状の細部の平滑化による前処理を加え,距離計算に用いる周波数範囲を適切に選択することにより,声道長以外の要因による影響を軽減している.ここでは,この方法を歌唱音声に適用することにより,歌い手の個人性と音高により,相対的声道長がどのように変化するかを調べた結果について報告し,歌唱訓練への応用の可能性について議論する.
声から身体情報を求める

小林真優子, 西村竜一, 入野俊夫, 河原英紀

研究報告音楽情報科学（MUS） 2013 ( 47 ) 1 - 6 2013年05月

　概要を見る

声を聴くと，何となくその人の体型が分かる．ここでは，母音だけを用いて相対的な声道長を推定する方法を提案する．この方法では，声道長以外の要因によるスペクトル形状変化の影響を軽減するために，スペクトル距離の計算に用いる帯域を制限し，スペクトルの大局的な平坦化と形状の過度な詳細の平滑化とを組合せている．6歳から56歳までの284名の男女が発声した母音と身体情報からなるデータベースを用いることで，これらの処理に用いるパラメタを決定した．母音だけを用いた簡易な方法にも関わらず，以前報告した聴覚モデルを用いた方法を凌駕する精度での声道長推定が可能であることを確認した．また，このデータベースに付与された身体情報を母音だけから推定できることを示した．When we hear a voice, we will see the person's body type somehow. In this article, we propose a method for estimating relative vocal tract length using only vowels. The proposed method consists of procedures to alleviate spectral deforming effects caused by other factors than the vocal tract length. They are selection of spectral region for calculating spectral distance, removal of global spectral shape, and smoothing of excessive details of spectrum. Parameter tuning of the proposed method was conducted by using a speech database with relevant physical data which consists of Japanese five vowels spoken by 284 male, female and adolescent talkers ranging from 6 to 56 years old. This simple vowel-based method found to provide better estimates than our previously proposed method. The proposed method also provides estimates of talkers' height and weight only from vowels using the relevant physical data stored in the database.
モバイル携帯端末を用いた環境音収集とその認識手法の検討

津田貴彦, 中西恭介, 松山みのり, 西村竜一, 山田順之介, 河原英紀, 入野俊夫

研究報告音楽情報科学（MUS） 2013 ( 18 ) 1 - 6 2013年05月

　概要を見る

本研究では、環境音を入力とするインターフェースを有するモバイルアプリケーションの開発を行っている。実現に必要なのは、環境音認識手法の開発と、環境音サンプルの収集及び、クライアントアプリケーションの実装である。認識システムを予備評価した結果、アルゴリズムの改良と学習用データの拡充が必要であることを確認した。この問題に対し、データ収集用のAndroidアプリケーションを作成し、学内ではサークル等の活動に伴う音を29時間24分、学外では電車の走行音や救急車のサイレン等の音を10時間36分にわたって集めることに成功した。本発表では、収集データの分類と、その認識手法について議論する。We have been developing an Android mobile application which can recognize environmental sound signals. This report describes environmental sound signal recognition method, our collection of environmental sounds, and an overview of the prototype system. In order to collect further samples of environmental sounds, Android applications for data collection was developed.
環境音認識を応用した情報提供機能を有するモバイルアプリケーションの検討

中西恭介, 津田貴彦, 西村竜一, 河原英紀, 入野俊夫

全国大会講演論文集 ( 一般社団法人情報処理学会 ) 2013 ( 1 ) 463 - 465 2013年03月

　概要を見る

近年、スマートフォンで利用できる音声ナビゲーション機能が注目されている。また、日常では環境音からも多くの情報を得ることができる。そこで、本研究では環境音認識を応用し,その場の状況を判断するガイドシステムの開発を目指す。具体的には、和歌山大学の案内システムを開発する。本システムは、サーバークライアント型のアーキテクチャを採用しており、Android端末で録音した音響信号をサーバー側で認識処理する。実現に必要なのは、環境音認識プログラムの開発と、音響信号サンプルの収集およびアプリケーションの実装である。現在までに、収集した環境音を用いて認識実験を行った。結果を報告する。
波形の高次対称性に基づく基本周波数抽出法における潜在変数ダイナミクスの導入について

河原英紀, 森勢将雅, 榊原健一, 西村竜一, 入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2013 2013年
非対称レベルマスカを導入したノッチ雑音マスキング法の測定点の削減

深渡瀬智史, 入野俊夫, 西村竜一

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 42 ( 7 ) 547 - 552 2012年10月
周期信号の群遅延の安定な表現について

河原英紀, 森勢将雅, 西村竜一, 入野俊夫

電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 ) 112 ( 125 ) 1 - 6 2012年07月

　概要を見る

位相の時間微分および周波数微分としてそれぞれ定義される瞬時周波数と群遅延は,位相そのものよりも物理的な意味を理解し易く,またunwrapという脆弱な処理を必要としないなど,優れた性質を有する表現である.しかし,周期信号を対象とした場合,周期的に繰返される成分間の干渉により,それらの値には不連続や急激な変化が生ずる問題があった.著者らは,これまで周期信号から求められる表現に含まれる周期性に起因する干渉を解消する方法を,パワースペクトルと瞬時周波数について明らかにしてきた.ここでは,Flanaganらによる瞬時周波数計算法と同様な表現に基づくことにより,群遅延についてもそのような干渉を解消した表現が可能であることを示す.具体的には,求められた群遅延をパワースペクトルで重み付けた後,コピーを作成し,それぞれを周波数軸上で反対方向に基本周波数の1/4だけ移動させたものの加重平均を求めれば良い.
スケール変形母音の話者寸法弁別と母音同定 : 母音持続時間の依存性

竹島千尋, 津崎実, 入野俊夫

聴覚研究会資料 ( 日本音響学会聴覚研究委員会 ) 42 ( 4 ) 369 - 374 2012年06月
スケール変形母音の話者寸法弁別と母音同定 : 母音持続時間の依存性

竹島千尋, 津崎実, 入野俊夫

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 112 ( 81 ) 39 - 44 2012年06月

　概要を見る

本研究の目的は,聴覚の寸法情報処理における積分特性を明らかにすることである。母音のスペクトル包絡の周波数スケールを伸縮させた母音刺激に対し話者寸法の弁別実験を行った。その結果,母音の持続時間が16msから32msに増加すると弁別成績が大きく向上した。32ms以上の母音では持続時間の増加に伴って僅かに成績が向上する程度にとどまった。結果から,32ms付近の積分の時間窓が寸法情報処理に影響を及ぼす可能性が示唆された。母音同定実験においても16msの持続時間で成績が最も低下した。しかし寸法弁別実験とは異なり,母音同定では母音の駆動条件によって持続時間の効果の程度に違いが見られた。
楽器音や動物の鳴声の音色と音声の言語情報を保持したクロス合成VOCODER

西大輝, 西村竜一, 入野俊夫, 河原英紀

研究報告音楽情報科学（MUS） 2012 ( 3 ) 1 - 6 2012年05月

　概要を見る

楽器音や動物の鳴声と，音声の２つの音源の特徴を併せ持つ合成音を作るクロス合成 VOCODER の検討をしている．クロス合成は，音声の狭帯域伝送技術である VOCODER を応用した技術で，現在では楽曲制作や Vocal エフェクター等，音楽の分野で広く用いられる．しかし，クロス合成でつくられる合成音は，楽器音等の音色の特徴が失われ，元の楽器の音が何か不明確になるという問題がある．本報告では，この問題を解決するため，変調周波数領域を帯域制限することにより，音声の言語情報だけを残したスペクトルを用いる新たなクロス合成を提案する．さらに，変調周波数領域を処理するフィルタにおける遮断周波数の設計を検討し，その効果を主観評価実験により明らかにした．A new design method of cross synthesis VOCODER, which synthesizes sounds by mixing features of two input sounds, such as speech and musical instruments or animal voices, is proposed. Cross synthesis VOCODER is originated from a narrow-band transmission technology and currently widely used as an effector for musical performance and production. However, current cross synthesis effects tend to deteriorate original character of musical instruments and linguistic information of the processed sound is not always intelligible. The proposed method provide ways to alleviate these difficulties using two technique. One is spectral global shape removal form the speech spectral envelope and the other is band-pass filtering in the modulation frequency domain. Subjective test results indicated relevance of the proposed techniques and provide design guideline of new flexible cross synthesis VOCODERs.
音源およびスペクトル包絡の時間的微細構造の加工と歌唱音声の印象への影響について

河原英紀, 森勢将雅, 西村竜一, 入野俊夫

研究報告音楽情報科学（MUS） 2012 ( 4 ) 1 - 6 2012年05月

　概要を見る

シャウトやデスボイスなどの激しい表現は、ポピュラー歌唱で広く用いられている。これらを適切に分析、再現、制御する方法を明らかにすることは、歌唱合成システムに豊かな表現力を与えるために解決すべき重要な課題である。本報告では、まず、新たに開発した高い時間分解能を有する基本周波数抽出法とそれに基づく TANDEM-STRAIGHT により、様々な歌唱音声を分析した結果について報告する。分析結果は、激しい表現にいおいて、70 Hz付近に 20 dB程度の高さのピークを有する高速の（基本周波数の）周波数変調と、同様に、高速の（スペクトル包絡の）振幅変調が存在することを示した。このような高速の変調の存在は、これまでにはっきりとは報告されていない。予備的な実験により、それらの高速の変調を加工することにより、発声の声区と努力の印象を保ったまま、シャウトなどの歌唱表現の強さ（生々しさ）を制御できる可能性が示された。Strong expressions such as "shout" and "death voice" are common in popular singing. However, current singing synthesis systems are not good at handling these strong expressions and are not capable of using them to expand their limit of expressiveness. This is the topic this article tries to address. A set of singing voice analysis tests was conducted using our newly developed F0 extraction method, which has high temporal resolution and is light-weighted, and TANDEM-STRAIGHT for spectral envelope analyses. This test revealed that expressive singing voices consist of high-speed frequency as well as amplitude modulations in F0 and spectral envelope respectively. In one typical case, about 20 dB higher modulation frequency spectral peak was found around 70 Hz for expressive performance than that of normal performance. Preliminary tests suggested that selective control of "expressiveness" can be implemented by manipulating these high-speed modulations while preserving vocal register and effort intact.
日本語発話能力測定ウェブテストシステムを用いて収集した留学生の日本語発話の分析

栗原理沙, 西村竜一, 和田芳佳, 河原英紀, 入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2012 ROMBUNNO.3-11-19 2012年03月
ウェブデータベースを用いた音声認識用言語モデルの簡易適応

西村竜一, 島田敏明, 田中雅康, 河原英紀, 入野俊夫

全国大会講演論文集 ( 一般社団法人情報処理学会 ) 2012 ( 1 ) 5 - 7 2012年03月

　概要を見る

我々は、大語彙連続音声認識の精度向上の為、ウェブデータベースを用いた3-gram言語モデルの拡張手法を検討している。本手法は、Googleの日本語N-gramデータベースの登録情報に基づき、学習用コーパス内では未観測であった3-gramの出現確率を推定する。また、本手法では情報量を基準として重要単語を抽出し、拡張する3-gramを選別する。昨年の報告に引き続き、提案法を言語モデルのタスク適応に応用した。実験では、日本語話し言葉コーパス(CSJ)から抽出した講演発話を対象に本手法を適用し、認識精度を評価した。また、提案法を実装したウェブアプリサービスを構築する予定なので、その概要を報告する。
若年話者判別法の音響特徴に対する聴覚フィルタバンクの導入

宮森翔子, 西村竜一, 岡本恵里香, 入野俊夫, 河原英紀

全国大会講演論文集 ( 一般社団法人情報処理学会 ) 2012 ( 1 ) 613 - 615 2012年03月

　概要を見る

本研究では、対話インタフェースにおいて子どもに優しい振舞いを提供するために、音声認識を用いた若年者判別技術に関する検討を行っている。今回、従来から用いている音響特徴量であるMFCC(メル周波数ケプストラム係数)に、ガンマチャープ聴覚フィルタバンク(GCFB)から抽出した特徴量を組み合わせ、判別性能の調査を行った。MFCCは、音声認識に一般的に使用されている特徴量である。一方、聴覚フィルタバンクは人間の聴覚特性を模擬しており、先行研究により、音声モーフィングのための声道長正規化に有効であることがわかっている。声道長と人間の身長には相関があることから、聴覚フィルタバンクの導入は若年話者判別にも有効であると考えられる。
日本語スピーキングテストS-CATにおける並列セグメンテーションを用いた自動採点の検討

西村竜一, 栗原理沙, 篠崎隆宏, 石塚賢吉, 山田武志, 今井新悟, 河原英紀, 入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2012 2012年
RJ-005 対話型音声インタフェースのための大人・子ども判別技術の改良(HIP(2),J分野:ヒューマンコミュニケーション&インタラクション)

宮森翔子, 西村竜一, 入野俊夫, 河原英紀

情報科学技術フォーラム講演論文集 ( FIT(電子情報通信学会・情報処理学会)運営委員会 ) 10 ( 3 ) 37 - 40 2011年09月
言葉の明瞭度と楽器等の音色を保持したクロス合成法の検討

西大輝, 西村竜一, 入野俊夫

聴覚研究会資料 ( 日本音響学会聴覚研究委員会 ) 41 ( 6 ) 463 - 468 2011年08月
複数の周期成分を持つ音声のための周期構造抽出法と障害音声分析への応用について

和田芳佳, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 ) 111 ( 175 ) 81 - 86 2011年08月

　概要を見る

歌唱音声や障害音声,強い感情音声など,基本周波数のみでは十分に表すことのできない複雑な構造をもつ音声を分析するために,XSX(eXcitation Structure extractor)と呼ばれる方法を提案してきた.本資料では,従来の基本周波数抽出法と比較することで,XSXの特長と有効な適用領域を明らかにする.まず,FM調波複合音を試験用の信号として,基本周波数の変調周波数に対する追従性能を調べ,XSXが比較対象であるYINとSWIPEを大きく凌ぐ性能を有することを明らかにした.次いで,障害音声データの分析を行い,比較対象の方法と大きく異なる結果が得られる音声に対して詳細な検討を行った.XSXによる詳細な分析結果は,それらの音声では,いわゆる基本周期に加えて,複数の周期が組み合わされた単位が繰返されるサブハーモニックが生じていることを明らかにした.これらの結果は,XSXが従来の方法では困難な複雑な音声の分析に有用な方法であることを示すものである.
言葉の明瞭度と楽器等の音色を保持したクロス合成法の検討

西大輝, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 ) 111 ( 175 ) 87 - 92 2011年08月

　概要を見る

音声と,楽器音や動物の鳴声などの2つの音源の特徴を混合して合成音を作るクロス合成VOCODERに,F0に適応したスペクトル包絡抽出法であるTANDEM-STRAIGHTを適用した.時変フィルタをFIRフィルタにより実装した検討では,STRAIGHTスペクトルを用いることにより,合成音の明瞭度が向上することが示された.しかし,同時に楽器等の音色の特徴が失われるという問題が明らかとなった.この問題を解決するため,音声の変位スペクトルと最小位相応答を用いた時変フィルタによる新たなクロス合成法を提案する.予備的な検討では,提案手法により,言葉の明瞭度を維持しながら,楽器音の特徴を保存できる可能性が示された.
聴覚フィルタバンクを用いた声道長比推定

岡本恵里香, 入野俊夫, 西村竜一, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 111 ( 153 ) 11 - 16 2011年07月

　概要を見る

音声認識や,高品質な音声モーフィングなどの音声アプリケーションには声道長正規化(VTLN)は重要な技術となっている.しかし,声道長を個人差が大きい音声から正確に推定することはけして容易ではない.これは,音声の母音のスペクトル形状が,声道長ばかりでなく,声道音源波形や梨状窩による零などの影響により個人毎に大きく異なっているためである.本研究では,聴覚フィルタバンクを用いて.声道長の推定精度を改善する手法を提案する.2話者の音声の間のスペクトル距離が最小となるスペクトル伸縮度合を声道長比とし,28名分の音声(全順列_<28>P_<27>=756通り)について計算を行い,その結果から回帰分析によって推定誤差を統計的に求めた.また,スペクトル表現による違いを比較するために,音声認識に従来から用いられているMFCCの計算に用いられるメル周波数フィルタバンク(MFFB),代表的な聴覚モデルであるガンマトーンフィルタバンク(GTFB),ガンマチャープフィルタバンク(GCFB)を対象とした.この結果,GCFBを用いた場合に,他の手法よりも声道長比推定の精度が良くなることがわかった.
外部知識としてウェブを用いた3-gram言語モデル拡張手法の検討

西村竜一, 島田敏明, 田中雅康, 河原英紀, 入野俊夫

第73回全国大会講演論文集 2011 ( 1 ) 75 - 76 2011年03月

　概要を見る

大語彙連続音声認識の精度向上の為、ウェブを用いた3-gram言語モデルの拡張手法に関して報告する。3-gramモデルにおいて、学習コーパスに存在しない未観測3-gramの確率値を推定する手法として、バックオフが従来から用いられている。内包的な確率推定手法であるバックオフが広く普及する一方、本研究のように、外部のデータベースを用いた未観測3-gramの確率推定の手法も存在する。本発表では、外部データベースとしてGoogleデータベースを用いた場合の未観測3-gram確率推定法に関して、従来のバックオフ手法との比較を中心に報告する。
周期信号における時間的変動の影響を受けない位相関連情報の表現について

河原英紀, 森勢将雅, 入野俊夫

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 110 ( 297 ) 47 - 51 2010年11月

　概要を見る

基本周期の1/2の間隔を隔てた二つの時間窓を用いて、短時間Fourier変換により求められる二つのパワースペクトルの平均を計算すると、波形と時間窓の相対位置に依存しない表現が得られる。本資料では、瞬時周波数についても、同様に波形と時間窓の相対位置に依存しない表現が得られることを示す.具体的には、基本周期の1/2の間隔を隔てた二つの時間窓を用いて求められる瞬時周波数のパワーによる重み付き平均が、そのような性質を持つ。本資料では、幾つかの前提条件の下で、この方法により求められる瞬時周波数が波形と時間窓の相対位置に依存しないことを示す。また、実際に良く用いられる窓関数を用いて実装した場合の性能について、数値例を示す。
E-012 音声ウェブシステムを用いて収集した実環境子供発話に関する調査(E分野:自然言語・音声・音楽,一般論文)

栗原理沙, 西村竜一, 宮森翔子, 河原英紀, 入野俊夫

情報科学技術フォーラム講演論文集 ( FIT(電子情報通信学会・情報処理学会)運営委員会 ) 9 ( 2 ) 229 - 230 2010年08月
J-006 ちょっとした一言の音声認識による子ども利用者判別法の検討(J分野:ヒューマンコミュニケーション&インタラクション,一般論文)

宮森翔子, 西村竜一, 栗原理沙, 入野俊夫, 河原英紀

情報科学技術フォーラム講演論文集 ( FIT(電子情報通信学会・情報処理学会)運営委員会 ) 9 ( 3 ) 469 - 472 2010年08月
単語重要度を用いたN-gram補完手法が与える音声認識性能の調査

島田敏明, 西村竜一, 河原英紀, 入野俊夫

研究報告音声言語情報処理（SLP） ( 情報処理学会 ) 2010 ( 19 ) 1 - 6 2010年07月

　概要を見る

単語 3-gram モデルは，テキストコーパスから統計的手法に基づいて構築される．しかし，テキスト量が少ないと統計量を正しく算出できない．そこで本研究では，Google N-gram データに含まれる 3-gram エントリを用いて，3-gram 情報の補完を行った．3-gram エントリを選別せず補完すると，3-gram エントリ数が爆発的に増加する問題が発生する．そこで，提案手法では TF・IDF 指標と Yahoo! 関連キーワードから算出した単語重要度に基づき，追加する 3-gram エントリを選別した．これにより，重要性の低い 3-gram エントリの追加と，エントリ数の爆発的増加を防ぐ事が出来た．評価では，CSJ コーパスを用いて認識実験を行った．その結果，補完前より単語正解精度において 1.64% の向上が得られた．We have developed a method that utilizes the Google N-gram database to complement 3-gram entries in a language model. Our aim was to improve the accuracies of LVSR systems even when a 3-gram model trained on short texts is being used. This method is based on 3-gram occurrence information in external web documents and consists of three main steps. First, 3-gram entries are searched in the Google database. Secondly, 3-gram appearance counts are normalized on the basis of the ratio of total number of 3-gram entries. Lastly, 3-gram entries are selected on the basis of keywords. To prevent the addition of redundant or not relevant entries, 3-gram entries without a keyword are excluded to calculate 3-gram probabilities. The keywords were composed by measuring the TF-IDF weights and employing the web API of Yahoo! Japan. Experimental results confirmed 1.64% improvement in a recognition accuracy using the CSJ Corpus.
擬似音声信号を用いた評価による音源構造抽出法の最適化について

和田芳佳, 板垣英恵, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 ) 110 ( 71 ) 77 - 82 2010年06月

　概要を見る

「痩れ声」や「だみ声」のように,感情音声や歌唱音声において強い印象を与える音声の分析・合成の研究を進めている.それらの音声を駆動する信号は,基本周波数のみでは十分に表すことのできない複雑な構造を有している.本資料では,この駆動信号の構造を分析する方法として提案しているXSX(eXcitation Structure eXtractor)法に含まれる設計パラメタの最適化と,評価方法を検討した結果について報告する.評価用の疑似音声信号としては,音声のスペクトル傾斜を模した調波複合音を用い,評価目的に応じて,瞬時周波数に対するFM,瞬時振幅に対するAMを加えた.提案する方法は,初期推定値の抽出と,抽出された基本周波数候補の推定値の改良の二つのサブシステムから構成されている.本資料では,まず,初期推定値の抽出部分を最適化し,その後,推定値の改良部分を加えた全体のシステムの評価を行った.その結果,提案する方法は,様々な変動に対して,従来の方法を凌ぐ精度と追従性を有することが示された.
スペクトル距離に基づく声道長正規化のための周波数帯域の選定について

岡本恵里香, 浅香佳希, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 ) 110 ( 71 ) 83 - 88 2010年06月

　概要を見る

母音のスペクトル形状は,主要な要因である声道長に加え,声道音源波形や梨状窩による零などの影響により個人毎に大きく異なっている.この個人差を取り除くことは,高品質な音声モーフィングの実現や音声認識における重要な課題である.本研究では,この主要な変動要因である声道長比の推定精度を改善する方法を検討した.スペクトル距離に基づく声道長比の推定において,声道長比の影響が支配的である周波数帯域を選択することにより,推定精度を改善できると考えられる.実験では,28名により読み上げられた文音声の全ての組合せから推定された相対的な声道長を真値と仮定し,周波数帯域と推定精度との関係を調べた.その結果,MFCCの計算に用いられるフィルタ出力の対数スペクトル距離とその周波数方向の導関数の距離とを合成した距離を400Hzから4000Hzの周波数帯域で評価した場合に,最良の結果が得られることが示された.
Auditory filter shape from temporal masking curves and notched-noise data,

Toshio Irino, Nozomi Shimoshio, Hiroki Takahashi, Hideki Kawahara, Roy Patterson

Auditory Features Workshop, Equipe Audition, DEC, Ecole normale supérieure, France 2010年06月

　概要を見る

1 & 3 Jun., 2010 (発表日 3 Jun)
ウェブ収集発話を対象とした若年者判別の検討

宮森翔子, 西村竜一, 入野俊夫, 河原英紀

全国大会講演論文集 72 285 - 286 2010年03月
高品質分析合成のための有声音の非周期成分の表現と推定について

河原英紀, 森勢将雅, 高橋徹, 坂野秀樹, 西村竜一, 入野俊夫

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 109 ( 451 ) 99 - 104 2010年02月

　概要を見る

高品質な音声分析変換合成系において、駆動信号に非周期成分を加えることは大きな効果を有する。しかし、この非周期成分をどのように表現し推定するかという問題には、幾つかの両立困難な条件がある。TANDEM-S-TRAIGHTでは、推定問題に一応の解を与えたものの、解釈と操作が困難な表現となったことが、応用を広げる上での障害となっていた。本報告では、非周期成分をsigmoidと幕乗による非線形変換とを組み合わせてモデル化する方法を提案する。実際の音声の多数の分析に基づいた検証が必要ではあるが、2個のパラメタのみを用いて非周期成分を効率よく表現できる可能性が示された。予備的な試聴による印象では、この簡単な表現を用いることにより、分析合成音声の品質が向上する効果が認められた。
音声のピッチと寸法情報の処理を担う脳領域のfMRIによる検討

塚田裕樹, 入野俊夫, 大屋義和

聴覚研究会資料 ( 日本音響学会聴覚研究委員会 ) 39 ( 7 ) 531 - 536 2009年11月
レクチャー講演聴覚フィルタの測定と定式化について

入野俊夫

聴覚研究会資料 ( 日本音響学会聴覚研究委員会 ) 39 ( 6 ) 413 - 418 2009年10月
E-038 大人・子ども発話の自動識別に基づく安心Webシステムの検討(自然言語・音声・音楽,一般論文)

宮森翔子, 西村竜一, 鈴田健太郎, 河原英紀, 入野俊夫

情報科学技術フォーラム講演論文集 ( FIT(電子情報通信学会・情報処理学会)運営委員会 ) 8 ( 2 ) 343 - 344 2009年08月
安心ウェブの実現に向けた大人・子ども発話のネット収集実験

西村竜一, 宮森翔子, 鈴田健太郎, 河原英紀, 入野俊夫

研究報告音声言語情報処理（SLP） ( 情報処理学会 ) 2009 ( 19 ) 1 - 6 2009年07月

　概要を見る

本研究では，利用者の年齢層を発話音声から自動推定し，子どものアクセスを制限するウェブフィルタリングサービスの開発を目指す．今回，提案システムの実現に向けて，(1) 音声ウェブシステム w3voice を用いた大人・子ども発話のネットワーク収集実験，(2) GMM 音響モデルを用いた若年者自動判別の予備的実験を行った．発話収集の実験では，389 名の被験者の実環境発話 1,109 を集めることに成功した．発話を分析した結果，大人と子どもで，発話内容に異なる言語的傾向があることを確認した．また，GMM 音響モデルを用いた 14 歳以下の子どもの検出実験では正解率 65.9% を得た（大人の検出も含めると正解率 82.6%）．This study aims at developing a voice-based web filtering service to restrict children from the harmful websites. It is based on an automatic estimation of an age group from their voices. To realize it, we have performed (1) a collection of adult and child voices using voice-enabled web system "w3voice", and (2) an experiment of young voice detection on the basis of GMM-based acoustic recognition. In the experiment of the utterance collection, we succeeded in the collection of the 389 testees' real environmental 1,109 utterances. It was confirmed that there was the difference of language tendencies between adults and children as a result of analyzing the utterances. In the experiment on 14-years-old or younger child detection, 65.9% correct rate was obtained.
圧縮型ガンマチャープ聴覚フィルタによるノッチ雑音データと圧縮特性データへの同時適合

入野俊夫, 高橋弘樹, 河原英紀

聴覚研究会資料 ( 日本音響学会聴覚研究委員会 ) 39 ( 4 ) 283 - 288 2009年06月
音声中の複数の繰返し構造の表現とその基本周波数および非周期性抽出への応用について

板垣英恵, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 ) 109 ( 100 ) 91 - 96 2009年06月

　概要を見る

本資料では、分析時刻に非依存な周期信号のパワースペクトル推定法(TANDEM)と、適応的周波数平滑化(STIRAIGHT)に基づいた、音声中の繰り返し構造を抽出するボトムアップな方法を提案する。この方法では、周波数領域における局所的な周期構造から時間領域における繰り返し構造を抽出する。広い繰返し周期の範囲にわたる構造を抽出するために、提案する方法では、それぞれ特定の周期の繰り返しの抽出に特化した一群の検出器を配置し、それらの出力を統合している。この提案手法を、XSX(eXcitation Structure eXtractor)と呼ぶことにする。信号に含まれる非周期的な成分の抽出における提案手法の性質を調べるため、shimmerおよびjitter等を含む試験信号を用いたシミュレーションが行われた。その結果、提案手法は、従来のF0推定法で分析することが困難な信号の複雑な周期性構造の検出に優れていることが示された。また、実際の障害音声の例を分析することにより、それらによって品質が劣化した音声の修復への本方法の適用可能性を検討した。
圧縮型ガンマチャープ聴覚フィルタによるノッチ雑音データと圧縮特性データへの同時適合

入野俊夫, 高橋弘樹, 河原英紀, パターソンロイ D.

電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 ) 109 ( 100 ) 67 - 72 2009年06月

　概要を見る

聴覚末梢系の周波数選択性/聴覚フィルタ形状と圧縮特性を正確に推定することは、人間の音声や音響信号に対する知覚特性をモデル化するための第一歩として重要である。本研究では、健聴被験者に対してノッチ雑音実験と順向性マスキング実験の両方を実施し、ノッチ雑音マスキングデータと圧縮特性が反映される入出力関数を推定した。次に、これらの両データに対して、圧縮型ガンマチャープ聴覚フィルタを同時適合し、パラメータ推定を行った。これにより、被験者間での共通点と相違点を明確に区別し、しかもパラメータ値のばらつきも小さい安定な推定ができたことを報告する。このことは、健聴者と例えば老人性難聴者を、少数パラメータの同一モデルで表現できる可能性を示すものである。
視聴覚統合を利用した非言語的手段による音色知覚の評価について

西田沙織, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 ) 109 ( 100 ) 49 - 54 2009年06月

　概要を見る

人間の知覚特性に基づく音の可視化に向けての基礎的検討として、音色を図形の形で表現することを試みる。振幅の時間変化・スペクトル構造の異なる11種類の音と、9種類の図形を用い、どのような音に対してどのような図形が選択されるのか調べる実験を行った。その結果、音のスペクトル構造が周波数軸方向に周期的か非周期的かによって、被験者の回答の傾向がはっきり分かれた。図形に関しては、選択基準となる要因が複雑さや鋭さであることがわかったが、これらは主観的な指標にすぎない。そこで、面積の平方根と輪郭線の長さとの比、円の軌跡からのずれの大きさ、尖度という定量的指標を用いて各図形を分析した。これらの結果と、主観的評価に基づくMDSの結果とを比較したところ、面積の平方根と輪郭線の長さとの比は横軸とほぼ対応しており、尖度は縦軸と一部対応していることがわかった。
再合成音声の品質に対する音声スペクトル包絡推定法の影響について

赤桐隼人, 大西壮登, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 109 ( 99 ) 63 - 68 2009年06月

　概要を見る

著者らが検討を進めている音声分析変換合成法TANDEM-STRAIGHTでは、有声音などの周期性に起因する影響を取り除いたパワースペクトルの推定を目的として、(1)分析位置に依存しない周期信号のパワースペクトル推定法TANDEMと、(2)consistent samplingに基づくF0適応型スペクトル平滑化を用いている。この(2)の実装では、平滑化関数として矩形関数を用い、本来は無限個の係数を必要とする補償項を1項で打ち切り、かつ、|x|≪1の場合には、log(1+x)&sime;xで近似できることを利用し、スペクトルの正値性を保証している。本資料では、これらの実装での近似による影響を、従来のSTRAIGHTを比較対象とし、有声音を用いた再合成音声の主観評価実験と、スペクトル距離の客観評価実験により調べた結果について報告する。主観評価実験の結果は、両STRAIGHTによる再合成音声が、MNRUのQ値40〜50に相当する高い品質を有するものであることを示すとともに、従来のSTRAIGHTによる再合成音声がTANDEM-STRAIGHTによるものよりも、やや高く評価される傾向を示した。これらの結果は、周波数重みを加えたピーク重み付きスペクトル距離尺度による客観評価結果とも整合しており、TANDEM-STRAIGHTによる再合成音声の品質を向上させるための手がかりを与える。
声道長の正規化に基づく簡易モーフィング音声の品質改良について

浅香佳希, 西田沙織, 赤桐隼人, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 109 ( 99 ) 69 - 74 2009年06月

　概要を見る

手作業による参照点の付与が必要であることは、現在の音声モーフィングの大きな問題となっている。この手作業が不要となる音声モーフィングを実現するため、声道断面積関数の補間に基づく方法の検討を進めている。今回は、検討の第一段階として声道長の正規化を行うことで、簡易モーフィング音声の品質を改善する方法を提案する。提案した方法では、聴覚特性を考慮したスペクトル距離尺度を用いることにより、モーフィングの対象となる話者間の声道長の比を推定した。主観評価実験の結果、提案した方法は簡易モーフィングの音声の品質を改善する上で有効であることが示された。また、品質を更に向上させるためには、声道長に加え、形状に関するパラメタの調整が必要であることが示唆された。
TANDEM-STRAIGHTおよび時変モーフィングのための研究用インタフェースの開発について

河原英紀, 森勢将雅, 高橋徹, 坂野秀樹, 西村竜一, 入野俊夫

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 108 ( 465 ) 51 - 56 2009年02月

　概要を見る

TANDEM-STRAIGHTは、STRAIGHTの全アルゴリズムを基礎から置き換え、プログラムを見通しと実行効率の良いものとした。また、時変モーフィング、母音情報に基づく音声変換など、音声加工の新しい枠組みも生み出された。本資料では、様々な分野の研究者がこれらの方法を容易に利用できるように開発している幾つかのインタフェースとそれらの利用法について紹介する。これらのインタフェースの開発は、応用研究を促進するだけではなく、様々な利用形態からのフィードバックと試行錯誤のサイクルの短縮により、アルゴリズム開発そのものを促進することを狙っている。
視聴覚統合における刺激音の時間－周波数的特徴と視覚刺激の形状特徴の検討－人間の知覚特性に基づく音楽の可視化システムに向けて－

西田沙織, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

研究報告音楽情報科学（MUS） ( 一般社団法人情報処理学会 ) 2009 ( 13 ) 65 - 70 2009年02月

　概要を見る

音楽を元に生成された映像を見て鳴っている音が直感的にわかるような音の可視化を目指し、先行研究を参考に聴覚情報と視覚情報の間の妥当な対応付けを検討した。音色と図形形状の間に対応関係が存在する可能性があるが、厳密な実験がまだ行われていないため、これについて検証することとした。振幅の時間変化・スペクトル構造の異なる 11 種類の音と、9 種類の図形を用い、どのような音に対してどのような図形が選択されるのか調べる実験を行った。その結果、スペクトル構造が周期的か非周期的か、また高調波成分が多いか少ないかによって選択される図形に違いが見られた。An audio-visual integration test was conducted to investigate innate correspondence between sounds and shapes. Seven typical sound stimuli including periodic sounds and aperiodic sounds as well as musical instrumental sounds were presented followed by a pair of shapes. Subjects were asked to select one of shape that fit better with the preceding sound stimulus. MDS analyses of the results suggested that there seem to exist a common perceptual structure between vision and audition.
実時間操作インタフェースへの応用を目的とした歌唱モーフィング操作パラメタの時系列への拡張について

河原英紀, 森勢将雅, 高橋徹, 坂野秀樹, 西村竜一, 入野俊夫

情報処理学会研究報告音楽情報科学（MUS） ( 一般社団法人情報処理学会 ) 2008 ( 127 ) 91 - 96 2008年12月

　概要を見る

歌唱デザインの転写では，歌唱の歌い回しや声質・表現をモーフィング等を用いて局所的に操作することが必要となる。操作は、コンサートでのように実時間で行われる場合も、ポストプロダクションでのように時系列を編集してオフラインで行われる場合もある。このような操作を矛盾無く実現するために，本資料では，TANDEM-STRAIGHT を用いたモーフィングにおけるモーフィング率を多次元の時系列に拡張するとともに，実時間での処理を明確に定式化した。この定式化により、モーフィング対象となる 5 種類のパラメタ（基本周波数、非周期性、STRIAGHT スペクトル、時間軸、周波数軸）を個別に異なった時系列で制御するシステムを実装する基盤が確立された。また、この定式化を、変換関数の導関数の対数上での補間に基づいたものとすることにより、これまで問題となっていた外挿による品質の劣化を回避することが可能となった。なお、この定式化は、事例に関して対称であるため、事例の数が複数の場合のモーフィングに容易に拡張することができる。Reuse of performance design in singing requires temporally localized manipulations of singing style, voice quality and expressions.They can be done in realtime such as in live concert scenes or can be done in off-line such as in the post production editing or recorded materials. A new framework is introduced to extend TANDEM-STRAIGTH-based morphing with a temporally variable multi-dimensional morphing rate and formulated. This formulation provides solid basis for implementing five morphing parameters(fundamental frequency, aperiodicity, STRAIGHT spectrogram, time and frequency axes) on each time-series independently.This formulation is based on interpolation of logarithmic derivative of transformation functions and enables extrapolative morphing without quality breakdown found in our previous formulations. The proposed method is easily extended to multiple exemplar morphing because the formulation is symmetric for each exemplar utterance.
劣化音声の知覚特性と音声認識器の認識傾向の比較

森本隆司, 入野俊夫, 西村竜一

聴覚研究会資料 ( 日本音響学会聴覚研究委員会 ) 38 ( 8 ) 803 - 808 2008年12月
TANDEM-STRAIGHTに基づく基本周波数抽出法の最適化に関する一検討

板垣英恵, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション ( 一般社団法人電子情報通信学会 ) 108 ( 337 ) 155 - 160 2008年12月

　概要を見る

分析位置に依存しない周期信号のパワースペクトル推定法であるTANDEMと、それに基づくスペクトル包絡の推定法STRAIGHTとを組み合わせた、基本周波数抽出法が提案されている。本資料では、このTANDEM-STRAIGHTに基づく基本周波数抽出法に含まれている設計パラメタの役割と抽出器の性能との関係を調べ、それらの最適化を試みた。取上げた設計パラメタは、周波数軸上での周期性の評価に用いる調波の個数と、それぞれ異なった基本周波数に特化した複数の基本周波数抽出器を統合する際の、それぞれの抽出器の守備範囲を定める重み関数の幅である。まず、それぞれのパラメタがどのように抽出性能に影響するかを説明した後、EGG信号を同時記録した音声データベースを用いて、パラメタの値と抽出器の性能との関係を定量的に評価した。その結果、Gross errorを評価指標とした場合の最適値として、調波の個数は3、重み関数の幅は、特化した基本周波数の1/1.2が採用された。これらの最適値を用いた場合の性能は、これまでのSTRAIGHTの基本周波数抽出器、および広く引用されているYINと比較しても、遜色ないことが確認された。
基本周波数情報に基づく線形予測と時間軸伸縮を利用した非周期成分の抽出について

河原英紀, 森勢将雅, 高橋徹, 坂野秀樹, 西村竜一, 入野俊夫

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション ( 一般社団法人電子情報通信学会 ) 108 ( 337 ) 85 - 90 2008年12月

　概要を見る

高品質の音声分析変換合成のための非周期成分の抽出を検討している。本報告では,これまでにSTRAIGHTで用いてきたものを中心に、従来の方法とそれらの問題点を挙げ、新しい方法を提案する。提案する方法は、基本周期程度の時間間隔を隔てた部分からの前方および後方予測可能な成分を取り除いたものを非周期成分とし、時間-帯域幅積(TB積)を設定するためのQuadrature Mirror filterによる帯域分割と、基本周波数の瞬時周波数に基づく時間軸の伸縮を併用する。これらから得られる複数の手掛かりを統合することにより、従来の方法よりも効率が良くランダムな揺らぎの影響の少ない推定が可能となった。
TANDEM-STRAIGHTに基づく基本周波数抽出法の最適化に関する一検討

板垣英恵, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

情報処理学会研究報告音声言語情報処理（SLP） ( 一般社団法人情報処理学会 ) 2008 ( 123 ) 155 - 160 2008年12月

　概要を見る

分析位置に依存しない周期信号のパワースペクトル推定法である TANDEM と、それに基づくスペクトル包絡の推定法 STRAIGHT とを組み合わせた、基本周波数抽出法が提案されている。本資料では、この TANDEM－S TRAIGHT に基づく基本周波数抽出法に含まれている設計パラメタの役割と抽出器の性能との関係を調べ、それらの最適化を試みた。取上げた設計パラメタは、周波数軸上での周期性の評価に用いる調波の個数と、それぞれ異なった基本周波数に特化した複数の基本周波数抽出器を統合する際の、それぞれの抽出器の守備範囲を定める重み関数の幅である。まず、それぞれのパラメタがどのように抽出性能に影響するかを説明した後、 EGG 信号を同時記録した音声データベースを用いて、パラメタの値と抽出器の性能との関係を定量的に評価した。その結果、 Grosserror を評価指標とした場合の最適値として、調波の個数は 3 ，重み関数の幅は、特化した基本周波数の 1/1.2 が採用された。これらの最適値を用いた場合の性能は、これまでの STRAIGHT [7] の基本周波数抽出器、および広く引用されている YIN と比較しても、遜色ないことが確認された。A fundamental frequency extractor based on a temporally stable power spectral representation for periodic signals (TANDEM spectrum) and a spectral envelope derived from the representation (STRAIGHT spectrum) is proposed. This article describes roles of system parameters of the proposed method and their effects on system performance and reports results of preliminary optimization of them. System parameters investigated are; number of harmonic component for detecting hypothesized periodicity peak and weighting width on the log-lag domain for integrating specialized individual F0 detectors. Detailed descriptions of these parameters and their impact on F0 extraction performance are presented and they were further investigated using a database consisting of simultaneous recording of speech and EGG (electroglottogram) signals. Test results indicated that the proposed method has comparable performance with F0 extractors used in STRAIGHT and other popular F0 extractors such as YIN, when three harmonic components are used and weighting with a width of 1/√2 of the center lag is used.
基本周波数情報に基づく線形予測と時間軸伸縮を利用した非周期成分の抽出について

河原英紀, 森勢将雅, 高橋徹, 坂野秀樹, 西村竜一, 入野俊夫

情報処理学会研究報告音声言語情報処理（SLP） ( 一般社団法人情報処理学会 ) 2008 ( 123 ) 85 - 90 2008年12月

　概要を見る

高品質の音声分析変換合成のための非周期成分の抽出を検討している。本報告では，これまでに Straight で用いてきたものを中心に、従来の方法とそれらの問題点を挙げ〈新しい方法を提案する。提案する方法は、基本周期程度の時間間隔を隔てた部分からの前方および後方予測可能な成分を取り除いたものを非周期成分とし、時間-帯域幅積 (TB 積) を設定するための Quadrature Mirrorhlter による帯域分割と、基本周波数の瞬時周波数に基づく時間軸の伸縮を併用する。これらから得られる複数の手掛かりを統合することにより、従来の方法よりも効率が良くランダムな揺らぎの影響の少ない推定が可能となった。A reliable aperiodicity extractor is crucial for high-quality speech manipulation systems. This article proposes a new extractor based on a critical review on conventional methods (mainly on our previous proposals) and fundamental issues. The proposed method uses forward and backward linear predictors with lags around fundamental period and consists of an instantaneous fundamental frequency-based temporal axis warping. The extractor also consists of Quadrature Mirror Filter for frequency band division to control TB (time-bandwidth) product for reliable estimates. Combination of multiple clues extracted using the original and the manipulated time axes yields reliable and efficient estimates of aperiodicity spectrogram
単独母音間の話者寸法弁別に影響を与える時間的要因の検討

竹島千尋, 津崎実, 入野俊夫

聴覚研究会資料 ( 日本音響学会聴覚研究委員会 ) 38 ( 6 ) 633 - 637 2008年10月
日英母国語話者におけるCVとVC音節の脳領域の比較

大屋義和, 入野俊夫, Hervais-Adelman Alexis G.

聴覚研究会資料 ( 日本音響学会聴覚研究委員会 ) 38 ( 6 ) 597 - 602 2008年10月
E-023 ウェブ上の言語知識を利用した音声認識用単語辞書の更新手法(自然言語・音声・音楽,一般論文)

鈴田健太郎, 西村竜一, 河原英紀, 入野俊夫

情報科学技術フォーラム講演論文集 ( FIT(電子情報通信学会・情報処理学会)運営委員会 ) 7 ( 2 ) 189 - 190 2008年08月
スケール変形した有声/無声単語の寸法弁別と音韻認識に関する検討

青木良枝, 入野俊夫, Patterson Roy D.

聴覚研究会資料 ( 日本音響学会聴覚研究委員会 ) 38 ( 5 ) 507 - 512 2008年08月
解説記事劣化合成音声を用いた模擬難聴の基礎検討

入野俊夫

Telecom Frontier ( テレコム先端技術研究センター刊) ( 60 ) 4 - 13 2008年08月
零周波数フィルタ信号に基づく基本周波数抽出法のTANDEM-STRAIGHTヘの応用について

河原英紀, 森勢将雅, 坂野秀樹, 板垣英恵, 大西壮登, 西村竜一, 入野俊夫

情報処理学会研究報告音楽情報科学（MUS） ( 一般社団法人情報処理学会 ) 2008 ( 78 ) 97 - 102 2008年07月

　概要を見る

Yegnanarayana らは、インド語の CV 連鎖における破裂子音の分析を目的として、零周波数に 4 重の極を有するフィルタと局所的平均値を除去する FIR フィルタを組み合わせ、声帯の動作に関連するイベントを抽出する方法を提案した。ここでは、TANDEM-STRAIGHT および real time STRAIGHT への応用を狙い、追試および幾つかの評価を行った。その結果、この方法は、laptop PC 上のMatlab を用いた実装でも実時間の 1/7 で基本周波数を抽出することができること、最新の方法にはやや劣るものの十分に実用になるgross error である 0.55％が達成されること、瞬時周波数に基づく方法と同等の結果を、1/3 程度の持続時間という高い時間分解能で求められることが示された。An event based f0 extraction method based on so called zero frequency filtering method was proposed by Yegnanarayana for representing Indian stop consonants . The proposed method uses unstable IIR filters that place four poles at zero frequency and at the same time employs local mean subtracting filters to stabilize its output. This simple method was reported to run extremely fast and has comparative performance with existing F0 extractors. This article reports on a follow-up implementation of the method and evaluations and investigations for its performance and characteristics having its applicability to TANDEM-STRAIGHT and real time STRAIGHT in mind. The results indicated that the proposed method runs 7 times faster than real time with Matlab implementation on a standard laptop PC. It was also found that the gross error rate was 0.55% which is somewhat worse than the most recent methods but still reasonably high for practical applications, Finally, temporal resolution finer (namely 1/3) than instantaneous frequency based methods was also demonstrated.
スケール変形した有声/無声単語の寸法弁別と音韻認識に関する検討

青木良枝, 入野俊夫, Patterson Roy D., 河原英紀

電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 ) 108 ( 179 ) 35 - 40 2008年07月

　概要を見る

人間の聴覚系において,音源の寸法情報と形状情報を分離抽出する機能があるという仮説を提案してきた.例えば大人と子供が発声した同じ言葉は,スペクトル形状は異なるものの同じ言葉として聞くことができ,同時に大人か子供か寸法の違いもわかる.これまで,母音・単音節・楽器・動物の鳴声などを用いて心理物理実験が行われてきた.さらに通常のコミュニケーションの場で自然な発話を聞いている状況においても,同様な知覚特性が観測されるか検討が必要である.本研究では自然発話された単語音声とささやき声を用いて寸法知覚における弁別閾と音韻認識率を測定した.この結果,有声/無声問わず声道寸法の違いを聞き分けられ,通常発声範囲を超えた音声でも認識可能であることがわかった.
TANDEM-STRAIGHT によるスペクトル包絡の近似精度の改善について基本周波数により定まる Nyquist 周波数以上の空間周波数成分の復元について

河原英紀, 森勢将雅, 高橋徹, 坂野秀樹, 西村竜一, 入野俊夫

電子情報通信学会技術研究報告. SP, 音声 108 ( 116 ) 19 - 24 2008年06月
STRAIGHT を用いた簡易モーフィングによる印象変化の評価について

西田沙織, 大西壮登, 吉田有里, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

情報処理学会研究報告音楽情報科学（MUS） ( 一般社団法人情報処理学会 ) 2008 ( 50 ) 43 - 48 2008年05月

　概要を見る

時間軸だけを整合させるという簡易な方法によりモーフィングした音声を対象として、自然性と話者性の主観評価実験を行った。その結果を、単語・モーフィング率・話者の組み合わせという 3 つの観点から分析した。単語別に見た場合、自然性・話者性の評価には、有意差は認められなかった。モーフィング率別に見た場合、モーフィング率が 50% に近づくほど自然性が低下し、モーフィング率が 25% から 75% では、話者性の正答率が 60% 程度となった。話者の組み合わせ別に見た場合、組み合わせが同性か異性かで評価の傾向に差が見られた。組み合わせが同性のときは自然性は高くなるが話者性を判別しにくくなり、異性のときは自然性は低くなるが話者性を判別しやすいという傾向が認められた。これらの結果より、同性の話者の場合には、簡易なモーフィングを実用的な手法として利用できる可能性があることが分かった。A morphing procedure only relies on temporal axis alignment was tested subjectively in terms of naturalness and speakers' identity. Effects of contributing factors were investigated regarding on test words, morphing rates and used speakers. Naturalness of the morphed speech was deteriorated when the morphing rate nears 50%. Identification of mixing rate of two speakers was about 60% when the morphing rate is 25%, 50% or 75%. Naturalness of the morphed speech sounds were found higher when speakers' sex was identical while mixing rate identification were lower. These results suggest that the proposed simplified procedure is practically usable for morphing speakers having the same sexual distinction.
音声入力Webシステムによる音声認識アプリケーションの構築技術

西村竜一, 三宅純平, 河原英紀, 入野俊夫

全国大会講演論文集 70 343 - 344 2008年03月
リアルタイムSTRAIGHTの改良とSTRAIGHTライブラリの実装

坂野秀樹, 森勢将雅, 高橋徹, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 107 ( 551 ) 157 - 162 2008年03月

　概要を見る

実時間動作するSTRAIGHT,リアルタイムSTRAIGHTの改良を行ったので,その詳細について報告する.高品質音声分析変換合成法STRAIGHTは極めて高品質であり,合成システムや聴覚実,験用のツールとして広く利用されるようになってきている.STRAIGHTは,MATLABによって実装されており,オフラインでの処理にはこれが広く用いられているが,実時間で動作するものではない.そこで,我々は,実時間で動作するリアルタイムSTRAIGHTをC言語による実装で構築してきた.今回は,まず,C言語によるSTRAIGHTの実装であるC言語版を,MATLAB版STRAIGHTの最新版と同等のものに更新した.そして,このC言語版の関数の一部を利用し,リアルタイムSTRAIGHTのスペクトル抽出部分を改良した.改良したリアルタイムSTRAIGHTを用いて主観評価実験を行った所,MOS値が3.4となり,これまでのリアルタイムSTRAIGHTに比べ0.7程度改善したことが分かった.また,C言語版STRAIGHTにおいては,バージョンによるAPIの違いが大きいという問題があった.今回,このような問題を解決したC言語版STRAIGHTのAPIを策定し,STRAIGHTライブラリとして実装した.
STRAIGHTに基づく柔軟な音声合成技術の開発

河原英紀, 大西壮登, 森勢将雅, 高橋徹, 西村竜一, 坂野秀樹, 入野俊夫

全国大会講演論文集 70 357 - 358 2008年03月
AS-5-1 時間平均に基づく周期信号のパワースペクトル推定法(AS-5. 音響信号のモデリングと表現,シンポジウムセッション)

森勢将雅, 高橋徹, 河原英紀, 入野俊夫

電子情報通信学会総合大会講演論文集 ( 一般社団法人電子情報通信学会 ) 2008 "S - 48"-"S-49" 2008年03月
ポップス系歌唱音声における基本周波数軌跡の楽譜からの変位について

吉田有里, 森勢将雅, 高橋徹, 西村竜一, 入野俊夫, 河原英紀

情報処理学会研究報告音声言語情報処理（SLP） ( 一般社団法人情報処理学会 ) 2008 ( 12 ) 13 - 18 2008年02月

　概要を見る

STRAIGHTの基本周波数抽出法を、周期信号用の新しいパワースペクトル推定法であるTANDEMを用いて再構成することにより、長時間の歌唱音声を容易に扱うことができるようになった。ここでは、実際のプロ歌手による様々な演奏スタイルの歌唱音声の基本周波数軌跡を求め、演奏スタイルによる物理特性の変化を、規範となる楽譜からの変位として調べた。また、歌唱音声に顕著に認められる大きな周波数遷移での基本周波数推定の問題について検討した。A reformulation of STRAIGHT F0 extractor based on a new power spectrum estimation method for periodic signals called TANDEM made it practical to extract whole F0 trajectory of a singing voice of an actual performance. This article reports a first attempt for representing effects of singing style in terms of deviations from a nominal musical transcription, using a singing database that consists of various types of singing performance played by professional pop singers. F0 extraction issues caused by fast F0 transitions commonly found in singing voices are also discussed.
聴覚系における共鳴体の「大きさ」知覚の時間追随性 : 寸法変調音声を用いた検討(日本基礎心理学会第26回大会,大会発表要旨)

竹島千尋, 津崎実, 入野俊夫

基礎心理学研究 ( 日本基礎心理学会 ) 26 ( 2 ) 213 - 214 2008年

DOI
TANDEM-STRAIGHT に基づく基本周波数の抽出と評価について

河原英紀, 森勢将雅, 高橋徹, 西村竜一, 坂野秀樹, 入野俊夫

情報処理学会研究報告音声言語情報処理（SLP） ( 一般社団法人情報処理学会 ) 2007 ( 129 ) 259 - 264 2007年12月

　概要を見る

簡単な処理で、周期信号のパワースペクトルの時間方向の変動を取り除くことのできる方法（TANDEM 窓法）を用いて、音声分析変換合成法 STRAIGHT の再構築を進めている。ここでは、TANDEM スペクトルと STRAIGHT スペクトルの比を利用することにより、基本周期のみを選択的に抽出する方法を提案する。複数の基本周期を仮定し、それぞれの基本周期の成分を選択的に検出する機構を用意して組み合わせることにより、広い範囲にわたって、同じ基準で基本周波数の確からしさを評価することが可能となる。さらに、こうして求められた基本周波数情報を用いて、周波数軸上の直交位相信号を用いて非周期成分を推定する方法を提案する。提案した方法は、二重音声のような従来の基本周波数抽出法では扱いが難しい信号に対しても、合理的な分析結果を与える。TANDEM method, a power spectrum estimation method for periodic signals was proposed to provide temporally stable representation and has been applied to reformulate STRAIGHT, a system for speech analysis modification and synthesis. This article proposes a fundamental period estimation method based on a ratio between TANDEM spectrum and STRAIGHT spectrum. By providing specialized F0 detectors for multiple F0 candidates and integrating individual clues, the proposed method selectively detects fundamental components and yields a probability measure for each estimate. It also provides a method to estimate aperiodicity in each frequency band by making use of estimated fundamental frequency information to design a quadrature signal on the frequency axis for filtering periodic spectral component due to the signal periodicity. The proposed method is capable of representing pathological speech signals more precisely than conventional methods.
TANDEM-STRAIGHTに基づく基本周波数の抽出と評価について

河原英紀, 森勢将雅, 高橋徹, 西村竜一, 坂野秀樹, 入野俊夫

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 107 ( 406 ) 259 - 264 2007年12月

　概要を見る

簡単な処理で、周期信号のパワースペクトルの時間方向の変動を取り除くことのできる方法(TANDEM窓法)を用いて、音声分析変換合成法STRAIGHTの再構築を進めている。ここでは、TANDEMスペクトルとSTRAIGHTスペクトルの比を利用することにより、基本周期のみを選択的に抽出する方法を提案する。複数の基本周期を仮定し、それぞれの基本周期の成分を選択的に検出する機構を用意して組み合わせることにより、広い範囲にわたって、同じ基準で基本周波数の確からしさを評価することが可能となる。さらに、こうして求められた基本周波数情報を用いて、周波数軸上の直交位相信号を用いて非周期成分を推定する方法を提案する。提案した方法は、二重音声のような従来の基本周波数抽出法では扱いが難しい信号に対しても、合理的な分析結果を与える。
自然発話された単語音声を用いた音源寸法知覚における弁別閾の測定

青木良枝, 入野俊夫, Patterson Roy D.

聴覚研究会資料 ( 日本音響学会聴覚研究委員会 ) 37 ( 10 ) 787 - 792 2007年12月
劣化処理した単音節系列音の知覚に関する検討

森本隆司, 入野俊夫, 河原英紀

聴覚研究会資料 ( 日本音響学会聴覚研究委員会 ) 37 ( 10 ) 775 - 780 2007年12月
音声入力・認識機能を有する Web システム w3voice の開発と運用

西村竜一, 三宅純平, 河原英紀, 入野俊夫

情報処理学会研究報告音声言語情報処理（SLP） ( 一般社団法人情報処理学会 ) 2007 ( 103 ) 13 - 18 2007年10月

　概要を見る

提案する w3voice システムは、Web システムに対して、音声による入力インタフェースを拡張する。Java アプレットと CGI プログラムから構成し、通信プロトコルには、HTTP POST method と Redirection response を応用した実装を行った。このため、事前に特別な専用プログラムのインストールを要求せず、普段の Web ブラウザをそのままで使うことができる。また、音声認識、対話、ボイスチェンジャ、掲示板等の音声 Web アプリケーションを作成し、Web サイトで公開した。本研究は、家庭や職場等での音声インタフェースの利用環境を調べることを目的とする。そのために、利用者からの入力発話を蓄積し、分析をはじめている。約７ケ月で一日 47.6個、合計で 8 412 の入力を得ることができた。本稿では、提案システムの概要を述べ、収集データの発話時間及び SNR に関する調査結果を報告する。We have developed a speech input method called "w3voice" to build practical and handy voice-enabled Web applications. It is constructed using a simple Java applet and CGI programs comprising free software. The mechanism of voice-based interaction is developed on the basis of raw audio signal transmissions via the POST method and the redirection response of HTTP. We have released a number of w3voice applications on our website for public uses. The system also aims at organizing a voice database obtained from home and office environments. We have succeeded in acquiring 8,412 inputs (47.9 inputs / day) over a period of seven months. This report describes an overview of the proposed system, and results of analyzing collected inputs to observe utterance lengths and SNR.
一般逆行列を用いた母音情報に基づく声質変換法について

大西壮登, 高橋徹, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 107 ( 282 ) 75 - 80 2007年10月

　概要を見る

これまで日本語5母音の情報に基づいて,ある話者の音声から別の話者の音声へ声質変換する方法について検討してきた.この方法では,まず「あいうえお」と発声された音声サンプルから各母音間の音声パラメタを変換するための変換関数を求める.入力音声の各時刻のスペクトル特徴量と各母音のスペクトル特徴量との類似度を重みとして,求められた各母音間の変換関数を合成する.このようにして自動設計された合成変換関数を用いて,入力音声のパラメタを変換する.従来,変換関数を合成するための類似度を,確率的解釈に基づいて,各時刻のスペクトル特徴量が母音カテゴリに属す事後確率として求めてきた.本研究では,幾何学的解釈に基づき,各母音のスペクトル特徴量を斜交基底として捉える.各時刻のスペクトル特徴量について,それらの基底関数を用いて最小自乗近似したときの展開係数を類似度とする方法を提案する.提案する声質変換法について,スペクトル距離による客観評価,自然性と話者性に関する主観評価を行った.
E-041 音声モーフィングのための母音スペクトル間区分線形写像関数自動設計手法(E分野:自然言語・音声・音楽)

高橋徹, 大西壮登, 森勢将雅, 坂野秀樹, 河原英紀, 入野俊夫

情報科学技術フォーラム一般講演論文集 ( FIT(電子情報通信学会・情報処理学会)運営委員会 ) 6 ( 2 ) 233 - 236 2007年08月
E-072 音声入力機能を有する対話型Webアプリケーションの公開試験(E分野:自然言語・音声・音楽)

西村竜一, 三宅純平, 河原英紀, 入野俊夫

情報科学技術フォーラム一般講演論文集 ( FIT(電子情報通信学会・情報処理学会)運営委員会 ) 6 ( 2 ) 319 - 322 2007年08月
時間方向および周波数方向の周期性の影響を除去した周期信号のパワースペクトルの表現について : STRAIGHTスペクトル推定の無調整化に向けて

河原英紀, 森勢将雅, 高橋徹, 西村竜一, 入野俊夫, 坂野秀樹

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 107 ( 165 ) 13 - 18 2007年07月

　概要を見る

STRAIGHTのスペクトル推定には、幾つかの数値的に最適化しなければならないパラメタが含まれている。ここでは、そのような調整を必要とするパラメタを含まず、現在のSTRAIGHTのスペクトルと同様に、周期性に起因する影響が除去されたスペクトルを推定することのできる方法を提案する。時間方向の周期性による影響の除去では、基本周期の半分の間隔で配置した時間窓によるパワースペクトルの和を求める方法を提案する。周波数方向の周期性の影響の除去では、標本化定理の関数近似としての解釈に基づくことたより、パワースペクトルの周波数方向の債分と線形補間による簡単な方法を提案する。こうして提案された方法は、現在のSTRAIGHTよりも実時間処理に適したものとなっている。
聴覚系における寸法・形状情報抽出の計算理論と脳内部位の検討

入野俊夫, 大屋義和, 河原英紀, パターソンロイ D.

電子情報通信学会技術研究報告. NC, ニューロコンピューティング ( 一般社団法人電子情報通信学会 ) 107 ( 92 ) 11 - 16 2007年06月

　概要を見る

視覚系において物体の寸法や形状が知覚されることは日常経験からも信じられており研究も盛んである。これに対し、聴覚系においても同様に音源の寸法や形状が知覚されていることはあまり気がつかれていない。本稿では、音響的な寸法・形状情報について述べ、その情報を抽出するための聴覚計算理論を紹介する。さらに、この理論を支持する心理物理実験結果、理論から導出される聴覚末梢系フィルタの最適性の議論、生態学的な観点等を紹介する。さらに、この寸法・形状情報抽出の脳内部位特定のためfMRI(機能的核磁気共鳴画像)実験を行ったので、その結果と課題を報告する。
音声のテクスチャマッピングに基づく変換関数を利用した音声モーフィングの自動化について : 音声テクスチャマッピングの一応用例

高橋徹, 森勢将雅, 大西壮登, 西村竜一, 入野俊夫, 坂野秀樹, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 107 ( 77 ) 31 - 34 2007年05月

　概要を見る

STRAIGHTに基づく音声モーフィングの応用の障害であった特徴点の設定を不要とする方法を提案する。著者らが提案した母音情報に基づく音声変換では、音声パラメタの類似度に基づいてパラメタ変換関数を自動設計している。提案する方法は、このパラメタの類似度に基づく変換関数の自動設計を、モーフィング用の周波数軸変換関数の設計用に応用したものである。こうして求められた周波数軸の変換関数に時間軸の整合法を組み合わせることで、特徴点の付与を必要としないモーフィングが可能となる
母音情報に基づく話者変換システムの提案 : 音声テクスチャマッピングの一実装例

高橋徹, 森勢将雅, 西村竜一, 入野俊夫, 坂野秀樹, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 106 ( 613 ) 13 - 18 2007年03月

　概要を見る

母音テンプレート間の写像を母音類似度に基づいてフレーム毎に計算することにより、実時間処理に適した高品質の話者変換システムを実現する方法を提案する。この方法は、筆者らが提案した音声テクスチャマッピングという概念の一つの実装例である。スペクトルの詳細な構造と概形とは別の役割を担っており、それぞれに適切な変換は異なっているとするこの概念に基づくことにより、母音情報のみという極度に少ない資料に基づいて任意話者の音声への変換が可能になるとともに、通常の統計的方法で生ずる品質劣化を回避することが可能となる。
帯域毎の持続時間に基づく音響イベント検出と位置推定への応用

森勢将雅, 高橋徹, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 ) 106 ( 371 ) 19 - 24 2006年11月

　概要を見る

本研究では,帯域毎の持続時間に着目した音響イベントの高精度抽出法について検討を進めている.本報告で提案する手法は,帯域分割した評価指標を用いているため,検出対象となる音のスペクトルから高いエネルギーを持つ帯域のみを選択できる特徴を有する.この特徴により,全帯域のSNRが低い環境においても高SNRの帯域のみを用いることが出来,高い精度で音響イベントの検出が可能となる.本報告では,音響イベント検出に用いるパラメタを定義し,音響イベント検出を行う手順の説明を行う.音響イベント検出に用いるパラメタと音響イベント検出率との関係を示す.さらに様々なSNRの雑音を加え,SNRと音響イベント検出精度との関連を明らかにする.これらの検討結果より,複数マイクを用いた位置推定への応用について述べる.
知覚特性を考慮したインパルス応答補償法についての一検討 : 群遅延操作の弁別閾の周波数依存性について

森勢将雅, 高橋徹, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 ) 106 ( 371 ) 13 - 18 2006年11月

　概要を見る

本報告では,2肢強制選択を用いて群遅延操作による音の違いの周波数依存性を示す.この実験により,インパルス応答補償において知覚されない誤差を許容するための指標の構築を目指す.この許容誤差を利用し,知覚に影響しない伝達関数の補償アルゴリズムの検討を行う.本報告は,人間の聴覚が変化に最も敏感であるパルス列を用いて主観評価を行った.群遅延の操作は,ERB_Nが一定の帯域幅の中心周波数で,様々な変動量を持たせるよう行った.主観評価の結果,1000Hzより低い周波数では弁別が困難であること,1000Hz以上では弁別域の境界が周波数によって異なることが示された.また,群遅延に負のピーク値がある場合,正のピーク値より弁別境界が狭くなることも明らかとなった.
騒音適応型音楽再生システムのパラメタ設定における聴覚モデルによる評価の応用について

福田俊介, 森勢将雅, 河原英紀, 入野俊夫

電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 ) 106 ( 371 ) 43 - 48 2006年11月

　概要を見る

非線形で適応的に周波数分析を行う人間の聴覚機能を近似したガンマチャープフィルタバンク(GCFB)に基づいて適応的にマルチバンドイコライザーを調整するシステム構成を提案する。提案するシステム構成は,客観的評価法の確立と車内での再生音の最適化を目指している。一般的なリスニングルームで音楽を聴く印象を自動車室内でも体験できるように音楽をイコライズすることを最終目標とする。本報告では、GCFBを用いて自動車室内騒音、音楽、イコライズした音楽と自動車室内騒音を足したものを分析した結果を示す。
解説記事音声研究から音聲研究へ(ちょっとしたエッセイ,コーヒーブレーク)

入野俊夫

日本音響学会誌 ( 一般社団法人日本音響学会 ) 62 ( 11 ) 834 - 834 2006年11月
高品質音声分析変換合成システム STRAIGHT における分析窓の検討

高橋徹, 森勢将雅, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 106 ( 222 ) 1 - 5 2006年08月

　概要を見る

高品質音声分析変換合成システムSTRAIGHTのスペクトル分析は,スペクトルのピーク位置での時間変動を除去することを目的に,ピッチ同期分析を拡張している.具体的には,ガウス窓に基本周期の2倍の長さのバートレット窓を畳み込んでいる.ガウス窓が用いられた理由は,ガウス関数のフーリエ変換もガウス関数になり,時間周波数の不確定性が最小であるからである.しかし,ブラックマン窓は,バートレット窓を畳み込まなくても,もともとピッチ同期の性質を持っている.cos関数族で定義された窓であれば,窓長を正数倍にするこで,調波位置にある成分の時間変動を0にできるからである.ハニング窓もcos関数族で定義された窓でありブラックマン窓と同様な性質をもっている.本稿では,これらの窓をピッチ同期化ガウス窓と比較する.振幅と位相をランダマイズした調波複合書を用いて時間変動を評価した.ブラックマン窓が,最も変動量が少いという結果が得られた.
寸法変調母音系列の同定成績と寸法抽出過程の時間的追随性との関連性

竹島千尋, 津崎実, 入野俊夫

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 36 ( 5 ) 439 - 443 2006年07月
寸法変調母音系列の同定成績と寸法抽出過程の時間的追随性との関連性

竹島千尋, 津崎実, 入野俊夫

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 106 ( 178 ) 13 - 17 2006年07月

　概要を見る

発話者によって声道長はそれぞれ異なるにも関わらず,我々はいかなる発話者であっても母音の種類を識別することができる。同時に,発話者の判断すなわち声道長の違いを特定することができる。このような識別能力を模擬化する目的として,寸法情報と形状情報とを分離・抽出する過程に対する計算モデルが提案されている。本研究ではモデルの精緻化を目指すため,寸法抽出過程の時間的追随性の調査を実施した。時間的に寸法変調をかけた母音系列の同定実験を行った結果,寸法情報の違いによって音脈分凝が生じたことを示唆するような寸法変調による成績の低下が見られた。母音系列内からターゲットとなる母音を見つけ出す課題を与えた実験結果においても,その仮説を裏付けるような傾向が見られた。
音声テクスチャマッピング : 多様な発話変換・合成をめざして

高橋徹, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 105 ( 571 ) 31 - 36 2006年01月

　概要を見る

多様な発話変換・合成を記述できる音声テクスチャマッピングモデルを提案する. 提案するモデルは, 音声を特徴づける骨格となるワイヤフレームに発話スタイルや話者性を表わすテクスチャをマッピングする枠組みによって音声を表わす. ワイヤフレームやテクスチャは, 統計的にあるいは, 発話事例から求めることができる. このモデルは, 画像分野で用いられるテクスチャマッピングを音声に適用したモデルである. 一般に, 発話変換は, スペクトルに対する演算と変形によって実現される. テクスチャマッピングの枠組みを用いて演算と変形を取り扱う仕組みについて述べる. ワイヤフレームにどのようなテクスチャをマッピングするかによって多様な発話スタイルを表現できることを示す. また, 様々な発話スタイルの音声を合成できることを示す. 最後に, ある発話に基づいてワイヤフレームを生成し, テクスチャをマッピングすることで発話変換を行うことができることを示す.
母音テンプレートを用いた音声モーフィングのためのスペクトル特徴点設定

西雅史, 高橋徹, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 105 ( 571 ) 19 - 24 2006年01月

　概要を見る

音声モーフィングにおける時間・周波数特徴点設定の自動化法について提案する。これまで、音声モーフィングでは素材となる二つの音声試料の時間周波数平面上での対応関係を設定し、パラメタを線形変換して実現されていた。モーフィング音声の品質は、時間周波数平面上での対応関係の設定に強く依存する。現状では時間周波数平面上の対応関係である時間・周波数特徴点を手作業で付与する必要があり、膨大な音声試料を処理するなど応用の際に障害となっていた。本稿では、この時間・周波数特徴点の設定を自動化する方法について検討した。特徴点は周波数座標と時間座標により構成される。データベースより設計されたテンプレートスペクトル上に予め特徴点を設定しておき、入力のスペクトルに合うようにテンプレートスペクトルを変形することにより間接的に特徴点の周波数座標を設定する方法を提案する。最適な変形を求める方法として、本稿ではDPマッチングを用いた。特徴点の時間座標は、音韻ラベルを利用し、テンプレートはラベル情報に基づいて、予め用意した母音別のテンプレートから選択することとした。本稿では、自動的に時間・周波数特徴点を設定し、モーフィングされた音声を聴取実験により主観評価を行い、提案法が有効であることを示す。
リアルタイム STRAIGHT の実装と特徴量削減の影響に関する検討

坂野秀樹, 畑宏明, 高橋徹, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 105 ( 571 ) 7 - 11 2006年01月

　概要を見る

実時間動作するSTRAIGHT, リアルタイムSTRAIGHTを実装したので, その詳細について報告する. 高品質音声分析変換合成法STRAIGHTは極めて高品質であり, 合成システムや聴覚実験用のツールとして広く利用されるようになってきている. しかしながら, 現在のMATLABによる実装では, 実時間での動作が困難である. そこで, リアルタイムSTRAIGHTでは, STRAIGHTのC言語への移植や, 基本周波数抽出部分のケプストラムによる方法への置き換え, 短時間位相制御部分の省略などにより, 高速化を図っている. 予備的検討の結果, リアルタイムSTRAIGHTが, 最近のパソコンで実行可能であることと, ケプストラムボコーダなどの既存の分析合成システムに比べて高品質であることが確認できた.
聴覚特性を考慮した高品質領域における STRAIGHT パラメタの補間特性に関する検討

畑宏明, 高橋徹, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 105 ( 571 ) 1 - 6 2006年01月

　概要を見る

STRAIGHT(高品質音声分析変換合成システム)は分析周期として1msを用いている。分析前の音声波形のパラメタ数に比べ得られるパラメタ数が膨大な量となる。そのため多くの時間と計算機資源を必要とし、大量の音声資料を分析する際の障害となっている。本報告では、STRAIGHTの情報表現に含まれている高度な冗長性を、高い品質を保ったまま削減することを目的とし、STRAIGHTパラメタの補間特性について検討を行った。分析周期1msで得られるSTRAIGHTスペクトルを基準とし、1msから40msまでの分析周期で分析し最近傍補間または線形補間によって1ms周期相当のスペクトルを求めた補間スペクトルとの距離を調べた。スペクトル距離は、聴覚特性を考慮した非線形周波数軸(ERB_N rate)を用いて評価した。実験の結果、最近傍値を利用した補間法に比べ、一次関数を利用した補間法を用いることにより、より粗い周期での分析が可能でありパラメタの冗長性を削減できることが示された。また、聴覚特性を考慮することにより、さらに冗長性の削減ができることを示した。
聴覚における「形」の恒常性と寸法正規化について(日本基礎心理学会第24回大会,大会発表要旨)

津崎実, 竹島千尋, 入野俊夫

基礎心理学研究 ( 日本基礎心理学会 ) 24 ( 2 ) 221 - 221 2006年

DOI
ノッチ雑音マスキングデータから推定された縦続型/並列型構成をもつ聴覚フィルタの比較

鵜木祐史, 入野俊夫, Glasberg Brian

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 35 ( 11 ) 727 - 732 2005年12月
対数時間軸伸縮による人間の頭部伝達関数測定の精度改善について

森勢将雅, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 ) 105 ( 348 ) 43 - 48 2005年10月

　概要を見る

発声された音声をクロススペクトル法の入力とすることで, 人間の頭部周辺のインパルス応答を測定できる.これまでの研究により, ダミーヘッドを用い音声を入力として求めたインパルス応答は, 4kHz程度までの帯域においてM系列信号を用いて求めた結果と等しいことが分かっている.しかし, 測定用信号として用いる音声は低域と高域のSN比が低いため, それらの帯域での信頼性が低い.この問題に対して, 音声のインパルス応答から直接音に起因する成分を抽出し, 高域の信頼性を向上させる手法を検討している.ここでは, 回折しやすい低域の応答は長時間存在し, 回折しにくい高域の応答は短い時間で消滅するという特徴に着目した.この特徴を利用して, 時間軸の伸縮と低域通過フィルタによって時間周波数領域を抽出する手法を提案し, 信頼性の評価を行った.また, 時間軸の伸縮処理に用いる補間による誤差の補償法を明らかにした.同一条件で128回測定を行い, 提案手法を評価した.その結果, 提案手法を用いることで高域の標準偏差が振幅周波数特性では53%, 群遅延特性では18%, 持続時間では17%まで低減できることが示された.
ユーザ感情理解に向けた実環境音声情報案内システムの収集発話分析

大前壮司, 西村竜一, 河原英紀, 入野俊夫

情報処理学会研究報告音声言語情報処理（SLP） ( 一般社団法人情報処理学会 ) 2005 ( 69 ) 99 - 104 2005年07月

　概要を見る

音声対話システムにおいて，ユーザがシステムに抱く感情を理解することは円滑な対話を実現する上で重要となる．本稿では，奈良県生駒市北コミュニティセンターの音声情報案内システム「たけまるくん」のフィールドテストを通じて収集したユーザ発話を分析することで，システムによる感情理解の実現性を検討する．まず，収集発話を16個の基本感情を用いて被験者2名により5段階評定した．評定結果を因子分析したところ，ネガティブ及びポジティブな感情を示す因子の存在を確認することができた．続いて，ユーザ感情理解の実現に向け，因子分析から算出した因子得点と音声特徴量との相関を調査している．今回，基本周波数及びパワーを特徴量として用いたが，顕著な相関を得ることはできなかった．Understanding emotions that users hold is becoming important for realizing smooth conversations in spoken dialogue systems. This study discusses the actualities of an automatic emotion understanding by analyzing actual users' utterances collected via field testing our spoken dialogue system "Takemaru-kun". Two testers have carried out the five grade rating with 16 basic emotions to the collected utterances. The factor analysis on the rating result indicated the existence of two factors concerning negative or positive emotions. For realization of the emotions understanding, we have been investigating the correlation between the factors and acoustic features in user's voices. In this paper, the results showed that the factors have no remarkable correlation with the fundamental frequency and the power.
感情音声データベースにおける母音特徴に注目した STRAIGHT による声質・感情変換について

藤井岳史, 西雅史, 高橋徹, 坂野秀樹, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集 2005 ( 1 ) 299 - 300 2005年03月
音声の平均スペクトルを用いた帯域分割型CSP法に基づく話者位置推定法に関する検討

傳田遊亀, 西浦敬信, 河原英紀, 入野俊夫

日本音響学会研究発表会講演論文集 2005 ( 1 ) 521 - 522 2005年03月
STRAIGHT を用いたビブラート歌唱音声の統計的性質

森勢将雅, 平地由美, 坂野秀樹, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集 2005 ( 1 ) 269 - 270 2005年03月
実環境音声情報案内システムにおける発話感情理解のための発話分析

大前壮司, 西村竜一, 河原英紀, 入野俊夫

日本音響学会研究発表会講演論文集 2005 ( 1 ) 63 - 64 2005年03月
STRAIGHT に基く周波数・時間伸縮を用いた感情マッピングのための距離尺度

高橋徹, 坂野秀樹, 西村竜一, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集 2005 ( 1 ) 213 - 214 2005年03月
スペクトル時間変化を制限して合成した劣化音声の知覚

佐藤諭, 入野俊夫, 坂野秀樹, 河原英紀

日本音響学会研究発表会講演論文集 2005 ( 1 ) 251 - 252 2005年03月
歌唱音声の音量変化に伴うスペクトル変形の分析について

田原佳代子, 森勢将雅, 坂野秀樹, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集 2005 ( 1 ) 271 - 272 2005年03月
帯域分割型CSP法に基づく話者位置推定法の検討

傳田遊亀, 西浦敬信, 河原英紀, 入野俊夫

電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション ( 一般社団法人電子情報通信学会 ) 104 ( 539 ) 79 - 84 2004年12月

　概要を見る

音声制御システムやテレビ会議システムなどにおいて,発話者から離れた位置にあるマイクロホンで発話者の音声を高品質に受音することば極めて重要である.発話者から離れた位置のマイクロホンで発話者の音声を高音質に受音する方法として,マイクロホンアレーによる音声強調法が提案されている.しかし,マイクロホンアレーを用いて音声を強調するためには発話者の位置を推定することが必要となる.このため,例えばCSP(Cross-power Spectrum Phase)法に基づく発話者位置推定法が提案されている.しかし,CSP法には高雑音環境下で話者位置推定性能が低下してしまうという問題がある.そこで本稿では,音声の平均スペクトルで重み付けされた帯域分割型CSP法を提案し,音声に特化した位置推定法を提案する.また.提案手法によって発話者位置を推定した後,マイクロホンアレーによって目的音声を強調した場合の音声認識性能も合わせて評価する.実環境における評価実験の結果,提案手法は.従来法より高い話者位置推定性能を得られることを確認した.
帯域分割型CSP法に基づく話者位置推定法の検討

傳田遊亀, 西浦敬信, 河原英紀, 入野俊夫

情報処理学会研究報告音声言語情報処理（SLP） ( 一般社団法人情報処理学会 ) 2004 ( 131 ) 169 - 174 2004年12月

　概要を見る

音声制御システムやテレビ会議システムなどにおいて，発話者から離れた位置にあるマイクロホンで発話者の音声を高品質に受音することは極めて重要である．発話者から離れた位置のマイクロホンで発話者の音声を高音質に受音する方法として，マイクロホンアレーによる音声協調法が提案されている．しかし，マイクロホンアレーを用いて音声を協調するためには発話者の位置を推定することが必要となる．このため，例えばCSP (Cross-power Spectrum Phase)法に基づく発話者位置推定法が提案されている．しかし，CSP法には高雑音環境下で話者位置推定性能が低下してしまうという問題がある．そこで本稿では，音声の平均スペクトルで重み付けされた帯域分割型CSP法を提案し，音声に特化した位置推定法を提案する．また．提案手法によって発話者位置を推定した後，マイクロホンアレーによって目的音声を強調した場合の音声認識性能も合わせて評価する．実環境における評価実験の結果，提案手法は従来法より高い話者位置推定性能を得られることを確認した．It is very important to capture distant-talking speech with high quality for voice-controlled systems or teleconferencing systems. A microphone array steering is an idela candidate as an effective method for capturing distant talking speech with high quality. However, it requires to localize a target talker before capturing distant-talking speech. For this purpose, a talker localization method based on CSP (Cross-power Spectrum Phase) analysis has been proposed, for example. However, talker localization performance of the CSP analysis is degraded in higher noisy environments. To deal with this problem, in this paper, we propose a subband CSP analysis with weighting of average speech spectrum and we propose a specialized localization method for speech. In addition, we evaluate the ASR (Automatic Speech Recognition) performance when the microphone array steering is steered to the estimated talker direction by the proposed method. As a result of evaluation experiments in a real room, we confirmed that the proposed method provides better talker localization performance than the conventional method.
Perception of "size-modulated" speech : The relation between the modulation period and the vowel identification

Tsuzaki Minoru, Irino Toshio

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 34 ( 10 ) 713 - 718 2004年12月
暗騒音に頑健なインパルス応答測定用信号の設計手法

森勢将雅, 入野俊夫, 坂野秀樹, 河原英紀

電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 ) 104 ( 247 ) 37 - 42 2004年08月

　概要を見る

相互相関法によるインパルス応答測定に用いる測定用信号を、測定環境の暗騒音に基づいて設計する手法を提案する。本提案により、室内伝達関数の測定や、音響機器の測定を精度良く行うことが可能となる。特に、コンサートホールなどの室内音響特性を測定する場合問題となる低周波域の暗騒音の影響を低減し、測定精度を向上できる。また、同時に高周波域の暗騒音の影響も低減できる。本報告では、始めに、従来の測定用信号の設計手法と、特徴、問題点を明らかにし、それらを解決する測定用信号の設計手法を示す。また、計算機上のシミュレーションによって、提案手法に含まれるパラメタとパワースペクトルの関係を示す。さらに、実環境による測定例より、提案手法の有効性を示す。
聴覚ボコーダを用いたイベント同期による音声分離

入野俊夫, Patterson Roy D., 河原英紀

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 33 ( 9 ) 603 - 608 2003年11月
STRAIGHTスペクトルに基づく音源信号の抽出と非周期成分の評価について

河原英紀, 森勢将雅, 高橋徹, 入野俊夫, 坂野秀樹, 藤村靖

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 106 ( 333 ) 43 - 48 2003年11月

　概要を見る

高品質な音声分析・変換・合成を目的として,音源情報抽出の研究を進めている。ここでは問題の設定そのものから議論し直すことにより,合成系との整合性の良い非周期成分の抽出法を提案する。これらの議論を通じて,群遅延を利用した持続時間の周波数領域での表現と,STRAIGHTスペクトルから計算した最小位相の逆フィルタを用いて求められる音源信号の帯域毎の持続時間,基本周期分だけ離れた区間の信号による予測残差,スペクトル概形の時間変化による見かけの予測残差と非周期成分との関係を明らかにする。
聴覚ボコーダを用いた基本周期に基づく音声分離

入野俊夫, ロイ D パターソン, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 103 ( 155 ) 55 - 60 2003年06月

　概要を見る

聴覚イメージモデル(AIM)とイベント同期処理にもとづいて、音声を分離する手法を開発した。 AIMは我々が音を知覚する時に使う脳内表現と思われる「聴覚イメージ」を出すために開発されたものである。さらに、このAIMを高音質ボコーダであるSTRAIGHTと組み合わせて、音を再合成できるようにした「聴覚ボコーダ」も開発した。聴覚表現は、従来の窓関数をかけて処理する手法と異なり、詳細な時間情報を保持しているので、声帯イベントに同期させることにより他から音声を分離することができる。そのためにも、基本周波数FOからイベント時刻を計算する手法も開発した。イベント時刻が完全に推定できる場合、SNRがO dB でも同時発話の音声からの分離性能が良いことを示した。抽出された目的音は歪んではいるが明瞭であるのに対し、妨古音は非音声的で知覚的に邪魔ではない。この分離音は、妥当な聴覚モデルの表現から単に再合成されているだけであるので、このシステムは聴覚系の処理についての示唆を与える可能性がある。
聴覚ボコーダを用いた基本周期に基づく音声分離

入野俊夫, パターソンロイ D., 河原英紀

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 33 ( 4 ) 311 - 316 2003年06月
聴覚ボコーダによる混合音声からの音声分離

入野俊夫, パターソンロイ D., 河原英紀

日本音響学会研究発表会講演論文集 2003 ( 1 ) 343 - 344 2003年03月
初期聴覚系におけるスケール理論

入野俊夫

日本音響学会研究発表会講演論文集 2003 ( 1 ) 511 - 514 2003年03月
初期聴覚系の計算理論 : 理論的最適性・データ説明・生態学的観点

入野俊夫

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 32 ( 7 ) 455 - 460 2002年09月
占有度を用いた耐雑音性の高い基本周波数推定法

中谷智広, 入野俊夫

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 32 ( 2 ) 105 - 112 2002年03月
占有度を用いた耐雑音性の高い基本周波数推定法

中谷智広, 入野俊夫

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 101 ( 744 ) 21 - 28 2002年03月

　概要を見る

本稿では、背景雑音に加えてスペクトル変形を伴なった入力音声に対しても、頑健かつ精度良く基本周波数(F_0)を推定するための新しい方法を提案する。このため、各調波成分が近傍の周波数帯域において背景雑音の影響を受けていない度合いを示す尺度である占有度(degree of dominance)を、瞬時周波数に基づき定義する。占有度を用いることで信頼できる調波成分を容易に選択できるようになり、これに基づき頑健にF_0推定を行うことができる。評価実験では、白色雑音下またはマルチトーカ雑音下での入力音に、電話音声を模擬するSRAENフィルタによるスペクトル変形を与えた場合と与えない場合について、F_0正解率、およびF_0の実効誤差の評価を行った。実験結果より、提案法は、あらゆる条件下において、従来法と比べて良い結果が得られることを示す。
時間周波数表現における3種類の不動点と音響的特徴について

河原英紀, ZOLFAGHARI Parham, 入野俊夫

日本音響学会研究発表会講演論文集 2002 ( 1 ) 497 - 498 2002年03月
調波成分の占有度を用いた基本周波数抽出法

中谷智広, 入野俊夫

日本音響学会研究発表会講演論文集 2002 ( 1 ) 323 - 324 2002年03月
様々な周波数における圧縮型ガンマチャープのパラメータ推定

鵜木祐史, PATTERSON Roy D., 入野俊夫

日本音響学会研究発表会講演論文集 2002 ( 1 ) 495 - 496 2002年03月
様々な周波数のノッチ雑音データへの圧縮型ガンマチャープの適合

鵜木祐史, Patterson Roy D., 入野俊夫

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 32 ( 1 ) 41 - 48 2002年01月
幼児音声の基本周波数および有声区間の推定法

中谷智広, 天野成昭, 入野俊夫

日本音響学会研究発表会講演論文集 2002 2002年
瞬時周波数を用いたF_0抽出法の複数音声による評価

中谷智広, 入野俊夫

日本音響学会研究発表会講演論文集 2001 ( 2 ) 211 - 212 2001年10月
解説記事 Multiscale computing

Mei Kobayashi, Toshio Irino, Wim Sweldens

Proceedings of the National Academy of Sciences of the United States of America ( NATL ACAD SCIENCES ) 98 ( 22 ) 12344 - 12345 2001年10月

　概要を見る

Multiscale computing (MSC) involves the computation, manipulation, and analysis of information at different resolution levels. Widespread use of MSC algorithms and the discovery of important relationships between different approaches to implementation were catalyzed, in part, by the recent interest in wavelets. We present two examples that demonstrate how MSC can help scientists understand complex data. The first is from acoustical signal processing and the second is from computer graphics.

DOI
解説記事私のすすめるこの1冊 : 「相対性理論」アインシュタイン著, 内山龍雄訳・解説, 岩波文庫, 1988

入野俊夫

日本音響学会誌 ( 一般社団法人日本音響学会 ) 57 ( 8 ) 565 - 566 2001年08月
STRAIGHTを用いた聴覚メリンイメージからの信号再合成

入野俊夫, パターソンロイ D., 河原英紀

聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 ) 31 ( 5 ) 315 - 322 2001年07月
STRAIGHTを用いた聴覚メリンイメージからの信号再合成

入野俊夫, パターソンロイ D., 河原英紀

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 101 ( 232 ) 31 - 38 2001年07月

　概要を見る

音声分析合成法は、VOCODERに始まり過去様々な研究が積み重ねられ、LPC法での携帯電話に代表されるように幅広く応用されている。しかしながら、人間の聴知覚特性のモデルを導入した音声分析合成法はいままで提案されてこなかった。本稿では、初期聴覚系の計算論での表現である聴覚メリンイメージから、最新型VOCODERであるSTRAIGHTシステムを媒介として音を再合成する手法について提案した。このために、両者を結びつける写像器を導入し、周波数伸縮離散余弦展開と非線形多変量解析を用いて実現した。ここではシステムの構成と各部分の処理、音合成をおこなった結果について述べる。これにより今後、たとえば雑音抑圧や音源分離といった聴覚経路で行われていると考えられる処理を定式化した場合、再合成音を用いて評価し利用することができるようになると期待できる。
調波成分の瞬時周波数を用いたピッチ推定方法の検討

阿竹義徳, 入野俊夫, 河原英紀, 陸金林, 中村哲, 鹿野清宏

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 99 ( 679 ) 25 - 32 2000年03月

　概要を見る

1996年に河原らが開発したSTRAIGHTは、VOCODER型分析合成方式であるにも関わらず、原音に迫る高い自然性を持った分析合成音を得ることが可能である。しかし、耐雑音性が低く、雑音環境下では合成音声の品質が大きく劣化するという弱点があった。それは、STRAIGHTが処理の各段階にピッチ周期に同期した処理を積極的に利用していて、雑音により推定されたピッチ周波数が誤差を含んだ場合、その影響を大きく受けることが原因と考えられる。そこで本文では、その欠点を克服するために耐雑音性の高いピッチ周波数推定方法を提案する。このため、従来のTEMPO法で用いられてきた基本波成分だけではなく、その調波成分も利用し、Cohenの帯域幅方程式を用いて統合する新しい方法を提案する。また、提案手法の性能の評価のために、音声データとEGGデータを同時収録したデータベースを作成した。これを用いて提案法およびTEMPO法などの従来法と推定精度の比較をした結果、提案法は他の従来法に比べて無雑音では同等以上で、雑音付加時の推定精度は大幅に改善されることがわかった。
ガンマチャープによるネコの基底膜インパルス応答への適合

入野俊夫, PATTERSON Roy D.

日本音響学会研究発表会講演論文集 2000 ( 1 ) 397 - 398 2000年03月
調波成分の瞬時周波数を利用したピッチ推定方法の提案

阿竹義徳, 入野俊夫, 河原英紀, 陸金林, 中村哲, 鹿野清宏

日本音響学会研究発表会講演論文集 2000 ( 1 ) 251 - 252 2000年03月
ガンマチャープ聴覚フィルタバンクによる定常雑音抑圧

入野俊夫

電子情報通信学会技術研究報告. DSP, ディジタル信号処理 ( 一般社団法人電子情報通信学会 ) 99 ( 504 ) 59 - 66 1999年12月

　概要を見る

雑音環境下における音声信号に対する雑音抑圧処理でもっとも引用されているスペクトルサブトラクション法は、基本的にノンパラメトリックで処理が単純であるため応用しやすい。しかし、分析合成系で用いた場合、合成音には"musical noise"「楽音的雑音」が乗り、処理をした方がかえって目的信号が聞き取りにくくなるという問題点があった。そこで本資料では、先に提案した時変分析合成ガンマチャープ聴覚フィルタバンクを用いてこの問題を本質的に解決する方法を提案する。本方法は、スペクトルサブトラクション法と同じ前提条件だけで同等のSNR改善ができ、また、楽音的雑音が生じず白色雑音は低いレベルの白色的雑音に合成できるので知覚的にも有利である。この実現には、聴覚フィルタ特性を良く近似できるガンマチャープ関数系を使っているので、聴取者がいる場合の応用への展開に有利である。(本資料は、目本音響学会聴覚研究会資料H-98-98(1998年9月)をもとに、一部分に手を加えたものである。)
音源形状のイメージング:聴覚系の最適信号処理

入野俊夫, PATTERSON Roy D.

日本音響学会研究発表会講演論文集 1999 ( 2 ) 1177 - 1178 1999年09月
STRAIGHTの基本周波数抽出に対する帯域幅方程式の適用

阿竹義徳, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集 1999 ( 1 ) 199 - 200 1999年03月
生理学的制約を考慮にいれたガンマチャープの係数決定

入野俊夫, PATTERSON Roy D.

日本音響学会研究発表会講演論文集 1999 ( 1 ) 381 - 382 1999年03月
聴覚経路における音源の大きさの正規化について

入野俊夫, PATTERSON Roy D.

日本音響学会研究発表会講演論文集 1999 ( 1 ) 383 - 384 1999年03月
ガンマチャープフィルタバンクによる雑音抑圧

入野俊夫

日本音響学会研究発表会講演論文集 1998 ( 2 ) 241 - 242 1998年09月
ガンマチャープフィルタバンクの構築

鵜木祐史, 入野俊夫, 下平博

Research report ( 北陸先端科学技術大学院大学 ) 98 1 - 11 1998年03月
ガンマチャープフィルタバンクによる時変系分析合成聴覚モデル

入野俊夫, 鵜木祐史

日本音響学会研究発表会講演論文集 1998 ( 1 ) 413 - 414 1998年03月
ガンマチャープフィルタバンクにおける非対称性の制御方法

鵜木祐史, 入野俊夫

日本音響学会研究発表会講演論文集 1998 ( 1 ) 415 - 416 1998年03月
解説記事 11 th International Symposium on HearingとComputational Auditory Scene Analysis'97に参加して

津崎実, 入野俊夫

日本音響学会誌 ( 一般社団法人日本音響学会 ) 54 ( 2 ) 162 - 163 1998年02月
IIRフィルタによるガンマチャープフィルタの実現

入野俊夫, 鵜木祐史

日本音響学会研究発表会講演論文集 1997 ( 2 ) 421 - 422 1997年09月
自己相関関数による聴知覚の時間非対称性の説明可能性

入野俊夫, PATTERSON Roy D.

日本音響学会研究発表会講演論文集 1997 ( 1 ) 455 - 456 1997年03月
ガンマチャープ関数による聴覚フィルタの近似

入野俊夫, パターソンロイ D.

日本音響学会研究発表会講演論文集 1996 ( 2 ) 385 - 386 1996年09月
最適聴覚フィルタの計算理論的位置づけ

入野俊夫

日本音響学会研究発表会講演論文集 1995 ( 2 ) 421 - 422 1995年09月
聴覚末梢系の計算理論

入野俊夫

電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 ) 95 ( 140 ) 23 - 30 1995年07月

　概要を見る

本論文では、聴覚末梢系の計算理論について、Marrによる初期視覚の計算理論に対応する形で議論を展開した。まず、ガンマチャープ関数が、時間-スケール表現において最小不確定性の意味で最適となり、聴覚フィルタへの近似も心理物理実験的に良くなることを示した。また、ウェーブレットフィルタを使うと800Hz以上の聴覚フィルタバンクが構成可能で、スケール表現不変の意味で最適となることを述べた。次に、聴知覚現象を説明するための事象検出と強調を行うデルタガンマ理論について述べた。末梢系と中枢系の一部の神経細胞の発火パターンをこの理論の枠組で説明できることを示した。
ガンマトーンフィルタの最適性について

入野俊夫

日本音響学会研究発表会講演論文集 1995 ( 1 ) 449 - 450 1995年03月
C-4 零温度係数を持つSiC/SiO_2/LiTaO_3構造弾性境界波基板(表面弾性波)

入野俊夫, 渡辺隆弥, 清水康敬

超音波エレクトロニクスの基礎と応用に関するシンポジウム講演予稿集 ( 超音波エレクトロニクスの基礎と応用に関するシンポジウム運営委員会 ) ( 8 ) 69 - 70 1987年12月
E-3 二枚の基板を接着した境界層に沿って伝搬する弾性境界波(弾性表面波とデバイスI)

入野俊夫, 清水康敬

超音波エレクトロニクスの基礎と応用に関するシンポジウム講演予稿集 ( 超音波エレクトロニクスの基礎と応用に関するシンポジウム運営委員会 ) ( 6 ) 119 - 120 1985年12月
C-1 圧電体とガラスとの境界面を伝搬するストンリー波(表面波伝搬とデバイスI)

清水康敬, 入野俊夫

超音波エレクトロニクスの基礎と応用に関するシンポジウム講演予稿集 ( 超音波エレクトロニクスの基礎と応用に関するシンポジウム運営委員会 ) ( 3 ) 79 - 80 1982年12月

▼全件表示

受賞（研究活動に関するもの）

フェロー

受賞者：入野俊夫

2010年04月米国音響学会 (Acoust. Soc. Am., ASA)
IEEE Kansai支部メダル（IEEE senior member)

2004年06月 IEEE Kansai chapter
第40回佐藤論文賞

2000年日本音響学会
粟屋潔学術奨励賞

1989年日本音響学会

講演・口頭発表等

Gammachirp Envelope Similarity Index (GESI)による模擬難聴音声の了解度予測～防音室実験とクラウドソーシング遠隔実験の主観評価データを用いて～

入野俊夫, 田丸萌夏, 山本絢子

音学シンポジウム2022 2022年06月18日
ガンマチャープ聴覚フィルタに基づく模擬難聴システム WHIS の新実装

入野俊夫

The 3rd Japan-Taiwan Symposium on Psychological and Physiological Acoustics, 日本音響学会聴覚研究会 2021年12月11日
模擬難聴を用いた補聴処方式の評価

時政和征, 土庵晋太郎, 川⻄真樹, 入野俊夫

日本音響学会関西支部,第27回関西支部若手研究者交流研究発表会 2024年12月14日
感情音声の弁別特性における模擬難聴処理の有無の違い − 落着きと怒り・悲しみ・喜びとの間の弁別 −

山崎花梨, 花谷幸歩, 黑谷悠太, 入野俊夫

日本音響学会関西支部,第27回関西支部若手研究者交流研究発表会 2024年12月14日
高齢者の聞こえを模擬した音声を用いた健聴者了解度実験

宮﨑芙紀, 國中敬太, 森本隆司, 入野俊夫

日本音響学会関西支部,第27回関西支部若手研究者交流研究発表会 2024年12月14日
感情音声の弁別特性における健聴者と高齢者との違い − 落着きと怒り・悲しみ・喜びとの間の弁別 −

黑谷悠太, 花谷幸歩, 山崎花梨, 入野俊夫

日本音響学会関西支部,第27回関西支部若手研究者交流研究発表会 2024年12月14日
高齢者を対象とした音声了解度実験と客観評価指標 GESI を用いた予測

宮﨑芙紀, 馬野颯太, 山本絢子, 森本隆司, 入野俊夫

日本音響学会第152回（2024年秋季）研究発表会 2024年09月05日
模擬難聴システムの非線形歪み評価とアルゴリズム

土庵晋太郎, 入野俊夫, 石川美波

音学シンポジウム2024 2024年06月14日
音声からの感情弁別に対する難聴の影響 -模擬難聴処理を用いた健聴者実験-

花谷幸歩, 岸田一馬, 内藤朱里, 河原英紀, 入野俊夫

日本音響学会第151回（2024年春季）研究発表会 2024年03月06日
音声からの感情弁別に対する難聴の影響 -高齢難聴者と模擬難聴者の実験-

花谷幸歩, 岸田一馬, 内藤朱里, 河原英紀, 入野俊夫

日本音響学会聴覚研究会 2024年02月23日
模擬難聴システムの音声歪み比較ーケンブリッジ対和歌山ー

土庵晋太郎, 石川美波, 入野俊夫

日本音響学会関西支部,第25回関西支部若手研究者交流研究発表会 2023年12月09日
高齢者を対象とした IRM 強調処理音声の了解度主観評価

宮﨑芙紀, 馬野颯太, 森本隆司, 入野俊夫

日本音響学会関西支部,第25回関西支部若手研究者交流研究発表会 2023年12月09日
高齢者の聞こえの模擬による音声感情知覚実験

花谷幸歩, 岸田一馬, 内藤朱里, 河原英紀, 入野俊夫

日本音響学会関西支部,第25回関西支部若手研究者交流研究発表会 2023年12月09日
音声情報抽出に有効な聴覚表現: 理論・測定・推定・応用

入野俊夫 [招待有り]

日本音響学会聴覚研究会 2023年11月23日
What is an Effective Auditory Representation for Estimating Vocal Tract Information? - Effectiveness of "Auditory Motivated" Models -

Toshio Irino, Shintaro Doan [招待有り]

Miini-workshop "Engneering the Future of Hearing Science and Speech Technologies" 2023年11月06日
A First Step in Predicting Speech Intelligibility for Elderly Listeners with Hearing Loss: Gammachirp Envelope Similarity Index (GESI)

Ayako Yamamoto, Toshio Irino, Fuki Miyazaki, Honoka Tamaru [招待有り]

Mini-workshop "Engneering the Future of Hearing Science and Speech Technologies 2023年11月06日
GESI による実拡声環境下での低親密度単語了解度の推定

渡邊健太郎, 小林洋介, 入野俊夫

日本音響学会第150回（2023年秋季）研究発表会 2023年09月26日
客観評価指標 GESI による模擬難聴音声了解度の個人別予測

山本絢子, 宮﨑芙紀, 田丸萌夏, 入野俊夫

日本音響学会春季研究発表会 2023年03月17日
クラウドソーシング聴取実験のための効果的な事前参加者スクリーニング

宮﨑芙紀, 山本絢子, 土庵晋太郎, 入野俊夫

日本音響学会春季研究発表会 2023年03月17日
基本周波数適応型聴覚表現による声道長推定

入野俊夫, 土庵晋太郎

電子情報通信学会, 音声研究会 2023年02月28日
客観評価指標 GESI による模擬難聴音声の了解度予測 – 健聴者による原音声の主観評価値のみを用いて –

山本絢子, 宮﨑芙紀, 田丸萌夏, 入野俊夫

日本音響学会聴覚研究会 12月九州大学大橋キャンパス 2022年12月18日
クラウドソーシング聴取実験のための効果的な事前参加者スクリーニングの検討

宮﨑芙紀, 山本絢子, 土庵晋太郎, 入野俊夫

日本音響学会関西支部,第25回関西支部若手研究者交流研究発表会 2022年11月26日
模擬難聴音声了解度の主観評価実験とGESIによる予測

山本絢子, 宮﨑芙紀, 田丸萌夏, 入野俊夫

日本音響学会関西支部,第24回関西支部若手研究者交流研究発表会 2022年11月26日
高齢難聴者の音声了解度客観評価を目指したGESI の開発 - 強調音声と模擬難聴音声による評価 -

山本絢子, 入野俊夫, 荒木章子, 田丸萌夏, 新井賢一, 小川厚徳, 木下慶介, 中谷智広

日本音響学会：秋季研究発表会 2022年09月16日
拡声環境を想定した音声了解度指標GESIと従来手法との比較

渡邊健太郎, 小林洋介, 入野俊夫

日本音響学会：秋季研究発表会 2022年09月16日
客観評価指標GESIによる音声了解度予測 - 強調処理音声と音圧低減音声を対象として -

山本絢子, 入野俊夫, 荒木章子, 田丸萌夏, 新井賢一, 小川厚徳, 木下慶介, 中谷智広

日本音響学会聴覚研究会 2022年07月08日
Conformer-based fusion of text, audio, and listener characteristics for predicting speech intelligibility of hearing aid users

Naoyuki Kamo, Kenichi Arai, Atsunori Ogawa, Shoko Araki, Tomohiro Nakatani, Keisuke Kinoshita, Marc Delcroix, Tsubasa Ochiai, Toshio Irino

the 2nd Clarity Workshop on Machine Learning Challenges for Hearing Aids (Clarity-2022), 2022年06月29日
異なる身長の小学生の音声を用いた寸法知覚実験

上野朱音, 入野俊夫, 山本絢子

日本音響学会春季研究発表会 2022年03月11日
模擬難聴システムWHISの新実装と末梢系特性の音声了解度への影響

入野俊夫, 田丸萌夏, 山本絢子

日本音響学会春季研究発表会 2022年03月10日
MVDRビームフォーマーによる音声強調処理の了解度評価ー防音室実験とクラウドソーシング実験の対比ー

山本絢子, 入野俊夫, 新井賢一, 荒木章子, 小川厚徳, 木下慶介, 中谷智広

日本音響学会, 2022 春季研究発表会 2022年03月09日
IRMを用いた音声強調処理の主観了解度の上限評価 - 防音室実験とクラウドソーシング実験の対比

山本絢子, 入野俊夫, 新井賢一, 荒木章子, 小川厚徳, 木下慶介, 中谷智広

日本音響学会／電子情報通信学会 2022年3月音声研究会 2022年03月
マルチチャンネル音声強調処理の主観評価

山本絢子, 入野俊夫, 新井賢一, 荒木章子, 小川厚徳, 木下慶介, 中谷智広

日本音響学会関西支部,第24回関西支部若手研究者交流研究発表会 2021年12月04日
利用価値の高い音声データの録音手順の実際と支援ツールについて～オールパスフィルタの従属接続に基づく拡張された時間伸長パルスの応用～

河原英紀, 矢田部浩平, 榊原健一, 水町光徳, 森勢将雅, 坂野秀樹, 入野俊夫

音学シンポジウム2021 2021年06月
クラウドソーシングを利用した音声了解度実験ーウェッブページ制作からデータスクリーニングー

山本絢子, 入野俊夫, 新井賢一, 荒木章子, 小川厚徳, 木下慶介, 中谷智広

音学シンポジウム2021 2021年06月
音声資料の収録・再生環境の簡易な把握に向けて: オールパスフィルタの従属接続に基づく拡張された時間伸長パルスの応用

河原英紀, 矢田部浩平, 榊原健一, 水町光徳, 森勢将雅, 坂野秀樹, 入野俊夫

日本音響学会春季研究発表会 2021年03月12日
クラウドソーシングと防音室における音声了解度実験の対比

山本絢子, 入野俊夫, 新井賢一, 荒木章子, 小川厚徳, 木下慶介, 中谷智広

電子情報通信学会, 音声研究会 2021年03月03日
オンライン実験のためのWebページ制作と聴取条件統制へ向けた検討

山本絢子, 入野俊夫

日本音響学会関西支部,第23回関西支部若手研究者交流研究発表会 2020年12月05日
音声収集と聴取における対話的実時間音響計測ツールの応用について

河原英紀, 榊原健一, 水町光徳, 入野俊夫

日本音響学会聴覚研究会 2020年11月20日
非侵襲心理物理実験による聴覚末梢系の特性推定とその応用

入野俊夫 [招待有り]

第30回日本耳科学会 2020年11月12日
模擬難聴システムWHIS を用いた発声訓練が明瞭性に与える効果とその持続性

東山宗一, 吉木華子, 入野俊夫

日本音響学会：春季研究発表会 2020年03月16日
ささやき声の寸法知覚におけるピッチ感を導入したモデル化

上村怜央, 入野俊夫, ロイ D. パターソン

日本音響学会：春季研究発表会 2020年03月16日
音声の基本周波数に対する聴覚の影響の測定への周波数領域ベルベットノイズの応用について

河原英紀, 榊原健一, 津崎実, 松井淑恵, 森勢将雅, 入野俊夫

電子情報通信学会, 音声研究会 2020年03月02日
模擬難聴システムWHISを用いた発声訓練音声の発声特徴量と聴覚特徴量

東山宗一, 吉木華子, 河原英紀, 入野俊夫

電子情報通信学会, 音声研究会 2020年03月02日
レベル依存蝸牛雑音フロアを導入した聴覚フィルタ特性推定

横田健治, 入野俊夫, 松浦弘樹, 仲間杏, Roy Patterson

日本音響学会聴覚研究会 2020年02月15日 (琉球大学（沖縄県中頭郡）) 日本音響学会

　概要を見る

50 (1), pp.29-34, H-2020-6
聴力低下が音声からの男女判別に与える影響ー高齢者と模擬難聴システムWHISによる実験ー

小森理子, 奥谷友梨, 入野俊夫

日本音響学会聴覚研究会 2020年02月15日 (琉球大学（沖縄県中頭郡）) 日本音響学会

　概要を見る

Vol50(1), pp.17-22, H-2020-4
感情推移観測システムによるスキーマ療法における感情表出の定量化に関する予備的検討

仁田雄介, 入野俊夫, 古山宣洋, 花田里欧子, 井上雅史, 門田圭祐, 熊野宏昭

早稲田大学応用脳科学研究所応用脳科学カンファレンス 2020年02月10日
Effects of modified auditory feedback simulating age related hearing loss on piano performances

Minoru Tsuzaki, Noriko Maegawa, Chie Ohsawa, Hideki Banno, Toshio Irino

ARO 43rd MidWinter Meeting 2020年01月25日 (San Jose, CA, USA) Association for Research in Otolaryngology
Extending the gammachirp model of notched-noise masking to include absolute threshold: Exploring improvements in the fit provided by assuming an internal, level-dependent, cochlear noise floor

Kenji Yokota, Toshio Irino, Roy D. Patterson

ARO 43rd MidWinter Meeting 2020年01月25日 (San Jose, CA, USA) Association for Research in Otolaryngology
模擬難聴システム WHIS を用いた拡張聴覚心理実験と演習

野崎航, 小森理子, 吉木華子, 松井淑恵, 入野俊夫

第22回関西支部若手研究者交流研究発表会 2019年11月30日 (大阪産業大(大阪市)) 日本音響学会関西支部

　概要を見る

#14(ポスター)
ささやき声のピッチ感は寸法知覚に影響を与えるか? ー計算モデルによる検討ー

上村怜央, 入野俊夫, Roy D. Patterson

第22回関西支部若手研究者交流研究発表会 2019年11月30日 (大阪産業大(大阪市)) 日本音響学会関西支部

　概要を見る

#15(ポスター)(筆頭著者上村怜央、「優秀奨励賞」受賞 4位内/39件中)
模擬難聴システム WHIS を用いた発声訓練音声の韻律特徴分析

東山宗一, 吉木華子, 入野俊夫

第22回関西支部若手研究者交流研究発表会 2019年11月30日 (大阪産業大(大阪市)) 日本音響学会関西支部

　概要を見る

#15(ポスター)(筆頭著者東山宗一、「奨励賞」受賞 6位内/39件中)
音響システムの各種特性の計測における周波数領域velvet noiseの応用について

河原英紀, 榊原健一, 水町光徳, 森勢将雅, 坂野秀樹, 入野俊夫

音響研究会（EA）/聴覚研究会 2019年10月28日 (東京 (EA, ASJ-H)) NHK放送技術研究所

　概要を見る

2019年10月28日-29日
加齢性難聴によりピアノ奏者は何か変わるか

津崎実, 前川典子, 大澤智恵, 坂野秀樹, 入野俊夫 [招待有り]

日本音響学会春季研究発表会 2019年09月06日 (立命館大学びわこ・くさつキャンパス,滋賀県草津市) 日本音響学会

　概要を見る

春季研究発表会講演論文集,3-2-6, pp.1333--1336 4-6 Sep 2019
模擬難聴システムと聴覚・音声実験への応用

入野俊夫 [招待有り]

日本音響学会春季研究発表会 2019年09月06日 (立命館大学びわこ・くさつキャンパス,滋賀県草津市,) 日本音響学会

　概要を見る

春季研究発表会講演論文集,3-2-4, pp.1329--1330 4-6 Sep 2019
通常発声とささやき声を対比した寸法知覚の計算モデル

上村怜央, 入野俊夫, Patterson Roy D

日本音響学会：春季研究発表会講演論文集 2019年09月04日 (立命館大学びわこ・くさつキャンパス,滋賀県草津市,) 日本音響学会

　概要を見る

1-R-2, pp.579--582,
聴覚フィルタ推定における蝸牛雑音フロアの設定法について

横田健治, 入野俊夫, Patterson Roy D

日本音響学会：春季研究発表会講演論文集 2019年09月04日 (立命館大学びわこ・くさつキャンパス,滋賀県草津市,) 日本音響学会

　概要を見る

1-R-16, pp.615--616,
ＤＮＮ音声認識システムによる単語了解度予測

新井賢一, 荒木章子, 小川厚徳, 木下慶介, 中谷智広, 山本克彦, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2019年09月04日 (立命館大学びわこ・くさつキャンパス,滋賀県草津市,) 日本音響学会

　概要を見る

3-P-34, pp.703--706,
Modification of piano performance by simulated hearing loss: Analyses on the key velocities and output powers,

Minoru Tsuzaki, Noriko Maegawa, Chie Ohsawa, Hideki Banno, Toshio Irino

International Symposium on Performance Science 2019 (ISPS2019) 2019年07月16日
模擬難聴システムの教育・臨床・研究への適用と言語聴覚士による評価

長谷川純, 吐師道子, 松井淑恵, 入野俊夫

第20回日本言語聴覚学会 2019年06月28日 (iichiko総合文化センター他, 大分) 日本言語聴覚学会

　概要を見る

1-P03-4,28-29 Jun 2019 http://www.congre.co.jp/jaslht20/
Hearing impairment simulator: its background and applications,

入野俊夫 [招待有り]

2019 The 2nd Japan-Taiwan Symposium Psychological and Physiological Acoustics — Inclusive Sound Design 2019年05月17日 (National Yang Ming University, Taipei)

　概要を見る

https://2019-jptw-symp.github.io
言語聴覚士教育における模擬難聴システムを使用した演習の効果

長谷川純, 吐師道子, 松井淑恵, 入野俊夫

第45回日本コミュニケーション障害学会 2019年05月12日 (川崎医療福祉大学, 倉敷)

　概要を見る

http://jacd45.umin.jp/program.html
模擬難聴システムを用いた発声訓練が発話長に与える効果とその持続性

東山宗一, 入野俊夫, 山内悠記

日本音響学会：春季研究発表会講演論文集,2-3-1 2019年03月05日 (東京都調布市) 電気通信大学
通常発声とささやき声を対比した場合の寸法知覚

上村怜央, 入野俊夫, Roy D. Patterson

日本音響学会：春季研究発表会講演論文集,3-P-24 2019年03月05日 (東京都調布市) 電気通信大学
ノッチ雑音レベルに依存した蝸牛雑音を考慮した聴覚フィルタ特性推

横田健治, 入野俊夫, 松浦弘樹, Roy D. Patterson

日本音響学会：春季研究発表会講演論文集,3-P-40, 2019年03月05日 (東京都調布市) 電気通信大学
模擬難聴を使った聴力低下による音声寸法弁別特性への影響

米満麻弥, 入野俊夫, 上村怜央, Roy D. Patterson

日本音響学会：春季研究発表会講演論文集,3-P-23 2019年03月05日 (東京都調布市) 電気通信大学
レベル依存性のある蝸牛雑音フロアを考慮した聴覚フィルタ特性の推定

横田健治, 入野俊夫, 松浦弘樹, Roy D. Patterson

聴覚研究会 2018年12月14日 (福岡市) 九州大

　概要を見る

2018年12月14日-15日
ガンマチャープ聴覚フィルタバンクに基づく模擬難聴システムの実装と教育応用

松井淑恵, 坂野秀樹, 西村竜一, 入野俊夫

電子情報通信学会, 音声研究会/福祉工学研究会 2018年10月27日 (九州工大(北九州市)) 電子情報通信学会, 音声研究会/福祉工学研究会

　概要を見る

vol. 118, no. 269, SP2018-38, pp. 31-36
The gammachirp auditory filter and its application to speech perception

Toshio Irino, Roy D. Patterson [招待有り]

International Symposium on Universal Acoustical Communication 2018 2018年10月24日 (東北大学、仙台)
複数の雑音条件下における共通パラメータを用いた音声了解度予測

山本克彦, 入野俊夫, 荒木章子, 木下慶介, 中谷智広

秋季研究発表会講演論文集 2018年09月12日 (大分大学旦野原キャンパス(大分県大分市)) 日本音響学会

　概要を見る

2-P-42, pp.897-898, 12-14 Sep 2018,
敵対的生成ネットワークを用いた楽曲の自動コード推定法の検討

納庄貴大, 西村竜一, 入野俊夫

第120回音楽情報科学研究会(夏のシンポジウム) 2018年08月22日 (広島工業大学五日市キャンパス講義棟「三宅の森 Nexus21」 9F(広島県広島市佐伯区)) 情報処理学会

　概要を見る

発表番号6, 研究報告音楽情報科学(MUS), 2018-MUS-120(6),1- 6,2018年8月21日-23日
通常発声とささやき声を比較した時の寸法知覚-どちらが小さい話者に聞こえる？

上村怜央, 入野俊夫, Roy D. Patterson

情報処理学会, 音学シンポジウム2018 2018年06月17日 (東京大学本郷キャンパス(東京都文京区))

　概要を見る

発表番号57, 研究報告音楽情報科学（MUS）,2018-MUS-119(57),1-6 (2018-06-09), 2018年6月16日-17日
蝸牛雑音を導入した絶対閾値と聴覚フィルタ特性の同時推定

横田健治, 入野俊夫, 松井淑恵, Roy D. Patterson

情報処理学会, 音学シンポジウム2018 2018年06月17日 (東京大学本郷キャンパス(東京都文京区))

　概要を見る

発表番号59, 研究報告音楽情報科学（MUS）,2018-MUS-119(59),1-5 (2018-06-09) , 2018年6月16日-17日
模擬難聴システムを用いた発話訓練による音声の明瞭性向上の評価

東山宗一, 入野俊夫

情報処理学会, 音学シンポジウム2018 2018年06月17日 (東京大学本郷キャンパス(東京都文京区))

　概要を見る

発表番号55, 研究報告音楽情報科学（MUS）,2018-MUS-119(55),1-6 (2018-06-09), 2018年6月16日-17日
臨床心理面接における傾聴度変化の評価−臨床心理士と初学者の比較

花田里欧子, 中島隆太郎, 井上雅史, 古山宣洋, 入野俊夫

人工知能学会全国大会(第28回) 2018年06月05日 (城山観光ホテル(鹿児島市))

　概要を見る

3C1-OS-14a-02, 2018年6月5日〜8日
Effet différencié d’un simulateur de perte auditive sur la compression cochléaire et la sélectivité fréquentielle,

Nicolas Grimault, Toshio Irino, Samar Dimachki, Alexandra Corneyllie, Roy D. Patterson, Samuel Garcia

CFA 18 - French Acoustical Congress of Acoustic, Le Harve, 23-27 April 2018. 2018年04月
バブル雑音重畳と強調処理された音声の模擬難聴下における了解度 (応用音響)

大橋成美, 余村直子, 山本克彦, 荒木章子, 木下慶介, 中谷智広, 入野俊夫

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 2018年03月19日 (ホテルミヤヒラ(沖縄石垣市))

　概要を見る

電子情報通信学会音声研究会, 信学技報, vol. 117,no.517, SP2017-99, pp. 87-92,
低雑音レベルを含めたノッチ雑音マスキング閾値と聴覚フィルタ推定

横田健治, 入野俊夫, ロイ D. パターソン

日本音響学会 2018年03月13日 (日本工業大学宮代キャンパス（埼玉県南埼玉郡))

　概要を見る

春季研究発表会講演論文集,2-P-17, pp.691-692, 13-15 Mar 2018
コンプリメントのアノテーション

井上雅史, 中島隆太郎, 花田里欧子, 古山宣洋, 入野俊夫

電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 2018年03月13日東北大学電気通信研究所(宮城県,仙台市)

　概要を見る

電子情報通信学会ヒューマンコミュニケーション基礎研究会 (HCS) , vol. 117, no.509, HCS2017-95, pp. 11-15, 2018年3月13日〜14日
振幅包絡歪み指標に基づくバブル雑音下の音声明瞭予測

山本克彦, 大橋成美, 入野俊夫, 荒木章子, 木下慶介, 中谷智広

日本音響学会 2018年03月13日 (日本工業大学宮代キャンパス（埼玉県南埼玉郡))

　概要を見る

春季研究発表会講演論文集,3-P-7, pp.1305-1308, 13-15 Mar 2018
小型ボードコンピュータ Raspberry Piを用いた笑い声の収集

入野俊夫

日本音響学会 2018年03月13日 (日本工業大学宮代キャンパス（埼玉県南埼玉郡))

　概要を見る

春季研究発表会講演論文集,2-Q-22, pp.199-200, 13-15 Mar 2018
velvet noiseとその変種の聴覚心理・生理研究への応用可能性について (ヒューマン情報処理)

河原英紀, 津崎実, 坂野秀樹, 森勢将雅, 松井淑恵, 入野俊夫

日本音響学会聴覚研究会 2018年03月03日 (沖縄産業支援センター(沖縄県那覇市))

　概要を見る

信学技報, vol. 117, no. 470, HIP2017-113, pp. 99-104, 2018年3月3日〜4日
Enhancing wave-I of auditory brainstem response by choosing the latency of rising-frequency chirp,

Takashi Morimoto, Yoh-ichi Fujisaka, Yasuhide Okamoto, Toshio Irino

ARO 41st midwinter meeting, Abstract PS-33 San Diego, CA, USA, 9-14 Feb., 2018. 2018年02月

　概要を見る

(発表日 10 Feb. )
Incorporating absolute threshold and a cochlear noise floor into the GammaChirp model of masking,

Toshio Irino, Kenji Yokota, Toshie Matsui, Roy D. Patterson

ARO 41st midwinter meeting, Abstract PS-800 San Diego, CA, USA, 9-14 Feb., 2018. 2018年02月

　概要を見る

(発表日 12 Feb. )
臨床心理面接における傾聴度変化の評価:臨床心理士と初学者の比較

花田里欧子, 中島隆太郎, 井上雅史, 古山宣洋, 入野俊夫

人工知能学会全国大会論文集 2018年一般社団法人人工知能学会

　概要を見る

<p>臨床心理面接という対話の評価において，傾聴は欠くことのできない重要な軸の一つである．これまで傾聴を構成する要素に関する知見はあるが[アイビイ1985]，面接全体として傾聴が真に成立したかどうかについて評価測定するための手法は，まだ十分確立していない．特に傾聴に際してそうしているつもりでも相手はそう感じていないといったすれ違いがつきまとうことはこの課題をいっそう困難にしている．しかし面接の質の把握や向上のためには，傾聴の評価測定をすすめていく必要がある．本研究ではそのためのひとつのアプローチとして次の手順で実験を実施し，評価の実際と課題について明らかにする．(1)第三者の臨床心理士が面接ビデオを視聴し，感情評価値入力手法により傾聴度を時系列入力，(2)傾聴度時系列データの変化点（上昇／下降）を多重解像度分析によって自動検出, (3)同じ臨床心理士によって，なぜ変化点をそのように評価したのかの記述, (4)その変化点が上昇か下降かの判断を初学者の集団で実験, (5)両者の評価の比較と統計的分析．</p>
聴覚モデル適合の改良のための低レベルノッチ雑音も含めた閾値

横田健治, 入野俊夫, 松井淑恵, Roy D. Patterson

日本音響学会関西支部,第20回関西支部若手研究者交流研究発表会 2017年12月16日 (同志社大学(京田辺市))

　概要を見る

#17(ポスター)
音響教育のためのスピーカ及び簡易音圧確認治具

岩城龍之介, 松浦弘樹, 櫻井梨七, 中川望己, 奥谷友梨, 山内悠記, 上村怜央, 東山宗一, 横田健治, 入野俊夫

日本音響学会関西支部,第20回関西支部若手研究者交流研究発表会 2017年12月16日 (同志社大学(京田辺市))

　概要を見る

#1(デモ発表)
雑音抑圧で音声は聴き取りやすくなる？ーバブル vs ピンクお邪魔対決ー

大橋成美, 山本克彦, 入野俊夫, 荒木章子, 木下慶介, 中谷智広

日本音響学会関西支部,第20回関西支部若手研究者交流研究発表会 2017年12月16日 (同志社大学(京田辺市))

　概要を見る

#18(ポスター)
加齢によるピッチ・シフト現象とピッチ・モデル:モデルで見落とされてきた側面

津崎実, 牧勝弘, 入野俊夫

日本基礎心理学会第 36 回大会 2017年12月01日 (立命館大学・大阪いばらきキャンパス(大阪府茨木市）)

　概要を見る

1-3 Dec 2017
変調スペクトル領域の信号対歪み比に基づく音声明瞭度予測法の提案

山本克彦, 山本克彦, 入野俊夫, 松井淑恵, 荒木章子, 木下慶介, 中谷智広

信号処理シンポジウム講演論文集(CD-ROM) 2017年11月08日

　概要を見る

B8-4, pp.372-377, マリオス盛岡地域交流センター(岩手県盛岡市), 8-10 Nov. 2017
「風力発電所計画厳しい意見続々県環境影響審査会」

入野俊夫

2017年10月05日朝日新聞（p.22 和歌山面）
グループワーク対話の分析を通じた盛り上がりの定量化の検討

三上菜穂, 西村竜一, 入野俊夫

日本音響学会 2017年09月25日 (愛媛大学(愛媛県松山市))

　概要を見る

日本音響学会：秋季研究発表会講演論文集,1-R-21, pp.113-114, 25 - 27 Sep 2017
高齢難聴者の文聴取における文節休止の効果―模擬難聴システムによる検討―

長谷川純, 畑山春菜, 吐師道子, 松井淑恵, 入野俊夫

第18回日本言語聴覚学会 2017年06月23日 (くにびきメッセ－島根県立産業交流会館－(島根県松江市))

　概要を見る

2017年6月23-24日
有声音の寸法知覚に対する聴覚計算モデル

瀧本恵理, 入野俊夫, 松井淑恵, PATTERSON Roy D

情報処理学会, 音学シンポジウム2017 2017年06月18日 (お茶の水女子大(東京都文京区))

　概要を見る

発表番号55, 情報処理学会研究報告,Vol.2017-MUS-115, No.55,pp.1-6,2017年6月17日-18日
有声音の寸法知覚における高域強調処理の影響

松井淑恵, 入野俊夫, 山本航大, 河原英紀, PATTERSON Roy D

情報処理学会, 音学シンポジウム2017 2017年06月18日 (お茶の水女子大(東京都文京区))

　概要を見る

発表番号44, 情報処理学会研究報告,Vol.2017-MUS-115, No.44,pp.1-6,2017年6月17日-18日
模擬難聴システムの教育・臨床・研究への適用

長谷川純, 吐師道子, 山下祐季, 畑山春菜, 松井淑恵, 入野俊夫

広島県言語聴覚士会学術集会 2017年06月04日 (県立広島大(広島県三原市))
模擬難聴システムを用いた言語聴覚士養成課程での演習とWebアプリ化の検討 (ヒューマンコミュニケーション基礎)

米満麻弥, 入野俊夫, 松井淑恵, 西村竜一, 吐師道子, 長谷川純

電子情報通信学会ヒューマン情報処理研究会 (HIP) ,ヒューマンコミュニケーション基礎研究会 (HCS) 合同研究会 2017年05月16日 (沖縄産業支援センター(沖縄県那覇市))

　概要を見る

信学技報, vol. 117, no. 30, HIP2017-42, pp. 277-282, 2017年5月16日〜17日
Hearing impairment simulator using the dynamic compressive gammachirp filterbank and its application

入野俊夫

日本音響学会関西支部, 聴覚基礎理論談話会／ (科研A)^2 合同ミーティング 2017年03月28日 (京都市芸術大学(京都府京都市))
「映画・ゲームの「足音」リアルに−和歌山大、歩行データから自動合成」

入野俊夫

2017年03月28日日刊工業新聞
ユーザ訂正情報に基づいた音声認識API出力の並び替え法の開発

遠山智明, 西村竜一, 入野俊夫

日本音響学会：春季研究発表会講演論文集,1-Q-12, pp. 113-114 2017年03月15日 (明治大学(神奈川県川崎市))

　概要を見る

15-17 Mar 2017
感情推移観測システム(EMO system)による傾聴評価とマイクロカウンセリングのタグ付けとの関連

花田里欧子, 入野俊夫, 古山宣洋, 井上雅史, 中島隆太郎

電子情報通信学会ヒューマンコミュニケーション基礎(HCS)研究会 2017年03月15日 (東北大学(宮城県仙台市))

　概要を見る

信学技報, vol. 116, no. 524, HCS2016-110, pp. 113- 118 2017年3月15-16日
非対称レベルノッチ雑音マスキング法による高齢者の聴覚フィルタ形状と圧縮特性の推定

稲部葉月, 松井淑恵, 西村友里, PATTERSON Roy D, 入野俊夫

日本音響学会：春季研究発表会講演論文集,2-Q-29, pp.705-706 2017年03月15日 (明治大学(神奈川県川崎市))

　概要を見る

15-17 Mar 2017(筆頭著者稲部葉月、「学生優秀発表賞賞 (第15回)」受賞)
感情推移観測システム(EMO system)による傾聴評価とマイクロカウンセリングのタグ付けとの関連

花田里欧子, 入野俊夫, 古山宣洋, 井上雅史, 中島隆太郎

電子情報通信学会技術研究報告 2017年03月08日
臨床心理面接コーパスと感情推移観測システム(EMO system)を用いた傾聴学習支援 (ヒューマンコミュニケーション基礎)

花田里欧子, 入野俊夫, 古山宣洋, 井上雅史, 中島隆太郎

電子情報通信学会ヒューマンコミュニケーション基礎(HCS)研究会 2017年01月27日 (なみきスクウェア (福岡県福岡市))

　概要を見る

信学技報, vol. 116, no. 436, HCS2016-60, pp. 5-10, 年1月27-28日
難聴者に聞こえやすい音声特徴 ~模擬難聴を用いた発声の振幅変調分析~

吉田駿, 山本克彦, 西村竜一, 松井淑恵, 入野俊夫

日本音響学会関西支部,第19回関西支部若手研究者交流研究発表会 2016年12月18日 (関西大学100周年記念会館(大阪府吹田市))

　概要を見る

#44 筆頭著者吉田駿、「奨励賞」受賞
深層学習を用いたゲームコンテンツのための効果音自動生成手法の検討

吉田赳, 入野俊夫, 西村竜一

日本音響学会関西支部,第19回関西支部若手研究者交流研究発表会 2016年12月18日 (関西大学100周年記念会館(大阪府吹田市))

　概要を見る

#34
非対称レベルノッチ雑音マスキング法における測定点削減討

西村友里, 入野俊夫, 松井淑恵, Roy D. Patterson

日本音響学会関西支部,第19回関西支部若手研究者交流研究発表会 2016年12月18日 (関西大学100周年記念会館(大阪府吹田市))

　概要を見る

#51
オージオグラムを動かして聞く! ~Web アプリケーションとしての模擬難聴システムを目指して~

松井淑恵, 米満麻弥, 西村竜一, 入野俊夫

日本音響学会関西支部,第19回関西支部若手研究者交流研究発表会 2016年12月18日 (関西大学100周年記念会館(大阪府吹田市))

　概要を見る

#52
Estimation of auditory compression and filter shape of elderly listeners using notched noise masking,

Toshie Matsui, Toshio Irino, Hazuki Inabe, Yuri Nishimura, Roy D. Patterson

Presented at ASA-ASJ joint meeting 2016, J. Acoust. Soc. Am., 140 Hilton Hawaiian Village Waikiki Beach Resort, Honolulu, Hawaii, 28 Nov. - 2 Dec.2016 2016年12月

　概要を見る

(発表：1 Dec 2016)
招待講演 Characterizing impairments in compression and filter shape to establish their role in hidden hearing loss,

Toshio Irino, Toshie Matsui, Roy D. Patterson [招待有り]

ASA-ASJ joint meeting 2016 2016年11月30日 (Hilton Hawaiian Village Waikiki Beach Resort, Honolulu, Hawaii,)

　概要を見る

28 Nov. - 2 Dec.2016
Analysis of acoustic features for speech intelligibility prediction models

Katsuhiko Yamamoto, Toshio Irino, Toshie Matsui, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani

J. Acoust. Soc. Am., 140,ASA-ASJ joint meeting 2016, Hilton Hawaiian Village Waikiki Beach Resort, Honolulu, Hawaii, 28 Nov. - 2 Dec.2016 2016年11月

　概要を見る

(発表：29 Nov 2016)
招待講演 Acoustic Scale Processing in the Auditory System,

入野俊夫 [招待有り]

RIMS Joint Research & CoopMath 2016, Wavelet analysis and signal processing, 2016年10月24日 (Kyoto Univ., Kyoto,)

　概要を見る

2016 RIMS 共同研究「ウェーブレット解析と信号処理」 , 24-25, Oct 2016.
音声明瞭度予測法dcGC‐sEPSMの諸検討:評価用雑音の特性と予測精度への影響

山本克彦, 入野俊夫, 松井淑恵, 荒木章子, 木下慶介, 中谷智広

日本音響学会研究発表会講演論文集(CD-ROM) 2016年09月14日 (富山大学（富山県富山市))

　概要を見る

2-P-44, pp. 663-666 2016年9月14日-16日
ユーザ訂正情報を用いた音声認識APIのカスタマイズ手法の検討

遠山智明, 西村竜一, 入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2016年09月14日 (富山大学（富山県富山市))

　概要を見る

3-Q-14, pp. 125-126 2016年9月14日-16日
招待講演 The perceptual ends of the periodicity; but of what periodicity?

Minoru Tsuzaki, Sawa Hanada, Junko Sonoda, Satomi Tanaka, Toshio Irino [招待有り]

Internoise 2016 2016年08月24日 (Hamburg, Germany,)

　概要を見る

21-24, Aug 2016.
動的圧縮型ガンマチャープフィルタバンクを用いた音声明瞭度予測法:強調音声を対象とした比較検討

山本克彦, 入野俊夫, 松井淑恵, 荒木章子, 木下慶介, 中谷智広

音学シンポジウム2016 学会研究報告(Web) 2016年05月21日 (東海大学(東京都港区))

　概要を見る

発表番号20,Vol.2016-MUS-111, No.20,pp.1-6, 2016年5月21日-22日
招待講演聴覚心理実験に基づいたモデルとその実践応用,

入野俊夫, 松井淑恵, 津崎実, 吐師道子 [招待有り]

日本音響学会 2016年03月11日 (桐蔭横浜大, 横浜,)

　概要を見る

春季研究発表会講演論文集, 3-6-2, pp. 1445-1446, 9--11 Mar 2016.
強調音声のための明瞭度予測法の検証:聴取実験結果との比較

山本克彦, 入野俊夫, 松井淑恵, 荒木章子, 木下慶介, 中谷智広

日本音響学会研究発表会講演論文集(CD-ROM) 2016年03月09日 (桐蔭横浜大, 横浜)

　概要を見る

春季研究発表会講演論文集, 2-P-23, pp. 823-826, 9--11 Mar 2016
スペクトル傾斜の異なる音声の寸法知覚と聴覚モデルによる説明

山本航大, 入野俊夫, 岡本江美, 松井淑恵, 西村竜一, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2016年03月09日 (桐蔭横浜大, 横浜)

　概要を見る

春季研究発表会講演論文集, 2-Q-13 pp. 481-484, 9--11 Mar 2016
GetWild:音声生成過程を考慮したグロウルの印象付与システム

溝渕翔平, 入野俊夫, 西村竜一, 松井淑恵, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2016年03月09日 (桐蔭横浜大, 横浜)

　概要を見る

春季研究発表会講演論文集, 2-2-9, pp. 249-252, 9--11 Mar 2016.
ウェブ試験向け音声入力UI設計における不要語の扱いについて

西村竜一, 牧野さやか, 入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2016年03月09日

　概要を見る

春季研究発表会講演論文集, 3-1-5 pp. 81-82, 9--11 Mar 2016
言語聴覚士養成課程における模擬難聴の教育利用に向けた試み

永江美沙貴, 入野俊夫, 松井淑恵, 長谷川純, 吐師道子, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2016年03月09日 (桐蔭横浜大, 横浜)

　概要を見る

春季研究発表会講演論文集, 3-6-12 pp. 1471-1472, 9--11 Mar 2016
非対称レベルノッチ雑音マスキング法を用いた圧縮特性推定と測定点削減の検討

西村友里, 入野俊夫, 松井淑恵, 河原英紀, PATTERSON Roy D

日本音響学会研究発表会講演論文集(CD-ROM) 2016年03月09日 (桐蔭横浜大, 横浜)

　概要を見る

春季研究発表会講演論文集, 3-6-8, pp. 1459-1462 9--11 Mar 2016
声道形状と声帯音源特性の操作に基づいたグロウル系歌唱の印象付与法

溝渕翔平, 西村竜一, 松井淑恵, 入野俊夫, 河原英紀

電子情報通信学会論文誌 D(Web) 2016年03月
動的圧縮型ガンマチャープフィルタバンクを用いた音声明瞭度予測法の改良

山本克彦, 入野俊夫, 松井淑恵, 荒木章子, 木下慶介, 中谷智広

聴覚研究会資料 = Proceedings of the auditory research meeting 2016年02月20日 (那覇市IT創造館, 沖縄)

　概要を見る

Vol.46, No.1, H-2016-9, pp.25--40, 2016年2月20日-21日
招待講演模擬難聴とそれを支える聴覚心理実験,

入野俊夫 [招待有り]

県立広島大保健福祉学部コミュニケーション障害学科セミナー 2016年02月17日 (県立広島大保健福祉,三原, 広島,)
音声生成過程を考慮したグロウルの印象付与システム~あなたの声にこぶし、効かせます~

溝渕翔平, 入野俊夫, 西村竜一, 松井淑恵, 河原英紀

第18回関西支部若手研究者交流研究発表会 2015年12月13日 (関西大学100周年記念会館,大阪) 日本音響学会関西支部

　概要を見る

#36
強調音声の明瞭度 -計算機は人の聞こえを予測できる？-

山本克彦, 入野俊夫, 松井淑恵, 荒木章子, 木下慶介, 中谷智広

第18回関西支部若手研究者交流研究発表会 2015年12月13日 (関西大学100周年記念会館,大阪) 日本音響学会関西支部

　概要を見る

#42 著者山本克彦、「最優秀奨励賞」受賞
無声音の高域強調処理が寸法知覚に与える影響に関する検討

山本航大, 入野俊夫, 岡本江美, 松井淑恵, 西村竜一, 河原英紀

日本音響学会聴覚研究会資料 = Proceedings of the auditory research meeting 2015年11月13日 (甲州市勝沼ぶどうの丘, 山梨)

　概要を見る

Vol.45, No.8, H-2015-120, pp.681--686 2015年11月13日-14日
脳波を用いた時間分解能測定

森本隆司, 森本隆司, 藪下岳, 藤坂洋一, 中市健志, 入野俊夫, 岡本康秀, 岡本康秀, 貫野彩子, 貫野彩子, 神崎晶, 小川郁

日本音響学会聴覚研究会資料 2015年11月13日甲州市勝沼ぶどうの,山梨

　概要を見る

Vol.45, No.8, H-2015-119, pp.675--680
招待講演 A perceptual continuum for pitch transition with no chromatic change: A challenge for a new model of pitch,

Minoru Tsuzaki, Sawa Hanada, Katsuhiro Maki, Toshio Irino, Toshie Matsui, Chihiro Takeshima [招待有り]

Taiwan/Japan Joint Auditory Research Meeting, National Tsing Hua University, Taiwan, 2015年10月23日 (国立精華大学,台湾)

　概要を見る

日本音響学会聴覚研究会資料, Vol. 45, No.7, H-2015-105, pp.--, 23--24 Oct. 2015. (発表：23 Oct 2015)
Study on predicting speech intelligibility of enhanced speech sounds using the dynamic compressive gammachirp auditory filterbank and modulation filterbank,

Katsuhiko Yamamoto, Toshio Irino, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani

presented at Taiwan/Japan Joint Auditory Research Meeting, National Tsing Hua University, Taiwan,音響学会聴覚研究会資料 2015年10月

　概要を見る

国立精華大学,台湾, 23--24 Oct. 2015 (発表：23 Oct 2015). Proc. Auditory Res. Meeting, Acoust. Soc. Japan,
位相差を伴った同一周期のパルス列が加算される場合の音の知覚について

津崎実, 花田沙和, 牧勝弘, 入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2015年09月18日 (会津大, 会津若松,)

　概要を見る

秋季研究発表会講演論文集,3-3-5,pp.1309-1312, 2015年9月16日～18日,
Raspberry Piを用いた笑い声検知システムの提案

三上菜穂, 西村竜一, 入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2015年09月18日 (会津大, 会津若松)

　概要を見る

秋季研究発表会講演論文集,3-Q-4,pp.149-150, 2015年9月16日～18日
動的圧縮型ガンマチャープフィルタバンクを用いた強調音声の明瞭度予測法の提案

山本克彦, 入野俊夫, 荒木章子, 木下慶介, 中谷智広

日本音響学会研究発表会講演論文集(CD-ROM) 2015年09月17日 (会津大, 会津若松,)

　概要を見る

秋季研究発表会講演論文集,2-P-36,pp. 473-474, 2015年9月16日～18日, 筆頭著者山本克彦、「学生優秀発表賞」受賞
非対称レベルノッチ雑音マスキング法を用いた1kHzにおける圧縮特性推定

西村友里, 入野俊夫, 松井淑恵, 河原英紀, PATTERSON Roy D

日本音響学会研究発表会講演論文集(CD-ROM) 2015年09月17日 (会津大, 会津若松,)

　概要を見る

秋季研究発表会講演論文集,2-P-33,pp.467-468, 2015年9月16日～18日
言語聴覚士養成教育への模擬難聴の導入の試みについて

永江美沙貴, 入野俊夫, 松井淑恵, 長谷川純, 吐師道子, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2015年09月17日 (会津大, 会津若松,)

　概要を見る

秋季研究発表会講演論文集,2-5-7, pp.1229-1230, 2015年9月16日～18日,
大人・子ども話者識別システムにおける性能改善の検討

西村竜一, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2015年09月16日 (会津大, 会津若松)

　概要を見る

秋季研究発表会講演論文集,1-2-12, pp.29-30, 2015年9月16日～18日
音声科学教育用対話的ツールのためのエリアシングの無い L-F モデルの実装について

河原英紀, 榊原健一, 坂野秀樹, 森勢将雅, 戸田智基, 入野俊夫

日本音響学会聴覚研究会, 電子情報通信学会／音響学会電気音響研究会, , 電子情報通信学会技術研究報告、EA2015-08, 2015年08月03日 (東北大学, 仙台)

　概要を見る

2015年8月3 日-4日
Hearing Impairment Simulator with Inverse Compression based on the Compressive Gammachirp Filter,

Toshio Irino, Misaki Nagae, Toshie Matsui, Hideki Kawahara, Roy D. Patterson

Auditory Model Workshop Universität Oldenburg, Oldenburg, 12-13 Jun, 2015 2015年06月
声道形状と声帯音源特性の操作に基づくグロウル系歌唱音声の印象付与法の評価について

溝渕翔平, 西村竜一, 入野俊夫, 河原英紀

音学シンポジウム2015 2015年05月24日 (電気通信大学, 東京) 情報処理学会

　概要を見る

発表番号60, 情報処理学会研究報告,Vol.2015-MUS-107,No.60,pp.1-6, 2015年5月23日-24日
声道形状と声帯音源特性を用いたグロウル系歌唱音声の印象付与の評価

溝渕翔平, 西村竜一, 入野俊夫, 河原英紀

情報処理学会研究報告(Web) 2015年05月
声道形状と声帯音源特性を利用したグロウル系歌唱音声への変換について

溝渕翔平, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2015年03月18日 (中央大, 東京)

　概要を見る

3-2-7,pp.289-290 2015年3月16日～18日
スマホを用いた環境音認識アプリに対するDNNの導入

松山みのり, 西村竜一, 河原英紀, 山田順之介, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2015年03月17日 (中央大, 東京)

　概要を見る

2-1-14,pp.79-80 2015年3月16 日～18日
非対称レベルノッチ雑音マスキング法による4kHzにおける圧縮特性推定

金内由紀, 入野俊夫, 西村竜一, 河原英紀, PATTERSON Roy D

日本音響学会：春季研究発表会講演論文集 2015年03月17日 (中央大, 東京)

　概要を見る

2-Q-12,pp.505-506 2015年3月16日～18日
聴覚の圧縮特性のキャンセル処理による模擬難聴―語音明瞭度による検討―

永江美沙貴, 松井淑恵, 西村竜一, 河原英紀, PATTERSON Roy D, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2015年03月17日 (中央大, 東京)

　概要を見る

2-Q-20,pp.523-524, 2015年3月16日～18日
無声音の高域強調処理による寸法知覚特性シフト

山本航大, 入野俊夫, 西村竜一, 河原英紀

日本音響学会：春季研究発表会講演論文集 2015年03月17日 (中央大, 東京)

　概要を見る

2-Q-18,pp.517-518 2015年3月16日～18日
声道断面積関数推定における声帯音源特性の補償について

伊佐衣代, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2015年03月16日 (中央大, 東京)

　概要を見る

1-2-4,pp.231 -232 2015年3月16日～18日
音声の好感度に対する声道形状および音源情報操作の効果について

吉元照貴, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2015年03月16日 (中央大, 東京)

　概要を見る

1-R-32,pp. 351-332 2015年3月16日～18日
ウェブアプリケーションにおける音声入力UIの設計と評価について

田藤千弘, 西村竜一, 河原英紀, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2015年03月16日 (中央大, 東京)

　概要を見る

1-P-33,pp. 191-192 2015年3月16日～18日
周期信号の短時間Fourier変換に基づく静的表現と音声分析合成系への応用について

河原英紀, 森勢将雅, 坂野秀樹, 戸田智基, 榊原健一, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2015年03月16日 (中央大, 東京)

　概要を見る

1-R-18,pp. 313-314 2015年3月16日～18日
SEANA: 利用者の動作を強調する音の拡張現実アプリの開発

吉田赳, 西村竜一, 入野俊夫, 河原英紀

情報処理学会, インタラクション2015 2015年03月07日 (東京国際交流館)

　概要を見る

pp.972--977 2015年3月5日〜7日
高次対称性に基づく基本周波数推定法のモデル化とfilled pauseの分析への応用について (音声)

河原英紀, 西村竜一, 入野俊夫

電子情報通信学会／音響学会音声研究会, 電子情報通信学会技術研究報告、EA2014-127, Vol.114, No.473, pp.307-312 2015年03月03日 (南の美ら花ホテルミヤヒラ, 沖縄)

　概要を見る

日常の環境で使われている音声の物理特性は、様々な要因で大きく変動する。発話の途中などに出現するfilled pauseでは、声帯振動が不安定になる場合が多く、通常の分析法では、基本周波数の抽出に大きな誤差が含まれるなどの問題が生ずる。本報告では、局所的な周期性を波形の対称性に基づいて評価する方法と統計的手法を組み合わせることにより、基本波の抽出と基本周波数の初期推定における頑健性を改善する方法を提案する。
音声の好感度改善補助ツールの開発を目指した好感度改善方法の検討

吉元照貴, 西村竜一, 入野俊夫, 河原英紀

第106回音楽情報科学・第35回エンタテインメントコンピューティング合同研究発表会, 情報処理学会研究報告, Vol.2015-MUS-106, No.25, 2015年03月03日 (甲府富士屋ホテル, 山梨)

　概要を見る

本稿では,音声の好感度改善トレーニング補助を目的とした簡易ツールの紹介と,音声の好感度改善の具体的な方法について述べる.これまで,音声から受ける印象の一つである好感度と音声の物理属性との関係を,音声モーフィングの技術を用いて調べてきた.それらの検討から,(1) 音声の物理属性の中では,基本周波数やスペクトル形状が好感度へ与える影響が大きいこと,(2) 話者の音声から聞き手が受ける好感度は,聞き手によって大きく異なっていること,(3) 聞き手が好感度を改善するように音声を操作する際に,操作された音声の話者性が変化して感じられると好感度の判断が大きく影響されることが示唆された.今回報告する好感度改善手法では,これらの知見を考慮し,音声パラメタの基本周波数とスペクトル形状を操作することで好感度の改善を図る.また,好感度を改善する操作の妨害要因となっていた話者性が変化する問題を解決するために,演劇部の学生が好感度の異なる話し方で演技した音声から求められる音声の物理属性の変化量を求めた.この変化量を好感度が低い他者の音声の物理属性の操作に用いた.ここでは,変化量を抽出した話者と聞き手および操作対象となった話者の組み合わせについて好感度の改善の効果を調べた.これらの結果に基づいて,提案する簡易ツールの概要を説明する.
声道形状と声帯音源特性を用いたグロウル系歌唱音声への実時間変換の提案

溝渕翔平, 西村竜一, 入野俊夫, 河原英紀

第106回音楽情報科学・第35回エンタテインメントコンピューティング合同研究発表会, 情報処理学会研究報告, Vol.2015-MUS-106, No.12, 2015年03月03日 (甲府富士屋ホテル, 山梨)

　概要を見る

本研究では通常歌唱音声をグロウル系歌唱音声の印象をもつ音声に変換するシステムについて検討している.これまでの研究よりグロウル系歌唱音声特有の物理的特徴としてスペクトル形状の高速な変動が確認された.本発表ではスペクトル形状の高速な変動を声帯音源特性と声道形状の変化としてモデル化し,グロウルの印象を付与する方法を提案する.声帯音源特性の時間変化は LF model を用いることでスペクトル傾斜の時間変化をモデル化した.声道形状の変化は入力音声について分析した声道断面積関数を操作することで実現した.提案手法による変換処理はフィルタリングで構成されているため,原理上はリアルタイム処理が可能である.
音声の高域強調処理による寸法知覚特性変化と計算理論について

山本航大, 入野俊夫, 西村竜一

日本音響学会聴覚研究会資料 2015年03月02日 (北海道医療大学札幌サテライトキャンパス, 北海道)

　概要を見る

Vol.45, No.2, H-2015-21, pp.99-104
聴覚末梢の圧縮特性のキャンセル処理による模擬難聴を通した音声の同定

松井淑恵, 入野俊夫, 永江美沙貴, 河原英紀, Roy D. Patterson

日本音響学会聴覚研究会資料 2015年03月02日 (北海道医療大学札幌サテライトキャンパス, 北海道)

　概要を見る

Vol.45, No.2, H-2015-20, pp.93-98
Age Related Shifts of Absolute Pitch Judgment and Their Relation to the Auditory Filter Bandwidths.

Minoru Tsuzaki, Toshie Matsui, Toshio Irino, Chihiro Takeshima

ARO 38th midwinter meeting 2015 Abstract PS-319, 2015年02月

　概要を見る

Baltimore, MA, USA, 21-25 Feb., 2015.(発表日 22 Feb. )
声道断面積関数推定における音源情報の利用の効果について

伊佐衣代, 西村竜一, 入野俊夫, 河原英紀

日本音響学会関西支部, 第17回関西若手研究者交流研究発表会, #17 2014年12月14日 (関西大学100周年記念会館,大阪)
音声の発話方法による聴き取りやすさの違いの検討〜一人芝居の声で比べてみた〜

吉田駿, 入野俊夫, 河原英紀, 西村竜一

日本音響学会関西支部,第17回関西支部若手研究者交流研究発表会,#34 2014年12月14日 (関西大学100周年記念会館,大阪)
DNNを用いたスマホ収集環境音の認識について

松山みのり, 西村竜一, 河原英紀, 山田順之介, 入野俊夫

日本音響学会関西支部,第17回関西支部若手研究者交流研究発表会,#18 2014年12月14日 (関西大学100周年記念会館,大阪)
声道形状を利用したグロウル系歌唱音声への変換について

溝渕翔平, 西村竜一, 入野俊夫, 河原英紀

日本音響学会関西支部,第17回関西支部若手研究者交流研究発表会,#33 2014年12月14日 (関西大学100周年記念開館,大阪)
聴覚系の寸法知覚における手がかり情報に関する検討ー聴覚心理実験の側面よりー

山本航大, 入野俊夫, 西村竜一, 河原英紀

日本音響学会関西支部，第17回関西支部若手研究者交流研究発表会，#42 2014年12月14日 (関西大学100周年記念会館,大阪)
聴覚におけるスケール分析のための末梢系フィルタバンクのウェーブレット性と非線形性 (ウェーブレット解析とサンプリング理論)

入野俊夫, 河原英紀, Patterson Roy D

京都大学数理解析研究所講究録 2014年12月
招待講演 The role of STRAIGHT in research on the perception of size in speech and music,

Roy D. Patterson, Toshio Irino [招待有り]

[聴覚/音声研究会招待講演], 和歌山, 2014年10月24日 (ホテルシーモア（白浜）, 和歌山,)

　概要を見る

日本音響学会聴覚研究会資料, H-2014-99, Vol. 44, No. 7, pp.473-477, [聴覚/音声研究会招待講演],2014年10月23〜24日, (発表日10月24日) あらまし15年ほど前、ガンマチャープ聴覚フィルタの数学的導出の研究過程で、音声と音楽の知覚においてもスケール不変性があることに気がついた。たとえば、人の声を聞く時、ピッチや平均ホルマント周波数に関わらず理解できる。また、楽器属(管楽器、弦楽器)は大きさや音域にかかわらず同じ形で作られている。そこで、聴覚系において、音声や楽器音の正規化を行う「安定化ウェーブレットメリン変換」がどのように利用可能かを示し、それらの音の知覚不変性の研究を開始することとした。言うは易いが、そのためには自然な音の音響スケール変数を操作する必要がある。運が良いことに、同時期に河原先生が音声のピッチと声道長や楽器音を高品質で操作できるSTRAIGHTを発表された。本報告では、STRAIGHTでスケール変数を操作した音の寸法知覚に関する一連の研究を紹介する。また、STRAIGHTの合成系を楽器音操作にどのように適用したかも述べる。これらの研究は、STRAIGHTがいかに自然音の知覚研究の原動力になったかの一つの大きな事例となっている。
招待講演音声と楽器音の寸法知覚研究におけるSTRAIGHTの役割

PATTERSON Roy D, 入野俊夫

聴覚研究会資料 = Proceedings of the auditory research meeting 2014年10月23日
線形予測分析を用いた声道断面積関数推定のための前処理の検討(オーガナイズドセッション:ポスター発表,分析,特徴量,音声一般,聴覚一般)

伊佐衣代, 吉元照貴, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会／音響学会音声研究会, SP2014-79, pp.27-28, 日本音響学会聴覚研究会資料, Vol.44, No.7, H-2014-80, pp.429-430 2014年10月23日 (南紀白浜温泉ホテルシーモア, 和歌山)

　概要を見る

線形予測分析を用いた声道断面積関数推定では、声帯音源波形、口唇の放射特性などにより誤差が生ずる。これらの影響の除去のため高域強調やスペクトル平坦化処理などの前処理について検討している。ここでは、母音データベースの音声に様々な前処理を加えて分析した結果について報告する。
グロウル系歌唱から求められる声道断面積関数の特徴について(オーガナイズドセッション:ポスター発表,分析,特徴量,音声一般,聴覚一般)

溝渕翔平, 伊佐衣代, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会／音響学会音声研究会, SP2014-79, pp.29-30, 日本音響学会聴覚研究会資料, Vol.44, No.7, H-2014-80, pp.431-432 2014年10月23日 (南紀白浜温泉ホテルシーモア, 和歌山)

　概要を見る

グロウル系歌唱では、2から4kHz付近のスペクトル形状に、高速でほぼ周期的な変動が認められる。この変動を見通し良くモデル化することを目的に、歌唱音声の分析により求めた声道断面積関数の変動を調べた。本稿では、スペクトル概形補償の前処理と、周期性に起因する系統誤差を軽減するためにTANDEM-STRAIGHTを用いた1msのフレーム周期での分析結果を報告する。
音声認識を用いた日本語スピーキングテストとそのユーザインタフェースデザインの検討

田藤千弘, 西村竜一, 河原英紀, 入野俊夫, 今井新悟

教育システム情報学会全国大会講演論文集(CD-ROM) 2014年09月10日 (和歌山大学, 和歌山,)

　概要を見る

発表番号I1-32, pp.63-64, 2014年9月10日-12日
聴覚の圧縮特性の逆処理による模擬難聴とその特性

永江美沙貴, 入野俊夫, 西村竜一, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2014年09月05日 (北海道学園大, 札幌,)

　概要を見る

3-Q-27,pp.457-458, 2014年9月3日〜5日
うっかり者を手助けする環境音認識アプリの開発について

松山みのり, 西村竜一, 河原英紀, 山田順之介, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2014年09月05日 (北海道学園大, 札幌,)

　概要を見る

3-8-14,pp.1559-1560, 2014年9月3日〜5日
加齢による絶対音感シフトと耳音響反射との関連性について

津崎実, 松井淑恵, 入野俊夫

日本音響学会研究発表会講演論文集日本音響学会編 2014年09月05日 (北海道学園大, 札幌,)

　概要を見る

3-Q-37,pp.489-482, 2014年9月3日〜5日
招待講演聴覚末梢系の圧縮特性の心理物理測定と模擬難聴への応用,

入野俊夫 [招待有り]

日本音響学会 2014年09月04日 (北海学園大, 札幌,)

　概要を見る

秋季研究発表会講演論文集, 2-2-8, pp.1579-1582, 2014年9月3日～5日,
声道形状と音源情報に注目した音声の好感度改善システムの検討について

吉元照貴, 伊佐衣代, 溝渕翔平, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2014年09月04日 (北海道学園大, 札幌,)

　概要を見る

2-Q-46,pp. 373-375, 2014年9月3日〜5日
周期信号の群遅延の静的表現と音声の非周期成分への応用について

河原英紀, 森勢将雅, 榊原健一, 戸田智基, 坂野秀樹, 西村竜一, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2014年09月03日 (北海道学園大, 札幌,)

　概要を見る

1-R-30,pp.273-276, 2014年9月3日〜5日
線形予測分析を用いた声道断面積関数推定のための前処理について

伊佐衣代, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2014年09月03日 (北海道学園大, 札幌,)

　概要を見る

1-R-34,pp.283-284, 2014年9月3日〜5日
時間分解能の低下を模擬した劣化音声の知覚

森本隆司, 中市健志, 原田耕太, 岡本康秀, 神崎晶, 小川郁, 入野俊夫

第11回日本聴覚医学会内耳ひずみ研究会 2014年07月04日 (慶應大病院,東京)
歌声にグロウルの味を加えるGUIについて (音声音学シンポジウム2014)

溝渕翔平, 西村竜一, 入野俊夫, 河原英紀

情報処理学会/電子情報通信学会, 音学シンポジウム2014 ,発表番号56, 情報処理学会研究報告,2014-MUS-103, No.55, 2014年05月25日 (日本大学文理学部, 東京,)

　概要を見る

本研究では通常歌唱をグロウル系統の歌唱音声の印象をもつ音声に変換するシステムの検討を行っている.先行研究では簡単な信号処理で歌唱音声にグロウルらしさを付与する方法が提案された.本報告では提案手法で用いる特徴付与のパラメタを対話的に操作し,歌唱音声にグロウルらしさを付与するGUIについて紹介する.提案手法は時間変調による基本周波数の高速な時間振動の付与,FIRフィルタによる処理範囲に共通した帯域強調処理,及び近似時変フィルタによる第3フォルマント周辺の高速な時間変調の付与の3つより構成されている.提案手法は変換処理に分析・合成を必要としないためリアルタイム処理を可能とし,ライブで一種のエフェクターとして用いることが出来る.GUIの開発は主にデモやポスターセッションの場で本手法による処理内容と処理の影響について直感的理解を促すことを目的としている.開発したGUIは実際にポスターセッションの場で操作し,操作性やデザイン性についてコメントを頂きたい.
受験者を焦らせない音声入力ウェブ試験システムを目指したデザインの検討 (音声音学シンポジウム2014)

田藤千弘, 西村竜一, 河原英紀, 入野俊夫

情報処理学会/電子情報通信学会, 音学シンポジウム2014 ,発表番号66, 日本音響学会音声研究会資料, SP2014-33, pp.337-342 2014年05月25日 (日本大学文理学部, 東京,)

　概要を見る

本研究は、音声入力機能を備えたウェブ試験システムにおけるユーザインタフェース(UI)のデザイン指針を検討する。本研究で対象とするウェブ試験システムの問題提示画面では、問題文の他、音声の入力状態を確認するためのレベルメータと解答時間の残りを示すタイムゲージが受験者に提示される。従来のシステムでは、この二つの視覚的情報提示が似ており、受験者に混同されることがあった。受験者に適切な問題提示画面を提供するために、UIデザインを改良した。実験では、発話によって計算問題を解答するシステムを試作し、タイムゲージに着目して、解答の際に受験者が感じる「焦り」と「体感時間の速さ」を調査した。その結果、1秒ずつ離散的に区切って表示するブロック型のデザインが適切であることを確認した。受験者の発話態度と音声認識率の関係を調査したところ、機械との対話を意識しなかった人の精度は低くなる傾向があった。また、本研究では、音声入力UIの実装言語をHTML5とした。その結果、PCおよびモバイル端末(Android)から利用できるシステムを実現することができた。
ROCKON : スマホを用いた環境音の収集と認識システム (音声音学シンポジウム2014)

松山みのり, 津田貴彦, 西村竜一, 河原英紀, 山田順之介, 入野俊夫

情報処理学会/電子情報通信学会, 音学シンポジウム2014 ,発表番号37, 日本音響学会音声研究会資料, SP2014-19, pp.181-186 2014年05月24日 (日本大学文理学部, 東京)

　概要を見る

本研究では、身の回りの環境音を認識することで、ユーザに有益な情報を提供できるモバイルアプリケーションを開発する。本稿では、環境音の認識アルゴリズムとして比較したHMMとAdaBoostによる性能評価と、クラウドソーシングを用いた環境音サンプルの収集方法について述べる。評価実験の結果、Android端末を用いて収集した実環境の環境音サンプルに対して、AdaBoostがHMMよりも認識性能および処理スピードにおいて有利な結果を示した。今後、対応音源の種類を増やすためには多くの環境音サンプルが必要となってくる。そのため、環境音収集アプリの改良をした。環境音を収集する際に協力者に与える負担の軽減を目指して、本研究では2種類のユーザインタフェーズ(UI)を提案する。実験協力者を用いた調査では、提案する2種類のUIの併用が妥当であるという結論が得られた。そこで、改良後の環境音収集アプリには両手法を併用したUIを実装することにした。
ささやき声からの寸法知覚の手がかり獲得と保持について (音声音学シンポジウム2014)

山本航大, 入野俊夫, 西村竜一, 河原英紀

情報処理学会/電子情報通信学会, 音学シンポジウム2014 ,発表番号47, 日本音響学会音声研究会資料, SP2014-25, pp.237-243 2014年05月24日 (日本大学文理学部, 東京)

　概要を見る

人間の聴覚系には,音源の寸法情報と形状情報を分離抽出する機能があるという理論が提案されている.先行研究にて,音声刺激を用いた寸法知覚の弁別閾が測定されており,約5%であると示されている.ところが,これは寸法情報の知覚手がかりを把握している場合であり,この実験の未経験者においては弁別閾がそれほど小さくないことも多い.そこで本研究では,弁別訓練による手がかり情報の獲得,またその保持について検討する.無声音声を用いた寸法弁別実験において,プリテスト,訓練,ポストテストを被験者8名で行った.ポストテストの結果,訓練効果があることがわかったが,弁別閾が小さいHP群と大きいLP群に分かれた,HP群は一定期間後,手がかり保持に関するテストを行い,弁別精度に違いがないことが確認できた.LP群は再訓練を行うことにより弁別閾が小さくなることを確認した.これらのことより,手がかりが十分把握できれば先行研究と同程度の弁別閾になることがわかった.
招待講演 The relationship between speaker size perception and the auditory filter,

Toshio Irino, Roy D. Patterson [招待有り]

J. Acoust. Soc. Am. , Vol.135(4), Pt.2, p.2347, May 2014, ASA meeting, 5-9 May 2014. Special session:"Cambridge Contributions to Auditory Science: Moore-Patterson Legacy" (4aPP) 2014年05月08日 (Rhode Island, RI, USA,)
クラウドソーシングによる環境音収集に向けたスマホアプリの開発

松山みのり, 津田貴彦, 西村竜一, 山田順之介, 入野俊夫, 河原英紀

電子情報通信学会 2014年総合大会 2014年03月19日 (新潟大, 新潟)

　概要を見る

D-9-25, pp.15-20 2014年3月18日〜21日筆頭著者松山みのり、「電子情報通信学会H26年度学術奨励賞」受賞
幅広い年齢層の母音データベースを利用した声道長推定法による簡易発声評価システム開発の検討

坂口諒, 小林真優子, 入野俊夫, 西村竜一, 河原英紀

日本音響学会：春季研究発表会講演論文集 2014年03月11日 (日本大, 東京)

　概要を見る

2-6-5, pp.303-304, 2014年3月10日〜12日
グロウル系統の歌唱音声にみられるスペクトルの時間変動に注目した分析と再現の検討

溝渕翔平, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2014年03月11日 (日本大, 東京)

　概要を見る

2-Q5-20, pp.499-500, 2014年3月10日〜12日
日本語母音データベースを用いた声道長推定法の校正について

小林真優子, 坂口諒, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2014年03月11日 (日本大, 東京)

　概要を見る

2-6-6, pp.305-306, 2014年3月10日〜12日
ピーク形状と調波構造に注目したスペクトル包絡の近似精度の改善に関する検討

齊藤啓介, 山口貴史, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2014年03月11日 (日本大, 東京)

　概要を見る

2-6-8, pp.311-312, 2014年3月10日〜12日
日本語スピーキングテストS‐CATの音声入力インタフェース設計

田藤千弘, 西村竜一, 河原英紀, 入野俊夫, 今井新悟

日本音響学会：春季研究発表会講演論文集 2014年03月11日 (日本大, 東京)

　概要を見る

2-Q4-11, pp.141-142, 2014年3月10日〜12日
スマートフォンを用いた環境音の収集と認識方法の検討

津田貴彦, 松山みのり, 西村竜一, 河原英紀, 山田順之介, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2014年03月10日 (日本大, 東京)

　概要を見る

1-P5-14,pp.847-848 2014年3月10日〜12日
STRAIGHTスペクトルを用いた線形予測分析の改良の検討

山口貴史, 齊藤啓介, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2014年03月10日 (日本大, 東京)

　概要を見る

1-R5-25, pp.437-438, 2014年3月10日〜12日
外挿が可能な時変多属性任意事例数モーフィングを用いた文章音声好感度の改善について

吉元照貴, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2014年03月10日 (日本大, 東京)

　概要を見る

1-R5-22, pp.429-430, 2014年3月10日〜12日
加齢に伴う絶対音感のシフト―気導聴力検査結果との関係―

津崎実, 松井淑恵, 入野俊夫, 竹島千尋

日本音響学会：春季研究発表会講演論文集 2014年03月10日 (日本大, 東京)

　概要を見る

2-3-1, pp.549-552, 2014年3月10日〜12日
加齢に伴う絶対音感のシフト : 音域の影響

津崎実, 松井淑恵, 入野俊夫

日本音響学会聴覚研究会資料 2014年03月05日 (愛知淑徳大, 名古屋)

　概要を見る

Vol.44, No.2, H-2014-??, pp.81-86 2014年3月5日〜6 日
加齢に伴う絶対音感のシフト―音域の影響―

津崎実, 松井淑恵, 入野俊夫, 竹島千尋

日本音響学会聴覚研究会資料 2014年02月27日
非線形振動子による変調と近似時変フィルタに基づくグロウル系統の歌唱への実時間変換の定式化について

河原英紀, 溝渕翔平, 森勢将雅, 榊原健一, 西村竜一, 入野俊夫

情報処理学会, 第102回音楽情報科学研究会 2014年02月23日 (筑波大学東京キャンパス, 東京)

　概要を見る

2014-MUS-102, No.14, 2014年2月23日-24日
Age Related Shifts Of Absolute Pitch Judgment And Their Relation To The Hearing Impairment

Minoru Tsuzaki, Toshie Matsui, Toshio Irino, Chihiro Takeshima

Proceedings of 37th ARO MidWinter Meeting 2014年02月21日
圧縮特性推定における非対称レベルノッチマスキング法と時間マスキング曲線法の対比

深渡瀬智史, 入野俊夫, 西村竜一, 河原英紀, PATTERSON Roy D

日本音響学会聴覚研究会資料 2014年02月08日 (那覇市IT創造館, 那覇)

　概要を見る

Vol.44, No.1, H-2014-2, pp.7 - 12, 2014年2月8日〜9 日
模擬難聴実現のための逆圧縮特性処理とユーザインタフェース

永江美沙貴, 入野俊夫, 西村竜一, 河原英紀

日本音響学会聴覚研究会資料 2014年02月08日 (那覇市IT創造館, 那覇)

　概要を見る

Vol.44, No.1, H-2014-3, pp.13 - 18, 2014年2月8日〜9 日
Age related shifts of absolute pitch judgment and their relation to the hearing impairment,

Minoru Tsuzaki, Toshie Matsui, Toshio Irino, Chihiro Takeshima

ARO 37th midwinter meeting 2014, Abstract PS-784, 2014年02月

　概要を見る

San Diego, California, USA, 22-26 Feb., 2014.(発表日 25 Feb. )
文章音声の好感度評価と属性別モーフィングを用いた要因の検討について (音声) -- (オーガナイズドセッション多様な音声の認識・合成へ向けて)

吉元照貴, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会／音響学会音声研究会, SP2013-104, pp.29-54 2014年01月24日 (名城大, 名古屋)

　概要を見る

著者らが新しく定式化した時変多属性任意事例数音声モーフィングアルゴリズムを利用した音声の好感度の評価と制御法の検討を提案する。この新しいアルゴリズムでは、任意の個数の音声試料を一段階の処理でモーフィングすることができる。モーフィングの割合は、それぞれの試料の5種類の物理属性毎に時系列として指定することができ、負の割合も許容される。ここでは、まず好感度が大きく異なる文章音声試料を複数選択し、それらの試料間のモーフィングにより好感度が系統的に制御されることを確認した。次いで、各属性により張られる5次元超立方体の頂点にあるモーフィング音声の好感度を、対比較により評価し、それぞれの属性の影響を調べた。さらに、新しいアルゴリズムにより可能となった、音声の平均化と外挿によるカリカチュア化による探索的検討を今後の課題として提案した。
聴覚における寸法知覚の練習効果に関する検討

山本航大, 入野俊夫, 河原英紀, 西村竜一

日本音響学会関西支部,第16回関西支部若手研究者交流研究発表会#42 2013年12月08日 (産総研関西支部,大阪)
留学生向け日本語能力測定システムのためのUI設計〜HTML5を用いた音声入力インタフェース〜

田藤千弘, 西村竜一, 河原英紀, 入野俊夫, 今井新悟

日本音響学会関西支部第16回関西支部若手研究者交流研究発表会,#41 2013年12月08日 (産総研関西支部, 大阪)

　概要を見る

（筆頭著者田藤千弘,「優秀奨励賞」受賞）
環境音収集アプリのためのUI設計 ~クラウドソーシング型データ集積サービスの提案~

松山みのり, 津田貴彦, 西村竜一, 河原英紀, 入野俊夫

日本音響学会関西支部第16回関西支部若手研究者交流研究発表会,#36 2013年12月08日 (産総研関西支部, 大阪)
オージオグラムから難聴者の聞こえを再現するシステムの開発

永江美沙貴, 入野俊夫, 西村竜一, 河原英紀

日本音響学会関西支部第16回関西支部若手研究者交流研究発表会,#35 2013年12月08日 (産総研関西支部, 大阪)

　概要を見る

（筆頭著者永江美沙貴,「奨励賞」受賞）
近似時変フィルターを用いたグロウル系統の歌唱音声合成の検討

溝渕翔平, 西垣友理, 西村竜一, 入野俊夫, 河原英紀

日本音響学会関西支部,第16回関西支部若手研究者交流研究発表会,#31 2013年12月08日 (産総研関西支部,大阪)
SAWS(スケール交替ウェーブレット系列)刺激のピッチ移動に対するスペクトル‐時間受容野モデルからの検討―フーリエ分析による検討も交えて―

津崎実, 入野俊夫, 竹島千尋, 松井淑恵

日本音響学会聴覚研究会資料 2013年11月28日 (豊橋技科大, 豊橋,)

　概要を見る

Vol.43, No.8, H-2013-109, pp.631-638, 2013年11月28日〜29 日
招待講演聴覚におけるスケール分析のための末梢系フィルタバンクのウェーブレット性と非線形性,

入野俊夫 [招待有り]

2013 RIMS 共同研究「ウェーブレット解析とサンプリング理論」 2013年10月24日 (京都大学数理解析研究所, 京都,)

　概要を見る

2013年10月24日〜25日
日本語母音データベースを用いた任意発声の相対的声道長の推定について

小林真優子, 坂口諒, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2013年09月27日 (豊橋技科大, 豊橋,)

　概要を見る

3-P-17, pp.435-436, 2013年9月25日〜27日
SAWS(スケール交替ウェーブレット系列)刺激の支配的ピッチに関する聴覚モデルによる検討―SAIとSTRFとの比較―

津崎実, 入野俊夫, 竹島千尋, 松井淑恵

日本音響学会：秋季研究発表会講演論文集 2013年09月26日 (豊橋技科大, 豊橋,)

　概要を見る

2-9-5, pp.501-504, 2013年9月25日〜27日
スペクトル距離に基づく声道長推定における歌い手および基本周波数の影響について

坂口諒, 小林真優子, 入野俊夫, 西村竜一, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2013年09月25日 (豊橋技科大, 豊橋,)

　概要を見る

1-P-44a, pp.381-382, 2013年9月25日〜27日
対数Swept‐Sineで変調した帯域雑音によるMTF測定

苔口祐樹, 金内由紀, 西村竜一, 河原英紀, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2013年09月25日 (豊橋技科大, 豊橋,)

　概要を見る

1-6-7, pp.1005-1006, 2013年9月25日〜27日
基本周波数操作による音声の好感度改善に関連する物理的特徴の検討

吉元照貴, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2013年09月25日 (豊橋技科大, 豊橋,)

　概要を見る

1-P-11c, pp.335-336, 2013年9月25日〜27日
環境音分類結果に基づく収録アプリのインターフェース設計

松山みのり, 津田貴彦, 西村竜一, 河原英紀, 山田順之介, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2013年09月25日 (豊橋技科大, 豊橋,)

　概要を見る

1-2-5, pp.1387-1388, 2013年9月25日〜27日
波形の高次対称性に基づく基本周波数抽出法における潜在変数ダイナミクスの導入について

河原英紀, 森勢将雅, 榊原健一, 西村竜一, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2013年09月25日 (豊橋技科大, 豊橋,)

　概要を見る

1-7-12, pp.279-282, 2013年9月25日〜27日
説明対話における韻律情報および頭部運動と感情評価値の関連性分析の試み (音声)

八木みゆき, 森田礼子, 中井正人, 西村竜一, 河原英紀, 入野俊夫

電子情報通信学会／音響学会音声研究会, SP2013-67, pp.15-20 2013年09月18日 (千葉大, 千葉)

　概要を見る

音声のパラ言語情報と感情の関連性については音声研究の初期段階から検討されている.感情の評価値は通常発話区間ごとに付与されているため,対話者の感情の変化度を検討しているものは少ないと考えられる.また,音声以外にも重要と考えられる,頷きや身振り,手振りなどのジェスチャーを含めた検討は多くない.そこで本研究では,対話における音声やそれ以外の情報が対話の感情推移とどのように関連づけられるか検討することを目指した.まず,目的指向対話の一例として,認知心理の身振り研究でよく用いられるアニメーション説明課題を対象として対話の様子を音声,動画,加速度データの同時計測を行った.その上で収録より得られた動画データを見ながら,感情評価値をGUIで連続的に入力を行った.その上で,評価者によらず感情評価が同傾向で変化する時点を検討した.また,音声や頭部の頷きの物理量から,感情評価値やその推移を線形モデルで説明できるかを検討した.
説明対話における韻律情報および頭部運動と感情評価値の関連性分析の試み

八木みゆき, 森田礼子, 中井正人, 西村竜一, 河原英紀, 入野俊夫

電子情報通信学会技術研究報告 2013年09月11日
A Gammachirp Auditory Filterbank for Reliable Estimation of Vocal Tract Length from both Voiced and Whispered Speech,

Toshio Irino, Erika Okamoto, Ryuichi Nisimura, Hideki Kawahara, Roy D. Patterson

The 4th Annual Conference of the British Society of Audiology, Abstract #81, 2013年09月

　概要を見る

Keele, UK, 4-6, Sept, 2013.(発表日 4-6 Sept. ポスター )
歌唱音声のスペクトル形状の線形伸縮に影響する要因の検討 (応用音響)

坂口諒, 小林真優子, 入野俊夫, 西村竜一, 河原英紀

日本音響学会聴覚研究会資料, Vol.43, No.5, H-2013-64, pp.365-370,音楽音響研究会MA2013-9,電気音響研究会,EA2013-25 2013年07月18日 (北海道医療大学札幌)

　概要を見る

短時間Fourier変換に基づく簡易な方法により,相対的な声道長を高い再現性で推定する方法を明らかにしてきた.この方法では,駆動信号の周期性に起因する調波構造の影響を取り除いた音声スペクトル包絡に,声帯音源波形や唇からの放射特性に起因するスペクトル概形の除去と,声道の分岐や声門閉止区間の存在や個々の声道共鳴の鋭さの違いによるスペクトル形状の細部の平滑化による前処理を加え,距離計算に用いる周波数範囲を適切に選択することにより,声道長以外の要因による影響を軽減している.ここでは,この方法を歌唱音声に適用することにより,歌い手の個人性と音高により,相対的声道長がどのように変化するかを調べた結果について報告し,歌唱訓練への応用の可能性について議論する.
招待講演 Perceptual outcomes by rapid alternation of the resonant scaling and its relation to the fundamental frequency,

Minoru Tsuzaki, Chihiro Takeshima, Toshie Matsui, Toshio Irino [招待有り]

The 21st International Congress on Acoustics, ICA2013 , 5pPP4, ASA Proceedings of Meetings on Acoustics (POMA) 19, 050199, 2013年06月07日 (Montreal, Canada,)

　概要を見る

2 - 7, June, 2013.
声から身体情報を求める

小林真優子, 西村竜一, 入野俊夫, 河原英紀

第99回音楽情報科学研究会, 音学シンポジウム2013 2013年05月12日 (お茶の水女子大, 東京, 2013年5月11日-12日) 情報処理学会

　概要を見る

声を聴くと，何となくその人の体型が分かる．ここでは，母音だけを用いて相対的な声道長を推定する方法を提案する．この方法では，声道長以外の要因によるスペクトル形状変化の影響を軽減するために，スペクトル距離の計算に用いる帯域を制限し，スペクトルの大局的な平坦化と形状の過度な詳細の平滑化とを組合せている．6歳から56歳までの284名の男女が発声した母音と身体情報からなるデータベースを用いることで，これらの処理に用いるパラメタを決定した．母音だけを用いた簡易な方法にも関わらず，以前報告した聴覚モデルを用いた方法を凌駕する精度での声道長推定が可能であることを確認した．また，このデータベースに付与された身体情報を母音だけから推定できることを示した．When we hear a voice, we will see the person's body type somehow. In this article, we propose a method for estimating relative vocal tract length using only vowels. The proposed method consists of procedures to alleviate spectral deforming effects caused by other factors than the vocal tract length. They are selection of spectral region for calculating spectral distance, removal of global spectral shape, and smoothing of excessive details of spectrum. Parameter tuning of the proposed method was conducted by using a speech database with relevant physical data which consists of Japanese five vowels spoken by 284 male, female and adolescent talkers ranging from 6 to 56 years old. This simple vowel-based method found to provide better estimates than our previously proposed method. The proposed method also provides estimates of talkers' height and weight only from vowels using the relevant physical data stored in the database.
モバイル携帯端末を用いた環境音収集とその認識手法の検討

津田貴彦, 中西恭介, 松山みのり, 西村竜一, 山田順之介, 河原英紀, 入野俊夫

第99回音楽情報科学研究会, 音学シンポジウム2013 2013年05月11日 (お茶の水女子大, 東京) 情報処理学会

　概要を見る

本研究では、環境音を入力とするインターフェースを有するモバイルアプリケーションの開発を行っている。実現に必要なのは、環境音認識手法の開発と、環境音サンプルの収集及び、クライアントアプリケーションの実装である。認識システムを予備評価した結果、アルゴリズムの改良と学習用データの拡充が必要であることを確認した。この問題に対し、データ収集用のAndroidアプリケーションを作成し、学内ではサークル等の活動に伴う音を29時間24分、学外では電車の走行音や救急車のサイレン等の音を10時間36分にわたって集めることに成功した。本発表では、収集データの分類と、その認識手法について議論する。We have been developing an Android mobile application which can recognize environmental sound signals. This report describes environmental sound signal recognition method, our collection of environmental sounds, and an overview of the prototype system. In order to collect further samples of environmental sounds, Android applications for data collection was developed.
招待講演聴覚における寸法知覚と最適末梢系,

入野俊夫 [招待有り]

第99回音楽情報科学研究会, 音学シンポジウム2013 2013年05月11日 (お茶の水女子大, 東京,) 情報処理学会

　概要を見る

2013年5月11日-12日本発表では、聴覚末梢系の最適性を追求することから始まり、音源の寸法-形状知覚の特性測定や応用に至る研究の背景と経緯を紹介する。聴覚末梢系のインパルス応答は、時間-スケール表現における最小不確定性を満足する関数として解析的に求められることがわかった。得られた「ガンマチャープ関数」とその後の発展版は、生理実験データや心理物理実験データを良く説明できる関数として広く用いられている。また、この健聴者のみならず難聴者の分析特性を模擬できるばかりでなく、模擬難聴の音を合成することも可能となった。この最適性の背景となる時間-スケール表現の導出アルゴリズムとして、「安定化ウェーブレット-メリン変換」を提案した。この表現は、音響系のスケールすなわち音源の寸法や形状に関して、人間の知覚系で分離抽出処理が行われているという仮説に基づいている。日常生活では、大人と子供の同一発話を、同一内容として認識できると同時に発話者のおおよその寸法もわかるので、直感的には妥当である。そこで知覚処理の精度を測るため、様々な音声における寸法の弁別閾や認識率を、聴覚心理実験を通して明らかにしてきた。さらにこのモデルの工学的な優位性を示すため、話者の声道長の推定や大人子供判別に適用し、従来法に比べて性能が向上することも示してきた。世界の先陣を切って突入した高度高齢化社会における音支援を考える上で、最も重要な聴覚的信号処理の基盤となる技術であると考えている。
ウェブ集合知に基づいた語彙獲得と3‐gram確率推定による言語モデル自動生成ツール

田中雅康, 西村竜一, 河原英紀, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2013年03月15日 (東京工科大, 八王子,)

　概要を見る

3-P-3c, pp.197-198, 2013年3月13日〜15日
ノッチ雑音マスキング法の測定点削減のための感度解析の改良

深渡瀬智史, 入野俊夫, 西村竜一, 河原英紀, PATTERSON Roy D

日本音響学会：春季研究発表会講演論文集 2013年03月14日 (東京工科大, 八王子,)

　概要を見る

2-Q-4, pp.609-610, 2013年3月13日〜15日
高い時間分解能を有するスペクトルおよび基本周波数抽出法に基づくシャウト歌唱の分析について

西垣友理, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2013年03月13日 (東京工科大, 八王子,)

　概要を見る

1-Q-3c, pp.389-390, 2013年3月13日〜15日
環境音認識を応用した情報提供機能を有するモバイルアプリケーションの検討

中西恭介, 津田貴彦, 西村竜一, 河原英紀, 入野俊夫

情報処理学会第75回全国大会 2013. Vol.3,pp.463-464 2013年03月07日 (東北大,仙台)

　概要を見る

近年、スマートフォンで利用できる音声ナビゲーション機能が注目されている。また、日常では環境音からも多くの情報を得ることができる。そこで、本研究では環境音認識を応用し，その場の状況を判断するガイドシステムの開発を目指す。具体的には、和歌山大学の案内システムを開発する。本システムは、サーバークライアント型のアーキテクチャを採用しており、Android端末で録音した音響信号をサーバー側で認識処理する。実現に必要なのは、環境音認識プログラムの開発と、音響信号サンプルの収集およびアプリケーションの実装である。現在までに、収集した環境音を用いて認識実験を行った。結果を報告する。
Matching of the Dominant Pitch of Scale Alternating Wavelet Sequences against Complex Tones with Odd Harmonics,

Minoru Tsuzaki, Toshio Irino, Chihiro Takeshima, Toshie Matsui

ARO midwinter research meeting, Abstract #491 2013年02月

　概要を見る

Baltimore, Maryland, 16-20 Feb., 2013.(発表日 17 Feb )
非対称レベルマスカを導入したノッチ雑音マスキング法の測定点の感度解析による削減

深渡瀬智史, 入野俊夫, 西村竜一, 河原英紀, Roy D. Patterson

第15回関西支部若手研究者交流研究発表会 2012年12月09日 (産総研関西支部,大阪) 日本音響学会関西支部
携帯型ガイドシステムのための環境音認識を応用したZoneRecognitionの提案

中西恭介, 津田貴彦, 西村竜一, 河原英紀, 入野俊夫

第15回関西支部若手研究者交流研究発表会 2012年12月09日 (産総研関西支部,大阪) 日本音響学会関西支部
TANDEM-STRAIGHTを用いた歌唱技法「シャウト」の再現

西垣友理, 西村竜一, 入野俊夫, 河原英紀

第15回関西支部若手研究者交流研究発表会 2012年12月09日 (産総研関西支部,大阪) 日本音響学会関西支部
ウェブ上の言語情報で拡張した語彙に基づく3-gramモデル自動生成ツール

田中雅康, 西村竜一, 河原英紀, 入野俊夫

第15回関西支部若手研究者交流研究発表会 2012年12月09日 (産総研関西支部,大阪) 日本音響学会関西支部
母音区間だけを用いた声道長推定と身体情報との関連〜あいうえおでBMIがわかる?〜

小林真優子, 西村竜一, 入野俊夫, 河原英紀

第15回関西支部若手研究者交流研究発表会 2012年12月09日 (産総研関西支部,大阪) 日本音響学会関西支部
コミュニケーションの環を紡ぐ情報処理原理の解明と応用

入野俊夫

工学研究シーズ合同発表会 2012年11月12日 (大阪府立大学, 大阪) 大阪府立大学・和歌山大学
非対称レベルマスカを導入したノッチ雑音マスキング法の測定点の削減

深渡瀬智史, 入野俊夫, 西村竜一, 河原英紀, PATTERSON Roy D

日本音響学会聴覚研究会資料 2012年10月13日 (いこいの村岩手,岩手)

　概要を見る

Vol.42, No.7, H-2012-99, pp.547-552, 2012
2012年10月13日〜14 日筆頭著者深渡瀬智史,「聴覚研究会, 研究奨励賞」受賞
Introduction to the dynamic compressive gammachirp filterbank -- How can we implement aging efffect with it?

入野俊夫

Workshop on "Shift of the absolute pitch in eldery listener" (Organizer: Prof. Minoru Tsuzaki) 2012年09月23日 (Campus plaza Kyoto, Kyoto)
日本語スピーキングテストS‐CATにおける並列セグメンテーションを用いた自動採点の検討

西村竜一, 栗原理沙, 篠崎隆宏, 石塚賢吉, 山田武志, 今井新悟, 河原英紀, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2012年09月21日 (信州大, 長野,)

　概要を見る

3-Q-17, pp.397-398, 2012年9月19日〜21日
言語モデルの簡易構築に向けたGoogleデータからの必要単語抽出方法の検討

田中雅康, 西村竜一, 河原英紀, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2012年09月21日 (信州大, 長野)

　概要を見る

3-P-20, pp.173-174,2012年9月19日〜21日
母音区間情報に基づく声道長正規化と身体情報の基礎的検討

小林真優子, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2012年09月21日 (信州大, 長野)

　概要を見る

3-Q-28, pp.423-424, 2012年9月19日〜21日
スピーカー特性の簡易補正と主観評価実験

苔口祐樹, 入野俊夫, 西村竜一, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2012年09月20日 (信州大, 長野)

　概要を見る

2-Q-a9, pp.533-534, 2012年9月19日〜21日
周期信号の瞬時周波数および群遅延の安定な表現について

河原英紀, 森勢将雅, 西村竜一, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2012年09月20日 (信州大, 長野,)

　概要を見る

2-2-6, pp.283-286, 2012年9月19日〜21日
感度解析を用いたノッチ雑音マスキング法の測定点の削減に関する研究

深渡瀬智史, 入野俊夫, 西村竜一, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2012年09月19日 (信州大, 長野)

　概要を見る

2-Q-a11, pp.537-538, 2012年9月19日〜21日
携帯型端末で収録した音サインやサイレンなどの環境音認識の検討

津田貴彦, 西村竜一, 河原英紀, 山田順之介, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2012年09月19日 (信州大, 長野)

　概要を見る

1-4-5, pp.1515-1516, 2012年9月19日〜21日
周期信号の群遅延の安定な表現について

河原英紀, 森勢将雅, 西村竜一, 入野俊夫

音楽音響研究会資料 2012年07月12日

　概要を見る

位相の時間微分および周波数微分としてそれぞれ定義される瞬時周波数と群遅延は,位相そのものよりも物理的な意味を理解し易く,またunwrapという脆弱な処理を必要としないなど,優れた性質を有する表現である.しかし,周期信号を対象とした場合,周期的に繰返される成分間の干渉により,それらの値には不連続や急激な変化が生ずる問題があった.著者らは,これまで周期信号から求められる表現に含まれる周期性に起因する干渉を解消する方法を,パワースペクトルと瞬時周波数について明らかにしてきた.ここでは,Flanaganらによる瞬時周波数計算法と同様な表現に基づくことにより,群遅延についてもそのような干渉を解消した表現が可能であることを示す.具体的には,求められた群遅延をパワースペクトルで重み付けた後,コピーを作成し,それぞれを周波数軸上で反対方向に基本周波数の1/4だけ移動させたものの加重平均を求めれば良い.
心理カウンセリング来談者の問題表現時の視点構造とマイクロスリップ — 問題の所在が遷移した事例に関する質的検討

末崎裕康, 古山宣洋, 花田里欧子, 井上雅史, 有久亘, 入野俊夫

日本生態心理学会第4回大会 2012年07月07日 (函館、北海道)
招待講演内耳における圧縮特性とフィルタ特性の同時推定手法とその応用,

入野俊夫 [招待有り]

第9回内耳ひずみ研究会 2012年07月06日 (慶應大学病院, 東京,) 日本聴覚医学会
スケール変形母音の話者寸法弁別と母音同定 : 母音持続時間の依存性

竹島千尋, 津崎実, 入野俊夫

電子情報通信学会技術研究報告. SP, 音声 2012年06月07日

　概要を見る

本研究の目的は,聴覚の寸法情報処理における積分特性を明らかにすることである。母音のスペクトル包絡の周波数スケールを伸縮させた母音刺激に対し話者寸法の弁別実験を行った。その結果,母音の持続時間が16msから32msに増加すると弁別成績が大きく向上した。32ms以上の母音では持続時間の増加に伴って僅かに成績が向上する程度にとどまった。結果から,32ms付近の積分の時間窓が寸法情報処理に影響を及ぼす可能性が示唆された。母音同定実験においても16msの持続時間で成績が最も低下した。しかし寸法弁別実験とは異なり,母音同定では母音の駆動条件によって持続時間の効果の程度に違いが見られた。
楽器音や動物の鳴声の音色と音声の言語情報を保持したクロス合成VOCODER

西大輝, 西村竜一, 入野俊夫, 河原英紀

第95回音楽情報科学研究会,MUS95-3 2012年06月02日 (東京大, 東京, 2012年6月2~3日) 情報処理学会

　概要を見る

楽器音や動物の鳴声と，音声の２つの音源の特徴を併せ持つ合成音を作るクロス合成 VOCODER の検討をしている．クロス合成は，音声の狭帯域伝送技術である VOCODER を応用した技術で，現在では楽曲制作や Vocal エフェクター等，音楽の分野で広く用いられる．しかし，クロス合成でつくられる合成音は，楽器音等の音色の特徴が失われ，元の楽器の音が何か不明確になるという問題がある．本報告では，この問題を解決するため，変調周波数領域を帯域制限することにより，音声の言語情報だけを残したスペクトルを用いる新たなクロス合成を提案する．さらに，変調周波数領域を処理するフィルタにおける遮断周波数の設計を検討し，その効果を主観評価実験により明らかにした．A new design method of cross synthesis VOCODER, which synthesizes sounds by mixing features of two input sounds, such as speech and musical instruments or animal voices, is proposed. Cross synthesis VOCODER is originated from a narrow-band transmission technology and currently widely used as an effector for musical performance and production. However, current cross synthesis effects tend to deteriorate original character of musical instruments and linguistic information of the processed sound is not always intelligible. The proposed method provide ways to alleviate these difficulties using two technique. One is spectral global shape removal form the speech spectral envelope and the other is band-pass filtering in the modulation frequency domain. Subjective test results indicated relevance of the proposed techniques and provide design guideline of new flexible cross synthesis VOCODERs.
音源およびスペクトル包絡の時間的微細構造の加工と歌唱音声の印象への影響について

河原英紀, 森勢将雅, 西村竜一, 入野俊夫

第95回音楽情報科学研究会,MUS95-4 2012年06月02日 (東京大, 東京, 2012年6月2~3日) 情報処理学会

　概要を見る

シャウトやデスボイスなどの激しい表現は、ポピュラー歌唱で広く用いられている。これらを適切に分析、再現、制御する方法を明らかにすることは、歌唱合成システムに豊かな表現力を与えるために解決すべき重要な課題である。本報告では、まず、新たに開発した高い時間分解能を有する基本周波数抽出法とそれに基づく TANDEM-STRAIGHT により、様々な歌唱音声を分析した結果について報告する。分析結果は、激しい表現にいおいて、70 Hz付近に 20 dB程度の高さのピークを有する高速の（基本周波数の）周波数変調と、同様に、高速の（スペクトル包絡の）振幅変調が存在することを示した。このような高速の変調の存在は、これまでにはっきりとは報告されていない。予備的な実験により、それらの高速の変調を加工することにより、発声の声区と努力の印象を保ったまま、シャウトなどの歌唱表現の強さ（生々しさ）を制御できる可能性が示された。Strong expressions such as "shout" and "death voice" are common in popular singing. However, current singing synthesis systems are not good at handling these strong expressions and are not capable of using them to expand their limit of expressiveness. This is the topic this article tries to address. A set of singing voice analysis tests was conducted using our newly developed F0 extraction method, which has high temporal resolution and is light-weighted, and TANDEM-STRAIGHT for spectral envelope analyses. This test revealed that expressive singing voices consist of high-speed frequency as well as amplitude modulations in F0 and spectral envelope respectively. In one typical case, about 20 dB higher modulation frequency spectral peak was found around 70 Hz for expressive performance than that of normal performance. Preliminary tests suggested that selective control of "expressiveness" can be implemented by manipulating these high-speed modulations while preserving vocal register and effort intact.
聴覚フィルタバンクを導入した音響特徴量による若年者判別手法

宮森翔子, 西村竜一, 岡本恵里香, 河原英紀, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2012年03月15日 (神奈川大, 神奈川)

　概要を見る

3-7-3, pp.87-88, 2012年3月13日〜15日
若年話者判別法の音響特徴に対する聴覚フィルタバンクの導入

宮森翔子, 西村竜一, 岡本恵里香, 河原英紀, 入野俊夫

情報処理学会第74回全国大会 2012 Vol.2, pp.613-614 2012年03月15日 (名古屋工大,名古屋, 2012年3月6日～8日)

　概要を見る

本研究では、対話インタフェースにおいて子どもに優しい振舞いを提供するために、音声認識を用いた若年者判別技術に関する検討を行っている。今回、従来から用いている音響特徴量であるMFCC(メル周波数ケプストラム係数)に、ガンマチャープ聴覚フィルタバンク(GCFB)から抽出した特徴量を組み合わせ、判別性能の調査を行った。MFCCは、音声認識に一般的に使用されている特徴量である。一方、聴覚フィルタバンクは人間の聴覚特性を模擬しており、先行研究により、音声モーフィングのための声道長正規化に有効であることがわかっている。声道長と人間の身長には相関があることから、聴覚フィルタバンクの導入は若年話者判別にも有効であると考えられる。
Googleデータを用いた3‐gramモデル構築における品詞情報に基づいた語彙制限

田中雅康, 西村竜一, 島田敏明, 河原英紀, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2012年03月15日 (神奈川大, 神奈川)

　概要を見る

3-P-9, pp.233-234, 2012年3月13日〜15日
Googleデータベースを用いた3‐gram拡張法による言語モデル構築の自動化ツール

島田敏明, 田中雅康, 西村竜一, 河原英紀, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2012年03月15日 (神奈川大, 神奈川)

　概要を見る

3-P-10, pp.235-236, 2012年3月13日〜15日
日本語発話能力測定ウェブテストシステムを用いて収集した留学生の日本語発話の分析

栗原理沙, 西村竜一, 和田芳佳, 河原英紀, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2012年03月15日 (神奈川大, 神奈川)

　概要を見る

3-11-19, pp.421-422, 2012年3月13日〜15日
異なった原理に基づく周期性検出器のアンサンブルによる音源情報の分析について

河原英紀, 森勢将雅, 西村竜一, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2012年03月15日 (神奈川大, 神奈川)

　概要を見る

3-11-4, pp.385-388, 2012年3月13日〜15日
楽器音や動物の鳴声の音色を保持した音声とのクロス合成VOCODERの検討

西大輝, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2012年03月15日 (神奈川大, 神奈川)

　概要を見る

3-11-10, pp.401-402, 2012年3月13日〜15日
（筆頭著者西, 「学生優秀発表賞（第５回),」受賞）
模擬難聴のための動的圧縮型ガンマチャープによる圧縮特性の制御

坂口諒, 入野俊夫, 西村竜一, 河原英紀

日本音響学会：春季研究発表会講演論文集 2012年03月15日 (神奈川大, 神奈川)

　概要を見る

3-Q-6, pp.605-606, 2012年3月13日〜15日
非対称レベルマスカを導入したノッチ雑音マスキング法による圧縮特性推定法の提案

深渡瀬智史, 入野俊夫, 西村竜一, 河原英紀

日本音響学会：春季研究発表会講演論文集 2012年03月15日 (神奈川大, 神奈川)

　概要を見る

3-Q-25, pp.647-648, 2012年3月13日〜15日
母音の持続時間が話者寸法の弁別能力に与える影響

竹島千尋, 津崎実, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2012年03月15日 (神奈川大, 神奈川)

　概要を見る

3-Q-9, pp.611-614, 2012年3月13日〜15日
スケール変換したインパルス応答が交替する系列に対するピッチ知覚

津崎実, 竹島千尋, 松井淑恵, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2012年03月15日 (神奈川大, 神奈川)

　概要を見る

3-10-5, pp.583-586, 2012年3月13日〜15日
障害音声および歌唱音声における音声の周期構造分析について

和田芳佳, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2012年03月15日 (神奈川大, 神奈川)

　概要を見る

3-11-1, pp.375-376, 2012年3月13日〜15日
聴覚フィルタバンクに基づく声道長推定と発話様式や身長との関係

岡本恵里香, 北出晴香, 西村竜一, 河原英紀, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2012年03月14日 (神奈川大, 神奈川,)

　概要を見る

2-11-3, pp.339-340, 2012年3月13日〜15日
ウェブデータベースを用いた音声認識用言語モデルの簡易適応

西村竜一, 島田敏明, 田中雅康, 河原英紀, 入野俊夫

情報処理学会第74回全国大会 2012. Vol.2,pp.5-6 2012年03月07日 (名古屋工大,名古屋, 2012年3月6日～8日)

　概要を見る

我々は、大語彙連続音声認識の精度向上の為、ウェブデータベースを用いた3-gram言語モデルの拡張手法を検討している。本手法は、Googleの日本語N-gramデータベースの登録情報に基づき、学習用コーパス内では未観測であった3-gramの出現確率を推定する。また、本手法では情報量を基準として重要単語を抽出し、拡張する3-gramを選別する。昨年の報告に引き続き、提案法を言語モデルのタスク適応に応用した。実験では、日本語話し言葉コーパス(CSJ)から抽出した講演発話を対象に本手法を適用し、認識精度を評価した。また、提案法を実装したウェブアプリサービスを構築する予定なので、その概要を報告する。
ウェブデータベースを用いた音声認識用言語モデルの簡易適応

西村竜一, 島田敏明, 田中雅康, 河原英紀, 入野俊夫

情報処理学会全国大会講演論文集 2012年03月06日

　概要を見る

我々は、大語彙連続音声認識の精度向上の為、ウェブデータベースを用いた3-gram言語モデルの拡張手法を検討している。本手法は、Googleの日本語N-gramデータベースの登録情報に基づき、学習用コーパス内では未観測であった3-gramの出現確率を推定する。また、本手法では情報量を基準として重要単語を抽出し、拡張する3-gramを選別する。昨年の報告に引き続き、提案法を言語モデルのタスク適応に応用した。実験では、日本語話し言葉コーパス（CSJ）から抽出した講演発話を対象に本手法を適用し、認識精度を評価した。また、提案法を実装したウェブアプリサービスを構築する予定なので、その概要を報告する。
聴覚フィルタバンクによる声道長推定と身長との相関および発話様式の影響

岡本恵里香, 北出晴香, 西村竜一, 河原英紀, 入野俊夫

日本音響学会聴覚研究会資料 2012年02月04日 (那覇市IT創造館,沖縄)

　概要を見る

Vol.42, No.1, H-2012-7, pp.35-40, 2012年2月4日〜5 日
スケーリングした2種のインパルス応答が交替する音系列に対するピッチ知覚―調整法による心理物理実験―

津崎実, 竹島千尋, 松井淑恵, 入野俊夫

日本音響学会聴覚研究会資料 2012年02月04日 (那覇市IT創造館,沖縄)

　概要を見る

Vol.42, No.1,H-2012-6, pp.29-34, 2012年2月4日〜5 日
Effects of the Correlation Between the Fundamental Frequecies and Resonance Scales as a Cue for the Auditory Stream Segregation,

Minoru Tsuzaki, Toshio Irino, Chihiro Takeshima, Toshie Matsui

ARO midwinter research meeting, Abstract #1079 2012年02月

　概要を見る

San Diego, California, USA, 25-29 Feb., 2012.(発表日 29 Feb )
Discrimination of Speaker Sizes Through Speech Sounds: Dependence on Sound Duration,

Chihiro Takeshima, Minoru Tsuzaki, Toshio Irino

ARO midwinter research meeting, Abstract #417 2012年02月

　概要を見る

San Diego, California, USA, 25-29 Feb., 2012.(発表日 26 Feb )
音声の周期構造分析法とその障害音声分析への応用

和田芳佳, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

第14回関西支部若手研究者交流研究発表会 2011年12月18日 (産総研関西支部,大阪) 日本音響学会関西支部
和歌山大学のゆるキャラ『わだにゃん』が登場する子どもにやさしい対話システムの開発

吉本勇希, 西村竜一, 宮森翔子, 河原英紀, 入野俊夫

第14回関西支部若手研究者交流研究発表会 2011年12月18日 (産総研関西支部,大阪) 日本音響学会関西支部
聴覚フィルタバンクに基づく声道長正規化を用いた音声モーフィングの改良

岡本恵里香, 入野俊夫, 西村竜一, 河原英紀

第14回関西支部若手研究者交流研究発表会 2011年12月18日 (産総研関西支部,大阪) 日本音響学会関西支部
Googleデータを用いた音声認識用辞書のクイック構築技術

田中雅康, 西村竜一, 島田敏明, 河原英紀, 入野俊夫

第14回関西支部若手研究者交流研究発表会 2011年12月18日 (産総研関西支部,大阪) 日本音響学会関西支部
pandaPhone:人と動物を混ぜ合わせた声の iPhoneアプリ

西大輝, 西村竜一, 入野俊夫, 河原英紀

第14回関西支部若手研究者交流研究発表会 2011年12月18日 (産総研関西支部,大阪) 日本音響学会関西支部

　概要を見る

（筆頭著者西, 「若手奨励賞」受賞）
基本波のFMとAM成分に基づく高速な基本周波数推定法について

河原英紀, 森勢将雅, 西村竜一, 入野俊夫

日本音響学会聴覚研究会資料 2011年12月10日 (熊本県立大, 熊本)

　概要を見る

Vol.41, No.9, pp.679-684 2011年 12月10日～11 日
音声分析変換合成系における時変フィルタの実装と駆動情報の表現について

河原英紀, 和田芳佳, 西大輝, 森勢将雅, 西村竜一, 入野俊夫

日本音響学会聴覚研究会資料 2011年10月01日 (富山)

　概要を見る

Vol.41, No.7, pp.561-566, 2011年10月1日～2日
Experimental results on size perception in voiced and whispered speech,

入野俊夫

Wakayama Auditory and Visual Exploring Workshop (WAVE workshop) 2011年09月27日
招待講演安定な声道長推定のための聴覚フィルタバンクとその理論

入野俊夫, 河原英紀 [招待有り]

日本音響学会 2011年09月22日 (島根大, 島根)

　概要を見る

秋季研究発表会講演論文集, pp.505-508,2011年9月20日～22日,
障害音声の分析における基本周波数抽出法の評価について

和田芳佳, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2011年09月21日 (島根大, 島根)

　概要を見る

pp.423-434, 2011年9月20日～22日
語彙で認識対象を制御するGoogleデータを用いた3‐gramモデル構築法の検討

田中雅康, 西村竜一, 島田敏明, 河原英紀, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2011年09月21日 (島根大, 島根)

　概要を見る

pp.161-162, 2011年9月20日～22日
聴覚フィルタバンクを用いた声道長推定法の比較

岡本恵里香, 入野俊夫, 西村竜一, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2011年09月21日 (島根大, 島根)

　概要を見る

pp.389-390, 2011年9月20日～22日
情報量を基準とした3‐gram拡張に基づく言語モデルの適応手法

島田敏明, 田中雅康, 西村竜一, 河原英紀, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2011年09月21日 (島根大, 島根)

　概要を見る

pp.167-168, 2011年9月20日～22日
招待講演寸法知覚を中心とした聴覚情景分析－物理世界と心理世界をつなぐ聴覚－

津崎実, 入野俊夫, 竹島千尋, 松井淑恵 [招待有り]

日本音響学会 2011年09月21日 (島根大, 島根,)

　概要を見る

秋季研究発表会講演論文集, pp.1437-1440,2011年9月20日～22日,
言葉の明瞭度と楽器等の特徴を保持したクロス合成の評価について

西大輝, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2011年09月20日 (島根大, 島根)

　概要を見る

pp.587-588, 2011年9月20日～22日
聴覚フィルタバンクを用いた若年話者判別の検討

宮森翔子, 岡本恵里香, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2011年09月20日 (島根大, 島根)

　概要を見る

pp.59-62, 2011年9月20日～22日
安定な声道長推定のための聴覚フィルタバンクとその理論

入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2011年09月13日
招待講演音声からの声道長推定における聴覚的ウェーブレット変換について,

入野俊夫 [招待有り]

平成23年度数学•数理科学と諸科学•産業との連携研究ワークショプ「ウェーブレット理論と工学への応用」 2011年09月12日 (大阪教育大, 大阪,) 文部科学省•大阪教育大

　概要を見る

大阪, 2011年9月12〜13日
対話型音声インタフェースのための大人・子ども判別技術の改良

宮森翔子, 西村竜一, 入野俊夫, 河原英紀

FIT2011 第10回情報科学技術フォーラム 2011年09月07日 (函館大学・函館短期大学, 北海道)

　概要を見る

Vol 3. pp.37 - 40, 2011年9月7日～9日
寸法知覚を中心とした聴覚情景分析―物理世界と心理世界をつなぐ聴覚― （招待講演)

津崎実, 入野俊夫, 竹島千尋, 松井淑恵

日本音響学会研究発表会講演論文集(CD-ROM) 2011年09月
複数の周期成分を持つ音声のための周期構造抽出法と障害音声分析への応用について

和田芳佳, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告, Vol.111, No.175, EA2011-63, pp.81-86, 日本音響学会聴覚研究会資料, Vol.41, No.6, pp.457-462 2011年08月10日 (東北大, 仙台, 宮城) 電子情報通信学会電気／応用音響究会

　概要を見る

歌唱音声や障害音声,強い感情音声など,基本周波数のみでは十分に表すことのできない複雑な構造をもつ音声を分析するために,XSX(eXcitation Structure extractor)と呼ばれる方法を提案してきた.本資料では,従来の基本周波数抽出法と比較することで,XSXの特長と有効な適用領域を明らかにする.まず,FM調波複合音を試験用の信号として,基本周波数の変調周波数に対する追従性能を調べ,XSXが比較対象であるYINとSWIPEを大きく凌ぐ性能を有することを明らかにした.次いで,障害音声データの分析を行い,比較対象の方法と大きく異なる結果が得られる音声に対して詳細な検討を行った.XSXによる詳細な分析結果は,それらの音声では,いわゆる基本周期に加えて,複数の周期が組み合わされた単位が繰返されるサブハーモニックが生じていることを明らかにした.これらの結果は,XSXが従来の方法では困難な複雑な音声の分析に有用な方法であることを示すものである.
言葉の明瞭度と楽器等の音色を保持したクロス合成法の検討

西大輝, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告, Vol.111, No.175, SP2011ー64, pp.87-92, 日本音響学会聴覚研究会資料, Vol.41, No.6, pp.463–468 2011年08月10日 (東北大, 仙台, 宮城) 電子情報通信学会電気／応用音響究会

　概要を見る

音声と,楽器音や動物の鳴声などの2つの音源の特徴を混合して合成音を作るクロス合成VOCODERに,F0に適応したスペクトル包絡抽出法であるTANDEM-STRAIGHTを適用した.時変フィルタをFIRフィルタにより実装した検討では,STRAIGHTスペクトルを用いることにより,合成音の明瞭度が向上することが示された.しかし,同時に楽器等の音色の特徴が失われるという問題が明らかとなった.この問題を解決するため,音声の変位スペクトルと最小位相応答を用いた時変フィルタによる新たなクロス合成法を提案する.予備的な検討では,提案手法により,言葉の明瞭度を維持しながら,楽器音の特徴を保存できる可能性が示された.
聴覚フィルタバンクを用いた声道長比推定

岡本恵里香, 入野俊夫, 西村竜一, 河原英紀

電子情報通信学会技術研究報告, Vol.111, No.153, SP2011-43, pp.11 - 16 2011年07月22日 (定山渓, 北海道, 2011年7月21日〜23 日) 電子情報通信学会音声研究会

　概要を見る

音声認識や,高品質な音声モーフィングなどの音声アプリケーションには声道長正規化(VTLN)は重要な技術となっている.しかし,声道長を個人差が大きい音声から正確に推定することはけして容易ではない.これは,音声の母音のスペクトル形状が,声道長ばかりでなく,声道音源波形や梨状窩による零などの影響により個人毎に大きく異なっているためである.本研究では,聴覚フィルタバンクを用いて.声道長の推定精度を改善する手法を提案する.2話者の音声の間のスペクトル距離が最小となるスペクトル伸縮度合を声道長比とし,28名分の音声(全順列_<28>P_<27>=756通り)について計算を行い,その結果から回帰分析によって推定誤差を統計的に求めた.また,スペクトル表現による違いを比較するために,音声認識に従来から用いられているMFCCの計算に用いられるメル周波数フィルタバンク(MFFB),代表的な聴覚モデルであるガンマトーンフィルタバンク(GTFB),ガンマチャープフィルタバンク(GCFB)を対象とした.この結果,GCFBを用いた場合に,他の手法よりも声道長比推定の精度が良くなることがわかった.
Pitch perception for sequences of glottal pulses alternating different resonance scales,

Minoru Tsuzaki, Toshie Matsui, Chiriro Takeshima, Toshio Irino

J. Acoust. Soc. Am. , 129 (4), Pt.2 2011年05月

　概要を見る

Presented at ASA meeting, Seattle, USA, 23-27 May 2011,(発表日 26 May )
話者寸法の弁別における母音の持続時間の効果―雑音駆動母音を用いた検討―

竹島千尋, 津崎実, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2011年03月11日 (早稲田大, 東京)

　概要を見る

pp.589-592, 2011年3月9日〜11日
単語音声の連続性と音節遷移情報を担う脳領域のfMRIによる検討

塚田裕樹, 能田由紀子, 河原英紀, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2011年03月11日

　概要を見る

pp.483-486, 2011年3月9日〜11日
滑舌の良いCross synthesis VOCODER

西大輝, 赤桐隼人, 西村竜一, 入野俊夫, 河原英紀

情報処理学会シンポジウム論文集,インタラクション2011 2011年03月11日 (日本科学未来館)

　概要を見る

2011年3月10日〜12日
ピーク強調を含んだF0適応型スペクトル包絡抽出法による再合成音声の品質評価について

赤桐隼人, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2011年03月11日 (早稲田大, 東京)

　概要を見る

pp.327-328, 2011年3月9日〜11日
成分位相の制御により声の肌触りを変える

河原英紀, PATTERSON Roy D, 森勢将雅, 坂野秀樹, 津崎実, 高橋徹, 西村竜一, 入野俊夫

情報処理学会シンポジウム論文集,インタラクション2011 2011年03月11日 (日本科学未来館)

　概要を見る

2011年3月9日〜11日
実環境発話を用いた子ども判別アルゴリズムの検討

宮森翔子, 西村竜一, 栗原理沙, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2011年03月10日 (早稲田大, 東京)

　概要を見る

pp.55-56, 2011年3月9日〜11日
ウェブを用いたトピック関連N‐gramエントリ抽出手法の検討

島田敏明, 田中雅康, 西村竜一, 河原英紀, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2011年03月10日 (早稲田大, 東京)

　概要を見る

pp.199-200, 2011年3月9日〜11日
聴覚フィルタバンクに基づく声道長正規化と音声モーフィングへの応用について

岡本恵里香, 入野俊夫, 西村竜一, 河原英紀

日本音響学会：春季研究発表会講演論文集 2011年03月09日 (早稲田大, 東京)

　概要を見る

pp.419-420, 2011年3月9日〜11日
音声の駆動構造分析における周期性検出器の応答特性の整形と統合について

和田芳佳, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2011年03月09日

　概要を見る

pp.395-396, 2011年3月9日〜11日
Revisiting VTLN based on auditory filterbank

入野俊夫

WAVE workshop on augmentation of speech communication 2011年03月07日 (Sophia University, Tokyo, Japan)
外部知識としてウェブを用いた3‐gram言語モデル拡張手法の検討

西村竜一, 島田敏明, 田中雅康, 河原英紀, 入野俊夫

情報処理学会第73全国大会講演論文集,vol. 2,pp. 75-76 2011年03月02日 (東京工大,東京)

　概要を見る

大語彙連続音声認識の精度向上の為、ウェブを用いた3-gram言語モデルの拡張手法に関して報告する。3-gramモデルにおいて、学習コーパスに存在しない未観測3-gramの確率値を推定する手法として、バックオフが従来から用いられている。内包的な確率推定手法であるバックオフが広く普及する一方、本研究のように、外部のデータベースを用いた未観測3-gramの確率推定の手法も存在する。本発表では、外部データベースとしてGoogleデータベースを用いた場合の未観測3-gram確率推定法に関して、従来のバックオフ手法との比較を中心に報告する。
対話の流れと頷きパターン変化

井上雅史, 入野俊夫, 古山宣洋, 花田里欧子, 一宮貴子, 末崎裕康

HAIシンポジウム2010 2010年12月12日 (慶應義塾大, 神奈川)

　概要を見る

2010年12月12日〜14日
単語の音節遷移情報の処理を担う脳領域のfMRIによる検討

塚田裕樹, 能田由紀子, 河原英紀, 入野俊夫

日本音響学会: 聴覚研究会資料 2010年12月11日 (かんぽの宿柳川, 福岡)

　概要を見る

H-2010-154, Vol. 40, No.10, pp.851-856, 2010年12月10日〜11日
聴覚フィルタバンクを用いたスペクトル距離に基づく声道長比推定について

岡本恵里香, 入野俊夫, 西村竜一, 河原英紀

第13回関西支部若手研究者交流研究発表会 2010年12月05日 (同志社大学,京都) 日本音響学会関西支部
音声の周期構造分析法の設計パラメタの検討および性能評価について

和田芳佳, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

第13回関西支部若手研究者交流研究発表会 2010年12月05日 (同志社大学,京都) 日本音響学会関西支部
トピック関連単語を用いた N-gram エントリ拡張法の音声認識性能調査

島田敏明, 田中雅康, 西村竜一, 河原英紀, 入野俊夫

第13回関西支部若手研究者交流研究発表会 2010年12月05日 (同志社大学,京都) 日本音響学会関西支部
Analysis and synthesis of singing with hoarse vocal expressions

Hideki Kawahara, Hanae Itagaki, Yoshika Wada, Masanori Morise, Ryuichi Nisimura, Toshio Irino

20th International Congress on Acoustics 2010, ICA 2010 - Incorporating Proceedings of the 2010 Annual Conference of the Australian Acoustical Society 2010年12月01日

　概要を見る

Strong vocal expressions in singing use hoarse voice effectively in various manners. However, analysis and synthesis of such voice quality have been a challenging topic with virtually little success. An excitation structure extraction framework called XSX was introduced to represent such complex structured vocal excitation with various types of aperiodicity as an integral component of TANDEM-STRAIGHT, a widely used speech analysis, modification and resynthesis framework. TANDEM-STRAIGHT is basically a source-filter model extended by introducing temporally stable power spectral representation for periodic signals and F0 adaptive spectral envelope estimation based on the consistent sampling theory. The excitation source signal used in TANDEM-STRAIGHT is a mixture of pulses and colored random signals. The source signal parameters are extracted by XSX and an aperiodicity extraction procedure. XSX is based on spectral division and inverse Fourier transform of power spectra by their spectral envelopes, which were calculated for a set of periodicity candidates. Combining salience scores for each candidate yields an integrated measure to detect locally periodic components. The aperiodicity extraction procedure is based on long-range linear prediction of band-pass signals by a set of Quadrature Mirror filters applied to the original and the time-warped signals. This data-driven approach enables to extract and represent complex excitation structures such as diplophonia. The analysis results are used to design voice excitation source, which is capable of adding/modifying hoarse vocal expressions and enables morphing between two or more expressive performance examples.
Evaluation and optimization of F0-adaptive spectral envelope estimation based on spectral smoothing with peak emphasis

Hayato Akagiri, Masanori Morise, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

20th International Congress on Acoustics 2010, ICA 2010 - Incorporating Proceedings of the 2010 Annual Conference of the Australian Acoustical Society 2010年12月01日

　概要を見る

A new spectral estimation method which improves processed sound quality of STRAIGHT, a speech analysis, modification and re-synthesis framework widely used for high-quality speech and singing manipulations, is proposed. Application of the proposed method to TANDEM-STRAIGHT, a completely reformulated version of STRAIGHT, yielded the best spectral envelope approximation among conventional methods such as LPC, cepstrum and legacy-STRAIGHT. TANDEM-STRAIGHT consists of two parts, a temporarily stable power spectrum estimation method of periodic signals (TANDEM) and a spectral envelope calculation method based on consistent sampling theory. The proposed method uses F0-adaptive smoothing and compensation of logarithmic power spectrum, for improving approximation accuracy of spectral peaks, which effects on the quality of re-synthesized sound. A series of simulations was conducted to optimize internal parameters of the proposed method. The optimized system was evaluated and compared with conventional methods using stylized spectra and simulated speech spectra. The evaluation was based on a spectral distance measure proposed by Itakura and Saitou with modification to perceptually relevant ERBNnumber frequency axis. The following set of spectra were used. Power spectra calculated from vocal tract area functions measured using MRI data with LF-model excitation spectra were used as the grand truth and spectral distances between this target and the estimated spectra were evaluated. A set of periodic pulse train was used for excitation signal in this case. These evaluation results indicated that the proposed method yields the smallest spectrum distance among conventional methods such as LPC, cepstrum and legacy-STRAIGHT.
VTL estimation using dynamic compressive gammachirp filterbank (dcGCFB)

Toshio Irino, Erika Okamoto, Ryuchi Nisimura, Hideki Kawahara

WAVE workshop on "Roles of voice periodicity," 2010年11月28日 (Miraku community center of arts, Ikoma, Nara)

　概要を見る

27-28, Nov. 2010
周期信号における時間的変動の影響を受けない位相関連情報の表現について

河原英紀, 森勢将雅, 入野俊夫

電子情報通信学会技術研究報告 2010年11月18日 (愛知県立大, 愛知) 電子情報通信学会音声研究会

　概要を見る

Vol.110, No.297, SP2010ー77, pp.47-52, 2010年11月18日〜19日
周期信号における時間的変動の影響を受けない位相関連情報の表現について

河原英紀, 森勢将雅, 入野俊夫

電子情報通信学会技術研究報告. SP, 音声 2010年11月11日

　概要を見る

基本周期の1/2の間隔を隔てた二つの時間窓を用いて、短時間Fourier変換により求められる二つのパワースペクトルの平均を計算すると、波形と時間窓の相対位置に依存しない表現が得られる。本資料では、瞬時周波数についても、同様に波形と時間窓の相対位置に依存しない表現が得られることを示す.具体的には、基本周期の1/2の間隔を隔てた二つの時間窓を用いて求められる瞬時周波数のパワーによる重み付き平均が、そのような性質を持つ。本資料では、幾つかの前提条件の下で、この方法により求められる瞬時周波数が波形と時間窓の相対位置に依存しないことを示す。また、実際に良く用いられる窓関数を用いて実装した場合の性能について、数値例を示す。
The dynamic, compressive GammaChirp filterbank (dcGC) and its applications,

Toshio Irino, Roy Patterson

Workshop on "Machine Hearing in the Internet Age: Auditory models in MIR, SIR and AIS," Google, Mountain View, 2010年11月

　概要を見る

CA, USA, 19 Nov., 2010
実環境発話を入力とする子ども利用者判別技術の開発

宮森翔子, 西村竜一, 栗原理沙, 河原英紀, 入野俊夫

日本ロボット学会第28回学術講演会 2010年09月22日 (名古屋工大, 名古屋)

　概要を見る

RSJ2010AC1H2-1, 2010年9月22日～24日
音声の周期構造検出法の設計パラメタの調整と性能評価指標の検討について

和田芳佳, 板垣英恵, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2010年09月16日 (関西大学, 大阪)

　概要を見る

pp. 333 - 334, 2010年9月14日～16日
F0適応型スペクトル包絡推定法のケプストラムを用いた実装によるピーク形状近似誤差の改善

赤桐隼人, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2010年09月16日 (関西大学, 大阪)

　概要を見る

pp. 331 - 331, 2010年9月14日～16日
招待講演はじめての聴覚フィルター心理物理実験デモで学ぶ聴覚フィルタ特性ー

入野俊夫 [招待有り]

日本音響学会 2010年09月16日 (関西大学, 大阪,)

　概要を見る

秋季研究発表会講演論文集, pp.1347 - 1348, 2010年9月14日～16日
ウェブ収集発話に基づく子ども向け対話インタフェースの開発

宮森翔子, 西村竜一, 栗原理沙, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2010年09月16日 (関西大学, 大阪)

　概要を見る

pp.89 - 90, 2010年9月14日～16日
声道長比に基づくスペクトル正規化のためのスペクトル距離および周波数帯域の検討

岡本恵里香, 浅香佳希, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2010年09月15日 (関西大学, 大阪)

　概要を見る

pp.323 - 324, 2010年9月14日～16日
講演発話を用いたN-gram補完手法の音声認識性能評価

島田敏明, 西村竜一, 河原英紀, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2010年09月14日 (関西大学, 大阪)

　概要を見る

pp.147 - 148, 2010年9月14日～16日
講演発話を用いたN‐gram補完手法が与える音声認識性能の調査

島田敏明, 西村竜一, 河原英紀, 入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2010年09月07日
E-012 音声ウェブシステムを用いて収集した実環境子供発話に関する調査(E分野:自然言語・音声・音楽,一般論文)

栗原理沙, 西村竜一, 宮森翔子, 河原英紀, 入野俊夫

FIT2010 第9回情報科学技術フォーラム 2010年09月07日 (九州大学, 福岡)

　概要を見る

pp.229 - 230, 2010年9月7日～9日
ちょっとした一言の音声認識による子ども利用者判別法の検討

宮森翔子, 西村竜一, 栗原理沙, 入野俊夫, 河原英紀

FIT2010 第9回情報科学技術フォーラム 2010年09月07日 (九州大学, 福岡)

　概要を見る

pp.469 - 472, 2010年9月7日～9日（筆頭著者宮森、「 FITヤングリサーチャー賞」受賞）
はじめての聴覚フィルタ―心理物理実験デモで学ぶ聴覚フィルタ特性― （招待講演）

入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2010年09月
単語重要度を用いたN-gram補完手法が与える音声認識性能の調査

島田敏明, 西村竜一, 河原英紀, 入野俊夫

情報処理学会研究報告, 2010-SLP-82-20, 電子情報通信学会音声研究会, 電子情報通信学会技術研究報告 2010年07月24日 (秋保温泉, 仙台, 2009年7月22日～24日)

　概要を見る

単語 3-gram モデルは，テキストコーパスから統計的手法に基づいて構築される．しかし，テキスト量が少ないと統計量を正しく算出できない．そこで本研究では，Google N-gram データに含まれる 3-gram エントリを用いて，3-gram 情報の補完を行った．3-gram エントリを選別せず補完すると，3-gram エントリ数が爆発的に増加する問題が発生する．そこで，提案手法では TF・IDF 指標と Yahoo! 関連キーワードから算出した単語重要度に基づき，追加する 3-gram エントリを選別した．これにより，重要性の低い 3-gram エントリの追加と，エントリ数の爆発的増加を防ぐ事が出来た．評価では，CSJ コーパスを用いて認識実験を行った．その結果，補完前より単語正解精度において 1.64% の向上が得られた．We have developed a method that utilizes the Google N-gram database to complement 3-gram entries in a language model. Our aim was to improve the accuracies of LVSR systems even when a 3-gram model trained on short texts is being used. This method is based on 3-gram occurrence information in external web documents and consists of three main steps. First, 3-gram entries are searched in the Google database. Secondly, 3-gram appearance counts are normalized on the basis of the ratio of total number of 3-gram entries. Lastly, 3-gram entries are selected on the basis of keywords. To prevent the addition of redundant or not relevant entries, 3-gram entries without a keyword are excluded to calculate 3-gram probabilities. The keywords were composed by measuring the TF-IDF weights and employing the web API of Yahoo! Japan. Experimental results confirmed 1.64% improvement in a recognition accuracy using the CSJ Corpus.
音源構造抽出法の初期推定値のバイアス除去と高速化について

河原英紀, 和田芳佳, 森勢将雅, 西村竜一, 入野俊夫

日本音響学会: 聴覚研究会資料 2010年07月17日 (広島県立大, 広島)

　概要を見る

H-2010-87, Vol. 40, No.6, pp.477-482, 2010年7月17日〜18日
Successful head-nodding movements in psychotherapeutic process -when and how,

Masashi Inoue, Nobuhiro Furuyama, Ryoko Hanada, Toshio Irino, Hiroyasu Massaki, Takako Ichinomiya

4th Conference of the International Society for Gesture Studies (ISGS) 2010年07月

　概要を見る

25 -30, July, 2010, Frankfurt Oder, Germany. (発表29 Jul 2010)
擬似音声信号を用いた評価による音源構造抽出法の最適化について

和田芳佳, 板垣英恵, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会応用音響研究会, EA2010-35, 電子情報通信学会技術研究報告, Vol.110, No.71, pp.77-82 2010年06月11日 (北海道医療大学, 北海道, 2010年6月10日～11日)

　概要を見る

「痩れ声」や「だみ声」のように,感情音声や歌唱音声において強い印象を与える音声の分析・合成の研究を進めている.それらの音声を駆動する信号は,基本周波数のみでは十分に表すことのできない複雑な構造を有している.本資料では,この駆動信号の構造を分析する方法として提案しているXSX(eXcitation Structure eXtractor)法に含まれる設計パラメタの最適化と,評価方法を検討した結果について報告する.評価用の疑似音声信号としては,音声のスペクトル傾斜を模した調波複合音を用い,評価目的に応じて,瞬時周波数に対するFM,瞬時振幅に対するAMを加えた.提案する方法は,初期推定値の抽出と,抽出された基本周波数候補の推定値の改良の二つのサブシステムから構成されている.本資料では,まず,初期推定値の抽出部分を最適化し,その後,推定値の改良部分を加えた全体のシステムの評価を行った.その結果,提案する方法は,様々な変動に対して,従来の方法を凌ぐ精度と追従性を有することが示された.
スペクトル距離に基づく声道長正規化のための周波数帯域の選定について

岡本恵里香, 浅香佳希, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会応用音響研究会, EA2010-36, 電子情報通信学会技術研究報告, Vol.110, No.71, pp.83-88 2010年06月11日 (北海道医療大学, 北海道, 2010年6月10日～11日)

　概要を見る

母音のスペクトル形状は,主要な要因である声道長に加え,声道音源波形や梨状窩による零などの影響により個人毎に大きく異なっている.この個人差を取り除くことは,高品質な音声モーフィングの実現や音声認識における重要な課題である.本研究では,この主要な変動要因である声道長比の推定精度を改善する方法を検討した.スペクトル距離に基づく声道長比の推定において,声道長比の影響が支配的である周波数帯域を選択することにより,推定精度を改善できると考えられる.実験では,28名により読み上げられた文音声の全ての組合せから推定された相対的な声道長を真値と仮定し,周波数帯域と推定精度との関係を調べた.その結果,MFCCの計算に用いられるフィルタ出力の対数スペクトル距離とその周波数方向の導関数の距離とを合成した距離を400Hzから4000Hzの周波数帯域で評価した場合に,最良の結果が得られることが示された.
Demonstration of a C-implementation of the dynamic compressive gammachirp for machine hearing,

Toshio Irino Toru Takahashi, Hideki Kawahara

Auditory Features Workshop, Equipe Audition, DEC, Ecole normale supérieure, France, 2010年06月

　概要を見る

1 & 3 Jun., 2010 (発表日 1 Jun)
Auditory filter shape from temporal masking curves and notched-noise data,

Toshio Irino, Nozomi Shimoshio, Hiroki Takahashi, Hideki Kawahara, Roy Patterson

Auditory Features Workshop, Equipe Audition, DEC, Ecole normale supérieure, France 2010年06月

　概要を見る

1 & 3 Jun., 2010 (発表日 3 Jun)
ウェブ収集発話を対象とした若年者判別の検討

宮森翔子, 西村竜一, 入野俊夫, 河原英紀

情報処理学会創立50周年記念（第72回)全国大会講演論文集 2010年03月11日 (東大, 東京)

　概要を見る

vol.2 pp.285-286, 5U-7, 2010年3月8日〜12日 (発表日 3月11日). （筆頭著者宮森、「学生奨励賞」受賞）
fMRIによる音声からの音源寸法情報とピッチ情報の処理とその交互作用の脳領域の検討

塚田裕樹, 入野俊夫, 大屋義和, PATTERSON Roy D, 河原英紀

日本音響学会：春季研究発表会講演論文集 2010年03月09日 (電通大, 東京)

　概要を見る

pp.599-602, 2010年3月8日〜10日
スペクトルピークを強調した平滑化を含むF0適応型スペクトル包絡推定法の最適化

赤桐隼人, 森勢将雅, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2010年03月09日 (電通大, 東京)

　概要を見る

pp.507-508, 2010年3月8日〜10日
音声からの複数の周期成分抽出および歌唱音声の周期構造分析への応用

和田芳佳, 板垣英恵, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2010年03月09日 (電通大, 東京)

　概要を見る

pp.505-506, 2010年3月8日〜10日
尖度に基づく音響的イベントの検出と音声分析変換合成システムへの応用について

河原英紀, 森勢将雅, 高橋徹, 坂野秀樹, 西村竜一, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2010年03月08日 (電通大, 東京)

　概要を見る

pp.315-316, 2010年3月8日〜10日
Google DBを用いたトピック特化型N‐gramモデル補完の検討

島田敏明, 鈴田健太郎, 永井裕貴, 西村竜一, 河原英紀, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2010年03月08日 (電通大, 東京)

　概要を見る

pp.177-178, pp.177-178, 2010年3月8日〜10日
時変モーフィングに基づく歌唱音声の操作と声質および歌い回しの評価について

岡本恵里香, 和田芳佳, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2010年03月08日 (電通大, 東京)

　概要を見る

pp.463-464, 2010年3月8日〜10日
高品質分析合成のための有声音の非周期成分の表現と推定について

河原英紀, 森勢将雅, 高橋徹, 坂野秀樹, 西村竜一, 入野俊夫

日本音響学会聴覚研究会資料, H-2010-44, Vol. 40, No. 3, pp.231ー236, 電子情報通信学会音声研究会, 電子情報通信学会技術研究報告, Vol.109, No. 451, SP2010ー165, pp.99ー104 2010年03月05日 (芝浦工大, 東京, 2010年3月4日～5日)

　概要を見る

高品質な音声分析変換合成系において、駆動信号に非周期成分を加えることは大きな効果を有する。しかし、この非周期成分をどのように表現し推定するかという問題には、幾つかの両立困難な条件がある。TANDEM-S-TRAIGHTでは、推定問題に一応の解を与えたものの、解釈と操作が困難な表現となったことが、応用を広げる上での障害となっていた。本報告では、非周期成分をsigmoidと幕乗による非線形変換とを組み合わせてモデル化する方法を提案する。実際の音声の多数の分析に基づいた検証が必要ではあるが、2個のパラメタのみを用いて非周期成分を効率よく表現できる可能性が示された。予備的な試聴による印象では、この簡単な表現を用いることにより、分析合成音声の品質が向上する効果が認められた。
音の持続時間が音源の大きさ知覚に及ぼす影響 : 母音刺激を用いた検討(日本基礎心理学会第28回大会,大会発表要旨)

竹島千尋, 津崎実, 入野俊夫

基礎心理学研究 2010年03月
Constraining the derivation of auditory filter shape with temporal masking curves,

Toshio Irino, Hiroki Takahashi, Hideki Kawahara, Roy D. Patterson

ARO 33th Midwinter meeting, Abstract #329, 2010年02月

　概要を見る

Anaheim, CA, USA, 6-10 Feb. 2010. (発表日 6 Feb., poster, abstract )
部分時変モーフィングによる母音情報に注目した歌声の転写実験と評価

岡本恵里香, 西村竜一, 入野俊夫, 河原英紀

第12回関西支部若手研究者交流研究発表会 2009年12月05日 (関西大学,大阪) 日本音響学会関西支部
圧縮型ガンマチャープ適合による聴覚フィルタの周波数特性と圧縮特性の推定

下塩望, 入野俊夫, 河原英紀, 西村竜一

第12回関西支部若手研究者交流研究発表会 2009年12月05日 (関西大学,大阪) 日本音響学会関西支部
部分時変モーフィングに基づく歌唱音声の歌い回しの転写実験と評価

和田芳佳, 西村竜一, 入野俊夫, 河原英紀

第12回関西支部若手研究者交流研究発表会 2009年12月05日 (関西大学,大阪) 日本音響学会関西支部
TANDEM-STRAIGHT スペクトル包絡推定法の改良及び最適化に関する検討

赤桐隼人, 浅香佳希, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

第12回関西支部若手研究者交流研究発表会 2009年12月05日 (関西大学,大阪) 日本音響学会関西支部

　概要を見る

（筆頭著者赤桐、「若手奨励賞」受賞）
ウェブ収集発話を対象とした人間と機械の大人・子ども識別能力の比較

宮森翔子, 西村竜一, 入野俊夫, 河原英紀

第12回関西支部若手研究者交流研究発表会 2009年12月05日 (関西大学,大阪) 日本音響学会関西支部

　概要を見る

（筆頭著者宮森、「若手奨励賞」受賞）
音声による寸法情報とピッチ情報の処理とその交互作用のfMRI による脳領域の検討

塚田裕樹, 入野俊夫, 大屋義和, Roy, D.Patterson, 河原英紀

第12回関西支部若手研究者交流研究発表会 2009年12月05日 (関西大学,大阪) 日本音響学会関西支部
Vowel-based voice conversion and its application to singing-voice manipulation

Yuri Yoshida, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

Proceedings of the AES International Conference 2009年12月01日

　概要を見る

A novel and light-weight voice conversion method is applied to manipulate a singer's identity and singing style in real time. The proposed method is based on a non-linear spectral morphing method that uses proximity information for vowel templates of the source and the target singing materials. The proposed method is based on the STRAIGHT speech analysis, modification and resynthesis system, and it yields highly natural manipulated sounds. To deal with the difficulties in applying our vowel-based voice conversion method to singing voices, singular-value decomposition and robust statistical measures are introduced to handle the huge variability of vowel spectra and fundamental frequencies in singing voices. Distance measures for preparing vowel templates and calculating proximity information are designed based on a psychophysical frequency scale, the equivalent rectangular band, ERB N rate.
音声のピッチと寸法情報の処理を担う脳領域のfMRIによる検討

塚田裕樹, 入野俊夫, 大屋義和

日本音響学会聴覚研究会資料 2009年11月14日 (豊橋技科大, 豊橋)

　概要を見る

H-2010-44, Vol. 40, No. 3, pp.231ー236, 2009年11月13日〜14日
スペクトル距離に基づくTANDEM-STRAIGHTスペクトル包絡推定の最適化に関する検討

赤桐隼人, 浅香佳希, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

日本音響学会聴覚研究会資料 2009年10月09日 (加太国民休暇村, 和歌山)

　概要を見る

H-2009-81, Vol. 39, No. 6, pp.459 - 464, 2009年10月9〜10日
レクチャー講演聴覚フィルタの測定と定式化について

入野俊夫

聴覚研究会資料 2009年10月09日
招待講演聴覚フィルタの測定と定式化について

入野俊夫 [招待有り]

聴覚研究会、レクチャー招待講演 2009年10月09日 (加太国民休暇村, 和歌山,)

　概要を見る

日本音響学会聴覚研究会資料, H-2009-73, Vol. 39, No. 6, pp.413 - 418,2009年10月9〜10日,
二話者の発声した音声に基づく声道長比の推定法と実測された身長比との関係について

河原英紀, 宮森翔子, 浅香佳希, 西村竜一, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2009年09月17日 (日本大学, 郡山, 福島)

　概要を見る

pp.365-366, 2009年9月15日〜17日
声道形状データを利用したTANDEM‐STRAIGHTスペクトル包絡推定の最適化に関する検討

赤桐隼人, 浅香佳希, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2009年09月17日 (日本大学, 郡山, 福島)

　概要を見る

pp.391-392 , 2009年9月15日〜17日
TANDEM‐STRAIGHTに基づく周期構造検出器の性能評価指標と最適化について

板垣英恵, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2009年09月17日 (日本大学, 郡山, 福島)

　概要を見る

pp.363-364. 2009年9月15日〜17日
音声Webインタフェースを用いて収集した実環境発話の分析

鈴田健太郎, 宮森翔子, 西村竜一, 河原英紀, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2009年09月17日 (日本大学, 郡山, 福島)

　概要を見る

pp.125-126, 2009年9月15日〜17日
音声からの寸法情報処理の脳内部位のfMRIによる検討

塚田裕樹, 入野俊夫, 大屋義和, PATTERSON Roy D, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2009年09月16日 (日本大学, 郡山, 福島)

　概要を見る

pp.571-572, 2009年9月15日〜17日
Size perception in voiced and whispered speech,

Toshio Irino

CNBH 12th Anniversary Meeting on "The Role of Perception in Hearing and Speech Research Processing ," CNBH, Dept. of Physiology, Developement, and Neuroscience, Univ. of Cambridge, 3 - 4 Sept. 2009. 2009年09月

　概要を見る

(発表 3 Sept. )
E-038 大人・子ども発話の自動識別に基づく安心Webシステムの検討(自然言語・音声・音楽,一般論文)

宮森翔子, 西村竜一, 鈴田健太郎, 河原英紀, 入野俊夫

情報科学技術フォーラム講演論文集 2009年08月20日
Vocoder-based morphing tool demonstrations for flexible voice manipulations,

Hideki Kawahara, Masanori Morise, Toru Takahashi, Hideki Banno, Ryuichi Nisimura, Toshio Irino

Proc. 14th Regional Convention, Aud., Eng., Soc. 2009年07月23日 (Tokyo)

　概要を見る

23 - 25, July, 2009
安心ウェブの実現に向けた大人・子ども発話のネット収集実験

西村竜一, 宮森翔子, 鈴田健太郎, 河原英紀, 入野俊夫

情報処理学会研究報告, 2009-SLP-77-19, 電子情報通信学会音声研究会, 電子情報通信学会技術研究報告 2009年07月18日 (飯坂温泉, 福島)

　概要を見る

本研究では，利用者の年齢層を発話音声から自動推定し，子どものアクセスを制限するウェブフィルタリングサービスの開発を目指す．今回，提案システムの実現に向けて，(1) 音声ウェブシステム w3voice を用いた大人・子ども発話のネットワーク収集実験，(2) GMM 音響モデルを用いた若年者自動判別の予備的実験を行った．発話収集の実験では，389 名の被験者の実環境発話 1,109 を集めることに成功した．発話を分析した結果，大人と子どもで，発話内容に異なる言語的傾向があることを確認した．また，GMM 音響モデルを用いた 14 歳以下の子どもの検出実験では正解率 65.9% を得た（大人の検出も含めると正解率 82.6%）．This study aims at developing a voice-based web filtering service to restrict children from the harmful websites. It is based on an automatic estimation of an age group from their voices. To realize it, we have performed (1) a collection of adult and child voices using voice-enabled web system "w3voice", and (2) an experiment of young voice detection on the basis of GMM-based acoustic recognition. In the experiment of the utterance collection, we succeeded in the collection of the 389 testees' real environmental 1,109 utterances. It was confirmed that there was the difference of language tendencies between adults and children as a result of analyzing the utterances. In the experiment on 14-years-old or younger child detection, 65.9% correct rate was obtained.
音声中の複数の繰返し構造の表現とその基本周波数および非周期性抽出への応用について

板垣英恵, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

日本音響学会聴覚研究会資料, H-2009-55, Vol. 39, No. 4, pp.307 - 312, 電子情報通信学会応用音響研究会,電子情報通信学会技術研究報告, Vol.109, No. 100, EA2009-33, pp.91-96 2009年06月26日 (北海道医療大学, 札幌,2009年6月25日〜26日)

　概要を見る

本資料では、分析時刻に非依存な周期信号のパワースペクトル推定法(TANDEM)と、適応的周波数平滑化(STIRAIGHT)に基づいた、音声中の繰り返し構造を抽出するボトムアップな方法を提案する。この方法では、周波数領域における局所的な周期構造から時間領域における繰り返し構造を抽出する。広い繰返し周期の範囲にわたる構造を抽出するために、提案する方法では、それぞれ特定の周期の繰り返しの抽出に特化した一群の検出器を配置し、それらの出力を統合している。この提案手法を、XSX(eXcitation Structure eXtractor)と呼ぶことにする。信号に含まれる非周期的な成分の抽出における提案手法の性質を調べるため、shimmerおよびjitter等を含む試験信号を用いたシミュレーションが行われた。その結果、提案手法は、従来のF0推定法で分析することが困難な信号の複雑な周期性構造の検出に優れていることが示された。また、実際の障害音声の例を分析することにより、それらによって品質が劣化した音声の修復への本方法の適用可能性を検討した。
圧縮型ガンマチャープ聴覚フィルタによるノッチ雑音データと圧縮特性データへの同時適合

入野俊夫, 高橋弘樹, 河原英紀, PATTERSON Roy D

日本音響学会聴覚研究会資料, H-2009-51, Vol. 39, No. 4, pp.283-288, 電子情報通信学会応用音響研究会,電子情報通信学会技術研究報告, Vol.109, No. 100, EA2009-29, pp.67-72 2009年06月26日 (北海道医療大学, 札幌)

　概要を見る

聴覚末梢系の周波数選択性/聴覚フィルタ形状と圧縮特性を正確に推定することは、人間の音声や音響信号に対する知覚特性をモデル化するための第一歩として重要である。本研究では、健聴被験者に対してノッチ雑音実験と順向性マスキング実験の両方を実施し、ノッチ雑音マスキングデータと圧縮特性が反映される入出力関数を推定した。次に、これらの両データに対して、圧縮型ガンマチャープ聴覚フィルタを同時適合し、パラメータ推定を行った。これにより、被験者間での共通点と相違点を明確に区別し、しかもパラメータ値のばらつきも小さい安定な推定ができたことを報告する。このことは、健聴者と例えば老人性難聴者を、少数パラメータの同一モデルで表現できる可能性を示すものである。
視聴覚統合を利用した非言語的手段による音色知覚の評価について

西田沙織, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

日本音響学会聴覚研究会資料, H-2009-48, Vol. 39, No. 4, pp.265-270, 電子情報通信学会応用音響研究会,電子情報通信学会技術研究報告, Vol.109, No. 100, EA2009-26, pp.49-54 2009年06月26日 (北海道医療大学, 札幌)

　概要を見る

人間の知覚特性に基づく音の可視化に向けての基礎的検討として、音色を図形の形で表現することを試みる。振幅の時間変化・スペクトル構造の異なる11種類の音と、9種類の図形を用い、どのような音に対してどのような図形が選択されるのか調べる実験を行った。その結果、音のスペクトル構造が周波数軸方向に周期的か非周期的かによって、被験者の回答の傾向がはっきり分かれた。図形に関しては、選択基準となる要因が複雑さや鋭さであることがわかったが、これらは主観的な指標にすぎない。そこで、面積の平方根と輪郭線の長さとの比、円の軌跡からのずれの大きさ、尖度という定量的指標を用いて各図形を分析した。これらの結果と、主観的評価に基づくMDSの結果とを比較したところ、面積の平方根と輪郭線の長さとの比は横軸とほぼ対応しており、尖度は縦軸と一部対応していることがわかった。
声道長の正規化に基づく簡易モーフィング音声の品質改良について

浅香佳希, 西田沙織, 赤桐隼人, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会音声研究会, SP2009-34, 電子情報通信学会技術研究報告, Vol.109, No.99, pp.63-68, 2009年06月25日 (北海道大学, 北海道)

　概要を見る

2009年6月24日〜25日
再合成音声の品質に対する音声スペクトル包絡推定法の影響について

赤桐隼人, 大西壮登, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会音声研究会, SP2009-35, 電子情報通信学会技術研究報告, Vol.109, No.99, pp.69-74 2009年06月25日 (北海道大学, 北海道)

　概要を見る

2009年6月24日〜25日
再合成音声の品質に対する音声スペクトル包絡推定法の影響について(感情音声,韻律,声質,音声生成・知覚,脳機能,一般)

赤桐隼人, 大西壮登, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 2009年06月17日

　概要を見る

著者らが検討を進めている音声分析変換合成法TANDEM-STRAIGHTでは、有声音などの周期性に起因する影響を取り除いたパワースペクトルの推定を目的として、(1)分析位置に依存しない周期信号のパワースペクトル推定法TANDEMと、(2)consistent samplingに基づくF0適応型スペクトル平滑化を用いている。この(2)の実装では、平滑化関数として矩形関数を用い、本来は無限個の係数を必要とする補償項を1項で打ち切り、かつ、|x|≪1の場合には、log(1+x)&sime;xで近似できることを利用し、スペクトルの正値性を保証している。本資料では、これらの実装での近似による影響を、従来のSTRAIGHTを比較対象とし、有声音を用いた再合成音声の主観評価実験と、スペクトル距離の客観評価実験により調べた結果について報告する。主観評価実験の結果は、両STRAIGHTによる再合成音声が、MNRUのQ値40〜50に相当する高い品質を有するものであることを示すとともに、従来のSTRAIGHTによる再合成音声がTANDEM-STRAIGHTによるものよりも、やや高く評価される傾向を示した。これらの結果は、周波数重みを加えたピーク重み付きスペクトル距離尺度による客観評価結果とも整合しており、TANDEM-STRAIGHTによる再合成音声の品質を向上させるための手がかりを与える。
声道長の正規化に基づく簡易モーフィング音声の品質改良について(感情音声,韻律,声質,音声生成・知覚,脳機能,一般)

浅香佳希, 西田沙織, 赤桐隼人, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 2009年06月17日

　概要を見る

手作業による参照点の付与が必要であることは、現在の音声モーフィングの大きな問題となっている。この手作業が不要となる音声モーフィングを実現するため、声道断面積関数の補間に基づく方法の検討を進めている。今回は、検討の第一段階として声道長の正規化を行うことで、簡易モーフィング音声の品質を改善する方法を提案する。提案した方法では、聴覚特性を考慮したスペクトル距離尺度を用いることにより、モーフィングの対象となる話者間の声道長の比を推定した。主観評価実験の結果、提案した方法は簡易モーフィングの音声の品質を改善する上で有効であることが示された。また、品質を更に向上させるためには、声道長に加え、形状に関するパラメタの調整が必要であることが示唆された。
カスタマイズ性を重視した小規模N‐gramの融合に関する検討

鈴田健太郎, 西村竜一, 河原英紀, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2009年03月19日 (東京工大, 東京)

　概要を見る

pp.245-246, 2009年3月17日〜19日
Google N‐gramを用いたN‐gram確率補完の検討

西村竜一, 中井理沙, 鈴田健太郎, 河原英紀, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2009年03月18日 (東京工大, 東京)

　概要を見る

pp.55-56, 2009年3月17日〜19日
声道断面積関数の補間によるモーフィング音声作成について―スペクトル概形の補償法の検討―

浅香佳希, 大西壮登, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2009年03月17日 (東京工大, 東京)

　概要を見る

pp.425-426, 2009年3月17日〜19日
TANDEM‐STRAIGHTにおけるスペクトル包絡推定精度の改善について

赤桐隼人, 森勢将雅, 西村竜一, 河原英紀, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2009年03月17日 (東京工大, 東京)

　概要を見る

pp.381-382, 2009年3月17日〜19日
音響的イベントの持続時間に基づいた非周期成分の時間構造の制御について

河原英紀, 森勢将雅, 高橋徹, 坂野秀樹, 西村竜一, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2009年03月17日 (東京工大, 東京)

　概要を見る

pp.439-440, 2009年3月17日〜19日
TANDEM‐STRAIGHTを用いたF0推定法の最適化及び性能評価―F0検出器の設計パラメタに関する検討―

板垣英恵, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2009年03月17日 (東京工大, 東京)

　概要を見る

pp.379-380, 2009年3月17日〜19日
TANDEM-STRAIGHTおよび時変モーフィングのための研究用インタフェースの開発について(聴覚・音声・言語とその障害,一般)

河原英紀, 森勢将雅, 高橋徹, 坂野秀樹, 西村竜一, 入野俊夫

電子情報通信学会技術研究報告, SP2008-151, pp.51-56 2009年03月06日 (東京工科大, 八王子, 東京, 2009年3月5日〜6日) 電子情報通信学会音声研究会

　概要を見る

TANDEM-STRAIGHTは、STRAIGHTの全アルゴリズムを基礎から置き換え、プログラムを見通しと実行効率の良いものとした。また、時変モーフィング、母音情報に基づく音声変換など、音声加工の新しい枠組みも生み出された。本資料では、様々な分野の研究者がこれらの方法を容易に利用できるように開発している幾つかのインタフェースとそれらの利用法について紹介する。これらのインタフェースの開発は、応用研究を促進するだけではなく、様々な利用形態からのフィードバックと試行錯誤のサイクルの短縮により、アルゴリズム開発そのものを促進することを狙っている。
視聴覚統合における刺激音の時間-周波数的特徴と視覚刺激の形状特徴の検討 : 人間の知覚特性に基づく音楽の可視化システムに向けて(インタフェース)

西田沙織, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

情報処理学会研究報告, 2009-MUS-79-13, pp.**-**, 情報処理学会, 第79回音楽情報科学研究会 2009年02月19日 (産業技術総合研究所, 東京, 2009年2月18日〜19日)

　概要を見る

音楽を元に生成された映像を見て鳴っている音が直感的にわかるような音の可視化を目指し、先行研究を参考に聴覚情報と視覚情報の間の妥当な対応付けを検討した。音色と図形形状の間に対応関係が存在する可能性があるが、厳密な実験がまだ行われていないため、これについて検証することとした。振幅の時間変化・スペクトル構造の異なる11種類の音と、9種類の図形を用い、どのような音に対してどのような図形が選択されるのか調べる実験を行った。その結果、スペクトル構造が周期的か非周期的か、また高調波成分が多いか少ないかによって選択される図形に違いが見られた。
Development of Speech Input Method for Interactive VoiceWeb Systems.

Ryuichi Nisimura, Jumpei Miyake,Array, Toshio Irino

Human-Computer Interaction. Novel Interaction Methods and Techniques, 13th International Conference, HCI International 2009, San Diego, CA, USA, July 19-24, 2009, Proceedings, Part II 2009年
実時間操作インタフェースへの応用を目的とした歌唱モーフィング操作パラメタの時系列への拡張について

河原英紀, 森勢将雅, 高橋徹, 坂野秀樹, 西村竜一, 入野俊夫

音楽音響研究会資料 2008年12月20日

　概要を見る

第78回音楽情報科学研究会, 龍谷大学, 大津, 2008年12月19日〜20日(発表日12月20日)
寸法変形した順応刺激音による寸法・形状知覚への影響

林芳恵, 入野俊夫, 青木良枝, 河原英紀

第11回関西支部若手研究者交流研究発表会 2008年12月17日 (キャンパスプラザ京都, 京都) 日本音響学会関西支部
劣化音声の知覚特性と音声認識器の認識傾向の比較

森本隆司, 入野俊夫, 西村竜一, 河原英紀

日本音響学会聴覚研究会資料 2008年12月13日 (虹の松原ホテル, 佐賀県唐津市)

　概要を見る

H-2008-142, Vol. 38, No. 8, pp.803-808, 2008年12月12日〜13日
実時間操作インタフェースへの応用を目的とした歌唱モーフィング操作パラメタの時系列への拡張について(音響信号処理)

河原英紀, 森勢将雅, 高橋徹, 坂野秀樹, 西村竜一, 入野俊夫

情報処理学会研究報告. [音楽情報科学] 2008年12月12日

　概要を見る

歌唱デザインの転写では,歌唱の歌い回しや声質・表現をモーフィング等を用いて局所的に操作することが必要となる。操作は、コンサートでのように実時間で行われる場合も、ポストプロダクションでのように時系列を編集してオフラインで行われる場合もある。このような操作を矛盾無く実現するために,本資料では,TANDEM-STRAIGHTを用いたモーフィングにおけるモーフィング率を多次元の時系列に拡張するとともに,実時間での処理を明確に定式化した。この定式化により、モーフィング対象となる5種類のパラメタ(基本周波数、非周期性、STRIAGHTスペクトル、時間軸、周波数軸)を個別に異なった時系列で制御するシステムを実装する基盤が確立された。また、この定式化を、変換関数の導関数の対数上での補間に基づいたものとすることにより、これまで問題となっていた外挿による品質の劣化を回避することが可能となった。なお、この定式化は、事例に関して対称であるため、事例の数が複数の場合のモーフィングに容易に拡張することができる。
TANDEM-STRAIGHTに基づく基本周波数抽出法に関する一検討

板垣英恵, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告,第10回音声言語シンポジウム 2008年12月10日 (早稲田大学, 東京) 電子情報通信学会音声研究会

　概要を見る

Vol.108, No.338, SP2008-105 (NLC2008-50), pp.155-160, 2008年12月9日〜10日
基本周波数情報に基づく線形予測と時間軸伸縮を利用した非周期成分の抽出について

河原英紀, 森勢将雅, 高橋徹, 坂野秀樹, 西村竜一, 入野俊夫

電子情報通信学会技術研究報告, 第10回音声言語シンポジウム 2008年12月10日 (早稲田大学, 東京) 電子情報通信学会音声研究会

　概要を見る

Vol.108, No.338, SP2008-93 (NLC2008-38), pp.85-90, 2008年12月9日〜10日
TANDEM-STRAIGHTに基づく基本周波数抽出法の最適化に関する一検討(ポスターセッション,第10回音声言語シンポジウム)

板垣英恵, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 2008年12月02日

　概要を見る

分析位置に依存しない周期信号のパワースペクトル推定法であるTANDEMと、それに基づくスペクトル包絡の推定法STRAIGHTとを組み合わせた、基本周波数抽出法が提案されている。本資料では、このTANDEM-STRAIGHTに基づく基本周波数抽出法に含まれている設計パラメタの役割と抽出器の性能との関係を調べ、それらの最適化を試みた。取上げた設計パラメタは、周波数軸上での周期性の評価に用いる調波の個数と、それぞれ異なった基本周波数に特化した複数の基本周波数抽出器を統合する際の、それぞれの抽出器の守備範囲を定める重み関数の幅である。まず、それぞれのパラメタがどのように抽出性能に影響するかを説明した後、EGG信号を同時記録した音声データベースを用いて、パラメタの値と抽出器の性能との関係を定量的に評価した。その結果、Gross errorを評価指標とした場合の最適値として、調波の個数は3、重み関数の幅は、特化した基本周波数の1/1.2が採用された。これらの最適値を用いた場合の性能は、これまでのSTRAIGHTの基本周波数抽出器、および広く引用されているYINと比較しても、遜色ないことが確認された。
基本周波数情報に基づく線形予測と時間軸伸縮を利用した非周期成分の抽出について(音声合成・声質変換,第10回音声言語シンポジウム)

河原英紀, 森勢将雅, 高橋徹, 坂野秀樹, 西村竜一, 入野俊夫

電子情報通信学会技術研究報告. SP, 音声 2008年12月02日

　概要を見る

高品質の音声分析変換合成のための非周期成分の抽出を検討している。本報告では,これまでにSTRAIGHTで用いてきたものを中心に、従来の方法とそれらの問題点を挙げ、新しい方法を提案する。提案する方法は、基本周期程度の時間間隔を隔てた部分からの前方および後方予測可能な成分を取り除いたものを非周期成分とし、時間-帯域幅積(TB積)を設定するためのQuadrature Mirror filterによる帯域分割と、基本周波数の瞬時周波数に基づく時間軸の伸縮を併用する。これらから得られる複数の手掛かりを統合することにより、従来の方法よりも効率が良くランダムな揺らぎの影響の少ない推定が可能となった。
日英母国語話者における子音/音節処理の脳内部位の対比 − CV・VC音節を用いたfMRI実験 −

入野俊夫, 大屋義和, 河原英紀, Alexis G. Hervais-Adelman, D. Timothy Ives, Roy D. Patterson

2008年度第4回研究会 2008年11月17日 (上智大学,東京) 上智大学オープン・リサーチ・センター「人間情報科学研究プロジェクト」ヒューマンコミュニケーショングループ
日英母国語話者におけるCVとVC音節の脳領域の比較

大屋義和, 入野俊夫, Hervais-Adelman Alexis G

日本音響学会聴覚研究会資料 2008年10月17日 (神戸セミナーハウス, 神戸)

　概要を見る

H-2008-104, Vol. 38, No. 6, pp.597-602, 2008年10月17日〜18日
単独母音間の話者寸法弁別に影響を与える時間的要因の検討

竹島千尋, 津崎実, 入野俊夫

日本音響学会聴覚研究会資料 2008年10月17日 (神戸セミナーハウス, 神戸)

　概要を見る

H-2008-110, Vol. 38, No. 6, pp.633-637, 2008年10月17日〜18日
音声認識Webシステムにおける単語辞書構築技術

西村竜一, 鈴田健太郎, 河原英紀, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2008年09月12日 (九州大学, 福岡市)

　概要を見る

pp.197-198,2008年9月10日〜12日
零周波数フィルタ信号に基づく基本周波数抽出法の評価と応用について

河原英紀, 森勢将雅, 高橋徹, 坂野秀樹, 大西壮登, 板垣英恵, 西村竜一, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2008年09月11日 (九州大学, 福岡市)

　概要を見る

pp.423-424 ,2008年9月10日〜12日
2母音の寸法弁別に対する刺激音の時間特性と基本周波数の影響

竹島千尋, 津崎実, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2008年09月10日 (九州大学, 福岡市)

　概要を見る

pp.553-555 , 2008年9月10日〜12日
母音情報を用いた自動化音声モーフィングの方式パラメータの評価について

大西壮登, 高橋徹, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2008年09月10日 (九州大学, 福岡市)

　概要を見る

pp.361-362 , 2008年9月10日〜12日
E-023 ウェブ上の言語知識を利用した音声認識用単語辞書の更新手法(自然言語・音声・音楽,一般論文)

鈴田健太郎, 西村竜一, 河原英紀, 入野俊夫

FIT2008 第7回情報科学技術フォーラム 2008年09月03日 (慶應大学, 藤沢)

　概要を見る

pp.189-190, 2008年9月2日〜4日
零周波数フィルタ信号に基づく基本周波数抽出法のTANDEM-STRAIGHTへの応用について(音響分析一般(1))

河原英紀, 森勢将雅, 坂野秀樹, 板垣英恵, 大西壮登, 西村竜一, 入野俊夫

情報処理学会研究報告, 2008-MUS-76 (17), pp.97-102, 情報処理学会, 第76回音楽情報科学研究会 2008年08月07日 (名古屋大学, 名古屋, 2008年8月6日〜8日)

　概要を見る

Yegnanarayanaらは、インド語のCV連鎖における破裂子音の分析を目的として、零周波数に4重の極を有するフィルタと局所的平均値を除去するFIRフィルタを組み合わせ、声帯の動作に関連するイベントを抽出する方法を提案した。ここでは、TANDEM-STRAIGHTおよびreal time STRAIGHTへの応用を狙い、追試および幾つかの評価を行った。その結果、この方法は、laptop PC上のMatlabを用いた実装でも実時間の1/7で基本周波数を抽出することができること、最新の方法にはやや劣るものの十分に実用になるgross errorである0.55%が達成されること、瞬時周波数に基づく方法と同等の結果を、1/3程度の持続時間という高い時間分解能で求められることが示された。
スケール変形した有声/無声単語の寸法弁別と音韻認識に関する検討(聴覚・音響信号処理/一般)

青木良枝, 入野俊夫, PattersonRoy D, 河原英紀

日本音響学会聴覚研究会資料, H-2008-89, Vol. 38, No. 5, pp.507-512, 電子情報通信学会応用音響研究会,電子情報通信学会技術研究報告, EA2008-52, pp.35-40 2008年08月04日 (東北大, 仙台, 2008年8月4日〜5日)

　概要を見る

人間の聴覚系において,音源の寸法情報と形状情報を分離抽出する機能があるという仮説を提案してきた.例えば大人と子供が発声した同じ言葉は,スペクトル形状は異なるものの同じ言葉として聞くことができ,同時に大人か子供か寸法の違いもわかる.これまで,母音・単音節・楽器・動物の鳴声などを用いて心理物理実験が行われてきた.さらに通常のコミュニケーションの場で自然な発話を聞いている状況においても,同様な知覚特性が観測されるか検討が必要である.本研究では自然発話された単語音声とささやき声を用いて寸法知覚における弁別閾と音韻認識率を測定した.この結果,有声/無声問わず声道寸法の違いを聞き分けられ,通常発声範囲を超えた音声でも認識可能であることがわかった.
TANDEM-STRAIGHTによるスペクトル包絡の近似精度の改善について : 基本周波数により定まるNyquist周波数以上の空間周波数成分の復元について(音声生成・知覚,聴覚心理,音声学・音韻論,一般)

河原英紀, 森勢将雅, 高橋徹, 坂野秀樹, 西村竜一, 入野俊夫

電子情報通信学会音声研究会, 電子情報通信学会技術研究報告, Vol.108, No.116, SP2008-28, pp.19-24 2008年06月27日 (北海道医療大, 北海道, 2008年6月27日〜28日)

　概要を見る

TANDEM-STRAIGHTにおける品質劣化要因であるスペクトルピーク周辺での包絡形状の近似誤差を、consistent samplingの考え方に基づいて、減少させる方法を提案する。スペクトル包絡のピーク付近には、標本化定理と基本周波数により定まる限界を超えた、高い空間周波数成分が存在している。TANDEM-STRAIGHTでは、consistent samplingの考え方を利用することにより包絡を復元している。consistent samplingの考え方は、標本化定理により定まる限界を超えた高い空間周波数成分を復元するための根拠を与える。ここでは、TANDEM-STRAIGHTにより求められた包絡をARモデルを用いて近似しTANDEM-STRAIGHTでの処理により失われる成分を補償することにより、ピーク周辺における高い空間周波数成分を復元する方法を提案する。
STRAIGHTを用いた簡易モーフィングによる印象変化の評価について(セッション2)

西田沙織, 大西壮登, 吉田有里, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

情報処理学会研究報告, 2008-MUS-75(8), 2008-HCI-128(8), pp. 43-48, ( 第75回音楽情報科学研究会, 第128回ヒューマンコンピュータインタラクション研究会) 2008年05月28日 (臨床研究情報センター, 神戸, 2008年5月28日〜29日)

　概要を見る

時間軸だけを整合させるという簡易な方法によりモーフィングした音声を対象として、自然性と話者性の主観評価実験を行った。その結果を、単語・モーフィング率・話者の組み合わせという3つの観点から分析した。単語別に見た場合、自然性・話者性の評価には、有意差は認められなかった。モーフィング率別に見た場合、モーフィング率が50%に近づくほど自然性が低下し、モーフィング率が25%から75%では、話者性の正答率が60%程度となった。話者の組み合わせ別に見た場合、組み合わせが同性か異性かで評価の傾向に差が見られた。組み合わせが同性のときは自然性は高くなるが話者性を判別しにくくなり、異性のときは自然性は低くなるが話者性を判別しやすいという傾向が認められた。これらの結果より、同性の話者の場合には、簡易なモーフィングを実用的な手法として利用できる可能性があることが分かった。
日英母国語話者における音節処理を担う脳内部位の比較

大屋義和, 入野俊夫, エルベ-アデルマン, アレクシー, イブスティム, 河原英紀, パターソンロイ

ブレインコミュニケーション時限研究専門委員会 2008年05月16日 (けいはんなATR, 京都)

　概要を見る

pp.38-43, 2008年5月15日〜16日
Comparison of the brain regions for consonant processing in Japanese and English subjects,

Yoshikazu Oya, Toshio Irino, Alexis G, Hervais-Adelman, D. Tim Ives, Hideki Kawahara, Roy D. Patterson

J. Acoust. Soc. Am. , 123(5), Pt.2, 2008年05月

　概要を見る

(Acoustic'08 (ASA joint meeting), Paris, France, 29 June - 4 July 2008. ) (発表日 3 Jul. )
Speaker size discrimination for acoustically scaled versions of whispered words,

Yoshie Aoki, Toshio Irino, Hideki Kawahara, Roy D. Patterson

J. Acoust. Soc. Am. , 123(5), Pt.2, 2008年05月

　概要を見る

(Acoustic'08 (ASA joint meeting), Paris, France, 29 June - 4 July 2008. ) (発表日 3 Jul. )
時間平均に基づく周期信号のパワースペクトル推定法

森勢将雅, 高橋徹, 河原英紀, 入野俊夫

電子情報通信学会, 2008年総合大会 2008年03月21日 (九州工大, 北九州)

　概要を見る

AS-5-1, 2008年3月18日〜21日
リアルタイムSTRAIGHTの改良とSTRAIGHTライブラリの実装(聴覚・音声・言語とその障害,一般)

坂野秀樹, 森勢将雅, 高橋徹, 西村竜一, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告(日本音響学会・聴覚研究会/ 電子情報通信学会音声研究会) SP2007-213, pp.157-162, (聴覚研究会資料 38(2), pp.193-198) 2008年03月21日 (東京大学, 東京, 2008年3月20日〜21日)

　概要を見る

実時間動作するSTRAIGHT,リアルタイムSTRAIGHTの改良を行ったので,その詳細について報告する.高品質音声分析変換合成法STRAIGHTは極めて高品質であり,合成システムや聴覚実,験用のツールとして広く利用されるようになってきている.STRAIGHTは,MATLABによって実装されており,オフラインでの処理にはこれが広く用いられているが,実時間で動作するものではない.そこで,我々は,実時間で動作するリアルタイムSTRAIGHTをC言語による実装で構築してきた.今回は,まず,C言語によるSTRAIGHTの実装であるC言語版を,MATLAB版STRAIGHTの最新版と同等のものに更新した.そして,このC言語版の関数の一部を利用し,リアルタイムSTRAIGHTのスペクトル抽出部分を改良した.改良したリアルタイムSTRAIGHTを用いて主観評価実験を行った所,MOS値が3.4となり,これまでのリアルタイムSTRAIGHTに比べ0.7程度改善したことが分かった.また,C言語版STRAIGHTにおいては,バージョンによるAPIの違いが大きいという問題があった.今回,このような問題を解決したC言語版STRAIGHTのAPIを策定し,STRAIGHTライブラリとして実装した.
Web知識を二段階利用した単語辞書更新手法

鈴田健太郎, 西村竜一, 河原英紀, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2008年03月19日 (千葉工業大学, 習志野市)

　概要を見る

pp.123-124, 2008年3月17日〜19日
母音情報に基づく声質変換法における連続発話音声からの母音テンプレートの設計

大西壮登, 高橋徹, 森勢将雅, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2008年03月19日 (千葉工業大学, 習志野市)

　概要を見る

pp.429-430, 2008年3月17日〜19日
TANDEMおよびSTRAIGHTスペクトルに基づく基本周波数および非周期性の表現について

河原英紀, 森勢将雅, 高橋徹, 西村竜一, 坂野秀樹, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2008年03月18日 (千葉工業大学, 習志野市)

　概要を見る

pp.563-564, 2008年3月17日〜19日
音声処理の初期段階を担う脳内部位の検討

大屋義和, 入野俊夫, HERVAIS‐ADELMAN Alexis, IVES Tim, 河原英紀, PATTERSON Roy D

日本音響学会：春季研究発表会講演論文集 2008年03月18日 (千葉工業大学, 習志野市)

　概要を見る

pp.539-540, 2008年3月17日〜19日
無声化した単語音声を用いた音源寸法知覚の弁別閾

青木良枝, 入野俊夫, PATTERSON Roy D, 河原英紀

日本音響学会：春季研究発表会講演論文集 2008年03月18日 (千葉工業大学, 習志野市)

　概要を見る

pp.569-570, 2008年3月17日〜19日
聴覚フィルタの形状と圧縮特性の測定とパラメータ推定

中家諒, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2008年03月18日 (千葉工業大学, 習志野市)

　概要を見る

pp.567-568, 2008年3月17日〜19日
音声入力Webシステムw3voiceにおける音声認識手法の検討

西村竜一, 三宅純平, 河原英紀, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2008年03月17日 (千葉工業大学, 習志野市)

　概要を見る

pp.51-52, 2008年3月17日〜19日
歌唱音声と会話音声のSTRAIGHTによる分析と母音部におけるスペクトル変動の統計的性質の比較

吉田有里, 森勢将雅, 高橋徹, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2008年03月17日 (千葉工業大学, 習志野市)

　概要を見る

pp.279-280, 2008年3月17日〜19日
時間窓と入力信号の持続時間に基づく音響イベント検出を利用した音源位置推定法の一検討

小林憲昭, 森勢将雅, 高橋徹, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2008年03月17日 (千葉工業大学, 習志野市)

　概要を見る

pp.775-776, 2008年3月17日〜19日
音声入力Webシステムによる音声認識アプリケーションの構築技術

西村竜一, 三宅純平, 河原英紀, 入野俊夫

情報処理学会第70回全国大会講演論文集 2008年03月14日 (筑波大学,つくば市)

　概要を見る

3L-5, Vol.5, pp.343-344, 2008年3月13日〜15日
STRAIGHTに基づく柔軟な音声合成技術の開発

河原英紀, 大西壮登, 森勢将雅, 高橋徹, 西村竜一, 坂野秀樹, 入野俊夫

情報処理学会第70回全国大会講演論文集 2008年03月14日 (筑波大学,つくば市)

　概要を見る

4L-5, Vol.5,pp.357-358, 2008年3月13日〜15日
4L-5 STRAIGHTに基づく柔軟な音声合成技術の開発(リーディングプロジェクト e-society:自然な音声対話処理技術(2),一般セッション,リーディングプロジェクト e-society)

河原英紀, 大西壮登, 森勢将雅, 高橋徹, 西村竜一, 坂野秀樹, 入野俊夫

全国大会講演論文集 2008年03月13日
3L-5 音声入力Webシステムによる音声認識アプリケーションの構築技術(リーディングプロジェクト e-society:自然な音声対話処理技術(1),一般セッション,リーディングプロジェクト e-society)

西村竜一, 三宅純平, 河原英紀, 入野俊夫

全国大会講演論文集 2008年03月13日
AS-5-1 時間平均に基づく周期信号のパワースペクトル推定法(AS-5. 音響信号のモデリングと表現,シンポジウムセッション)

森勢将雅, 高橋徹, 河原英紀, 入野俊夫

電子情報通信学会総合大会講演論文集 2008年03月05日
ポップス系歌唱音声における基本周波数軌跡の楽譜からの変位について(スペシャルセッション・歌情報処理1)

吉田有里, 森勢将雅, 高橋徹, 西村竜一, 入野俊夫, 河原英紀

情報処理学会, 音声言語情報処理研究会(第70回)、音楽情報科学研究会(第74回), 情報処理学会研究報告, 2008-MUS-74-3, 2008-SLP-70-3, pp.13-18 2008年02月08日 (伊東温泉, 伊東市(静岡県), 2008年2月8日〜9日)

　概要を見る

STRAIGHTの基本周波数抽出法を、周期信号用の新しいパワースペクトル推定法であるTANDEMを用いて再構成することにより、長時間の歌唱音声を容易に扱うことができるようになった。ここでは、実際のプロ歌手による様々な演奏スタイルの歌唱音声の基本周波数軌跡を求め、演奏スタイルによる物理特性の変化を、規範となる楽譜からの変位として調べた。また、歌唱音声に顕著に認められる大きな周波数遷移での基本周波数推定の問題について検討した。
Speaker size discrimination for acoustically scaled versions of naturally spoken words,

Yoshie Aoki, Toshio Irino, Hideki Kawahara, Roy D. Patterson

ARO 31th Midwinter meeting,Abstract #508, 2008年02月

　概要を見る

Phoenix, AZ, USA, 16-21 Feb. 2008. (発表日 19 Feb. )
TANDEM-STRAIGHTに基づく基本周波数の抽出と評価について(音声合成・韻律,第9回音声言語シンポジウム)

河原英紀, 森勢将雅, 高橋徹, 西村竜一, 坂野秀樹, 入野俊夫

第9回音声言語シンポジウム, (電子情報通信学会音声研究会・言語理解とコミュニケーション研究会究会),情報処理学会研究報告, 2007-SLP-69-45, pp.259-264, 信学技報 Vol.107(406), NLC2007-77, SP2007-140 2007年12月21日 (NTTけいはんな,京都, 2007年12月20日〜21日)

　概要を見る

簡単な処理で、周期信号のパワースペクトルの時間方向の変動を取り除くことのできる方法(TANDEM窓法)を用いて、音声分析変換合成法STRAIGHTの再構築を進めている。ここでは、TANDEMスペクトルとSTRAIGHTスペクトルの比を利用することにより、基本周期のみを選択的に抽出する方法を提案する。複数の基本周期を仮定し、それぞれの基本周期の成分を選択的に検出する機構を用意して組み合わせることにより、広い範囲にわたって、同じ基準で基本周波数の確からしさを評価することが可能となる。さらに、こうして求められた基本周波数情報を用いて、周波数軸上の直交位相信号を用いて非周期成分を推定する方法を提案する。提案した方法は、二重音声のような従来の基本周波数抽出法では扱いが難しい信号に対しても、合理的な分析結果を与える。
聴覚系における共鳴体の「大きさ」知覚の時間追従性 − 寸法変調音声を用いた検討 −

竹島千尋, 津崎実, 入野俊夫

日本基礎心理学会第26回大会 2007年12月09日 (上智大学, 東京)

　概要を見る

p.54, 2007年12月8日〜9日
劣化処理した単音節系列音の知覚に関する検討

森本隆司, 入野俊夫, 河原英紀

聴覚研究会資料 2007年12月06日 (熊本大学, 熊本) 日本音響学会

　概要を見る

H-2007-135, 37 (10), pp.775-780 2007年12月6日〜7日
自然発話された単語音声を用いた音源寸法知覚における弁別閾の測定

青木良枝, 入野俊夫, Patterson Roy D

聴覚研究会資料 2007年12月06日 (熊本大学, 熊本) 日本音響学会

　概要を見る

H-2007-137, 37 (10), pp.787-792 2007年12月6日〜7日
単音節系列の知覚に関する検討〜調音結合と日本語特有の音節遷移情報の影響があるか〜

森本隆司, 入野俊夫, 河原英紀

第10回若手研究者交流研究発表会 2007年11月29日 (甲南大学, 神戸) 日本音響学会関西支部
ボイスチェンジャー5.0〜日本語５母音に基づく声質変換〜

大西壮登, 高橋徹, 入野俊夫, 河原英紀

第10回若手研究者交流研究発表会 2007年11月29日 (甲南大学, 神戸) 日本音響学会関西支部
自然発話された単語による音源寸法知覚の弁別閾- 巨人と小人の声の共通点を探る -

青木良枝, 入野俊夫, Roy D.Patterson, 河原英紀

第10回若手研究者交流研究発表会 2007年11月29日 (甲南大学, 神戸) 日本音響学会関西支部
双方向変換により共通化された時間周波数軸上でのパラメタ混合に基づく音声モーフィング

高橋徹, 大西壮登, 森勢将雅, 河原英紀, 入野俊夫

第22回信号処理シンポジウム 2007年11月08日 (東北大学, 仙台)

　概要を見る

pp. 316-321 2007年11月7日〜9日
分析位置に依存しない周期信号のパワースペクトル推定法に基づく音声分変換合成法STRAIGHTの再構成について

河原英紀, 森勢将雅, 高橋徹, 西村竜一, 坂野秀樹, 入野俊夫

第22回信号処理シンポジウム 2007年11月08日 (東北大学, 仙台)

　概要を見る

pp. 310-315 2007年11月7日〜9日
周期信号の分析時刻に依存しないパワースペクトル推定法における対雑音性の評価

森勢将雅, 高橋徹, 河原英紀, 入野俊夫

第22回信号処理シンポジウム 2007年11月07日 (東北大学, 仙台)

　概要を見る

pp. 581-586 2007年11月7日〜9日
一般逆行列を用いた母音情報に基づく声質変換法について(合成,生成,韻律,一般)

大西壮登, 高橋徹, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告(電子情報通信学会・音声研究会), SP2007-84, Vol.107, No.282, pp.75-80 2007年10月26日 (長崎大学, 長崎, 2007年10月25日〜26日)

　概要を見る

これまで日本語5母音の情報に基づいて,ある話者の音声から別の話者の音声へ声質変換する方法について検討してきた.この方法では,まず「あいうえお」と発声された音声サンプルから各母音間の音声パラメタを変換するための変換関数を求める.入力音声の各時刻のスペクトル特徴量と各母音のスペクトル特徴量との類似度を重みとして,求められた各母音間の変換関数を合成する.このようにして自動設計された合成変換関数を用いて,入力音声のパラメタを変換する.従来,変換関数を合成するための類似度を,確率的解釈に基づいて,各時刻のスペクトル特徴量が母音カテゴリに属す事後確率として求めてきた.本研究では,幾何学的解釈に基づき,各母音のスペクトル特徴量を斜交基底として捉える.各時刻のスペクトル特徴量について,それらの基底関数を用いて最小自乗近似したときの展開係数を類似度とする方法を提案する.提案する声質変換法について,スペクトル距離による客観評価,自然性と話者性に関する主観評価を行った.
音声入力・認識機能を有するWebシステムw3voiceの開発と運用

西村竜一, 三宅純平, 河原英紀, 入野俊夫

情報処理学会研究報告, 2007-SLP-68-3, 情報処理学会,第3回音声言語情報処理技術デッベロッパーズフォーラム 2007年10月19日 (早稲田大,東京)

　概要を見る

提案するw3voiceシステムは,Webシステムに対して,音声による入力インタフェースを拡張する.JavaアプレットとCGIプログラムから構成し,通信プロトコルには,HTTP POST methodとRedirection responseを応用した実装を行った.このため,事前に特別な専用プログラムのインストールを要求せず,普段のWebブラウザをそのままで使うことができる.また,音声認識,対話,ボイスチェンジャ,掲示板等の音声Webアプリケーションを作成し,Webサイトで公開した.本研究は,家庭や職場等での音声インタフェースの利用環境を調べることを目的とする.そのために,利用者からの入力発話を蓄積し,分析をはじめている.約7ヶ月で一日47.6個,合計で8,412の入力を得ることができた.本稿では,提案システムの概要を述べ,収集データの発話時間及びSNRに関する調査結果を報告する.
周期信号の分析時刻に依存しないパワースペクトル推定法に適した窓関数の検討

森勢将雅, 高橋徹, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2007年09月21日 (山梨大学, 甲府)

　概要を見る

pp.349-350, 2007年9月19日〜21日
聴覚フィルタを評価に用いた逆フィルタ設計法に関する一考察

森勢将雅, 高橋徹, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2007年09月21日 (山梨大学, 甲府)

　概要を見る

pp.737-738, 2007年9月19日〜21日
STRAIGHTにおける時間周波数分析の新しい定式化と実装について

河原英紀, 森勢将雅, 高橋徹, 西村竜一, 入野俊夫, 坂野秀樹

日本音響学会：秋季研究発表会講演論文集 2007年09月21日 (山梨大学, 甲府)

　概要を見る

pp.347-348 , 2007年9月19日〜21日
劣化処理した単音節系列の知覚に関する検討

森本隆司, 入野俊夫, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2007年09月20日 (山梨大学, 甲府)

　概要を見る

pp.595-596, 2007年9月19日〜21日
有声/無声(ささやき)母音系列における寸法変調の検知閾

竹島千尋, 津崎実, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2007年09月20日 (山梨大学, 甲府)

　概要を見る

pp.539-542, 2007年9月19日〜21日
単語音声を用いた寸法弁別実験の改善

青木良枝, 入野俊夫, PATTERSON Roy D, 河原英紀

日本音響学会：秋季研究発表会講演論文集 2007年09月20日 (山梨大学, 甲府)

　概要を見る

pp.549-550, 2007年9月19日〜21日
STRAIGHTを用いた反復分析再合成音声の評価

高橋徹, 河原英紀, 入野俊夫

日本音響学会：秋季研究発表会講演論文集 2007年09月19日 (山梨大学, 甲府)

　概要を見る

pp.289-290, 2007年9月19日〜21日
母音情報に基づく声質変換法のためのスペクトル伸縮について

大西壮登, 高橋徹, 入野俊夫, 河原英紀

2007年09月19日 (山梨大学, 甲府)

　概要を見る

pp.397-398, 2007年9月19日〜21日
音声入力機能を有する対話型Webアプリケーションの公開試験(E分野:自然言語・音声・音楽)

西村竜一, 三宅純平, 河原英紀, 入野俊夫

FIT2007 第6回情報科学技術フォーラム 2007年09月07日 (中京大学, 愛知)

　概要を見る

pp.319-322, 2007年9月5日〜7日(筆頭著者西村、「FITヤングリサーチャー賞」受賞)
音声モーフィングのための母音スペクトル間区分線形写像関数自動設計手法(E分野:自然言語・音声・音楽)

高橋徹, 大西壮登, 森勢将雅, 坂野秀樹, 河原英紀, 入野俊夫

FIT2007 第6回情報科学技術フォーラム 2007年09月06日 (中京大学, 愛知)

　概要を見る

pp.233-236, 2007年9月5日〜7日
招待講演 The robustness of bio-acoustic communication and the role of normalization,

Roy D. Patterson, Ralph van Dinther, Toshio Irino [招待有り]

19th International Congress on Acoustics (ICA2007) 2007年09月03日 (Madrid)

　概要を見る

2-7 Sept., 2007.
招待講演 A computational auditory model with a nonlinear cochlea and acoustic scale normalization,

Toshio Irino, Tom C. Walter, Roy D. Patterson [招待有り]

19th International Congress on Acoustics (ICA2007) 2007年09月03日 (Madrid)

　概要を見る

2-7 Sept., 2007.
LE-004 単母音による歌唱音声スペクトルの統計的分析に基づく音色制御法の提案と評価(自然言語・音声・音楽)

森勢将雅, 田原佳代子, 高橋徹, 入野俊夫, 河原英紀

情報科学技術レターズ 2007年08月22日
時間方向および周波数方向の周期性の影響を除去した周期信号のパワースペクトルの表現について : STRAIGHTスペクトル推定の無調整化に向けて(聴覚・音声/一般)

河原英紀, 森勢将雅, 高橋徹, 西村竜一, 入野俊夫, 坂野秀樹

電子情報通信学会技術研究報告(日本音響学会・聴覚研究会/ 電子情報通信学会・音声研究会), SP2007-26, Vol.37, No.6, pp.395-600 2007年07月26日 (富山県立大, 富山, 2007年7月26日〜27日)

　概要を見る

STRAIGHTのスペクトル推定には、幾つかの数値的に最適化しなければならないパラメタが含まれている。ここでは、そのような調整を必要とするパラメタを含まず、現在のSTRAIGHTのスペクトルと同様に、周期性に起因する影響が除去されたスペクトルを推定することのできる方法を提案する。時間方向の周期性による影響の除去では、基本周期の半分の間隔で配置した時間窓によるパワースペクトルの和を求める方法を提案する。周波数方向の周期性の影響の除去では、標本化定理の関数近似としての解釈に基づくことたより、パワースペクトルの周波数方向の債分と線形補間による簡単な方法を提案する。こうして提案された方法は、現在のSTRAIGHTよりも実時間処理に適したものとなっている。
A unified design criteria for noise adaptive sound reproduction system based on an auditory model

森勢将雅, 福田俊介, 高橋徹, 入野俊夫, 河原英紀

13th Regional Convention, Aud., Eng., Soc., 2007年07月20日 (Tokyo)

　概要を見る

19 - 21, July, 2007 (日本語)
聴覚系における寸法・形状情報抽出の計算理論と脳内部位の検討(機械学習によるバイオデータマインニング,一般)

入野俊夫, 大屋義和, 河原英紀, パターソンロイ D

電子情報通信学会技術研究報告. NC, ニューロコンピューティング NC2007-10, Vol.107, No.92, pp.11-16 2007年06月14日 (沖縄科学技術大学院大学(OIST),沖縄 2007年6月14日〜15日)

　概要を見る

視覚系において物体の寸法や形状が知覚されることは日常経験からも信じられており研究も盛んである。これに対し、聴覚系においても同様に音源の寸法や形状が知覚されていることはあまり気がつかれていない。本稿では、音響的な寸法・形状情報について述べ、その情報を抽出するための聴覚計算理論を紹介する。さらに、この理論を支持する心理物理実験結果、理論から導出される聴覚末梢系フィルタの最適性の議論、生態学的な観点等を紹介する。さらに、この寸法・形状情報抽出の脳内部位特定のためfMRI(機能的核磁気共鳴画像)実験を行ったので、その結果と課題を報告する。
音声のテクスチャマッピングに基づく変換関数を利用した音声モーフィングの自動化について音声テクスチャマッピングの一応用例

高橋徹, 森勢将雅, 大西壮登, 西村竜一, 入野俊夫, 坂野秀樹, 河原英紀

電子情報通信学会技術研究報告(音声研究会), SP2007-6, Vol.107, No.77, pp.31-34 2007年05月31日 (けいはんなATR, 京都)

　概要を見る

STRAIGHTに基づく音声モーフィングの応用の障害であった特徴点の設定を不要とする方法を提案する。著者らが提案した母音情報に基づく音声変換では、音声パラメタの類似度に基づいてパラメタ変換関数を自動設計している。提案する方法は、このパラメタの類似度に基づく変換関数の自動設計を、モーフィング用の周波数軸変換関数の設計用に応用したものである。こうして求められた周波数軸の変換関数に時間軸の整合法を組み合わせることで、特徴点の付与を必要としないモーフィングが可能となる
母音情報に基づく話者変換システムの提案 : 音声テクスチャマッピングの一実装例(聴覚・音声・言語とその障害,一般)

高橋徹, 森勢将雅, 西村竜一, 入野俊夫, 坂野秀樹, 河原英紀

電子情報通信学会技術研究報告(日本音響学会・電子情報通信学会・音声研究会), SP2006-162, Vol.106, No.613, pp.13-18 2007年03月26日 (東京大学, 東京, 2007年3月26日-27日)

　概要を見る

母音テンプレート間の写像を母音類似度に基づいてフレーム毎に計算することにより、実時間処理に適した高品質の話者変換システムを実現する方法を提案する。この方法は、筆者らが提案した音声テクスチャマッピングという概念の一つの実装例である。スペクトルの詳細な構造と概形とは別の役割を担っており、それぞれに適切な変換は異なっているとするこの概念に基づくことにより、母音情報のみという極度に少ない資料に基づいて任意話者の音声への変換が可能になるとともに、通常の統計的方法で生ずる品質劣化を回避することが可能となる。
単語音声における寸法の弁別閾の測定

青木良枝, 入野俊夫, Roy D. Patterson, 河原英紀

日本音響学会：春季研究発表会講演論文集 2007年03月14日 (芝浦工大, 東京)

　概要を見る

pp.471-472, 2007年3月13日-15日
音声モーフィングにおける周波数座標変換関数の設計と知覚への影響について

河原英紀, 森勢将雅, 高橋徹, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2007年03月14日 (芝浦工大, 東京)

　概要を見る

pp.477-478, 2007年3月13日-15日
fMRIによるスケール変形に対する脳内活動部位の検討

大屋義和, 入野俊夫, Roy D. Patterson, 河原英紀

日本音響学会：春季研究発表会講演論文集 2007年03月14日 (芝浦工大, 東京)

　概要を見る

pp.425-426, 2007年3月13日-15日
話者の寸法を変化させた時の母音と単語の知覚特性の比較

林芳恵, 入野俊夫, Roy D. Patterson, 河原英紀

日本音響学会：春季研究発表会講演論文集 2007年03月14日 (芝浦工大, 東京)

　概要を見る

pp.473-474, 2007年3月13日-15日
音声認識を用いた劣化音声に含まれる情報の検討

松村勇作, 入野俊夫, 西村竜一, 河原英紀

日本音響学会：春季研究発表会講演論文集 2007年03月14日 (芝浦工大, 東京)

　概要を見る

pp.475-476, 2007年3月13日-15日
STRAIGHTスペクトルにおける周波数方向の冗長性の削減の検討

吉田有里, 畑宏明, 坂野秀樹, 高橋徹, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2007年03月13日 (芝浦工大, 東京)

　概要を見る

pp.289-290, 2007年3月13日-15日
自動音素セグメンテーションと自動特徴点設定手法を用いた音声モーフィング

大西壮登, 高橋徹, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2007年03月13日 (芝浦工大, 東京)

　概要を見る

pp.273-274, 2007年3月13日-15日
ネットワーク公開試験に向けた音声対話Webアプリケーションの開発

西村竜一, 三宅純平, 河原英紀, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2007年03月13日 (芝浦工大, 東京)

　概要を見る

pp.17-18, 2007年3月13日-15日
モーフィング率独立操作による部分モーフィング音声の品質評価

高橋徹, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2007年03月13日 (芝浦工大, 東京)

　概要を見る

pp.211-212, 2007年3月13日-15日
パルス列を用いた高域における群遅延操作の弁別閾推定

森勢将雅, 高橋徹, 入野俊夫, 河原英紀

日本音響学会：春季研究発表会講演論文集 2007年03月13日 (芝浦工大, 東京)

　概要を見る

pp.517-518, 2007年3月13日-15日
STRAIGHTを用いた歌唱合成における母音スペクトル形状制御の効果について

森勢将雅, 田原佳代子, 高橋徹, 入野俊夫, 河原英記

日本音響学会：春季研究発表会講演論文集 2007年03月13日 (芝浦工大, 東京)

　概要を見る

pp.219-220, 2007年3月13日-15日
低周波数領域での区分線形補間の弊害についての一検討

鈴田健太郎, 森勢将雅, 高橋徹, 河原英紀, 入野俊夫

日本音響学会：春季研究発表会講演論文集 2007年03月13日 (芝浦工大, 東京)

　概要を見る

pp.275-276, 2007年3月13日-15日
Auditory stream segregation based on speaker size, and identification of size-modulated vowel sequences

Tsuzaki Minoru, Takeshima Chihiro, Irino Toshio, Patterson Roy D

HEARING - FROM SENSORY PROCESSING TO PERCEPTION 2007年
招待講演 Warped-time-stretched pulse: An acoustic test signal robust against ambient noise,

Masanori Morise, Toshio Irino, Hideki Banno, Hideki Kawahara [招待有り]

4th Joint Meeting of the ASA and ASJ 2006年12月01日 (Honolulu, Hawaii)

　概要を見る

J. Acoust. Soc. Am. , 120(5), Pt.2, p.3223, Nov. 28 Nov. - 2 Dec. 2006,
知覚特性を考慮したインパルス応答補償法についての一検討 : 群遅延操作の弁別閾の周波数依存性について

森勢将雅, 高橋徹, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告, (日本音響学会・電子情報通信学会, 応用音響研究会), EA2006-72, 106(371), pp.13-18 2006年11月23日 (九州大学・大橋キャンパス,福岡, 2006年11月23日-24日)

　概要を見る

本報告では,2肢強制選択を用いて群遅延操作による音の違いの周波数依存性を示す.この実験により,インパルス応答補償において知覚されない誤差を許容するための指標の構築を目指す.この許容誤差を利用し,知覚に影響しない伝達関数の補償アルゴリズムの検討を行う.本報告は,人間の聴覚が変化に最も敏感であるパルス列を用いて主観評価を行った.群遅延の操作は,ERB_Nが一定の帯域幅の中心周波数で,様々な変動量を持たせるよう行った.主観評価の結果,1000Hzより低い周波数では弁別が困難であること,1000Hz以上では弁別域の境界が周波数によって異なることが示された.また,群遅延に負のピーク値がある場合,正のピーク値より弁別境界が狭くなることも明らかとなった.
騒音適応型音楽再生システムのパラメタ設定における聴覚モデルによる評価の応用について

福田俊介, 森勢将雅, 河原英紀, 入野俊夫

電子情報通信学会技術研究報告, (日本音響学会・電子情報通信学会, 応用音響研究会), EA2006-77, 106(371), pp.43-48 2006年11月23日 (九州大学・大橋キャンパス ,福岡, 2006年11月23日-24日)

　概要を見る

非線形で適応的に周波数分析を行う人間の聴覚機能を近似したガンマチャープフィルタバンク(GCFB)に基づいて適応的にマルチバンドイコライザーを調整するシステム構成を提案する。提案するシステム構成は,客観的評価法の確立と車内での再生音の最適化を目指している。一般的なリスニングルームで音楽を聴く印象を自動車室内でも体験できるように音楽をイコライズすることを最終目標とする。本報告では、GCFBを用いて自動車室内騒音、音楽、イコライズした音楽と自動車室内騒音を足したものを分析した結果を示す。
帯域毎の持続時間に基づく音響イベント検出と位置推定への応用

森勢将雅, 高橋徹, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告, (日本音響学会・電子情報通信学会, 応用音響研究会), EA2006-73, 106(371), pp.19-24 2006年11月23日 (九州大学・大橋キャンパス,福岡, 2006年11月23日-24日)

　概要を見る

本研究では,帯域毎の持続時間に着目した音響イベントの高精度抽出法について検討を進めている.本報告で提案する手法は,帯域分割した評価指標を用いているため,検出対象となる音のスペクトルから高いエネルギーを持つ帯域のみを選択できる特徴を有する.この特徴により,全帯域のSNRが低い環境においても高SNRの帯域のみを用いることが出来,高い精度で音響イベントの検出が可能となる.本報告では,音響イベント検出に用いるパラメタを定義し,音響イベント検出を行う手順の説明を行う.音響イベント検出に用いるパラメタと音響イベント検出率との関係を示す.さらに様々なSNRの雑音を加え,SNRと音響イベント検出精度との関連を明らかにする.これらの検討結果より,複数マイクを用いた位置推定への応用について述べる.
STRAIGHTスペクトルに基づく音源信号の抽出と非周期成分の評価について(一般)

河原英紀, 森勢将雅, 高橋徹, 入野俊夫, 坂野秀樹, 藤村靖

電子情報通信学会技術研究報告, (日本音響学会・電子情報通信学会音声研究会), SP2006-83, 106(333), pp.43-48 2006年11月10日 (産業技術総合研究所, つくば, 2006年11月9日-10日)

　概要を見る

高品質な音声分析・変換・合成を目的として,音源情報抽出の研究を進めている。ここでは問題の設定そのものから議論し直すことにより,合成系との整合性の良い非周期成分の抽出法を提案する。これらの議論を通じて,群遅延を利用した持続時間の周波数領域での表現と,STRAIGHTスペクトルから計算した最小位相の逆フィルタを用いて求められる音源信号の帯域毎の持続時間,基本周期分だけ離れた区間の信号による予測残差,スペクトル概形の時間変化による見かけの予測残差と非周期成分との関係を明らかにする。
Evaluating naturalness of speech sounds morphed by independently using the interpolation ratios of the time-frequency axes and amplitude,

Toru Takahashi, Masanori Morise, Toshio Irino

J. Acoust. Soc. Am. , 120(5), Pt.2, 2006年11月

　概要を見る

(4th Joint Meeting of the ASA and ASJ: 28 Nov. - 2 Dec. 2006, Honolulu, Hawaii). (発表日 28 Nov.)
Temporal characteristics of extraction of size information in speech sounds,

Chihiro Takeshima, Minoru Tsuzaki, Toshio Irino

J. Acoust. Soc. Am., 120(5), Pt.2, 2006年11月

　概要を見る

(4th Joint Meeting of the ASA and ASJ: 28 Nov. - 2 Dec. 2006, Honolulu, Hawaii) (発表日 29 Nov.)
弁別素性に基づく異聴表による健聴者と難聴者の音声知覚の対比

中家諒, 入野俊夫, 中市健志, 坂本真一, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2006年09月15日 (金沢大学, 石川) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, I, pp.369-370, 2006年9月13日-15日
ロボット対話のための雑音認識手法に関する検討

橋爪亜希, 西村竜一, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2006年09月14日 (金沢大学, 石川) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, I, pp.135-136, 2006年9月13日-15日
聴覚特性を考慮したSTRAIGHTスペクトル補間特性とその主観評価について

畑宏明, 坂野秀樹, 高橋徹, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2006年09月13日 (金沢大学, 石川) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, I, pp.271-272, 2006年9月13日-15日
母音テンプレートスペクトルを用いた音声テクスチャマッピングのための特徴点自動設定における距離尺度の検討

大西壮登, 高橋徹, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2006年09月13日 (金沢大学, 石川) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, I, pp.269-270, 2006年9月13日-15日
対数時間軸伸縮を用いたインパルス応答測定における直接音・反射音成分の分離について

森勢将雅, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2006年09月13日 (金沢大学, 石川) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, I, pp.429-430,2006年9月13日-15日
歌唱音声中の母音スペクトル形状の変動要因と歌唱合成への応用について

田原佳代子, 高橋徹, 坂野秀樹, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2006年09月13日 (金沢大学, 石川) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, I, pp.267-268, 2006年9月13日-15日
招待講演音色に潜む寸法と形状情報 −混沌から紡ぎだす秩序−

津崎実, 入野俊夫 [招待有り]

日本音響学会 2006年09月13日 (金沢大学, 石川)

　概要を見る

秋季研究発表会講演論文集, pp.619-622, 2006年9月13日-15日.
音色に潜む寸法と形状情報―混沌から紡ぎだす秩序―

津崎実, 入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2006年09月06日
ブラックマン窓を用いたSTRAIGHTスペクトル分析

高橋徹, 森勢将雅, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2006年09月06日
Can humans perceive size differeces in the calls of cats, dogs, and cows?

Toshio Irino, Atsuhi Ban, Hideki Kawahara, Roy D. Patterson

presented at the British Society of Audiology (BSA) , Short Papers Meeting on Experimental Studies of Hearing and Deafness, 2006年09月

　概要を見る

Cambridge Univ., UK, 14-15 Sept. 2006
The dynamic compressive gammachirp, dcGC, and development plans,

Toshio Irino

presented in the meeting on Auditory representations of size/shape, CNBH, Dept. Phsiol., Devel. and NeuroSci. 2006年09月

　概要を見る

Cambridge Univ., UK., 11-12, Sept. 2006.
高品質音声分析変換合成システム STRAIGHT における分析窓の検討

高橋徹, 森勢将雅, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告 2006年08月31日 (はこだて未来大, 函館)

　概要を見る

(日本音響学会・電子情報通信学会, 音声研究会), SP2006-42, 106(222), pp.1-5, 2006年8月30日-31日
高品質音声分析変換合成システムSTRAIGHTにおける分析窓の検討(合成,生成,韻律,一般)

高橋徹, 森勢将雅, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 2006年08月

　概要を見る

高品質音声分析変換合成システムSTRAIGHTのスペクトル分析は,スペクトルのピーク位置での時間変動を除去することを目的に,ピッチ同期分析を拡張している.具体的には,ガウス窓に基本周期の2倍の長さのバートレット窓を畳み込んでいる.ガウス窓が用いられた理由は,ガウス関数のフーリエ変換もガウス関数になり,時間周波数の不確定性が最小であるからである.しかし,ブラックマン窓は,バートレット窓を畳み込まなくても,もともとピッチ同期の性質を持っている.cos関数族で定義された窓であれば,窓長を正数倍にするこで,調波位置にある成分の時間変動を0にできるからである.ハニング窓もcos関数族で定義された窓でありブラックマン窓と同様な性質をもっている.本稿では,これらの窓をピッチ同期化ガウス窓と比較する.振幅と位相をランダマイズした調波複合書を用いて時間変動を評価した.ブラックマン窓が,最も変動量が少いという結果が得られた.
寸法変調母音系列の同定成績と寸法正規化の時間的追随性との関連性

竹島千尋, 津崎実, 入野俊夫

電子情報通信学会技術研究報告, (日本音響学会・電子情報通信学会音声研究会), SP2006-29 2006年07月21日 (北陸先端大, 石川) 日本音響学会

　概要を見る

聴覚研究会資料 H-2006-80, 36 (5), pp.439-443, 2006年7月20日〜21日
寸法変調母音系列の同定成績と寸法抽出過程の時間的追随性との関連性(音声・聴覚,一般)

竹島千尋, 津崎実, 入野俊夫

電子情報通信学会技術研究報告. SP, 音声 2006年07月

　概要を見る

発話者によって声道長はそれぞれ異なるにも関わらず,我々はいかなる発話者であっても母音の種類を識別することができる。同時に,発話者の判断すなわち声道長の違いを特定することができる。このような識別能力を模擬化する目的として,寸法情報と形状情報とを分離・抽出する過程に対する計算モデルが提案されている。本研究ではモデルの精緻化を目指すため,寸法抽出過程の時間的追随性の調査を実施した。時間的に寸法変調をかけた母音系列の同定実験を行った結果,寸法情報の違いによって音脈分凝が生じたことを示唆するような寸法変調による成績の低下が見られた。母音系列内からターゲットとなる母音を見つけ出す課題を与えた実験結果においても,その仮説を裏付けるような傾向が見られた。
招待講演 Size Matters: How the auditory system produces its scale invariant representation of the message in a sound

Roy D. Patterson, Toshio Irino [招待有り]

Workshop on New Ideas in Hearing 2006年05月12日 (Paris,)

　概要を見る

Equipe Audition, ENS,12-13 May, 2006.
聴覚における「形」の恒常性と寸法正規化について(日本基礎心理学会第24回大会,大会発表要旨)

津崎実, 竹島千尋, 入野俊夫

基礎心理学研究 2006年03月31日
TSPを用いた音響測定におけるPC用AD/DA変換システムの選定について

森勢将雅, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2006年03月16日 (日本大学, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, pp.653-654, 2006年3月14日-16日
健聴者の劣化音声知覚と難聴者の通常音声知覚の対比

中家諒, 綿貫敬介, 坂本真一, 入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2006年03月16日 (日本大学, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, pp.483-484, 2006年3月14日-16日
知覚信号処理のための動的圧縮型ガンマチャープ聴覚フィルタバンク

入野俊夫, PATTERSON Roy D

日本音響学会研究発表会講演論文集(CD-ROM) 2006年03月16日 (日本大学, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, pp.471-472, 2006 年3月14日-16日
STRAIGHTに基づくモーフィングのオブジェクト化による拡張と部分モーフィングの応用について

河原英紀, 西雅史, 森勢将雅, 野口美咲, 高橋徹, 入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2006年03月16日 (日本大学, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, pp.505-506, 2006年3月14日-16日
寸法変調母音の同定に対する寸法正規化の時間的追随性について

竹島千尋, 津崎実, 入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2006年03月16日 (日本大学, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, pp.473-474, 2006 年3月14日-16日
雑音認識能力を持つロボット対話インタフェース

西村竜一, 橋爪亜希, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2006年03月14日 (日本大学, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, pp.203-204, 2006年3月14日-16日
多重音声モーフィングに基く平均声合成の検討

高橋徹, 西雅史, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2006年03月14日 (日本大学, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, pp.229-230, 2006年3月14日-16日
音声テクスチャマッピング表現による音声適応・変換手法

高橋徹, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2006年03月14日 (日本大学, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, pp.231-232, 2006年3月14日-16日
STRAIGHTスペクトルの時間方向補間におけるERB<sub>N</sub>周波数尺度上でのスペクトル距離の性質について

畑宏明, 坂野秀樹, 高橋徹, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2006年03月14日 (日本大学, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, pp.313-314, 2006年3月14日-16日
音量とF0による歌唱母音STRAIGHTスペクトルの形状変化と全極近似について

田原佳代子, 高橋徹, 坂野秀樹, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2006年03月14日 (日本大学, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, pp.371-372, 2006年3月14日-16日
回帰分析による実環境対話音声の快・不快感情識別

大前壮司, 西村竜一, 河原英紀, 入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2006年03月14日 (日本大学, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, pp.359-360, 2006年3月14日-16日
音声テクスチャマッピング多様な発話変換・合成をめざして

高橋徹, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告, (日本音響学会・電子情報通信学会音声研究会), SP2006-144, 105 (571), pp.31-36 2006年01月26日 (和歌山大学, 和歌山, 2006年1月26日-27日)

　概要を見る

多様な発話変換・合成を記述できる音声テクスチャマッピングモデルを提案する. 提案するモデルは, 音声を特徴づける骨格となるワイヤフレームに発話スタイルや話者性を表わすテクスチャをマッピングする枠組みによって音声を表わす. ワイヤフレームやテクスチャは, 統計的にあるいは, 発話事例から求めることができる. このモデルは, 画像分野で用いられるテクスチャマッピングを音声に適用したモデルである. 一般に, 発話変換は, スペクトルに対する演算と変形によって実現される. テクスチャマッピングの枠組みを用いて演算と変形を取り扱う仕組みについて述べる. ワイヤフレームにどのようなテクスチャをマッピングするかによって多様な発話スタイルを表現できることを示す. また, 様々な発話スタイルの音声を合成できることを示す. 最後に, ある発話に基づいてワイヤフレームを生成し, テクスチャをマッピングすることで発話変換を行うことができることを示す.
母音テンプレートを用いた音声モーフィングのためのスペクトル特徴点設定

西雅史, 高橋徹, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告, (日本音響学会・電子情報通信学会音声研究会), SP2006-142, 105 (571), pp.19-24 2006年01月26日 (和歌山大学, 和歌山, 2006年1月26日-27日)

　概要を見る

音声モーフィングにおける時間・周波数特徴点設定の自動化法について提案する。これまで、音声モーフィングでは素材となる二つの音声試料の時間周波数平面上での対応関係を設定し、パラメタを線形変換して実現されていた。モーフィング音声の品質は、時間周波数平面上での対応関係の設定に強く依存する。現状では時間周波数平面上の対応関係である時間・周波数特徴点を手作業で付与する必要があり、膨大な音声試料を処理するなど応用の際に障害となっていた。本稿では、この時間・周波数特徴点の設定を自動化する方法について検討した。特徴点は周波数座標と時間座標により構成される。データベースより設計されたテンプレートスペクトル上に予め特徴点を設定しておき、入力のスペクトルに合うようにテンプレートスペクトルを変形することにより間接的に特徴点の周波数座標を設定する方法を提案する。最適な変形を求める方法として、本稿ではDPマッチングを用いた。特徴点の時間座標は、音韻ラベルを利用し、テンプレートはラベル情報に基づいて、予め用意した母音別のテンプレートから選択することとした。本稿では、自動的に時間・周波数特徴点を設定し、モーフィングされた音声を聴取実験により主観評価を行い、提案法が有効であることを示す。
リアルタイムSTRAIGHTの実装と特徴量削減の影響に関する検討

坂野秀樹, 畑宏明, 高橋徹, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告, (日本音響学会・電子情報通信学会, 音声研究会), SP2006-140, 105 (571), pp.7-12 2006年01月26日 (和歌山大学, 和歌山, 2006年1月26日-27日)

　概要を見る

実時間動作するSTRAIGHT, リアルタイムSTRAIGHTを実装したので, その詳細について報告する. 高品質音声分析変換合成法STRAIGHTは極めて高品質であり, 合成システムや聴覚実験用のツールとして広く利用されるようになってきている. しかしながら, 現在のMATLABによる実装では, 実時間での動作が困難である. そこで, リアルタイムSTRAIGHTでは, STRAIGHTのC言語への移植や, 基本周波数抽出部分のケプストラムによる方法への置き換え, 短時間位相制御部分の省略などにより, 高速化を図っている. 予備的検討の結果, リアルタイムSTRAIGHTが, 最近のパソコンで実行可能であることと, ケプストラムボコーダなどの既存の分析合成システムに比べて高品質であることが確認できた.
聴覚特性を考慮した高品質領域におけるSTRAIGHTパラメタの補間特性に関する検討

畑宏明, 高橋徹, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告, (日本音響学会・電子情報通信学会, 音声研究会), SP2006-139, 105 (571), pp.1-6 2006年01月26日 (和歌山大学, 和歌山, 2006年1月26日-27日)

　概要を見る

STRAIGHT(高品質音声分析変換合成システム)は分析周期として1msを用いている。分析前の音声波形のパラメタ数に比べ得られるパラメタ数が膨大な量となる。そのため多くの時間と計算機資源を必要とし、大量の音声資料を分析する際の障害となっている。本報告では、STRAIGHTの情報表現に含まれている高度な冗長性を、高い品質を保ったまま削減することを目的とし、STRAIGHTパラメタの補間特性について検討を行った。分析周期1msで得られるSTRAIGHTスペクトルを基準とし、1msから40msまでの分析周期で分析し最近傍補間または線形補間によって1ms周期相当のスペクトルを求めた補間スペクトルとの距離を調べた。スペクトル距離は、聴覚特性を考慮した非線形周波数軸(ERB_N rate)を用いて評価した。実験の結果、最近傍値を利用した補間法に比べ、一次関数を利用した補間法を用いることにより、より粗い周期での分析が可能でありパラメタの冗長性を削減できることが示された。また、聴覚特性を考慮することにより、さらに冗長性の削減ができることを示した。
Temporal characteristics of extraction of size information in speech sounds

Takeshima, C, M. Tsuzaki, T. Irino

Journal of Acoustical Society of America 2006年
多重音声モーフィングを用いた新しい平均声作成法

西雅史, 高橋徹, 入野俊夫, 河原英紀

第８回日本音響学会関西支部若手研究者交流研究発表会, 8(B) 2005年12月15日 (京都)
音声劣化を気づかせない STRAIGHT 合成パラメタ圧縮手法と評価

畑宏明, 高橋徹, 入野俊夫, 河原英紀

第８回日本音響学会関西支部若手研究者交流研究発表会, 15(A) 2005年12月15日
知覚的距離に基づく自動音声モーフィングのための母音テンプレートの検討

西雅史, 高橋徹, 坂野秀樹, 入野俊夫, 河原英紀

聴覚研究会資料 2005年12月08日 (熊本大学, 熊本) 日本音響学会

　概要を見る

H-2005-120, 35 (11), pp.705-710, 2005年12月8日〜9日
ノッチ雑音マスキングデータから推定された縦続型/並列型構成をもつ聴覚フィルタの比較

鵜木祐史, 入野俊夫, Glasberg Brian

聴覚研究会資料 = Proceedings of the auditory research meeting 2005年12月08日 (熊本大学, 熊本) 日本音響学会

　概要を見る

聴覚研究会資料 H-2005-124, 35 (11), pp.727-732
聴覚における「形」の恒常性と寸法正規化について

津崎実, 竹島千尋, 入野俊夫

日本基礎心理学学会・第24回大会, 1P31 2005年12月03日 (立教大学, 東京)

　概要を見る

2005年12月3〜4日
Speech segregation using an event-synchronous auditory image and STRAIGHT

Toshio Irino, Roy D. Patterson, Hideki Kawakhara

Speech Separation by Humans and Machines 2005年12月01日

　概要を見る

We have presented methods to segregate concurrent speech sounds using an auditory model and a vocoder. Specifically, the method involves the Auditory Image Model (AIM), a robust F0 estimator, and a synthesis module based either on STRAIGHT or an auditory synthesis filterbank. The event-synchronous procedure enhances the intelligibility of the target speaker in the presence of concurrent background speech. The resulting segregation performance is better than with conventional comb-filter methods whenever there are errors in fundamental frequency estimation as there always are in real concurrent speech. Test results suggest that this auditory segregation method has potential for speech enhancement in applications such as hearing aids. © 2005 Springer Science + Business Media, Inc.
Underlying principles of a high-quality speech manipulation system STRAIGHT and its application to speech segregation

Hideki Kawahara, Toshio Irino

Speech Separation by Humans and Machines 2005年12月01日

　概要を見る

Testing human performance using ecologically relevant stimuli is crucial. STRAIGHT provide powerful means and strategies for doing this. This article outlined the underlying principles of STRAIGHT and the morphing procedure to provide general understanding for potential users of a new research strategy, systematic downgrading. The strategy seems to open up new research possibilities of testing human performance without disturbing their natural conditions. © 2005 Springer Science + Business Media, Inc.
A test signal robust against background noise in the measurement of acoustic impulse responses: Warped-TSP

Masanori Morise, Toshio Irino, Hideki Banno, Hideki Kawahara

International Congress on Noise Control Engineering 2005, INTERNOISE 2005 2005年12月01日

　概要を見る

We propose a new test signal to improve the accuracy of the measurement of acoustic impulse responses. Linear Time-Stretched Pulses(TSP) signals have been widely used for acoustic measurements. They are useful signals robust to time-varying acoustic environments due to the concentration of energy as a chirp signal. However, They require multiple repetition particularly in low SNR conditions since energy distribution is flat while the energy of ambient noise tends to be concentrated in low frequency regions. Multiple repetition precludes the measurement of time-varying environments. Recently, "log-TSP" or "log swept-sine" signals were defined on the logarithmic timeaxis to improve tolerance to noise and harmonic distortion. It improves relative SNR in low frequency regions at the cost of reducing relative SNR in high frequency regions. It is desirable to develop a signal to introduce the merits of both linear-TSP and log-TSP signals. We propose a new TSP signal, referred to as "warped-TSP," which gradually combines two signals in a transitional frequency region. The warped-TSP enables us to choose an optimal parameter for the transition in accordance with the spectral distribution of noise in the environment under measurement. In this paper, we describe warped-TSP in terms of design, principle, and effectiveness. We describe the definition and relationship between the parameters and spectral distribution. We show the principle for robustness to background noise and harmonic distortion and a method for the optimal choice of parameters using simple measurement and calculation. We show the results in a series of measurement tests under different environments and clearly demonstrate that warped-TSP performs better than conventional linear-TSP and log-TSP. Since the definition of warped-TSP is simple, it is possible to replace conventional TSPs without additional computational cost.
対数時間軸伸縮による人間の頭部伝達関数測定の精度改善について

森勢将雅, 入野俊夫, 河原英紀

電子情報通信学会技術研究報告, EA2005-64, pp.43-48 2005年10月21日 (金沢大学, 金沢, 2005年10月20日-21日) 電子情報通信学会：電気音響研究会, 日本音響学会：聴覚研究会・電気音響研究会

　概要を見る

発声された音声をクロススペクトル法の入力とすることで, 人間の頭部周辺のインパルス応答を測定できる.これまでの研究により, ダミーヘッドを用い音声を入力として求めたインパルス応答は, 4kHz程度までの帯域においてM系列信号を用いて求めた結果と等しいことが分かっている.しかし, 測定用信号として用いる音声は低域と高域のSN比が低いため, それらの帯域での信頼性が低い.この問題に対して, 音声のインパルス応答から直接音に起因する成分を抽出し, 高域の信頼性を向上させる手法を検討している.ここでは, 回折しやすい低域の応答は長時間存在し, 回折しにくい高域の応答は短い時間で消滅するという特徴に着目した.この特徴を利用して, 時間軸の伸縮と低域通過フィルタによって時間周波数領域を抽出する手法を提案し, 信頼性の評価を行った.また, 時間軸の伸縮処理に用いる補間による誤差の補償法を明らかにした.同一条件で128回測定を行い, 提案手法を評価した.その結果, 提案手法を用いることで高域の標準偏差が振幅周波数特性では53%, 群遅延特性では18%, 持続時間では17%まで低減できることが示された.
PC用AD/DA変換器における折り返し歪について

森勢将雅, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2005年09月29日 (東北大学, 仙台) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, pp.679-680, 2005年9月27日-29日
両耳間相関関数を用いない音源方向推定

松井知子, 田辺国士, 入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2005年09月29日 (東北大学, 仙台) 日本音響学会

　概要を見る

秋季研究発表会講演論文集,pp.713-714,2005年9月27日-29日
寸法変調母音の同定成績と聴覚メリン・イメージに基づく決定統計量の関連

津崎実, 竹島千尋, 入野俊夫

日本音響学会研究発表会講演論文集(CD-ROM) 2005年09月28日 (東北大学, 仙台) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, pp.493-494, 2005年9月27日-29日
主成分分析を用いた感情表現による母音部における音色変化のモデル化と感情マッピング

高橋徹, 坂野秀樹, 西村竜一, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2005年09月28日 (東北大学, 仙台) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, pp. 293-294, 2005年9月27日-29日
音声モーフィングにおける対応点設定の自動化に関する研究

西雅史, 高橋徹, 坂野秀樹, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2005年09月27日 (東北大学, 仙台) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, pp.397-398, 2005年9月27日-29日
母音スペクトル形状における音高・音量依存成分の分析について―RWC研究用音楽データベース中の歌唱音声の分析―

田原佳代子, 高橋徹, 坂野秀樹, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2005年09月27日 (東北大学, 仙台) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, pp.405-406, 2005年9月27日-29日
有声音部分におけるSTRAIGHTスペクトルの補間特性の検討

畑宏明, 高橋徹, 坂野秀樹, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集(CD-ROM) 2005年09月27日 (東北大学, 仙台) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, pp. 407-408, 2005年9月27日-29日
ユーザ感情理解に向けた実環境音声情報案内システムの収集発話分析(言語解析, 対話)

大前壮司, 西村竜一, 河原英紀, 入野俊夫

第57回音声言語情報処理研究会 (SIG-SLP) 2005年07月16日 (湯の川温泉, 函館 2005年7月15日-16日) 情報処理学会

　概要を見る

音声対話システムにおいて, ユーザがシステムに抱く感情を理解することは円滑な対話を実現する上で重要となる.本稿では, 奈良県生駒市北コミュニティセンターの音声情報案内システム「たけまるくん」のフィールドテストを通じて収集したユーザ発話を分析することで, システムによる感情理解の実現性を検討する.まず, 収集発話を16個の基本感情を用いて被験者2名により5段階評定した.評定結果を因子分析したところ, ネガティブ及びポジティブな感情を示す因子の存在を確認することができた.続いて, ユーザ感情理解の実現に向け, 因子分析から算出した因子得点と音声特徴量との相関を調査している.今回, 基本周波数及びパワーを特徴量として用いたが, 顕著な相関を得ることはできなかった.
招待講演 Extracting a carrier-independent version of the syllabic message: The principles,

Roy D. Patterson, Thomas C. Walters, Toshio Irino [招待有り]

149th meeting 2005年05月16日

　概要を見る

J. Acoust. Soc. Am. , 117(4), Pt.2, p.2373, April 2005 (149th meeting: 16-20 May 2005)
招待講演 The stabilized, wavelet-Mellin transform for analyzing the size and shape information of vocalized sounds,

Toshio Irino, Roy D. Patterson [招待有り]

149th meeting 2005年05月16日

　概要を見る

J. Acoust. Soc. Am. , 117(4), Pt.2, p.2373, April 2005 (149th meeting: 16-20 May 2005)
招待講演 Identification of size-modulated vowels sequences: Effects of modulation periods and speaking rates,

Minoru Tsuzaki, Toshio Irino, Roy D. Patterson [招待有り]

149th meeting: 16-20 May 2005 2005年05月16日

　概要を見る

J. Acoust. Soc. Am. , 117(4), Pt.2, p.2374, April 2005
Explaining two-tone suppression and forward masking data using a compressive gammachirp auditory filterbank,

Toshio Irino, Roy D. Patterson

J. Acoust. Soc. Am. , 117(4), April 2005 (ASA meeting: May 2005) 2005年04月
感情音声データベースにおける母音特徴に注目したSTRAIGHTによる声質・感情変換について

藤井岳史, 西雅史, 高橋徹, 坂野秀樹, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集 2005年03月17日 (東京農工大, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, I, pp.299-300, 2005年3月15日-17日
STRAIGHT を用いたビブラート歌唱音声の統計的性質

森勢将雅, 平地由美, 坂野秀樹, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集 2005年03月17日 (東京農工大, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, I, pp.269-270, 2005年3月15日-17日
スペクトル時間変化を制限して合成した劣化音声の知覚

佐藤諭, 入野俊夫, 坂野秀樹, 河原英紀

日本音響学会研究発表会講演論文集 2005年03月17日 (東京農工大, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, I, pp.251-252, 2005年3月15日-17日
音声の平均スペクトルを用いた帯域分割型CSP法に基づく話者位置推定法に関する検討

伝田遊亀, 西浦敬信, 河原英紀, 入野俊夫

日本音響学会研究発表会講演論文集 2005年03月17日 (東京農工大, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, I, pp.521-522, 2005年3月15日-17日
歌唱音声の音量変化に伴うスペクトル変形の分析について

田原佳代子, 森勢将雅, 坂野秀樹, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集 2005年03月17日 (東京農工大, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, I, pp.271-272, 2005年3月15日-17日
STRAIGHTに基く周波数・時間伸縮を用いた感情マツピングのための距離尺度

高橋徹, 坂野秀樹, 西村竜一, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集 2005年03月16日 (東京農工大, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, I, pp.213-214, 2005年3月15日-17日
実環境音声情報案内システムにおける発話感情理解のための発話分析

大前壮司, 西村竜一, 河原英紀, 入野俊夫

日本音響学会研究発表会講演論文集 2005年03月16日 (東京農工大, 東京) 日本音響学会

　概要を見る

春季研究発表会講演論文集, I, pp.63-64, 2005年3月15日-17日
Identification of "size-modulated" vowel sequences: Effects of modulation periods and speaking rates

Tsuzaki, M, T. Irino, R.D. Patterson

Journal of Acoustical Society of America 2005年
Speech recognition with wavelet spectral subtraction in real noisy environment

Yuki Denda, Takanobu Nishiura, Hideki Kawahara, Toshio Irino

2004 7th International Conference on Signal Processing Proceedings, ICSP 2004年12月27日

　概要を見る

In this paper, we focused the effectiveness of the wavelet spectral subtraction in noisy speech recognition. For this purpose, Fourier spectral subtraction is a conventional effective technique, for example. It is a suitable technique for stationary noise reduction (ex. white Gaussian like noise), because the short-time Fourier transform provides a uniform time-frequency resolution on each frequency band. However, it can not reduce suddenly noise effectively, etc. On the other hand, the wavelet transform may be a suitable technique for suddenly signal analysis, etc. (non-stationary signal analysis), because it admits a non-uniform time-frequency resolution on each frequency band. Therefore, we reported to provide effectively performance of noise reduction using the Fourier spectral subtraction, the wavelet spectral subtraction and the microphone array steering in real noisy environments on EUROSPEECH2003. However, it was not clear that what kind of noise characteristics could be reduced with the wavelet spectral subtraction. In this paper, to cope with this problem, we evaluated the performance of the wavelet spectral subtraction and the Fourier spectral subtraction in various noisy environments. As a result of evaluation experiments, we confirmed that the wavelet spectral subtraction could effectively reduce suddenly noise or higher frequency noise than the Fourier spectral subtraction.
巨人と赤ちゃんのおしゃべりは同じ言葉にきこえる？- 音源の寸法を変化させた母音の知覚特性 -

青木美和, 入野俊夫, 河原英紀

第７回日本音響学会関西支部若手研究者交流研究発表会, 15(A) 2004年12月16日 (京都)

　概要を見る

（筆頭著者青木、「若手奨励賞」受賞）
感情音声データベースにおける母音重心および基本周波数の分布について

藤井岳史, 高橋徹, 坂野秀樹, 入野俊夫, 河原英紀

第７回日本音響学会関西支部若手研究者交流研究発表会, 8(B) 2004年12月16日 (京都)
帯域分割型CSP法に基づいた話者位置推定法の性能評価

傳田遊亀, 西浦敬信, 河原英紀, 入野俊夫

第７回日本音響学会関西支部若手研究者交流研究発表会, 23(A) 2004年12月16日 (京都)
STRAIGHT を用いたビブラート歌唱法のF0、スペクトルの特徴抽出および合成について

森勢将雅, 平地由美, 坂野秀樹, 入野俊夫, 河原英紀

第７回日本音響学会関西支部若手研究者交流研究発表会, 16(B) 2004年12月16日 (京都)
Perception of "size-modulated" speech: The relation between the modulation period and thed vowel identification

Minoru Tsuzaki, Toshio Irino

聴覚研究会資料 2004年12月04日 (九州大学, 福岡) 日本音響学会

　概要を見る

H-2004-125, 34(10), pp. 713-718, 2004年12月4日-5日
帯域分割型CSP法に基づく話者位置推定法の検討(ポスターセッション)(第6回音声言語シンポジウム)

傳田遊亀, 西浦敬信, 河原英紀, 入野俊夫

電子情報通信学会技術研究報告. SP, 音声 2004年12月

　概要を見る

音声制御システムやテレビ会議システムなどにおいて,発話者から離れた位置にあるマイクロホンで発話者の音声を高品質に受音することば極めて重要である.発話者から離れた位置のマイクロホンで発話者の音声を高音質に受音する方法として,マイクロホンアレーによる音声強調法が提案されている.しかし,マイクロホンアレーを用いて音声を強調するためには発話者の位置を推定することが必要となる.このため,例えばCSP(Cross-power Spectrum Phase)法に基づく発話者位置推定法が提案されている.しかし,CSP法には高雑音環境下で話者位置推定性能が低下してしまうという問題がある.そこで本稿では,音声の平均スペクトルで重み付けされた帯域分割型CSP法を提案し,音声に特化した位置推定法を提案する.また.提案手法によって発話者位置を推定した後,マイクロホンアレーによって目的音声を強調した場合の音声認識性能も合わせて評価する.実環境における評価実験の結果,提案手法は.従来法より高い話者位置推定性能を得られることを確認した.
Speech recognition with wavelet spectral subtraction in real noisy environment

Yuki Denda, Yuki Denda, Takanobu Nishiura, Takanobu Nishiura, Hideki Kawahara, Hideki Kawahara, Toshio Irino, Toshio Irino

International Conference on Signal Processing Proceedings, ICSP 2004年11月17日

　概要を見る

In this paper, we focused the effectiveness of the wavelet spectral subtraction in noisy speech recognition. For this purpose. Fourier spectral subtraction is a conventional effective technique, for example. It is a suitable technique for stationary noise reduction (ex. white Gaussian like noise), because the short-time Fourier transform provides a uniform time-frequency resolution on each frequency band. However, it can not reduce suddenly noise effectively, etc. On the other hand the wavelet transform may be a suitable technique for suddenly signal analysis etc. (non-stationary signal analysis), because it admits a non-uniform time-frequency resolution on each frequency band. Therefore, we reported to provide effectively performance of noise reduction using the Fourier spectral subtraction, the wavelet spectral subtraction and the microphone array steering in real noisy environments on EUROSPEECH2003. However, it was not clear that what kind of noise characteristics could be reduced with the wavelet spectral subtraction. In this paper, to cope with this problem, we evaluated the performance of the wavelet spectral subtraction and the Fourier spectral subtraction in various noisy environments. As a result of evaluation experiments, we confirmed that the wavelet spectral subtraction could effectively reduce suddenly noise or higher frequency noise than the Fourier spectral subtraction.
高品質音声分析変換合成のための音源情報の抽出について

河原英紀, 高橋徹, 坂野秀樹, 入野俊夫

聴覚研究会資料 2004年11月13日 (はこだて未来大学, 北海道) 日本音響学会

　概要を見る

H-2004-109, 34(9), pp.615-620, 2004年11月13日
脳は音の何を聞いているのか," 特別展示 in " 脳！大いなるフロンティアに挑む

河原, 入野研究室

科学技術新興機構(JST) CRESRT脳４領域合同イベント 2004年10月09日 (日本科学未来館, 東京)
STRAIGHTスペクトルの平滑化による劣化音声合成方式の提案

坂野秀樹, 入野俊夫, JIN J, 河原英紀

日本音響学会研究発表会講演論文集 2004年09月28日 (琉球大学, 沖縄) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, I, pp.375-376, 2004年9月28日-30日
Algorithm amalgam: Morphing waveform based methods, sinuisoidal models and STRAIGHT

Hideki Kawahara, Hideki Banno, Toshio Irino, Parham Zolfaghari

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings 2004年09月28日

　概要を見る

A tool to investigate an important fundamental question in speech processing is proposed aiming to promote research on voice quality and para and non linguistic aspects of speech. The proposed method effectively emulates waveform-based methods, sinusoidal models and the high quality source filter model STRAIGHT. The Key idea that enables blending these seemingly disjoint algorithms is a group delay based representation of signal excitation. By using a STRAIGHT-based smoothed time-frequency representation that is shared by these three types of speech processing methods, a unified source representation is used to implement the proposed system. Informal listening tests using the proposed system indicated that phase manipulation introduces different timbre, but it does not need to reproduce the exact waveform to reproduce the same timbre. This may suggest that the possibility of further information reduction exists in synthesizing close to natural quality speech.
招待講演スケール変調音声に対する聴覚的追随性と聴覚的情景,

津崎実, 入野俊夫 [招待有り]

日本音響学会 2004年09月28日 (琉球大学, 沖縄,)

　概要を見る

秋季研究発表会講演論文集, I, pp.521-524, 2004年9月28日-30日
高品質音声分析変換合成のための音源情報抽出法の改良について

河原英紀, 高橋徹, 坂野秀樹, 入野俊夫

日本音響学会研究発表会講演論文集 2004年09月28日 (琉球大学, 沖縄) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, I, pp.225-226, 2004年9月28日-30日
実環境音声情報案内システムにおける発話感情理解についての検討

大前壮司, 西村竜一, 河原英紀, 入野俊夫

日本音響学会研究発表会講演論文集 2004年09月28日 (琉球大学, 沖縄) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, I, pp.205-206, 2004年9月28日-30日
暗騒音に基づいたインパルス応答測定用信号の設計手法

森勢将雅, 入野俊夫, 坂野秀樹, 河原英紀

日本音響学会研究発表会講演論文集 2004年09月28日 (琉球大学, 沖縄) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, I, pp.593-594, 2004年9月28日-30日
STRAIGHTに基づく周波数・時間伸縮を用いた感情マッピンング手法の検討

高橋徹, 坂野秀樹, 西村竜一, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集 2004年09月28日 (琉球大学, 沖縄) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, I, pp.407-408, 2004年9月28日-30日
スケール変形した日本語5母音の知覚特性

青木美和, 入野俊夫, PATTERSON R D, 河原英紀

日本音響学会研究発表会講演論文集 2004年09月28日 (琉球大学, 沖縄) 日本音響学会

　概要を見る

秋季研究発表会講演論文集, I, pp.373-374, 2004年9月28日-30日
スケール変調音声に対する聴覚的追随性と聴覚的情景

津崎実, 入野俊夫

日本音響学会研究発表会講演論文集 2004年09月21日
A comparison of auditory filters with cascade and parallel architectures in models of auditory masking,

Masashi Unoki, Roy D. Patterson, Toshio Irino

presented at the British Society of Audiology (BSA) , Short Papers Meeting on Experimental Studies of Hearing and Deafness, Univ. Essex, UK, 16-17 Sept. 2004. 2004年09月
暗騒音に頑健なインパルス応答測定用信号の設計手法(聴覚・信号処理/一般)

森勢将雅, 入野俊夫, 坂野秀樹, 河原英紀

電子情報通信学会技術研究報告, (電子情報通信学会：電気音響研究会, 日本音響学会：聴覚研究会・電気音響研究会), EA2004-44, pp.37-42 2004年08月19日 (東北大学, 仙台, 2004年8月19 日-20日)

　概要を見る

相互相関法によるインパルス応答測定に用いる測定用信号を、測定環境の暗騒音に基づいて設計する手法を提案する。本提案により、室内伝達関数の測定や、音響機器の測定を精度良く行うことが可能となる。特に、コンサートホールなどの室内音響特性を測定する場合問題となる低周波域の暗騒音の影響を低減し、測定精度を向上できる。また、同時に高周波域の暗騒音の影響も低減できる。本報告では、始めに、従来の測定用信号の設計手法と、特徴、問題点を明らかにし、それらを解決する測定用信号の設計手法を示す。また、計算機上のシミュレーションによって、提案手法に含まれるパラメタとパワースペクトルの関係を示す。さらに、実環境による測定例より、提案手法の有効性を示す。
招待講演 Processing of scale information in the auditory system - Analogy to visual processing

入野俊夫 [招待有り]

Summerschool of the international graduate schoole neurosensory science and systems:"Object formation in audition and vision: Bottom-up and top-down processing," 2004年08月18日 (Bad Zwischenahn, Germany,)

　概要を見る

18-22, August,2004
招待講演聴覚による音源の寸法・形状推定,

入野俊夫 [招待有り]

日本心理学会聴覚心理学研究会 2004年07月31日 (大阪大学)
招待講演 Analysis of scale information in the auditory system,

Toshio Irino, Roy D. Patterson [招待有り]

Proc. 18th International Congress on Acoustics (ICA2004) 2004年04月04日 (Kyoto, Japan,)

　概要を見る

vol 1, pp.457-460, 4-9 Apr. 2004
GMMによる母音/子音区間検出を用いた母音/子音平均スペクトルに基づく適応形ビームフォーマの検討

中山雅人, 西浦敬信, 河原英紀, 入野俊夫

日本音響学会研究発表会講演論文集 2004年03月19日 (神奈川工大, 神奈川) 日本音響学会

　概要を見る

春季研究発表会, I, pp.647-648
Performance Evaluation of Wavelet Spectral Subtraction in Noisy Speech Enhancement,

Yuki Denda, Takanobu Nishiura, Hideki Kawahara, Toshio Irino

Special Workshop in MAUI (SWIM), Lectures by Masters in Speech Processing Maui , Hawaii, Jan. 12-14, 2004. 2004年01月
Filling the gap between waveform coding and source filter models: lessons from source modeling based on group delay,

Hideki Kawahara, Hideki Banno, Toshio Irino, Parham Zolfaghari

Special Workshop in MAUI (SWIM), Lectures by Masters in Speech Processing Maui , Hawaii, Jan. 12-14, 2004. 2004年01月
自動車内での遠隔発話音声受音に対するマイクロホンアレーの効果

中山雅人, 傳田遊亀, 西浦敬信, 河原英紀, 入野俊夫

第６回日本音響学会若手研究者交流研究発表会 2003年12月11日
招待講演初期聴覚系におけるスケール理論

入野俊夫 [招待有り]

特別セミナー, 統計数理研究所 2003年11月14日
聴覚ボコーダを用いたイベント同期による音声分離

入野俊夫, Patterson Roy D, 河原英紀

聴覚研究会資料 = Proceedings of the auditory research meeting 2003年11月
Underlying principles of a high-quality speech manipulation system STRAIGHT and its application to speech segregation,

Hideki Kawahara, Toshio Irino

Perspectives on Speech Separation - a Workshop , Montreal, Canada, Oct. 31 - Nov. 2, 2003. (sponsored by the National Science Foundation) 2003年10月
圧縮型ガンマチャープのパラメータ推定のための音圧算出法と適合結果

鵜木祐史, PATTERSON R D, 入野俊夫

日本音響学会研究発表会講演論文集 2003年09月17日 (大同工大, 名古屋) 日本音響学会

　概要を見る

秋季研究発表会, I, pp.429-430
Analysis of scale information in the auditory system,

入野俊夫

Workshop on "Source Size information in Speech and Music," CNBH, Dept. of Physiology, Univ. of Cambridge, 8-10, Sept, 2003. 2003年09月
初期聴覚系におけるスケール理論

入野俊夫

第17回関西合同ゼミ日本音響学会研究発表会講演論文集 2003年07月26日 (和歌山大学)
聴覚ボコーダを用いた基本周期に基づく音声分離(国際ワークショップ:Speech dynamics by Ear, Eye, Mouth and Machine)

入野俊夫, パターソンロイD, 河原英紀

電子情報通信学会技術研究報告. SP, 音声 2003年06月

　概要を見る

聴覚イメージモデル(AIM)とイベント同期処理にもとづいて、音声を分離する手法を開発した。 AIMは我々が音を知覚する時に使う脳内表現と思われる「聴覚イメージ」を出すために開発されたものである。さらに、このAIMを高音質ボコーダであるSTRAIGHTと組み合わせて、音を再合成できるようにした「聴覚ボコーダ」も開発した。聴覚表現は、従来の窓関数をかけて処理する手法と異なり、詳細な時間情報を保持しているので、声帯イベントに同期させることにより他から音声を分離することができる。そのためにも、基本周波数FOからイベント時刻を計算する手法も開発した。イベント時刻が完全に推定できる場合、SNRがO dB でも同時発話の音声からの分離性能が良いことを示した。抽出された目的音は歪んではいるが明瞭であるのに対し、妨古音は非音声的で知覚的に邪魔ではない。この分離音は、妥当な聴覚モデルの表現から単に再合成されているだけであるので、このシステムは聴覚系の処理についての示唆を与える可能性がある。
聴覚ボコーダによる混合音声からの音声分離

入野俊夫, PATTERSON R D, 河原英紀

日本音響学会研究発表会講演論文集 2003年03月20日 (早稲田大学)

　概要を見る

日本音響学会春季大会講演論文集, I, pp.343-344, 2003年3月18日〜20日
招待講演初期聴覚系におけるスケール理論

入野俊夫 [招待有り]

日本音響学会 2003年03月18日 (早稲田大学)

　概要を見る

春季研会講演論文集, I, pp.511-514,
Dominance spectrum based V/UV classification and f<inf>0</inf>estimation

Tomohiro Nakatani, Toshio Irino, Toshio Irino, Parham Zolfaghar

EUROSPEECH 2003 - 8th European Conference on Speech Communication and Technology 2003年01月01日

　概要を見る

This paper presents a new method for robust voiced/unvoiced segment (V/UV) classification and accurate fundamental frequency (f 0 ) estimation in a noisy environment. For this purpose, we introduce the degree of dominance and dominance spectrum that are defined by instantaneous frequency. The degree of dominance allows us to evaluate the magnitude of individual harmonic components of speech signals relative to the background noise. The V/UV segments are robustly classified based on the capability of the dominance spectrum to extract the regularity in the harmonic structure. f 0 is accurately determined based on fixed points corresponding to dominant harmonic components easily selected from the dominance spectrum. Experimental results show that the present method is better than the existing methods in terms of gross and fine f 0 errors, and V/UV correct rates in the presence of background white and babble noise.
An estimation method for fundamental frequency and voiced segment in infant utterance,

Tomohiro Nakatani, Shigeaki Amano, Toshio Irino

144th Meeting of Acoust. Soc. Am., J. Acoust. Soc. Am., Cancun, Mexico, 2-6, Dec., 2002. 2002年12月
イベント検出に基づいた聴覚ボコーダ

入野俊夫, PATTERSON R D, 河原英紀

日本音響学会研究発表会講演論文集 2002年09月27日 (秋田大学)

　概要を見る

日本音響学会秋季大会講演論文集, I, pp.321-322
幼児音声の基本周波数および有声区間の推定法

中谷智広, 天野成昭, 入野俊夫

日本音響学会研究発表会講演論文集 2002年09月26日 (秋田大学) 日本音響学会

　概要を見る

秋季大会講演論文集, I, pp.393-394
招待講演 An auditory vocoder resynthesis of speech from an Mellin representation,

Toshio Irino, Roy D. Patterson, Hideki Kawahara [招待有り]

European and Japanese Acoustic Societies Symposium (EAA-SEA-ASJ), Forum Acusticum Sevilla 2002 2002年09月16日 (Sevilla, Spain,)

　概要を見る

HEA-02-005-IP, 16-20, Sept., 2002. (Invited Talk) (Abstract in Acta Acustica, Vol. 88, Suppl. 1, pp.S118, 2002)
初期聴覚系の計算理論 : 理論的最適性・データ説明・生態学的観点

入野俊夫

聴覚研究会資料 = Proceedings of the auditory research meeting 2002年09月06日 (ATR) 日本音響学会

　概要を見る

Vol. 32, No.7, pp.455-460, H-2002-69
Auditory vocoder by mapping auditory and Fourier representations

Toshio Irino, Roy D. Patterson, Hideki Kawahara

CREST workshop on Computational Models of Auditory Processing CREST workshop on Computational Models of Auditory Processing 2002年07月08日 (Kyoto, Japan)

　概要を見る

8-9, July, 2002
An auditory Mellin transform for segregationg size and shape information of vocal tract

Toshio Irino, Roy D. Patterson

CREST workshop on Computational Models of Auditory Processing 2002年07月08日 (Kyoto, Japan)

　概要を見る

8-9, July, 2002
招待講演 Time-domain auditory processing of the dynamic aspects of speech,

Roy D. Patterson, Toshio Irino [招待有り]

Dynamics of Speech Production and Perception, NATO Advanced Study Institute 2002年06月24日 (Il Ciocco, Itary,)

　概要を見る

24 June - 6 July, 2002. (Talk as a faculty member)
聴覚計算理論は聴覚末梢系の進化を説明できるか？

入野俊夫

科学技術振興事業団CREST「脳を創る」第3回全体シンポジウム 2002年05月22日 (日本科学未来館, 東京)
招待講演聴覚系を理解し応用するための計算理論

入野俊夫 [招待有り]

第15回回路とシステム（軽井沢）ワークショップ 2002年04月22日 (軽井沢)

　概要を見る

pp. 269-274
招待講演聴覚メリン表現からの信号再合成

入野俊夫 [招待有り]

名古屋大学統合音響情報研究拠点、CIAIR音声信号処理ワークショップ 2002年03月27日 (名古屋大学)
時間周波数表現における3種類の不動点と音響的特徴について

河原英紀, ZOLFAGHARI P, 入野俊夫

日本音響学会研究発表会講演論文集 2002年03月 (神奈川大学)

　概要を見る

日本音響学会春季大会講演論文集, I, pp.325-326
占有度を用いた耐雑音性の高い基本周波数推定法

中谷智広, 入野俊夫

聴覚音声研究会, Vol.32, No.2, pp. 105-112, H-2002-14 2002年03月 (東京大) 日本音響学会

　概要を見る

本稿では、背景雑音に加えてスペクトル変形を伴なった入力音声に対しても、頑健かつ精度良く基本周波数(F_0)を推定するための新しい方法を提案する。このため、各調波成分が近傍の周波数帯域において背景雑音の影響を受けていない度合いを示す尺度である占有度(degree of dominance)を、瞬時周波数に基づき定義する。占有度を用いることで信頼できる調波成分を容易に選択できるようになり、これに基づき頑健にF_0推定を行うことができる。評価実験では、白色雑音下またはマルチトーカ雑音下での入力音に、電話音声を模擬するSRAENフィルタによるスペクトル変形を与えた場合と与えない場合について、F_0正解率、およびF_0の実効誤差の評価を行った。実験結果より、提案法は、あらゆる条件下において、従来法と比べて良い結果が得られることを示す。
様々な周波数における圧縮型ガンマチャープのパラメータ推定

鵜木祐史, PATTERSON Roy D, 入野俊夫

日本音響学会研究発表会講演論文集 2002年03月 (神奈川大学) 日本音響学会

　概要を見る

春季大会講演論文集, I, pp.496-496
調波成分の占有度を用いた基本周波数抽出法

中谷智広, 入野俊夫

日本音響学会研究発表会講演論文集 2002年03月 (神奈川大学)

　概要を見る

日本音響学会春季大会講演論文集, I, pp.323-324（筆頭著者中谷、「ポスター賞」受賞）
Auditory Vocoder: Speech resynthesis from an auditory Mellin model

Toshio Irino, Roy D. Patterson, Hideki Kawahara

2002 NTT workshop on Communication Scene Analysis 2002年01月21日 (Kanagawa, Japan)

　概要を見る

Jan. 21-23, 2002
様々な周波数のノッチ雑音データへの圧縮型ガンマチャープの適合

鵜木祐史, Patterson Roy D, 入野俊夫

聴覚研究会資料 = Proceedings of the auditory research meeting 2002年01月 (岩手県立大) 日本音響学会

　概要を見る

聴覚研究会資料,Vol. 32, No.1, pp.41-48, H-2002-06
聴覚メリンイメージからの信号再合成

入野俊夫, D.パターソンロイ, 河原英紀

日本音響学会秋季大会講演論文集 2001年10月02日 (大分大学)

　概要を見る

1, pp.247-248, 2001年10月2日〜 4日
瞬時周波数を用いたF_0抽出法の複数音声による評価

中谷智広, 入野俊夫

日本音響学会秋季大会講演論文集 2001年10月02日 (大分大学)

　概要を見る

1, pp.211-212,2001年10月2日〜 4日
初期聴覚系の計算理論：最適性理論・実験データとの整合性・生態学的観点

入野俊夫, Roy D. Patterson, 河原英紀

神経回路学会第１１回全国大会講演論文集 2001年09月27日

　概要を見る

pp.17-18, 奈良, 2001年9月27日〜 29日
STRAIGHTを用いた聴覚メリンイメージからの信号再合成

入野俊夫, パターソンロイ D, 河原英紀

聴覚研究会資料, Vol. 31 (5), 315-322 (H-2001-43), 音声研究会資料(SP2001-40) 2001年07月 (金沢工大) 日本音響学会

　概要を見る

音声分析合成法は、VOCODERに始まり過去様々な研究が積み重ねられ、LPC法での携帯電話に代表されるように幅広く応用されている。しかしながら、人間の聴知覚特性のモデルを導入した音声分析合成法はいままで提案されてこなかった。本稿では、初期聴覚系の計算論での表現である聴覚メリンイメージから、最新型VOCODERであるSTRAIGHTシステムを媒介として音を再合成する手法について提案した。このために、両者を結びつける写像器を導入し、周波数伸縮離散余弦展開と非線形多変量解析を用いて実現した。ここではシステムの構成と各部分の処理、音合成をおこなった結果について述べる。これにより今後、たとえば雑音抑圧や音源分離といった聴覚経路で行われていると考えられる処理を定式化した場合、再合成音を用いて評価し利用することができるようになると期待できる。
初期聴覚系の計算理論：最適性理論・生理/心理物理データへの整合性・生態学的観点

入野俊夫, Roy D. Patterson

科学技術振興事業団CREST「脳を創る」第2回全体シンポジウム 2001年06月05日 (コクヨホール, 品川/東京)
初期聴覚系の計算理論：安定化ウェーブレットとガンマチャープ

入野俊夫

北陸先端大、情報科学研究科, 講演 2001年03月07日 (石川)
The mathematcal requirement for stabilization in the wavelet-Mellin transform and its implication

入野俊夫

科学技術振興事業団CREST「脳を創る」河原プロジェクト Workshop"Stable representation of periodic sounds," 2000年11月 (名古屋大学, 名古屋)
Robust fundamental frequency estimation using instantaneous frequencies of harmonic components.

Yoshinori Atake, Toshio Irino, Hideki Kawahara, Jinlin Lu, Satoshi Nakamura, Kiyohiro Shikano

Sixth International Conference on Spoken Language Processing, ICSLP 2000 / INTERSPEECH 2000, Beijing, China, October 16-20, 2000 2000年10月
招待講演 The wavelet-Mellin transform for auditory processing,

入野俊夫 [招待有り]

Japan-America Frontiers of Science (JAFoS) 2000 , held by National Academy of Sciences (USA) +科学技術振興事業団Japan-America Frontiers of Science (JAFoS) 2000 , held by National Academy of Sciences (USA) +科学技術振興事業団 2000年09月21日 (Irvine, CA, USA)

　概要を見る

Sept., 21-24, 2000
紹介記事：磯崎・高橋他「日米若手研究者のドリームチーム対決、第3回JAFoSシンポジウム報告」科学, Vol.71. No.2, pp.191-196, 岩波書店, 2001.
A physiological motivated gammachirp auditory filterbank,**

Toshio Irino, Masashi Unoki, Roy D. Patterson

presented at the British Society of Audiology, Short Papers Meeting on Experimental Studies of Hearing and Deafness, Keele, Sept., 21th-23th, 2000. 2000年09月
Segregating size and shape information of the vocal tract in the auditory system using a stabilized wavelet-Mellin transform

入野俊夫

Ear Club: Berkeley's Weekly Hearing Sciences Colloquium Series, Univ.of California, Berkeley, Sept. 25, 2000. 2000年09月
非対称性補償形ガンマチャープフィルタの近似精度の改善

鵜木祐史, 入野俊夫

聴覚研究会, H-2000-42 2000年06月 (北大, 北海道) 日本音響学会
初期聴覚系の計算理論：音源の寸法情報と形状情報の分離抽出

入野俊夫, Roy D. Patterson

科学技術振興事業団CREST「脳を創る」第1回全体シンポジウム 2000年04月12日 (コクヨホール, 品川/東京)
ガンマチャープによるネコの基底膜インパルス応答への適合

入野俊夫, PATTERSON R D

日本音響学会研究発表会講演論文集 2000年03月01日 (日本大, 千葉) 日本音響学会

　概要を見る

春季研究発表会, I, pp.397-398
調波成分の瞬時周波数を利用したピッチ推定方法の提案

阿竹義徳, 入野俊夫, 河原英紀, LU J, 中村哲, 鹿野清宏

日本音響学会研究発表会講演論文集 2000年03月 (日本大, 千葉) 日本音響学会

　概要を見る

春季研究発表会, I, pp.251-252
調波成分の瞬時周波数を利用したピッチ推定方法の検討

阿竹義徳, 入野俊夫, 河原英紀, LU J, 中村哲, 鹿野清宏

音声・聴覚研究会, SP99-170, H-2000-25 2000年03月 (東京大, 東京) 日本音響学会

　概要を見る

1996年に河原らが開発したSTRAIGHTは、VOCODER型分析合成方式であるにも関わらず、原音に迫る高い自然性を持った分析合成音を得ることが可能である。しかし、耐雑音性が低く、雑音環境下では合成音声の品質が大きく劣化するという弱点があった。それは、STRAIGHTが処理の各段階にピッチ周期に同期した処理を積極的に利用していて、雑音により推定されたピッチ周波数が誤差を含んだ場合、その影響を大きく受けることが原因と考えられる。そこで本文では、その欠点を克服するために耐雑音性の高いピッチ周波数推定方法を提案する。このため、従来のTEMPO法で用いられてきた基本波成分だけではなく、その調波成分も利用し、Cohenの帯域幅方程式を用いて統合する新しい方法を提案する。また、提案手法の性能の評価のために、音声データとEGGデータを同時収録したデータベースを作成した。これを用いて提案法およびTEMPO法などの従来法と推定精度の比較をした結果、提案法は他の従来法に比べて無雑音では同等以上で、雑音付加時の推定精度は大幅に改善されることがわかった。
A neurobiological framework for auditory images and the segregation of information about source size and shape,

Roy D. Patterson, Toshio Irino

Association for Research in Otolaryngology (ARO), Midwinter meeting, Florida, USA, 20-24 Feb. 2000. 2000年02月
ネコの基底膜インパルス応答に対するガンマチャープの適合

入野俊夫, Roy D. Patterson

聴覚研究会, H-2000-14 2000年02月 (和歌山大学, 和歌山) 日本音響学会
招待講演ガンマチャープ聴覚フィルタバンクによる定常雑音抑圧

入野俊夫 [招待有り]

電子情報通信学会, ディジタル信号処理研究会・DSP研究会 1999年12月16日 (宮島)

　概要を見る

DSP99-120, vol.99, no. 504, pp.59-66,
ガンマチャープ聴覚フィルタバンクによる定常雑音抑圧

入野俊夫

電子情報通信学会技術研究報告. DSP, ディジタル信号処理 1999年12月16日

　概要を見る

雑音環境下における音声信号に対する雑音抑圧処理でもっとも引用されているスペクトルサブトラクション法は、基本的にノンパラメトリックで処理が単純であるため応用しやすい。しかし、分析合成系で用いた場合、合成音には"musical noise"「楽音的雑音」が乗り、処理をした方がかえって目的信号が聞き取りにくくなるという問題点があった。そこで本資料では、先に提案した時変分析合成ガンマチャープ聴覚フィルタバンクを用いてこの問題を本質的に解決する方法を提案する。本方法は、スペクトルサブトラクション法と同じ前提条件だけで同等のSNR改善ができ、また、楽音的雑音が生じず白色雑音は低いレベルの白色的雑音に合成できるので知覚的にも有利である。この実現には、聴覚フィルタ特性を良く近似できるガンマチャープ関数系を使っているので、聴取者がいる場合の応用への展開に有利である。(本資料は、目本音響学会聴覚研究会資料H-98-98(1998年9月)をもとに、一部分に手を加えたものである。)
An auditory strategy for separating size and shape information of sound sources

Toshio Irino, Roy D. Patterson

人工知能学会, AIチャレンジ研究会 1999年11月 (青山学院大, 東京)

　概要を見る

Jpn., Soc. Artificial Intelli., Tech. Rep., SIG-Challenge-9907-6, pp.33-38
Stabilised wavelet Mellin transform: An auditory strategy for segregating size and shape information of sound sources

Toshio Irino, Roy D. Patterson

応用ウェーブレット研究会,pp.43-50, 日本機械学会 1999年11月 (東京)
音源形状のイメージング聴覚系の最適信号処理

入野俊夫, PATTERSON R D

日本音響学会研究発表会講演論文集 1999年09月 (鳥取大, 松江) 日本音響学会

　概要を見る

秋季研究発表会, II, pp.1177-1178
Mellin images of vowel sounds and phonological distinctiveness of multi-formant vowels,

Roy D. Patterson, Stefan UppenKamp, Toshio Irino

presented at the British Society of Audiology (BSA), Short Papers Meeting on Experimental Studies of Hearing and Deafness, Univ. Essex, UK, 21-22 Sept. 1999. 1999年09月
生理学的制約をいれたガンマチャープの心理物理データへの適合

入野俊夫, Roy D. Patterson

聴覚研究会, H-99-36 1999年05月 (東京医科歯科大, 東京) 日本音響学会
聴覚経路における音源の大きさの正規化について

入野俊夫, PATTERSON Roy D

日本音響学会研究発表会講演論文集 1999年03月 (明治大, 川崎) 日本音響学会

　概要を見る

春季研究発表会, I, pp.383-384
STRAIGHTの基本周波数抽出に対する帯域幅方程式の適用

阿竹義徳, 入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集 1999年03月 (明治大, 川崎) 日本音響学会

　概要を見る

春季研究発表会, I, pp. 199-200
生理学的制約を考慮にいれたガンマチャープの係数決定

入野俊夫, PATTERSON Roy D

日本音響学会研究発表会講演論文集 1999年03月 (明治大, 川崎) 日本音響学会

　概要を見る

春季研究発表会, I, pp.382-383
A Mathematical Framework for Auditory Processing: A Mellin Transform of a Stabilised Wavelet Transform?

Toshio Irino, Roy D. Patterson

ATR Technical Report : TR-H-264 1999年01月29日
聴覚経路におけるメリン変換の計算

入野俊夫, Roy D. Patterson

聴覚研究会, H-99-5 1999年01月 (岩手県立大, 岩手) 日本音響学会
聴覚フィルタバンクによる背景雑音抑圧

入野俊夫

電気関係学会関西支部連合大会人工知能学会AIチャレンジ研究会 1998年11月07日 (大阪府立大, 大阪)

　概要を見る

SIG-Challenge-9801, pp. 33-40
Wavelet-Mellin変換の意味で最適な聴覚フィルタ：ガンマチャープ

入野俊夫

応用ウェーヴレット解析研究会 1998年10月29日 (大学生協会館, 東京)

　概要を見る

1998年10月29・30日
ガンマチャープフィルタバンクによる雑音抑圧

入野俊夫

日本音響学会研究発表会講演論文集 1998年10月29日 (大学生協会館, 東京) 日本音響学会

　概要を見る

秋季研究発表会, I, pp.241-242 1998年10月29・30日
時変分析合成ガンマチャープ聴覚フィルタバンクと雑音抑圧

入野俊夫

1998年09月 (ATR, 京都) 日本音響学会

　概要を見る

聴覚研究会, H-98-98
In audition the optimum time-frequency trading function is Gamma not Gauss,

入野俊夫

Kenneth Craik Club, Cambridge Univ., UK., 14 July 1998. 1998年07月
ガンマチャープフィルタバンクによる時変系分析合成聴覚モデル

入野俊夫, 鵜木祐史

日本音響学会研究発表会講演論文集 1998年03月 (慶應大, 神奈川) 日本音響学会

　概要を見る

春季研究発表会, I, pp.413-414
ガンマチャープフィルタバンクにおける非対称性の制御方法

鵜木祐史, 入野俊夫

日本音響学会研究発表会講演論文集 1998年03月 (慶應大, 神奈川) 日本音響学会

　概要を見る

春季研究発表会, I, pp.415-416
ガンマチャープフィルタとフィルタバンクの効率的な構成

入野俊夫, 鵜木祐史

聴覚研究会(H-97-69) 1997年10月 (NTT 厚木, 神奈川) 日本音響学会
IIRフィルタによるガンマチャープフィルタの実現

入野俊夫, 鵜木祐史

日本音響学会研究発表会講演論文集 1997年09月 (北海道大,札幌) 日本音響学会

　概要を見る

秋季研究発表会, I, pp.421-422
ガンマチャープフィルタとフィルタバンクの効率的な構成

入野俊夫, 鵜木祐史

ATR Technical Report, ATR-H-225 1997年07月14日
自己相関関数による聴知覚の時間非対称性の説明可能性

入野俊夫, PATTERSON R D

日本音響学会研究発表会講演論文集 1997年03月 (同志社大,京都) 日本音響学会

　概要を見る

春季研究発表会, I, pp.455-456
レベル依存聴覚フィルタとしてのガンマチャープ

入野俊夫, Roy D. Patterson

聴覚研究会(H-96-73) 1996年10月 (NTT 厚木, 神奈川)
ガンマチャープ関数による聴覚フィルタの近似

入野俊夫, パターソンロイ D

日本音響学会研究発表会講演論文集 1996年09月 (岡山大, 岡山) 日本音響学会

　概要を見る

秋季研究発表会, I, pp.385-386
An asymmetric extension of the gammatone filter function

T. Irino

British Journal of Audiology 1996年01月01日
'Gammachirp' function as an optimal auditory filter with the Mellin transform

Toshio Irino

ICASSP, IEEE International Conference on Acoustics, Speech and Signal Processing - Proceedings 1996年01月01日

　概要を見る

Recently, a 'gammachirp' function has been derived as an optimal auditory filter function in terms of minimal uncertainty in a joint time and modified-scale representation if the scale transform defined by Cohen is used in the auditory system. The gammatone function, which is widely used as the impulse response of a linear auditory filter, is a first-order approximation of the 'gammachirp' function consisting of a chirp carrier with an envelope that is a gamma distribution function. In this paper, the optimality of the 'gammachirp' function is argued for the general Mellin transform since Cohen's scale transform is a specific example of the Mellin transform. A sample speech signal is analyzed to demonstrate the properties of a joint time and scale distribution derived with a short-time Mellin transform in comparison with a short-time Fourier spectrum.
理論的に最適な聴覚フィルタ関数

入野俊夫

岡崎生理研究所研究会 1995年12月04日

　概要を見る

1995年12月4日〜5日
An asymmetric extension of the gammatone filter function,

入野俊夫

presented at the British Society of Audiology, Short Papers Meeting on Experimental Studies of Hearing and Deafness, Oxford, September 27-28, 1995. 1995年09月
最適聴覚フィルタの計算理論的位置づけ

入野俊夫

日本音響学会研究発表会講演論文集 1995年09月

　概要を見る

日本音響学会秋季大会講演論文集, 1, 421-422
聴覚末梢系の計算理論

入野俊夫

聴覚研究会(H-95-44)・音声研究会(SP95-40) 1995年07月 (北陸先端大) 日本音響学会

　概要を見る

本論文では、聴覚末梢系の計算理論について、Marrによる初期視覚の計算理論に対応する形で議論を展開した。まず、ガンマチャープ関数が、時間-スケール表現において最小不確定性の意味で最適となり、聴覚フィルタへの近似も心理物理実験的に良くなることを示した。また、ウェーブレットフィルタを使うと800Hz以上の聴覚フィルタバンクが構成可能で、スケール表現不変の意味で最適となることを述べた。次に、聴知覚現象を説明するための事象検出と強調を行うデルタガンマ理論について述べた。末梢系と中枢系の一部の神経細胞の発火パターンをこの理論の枠組で説明できることを示した。
ガンマトーンフィルタの最適性について

入野俊夫

日本音響学会研究発表会講演論文集 1995年03月

　概要を見る

日本音響学会春季大会講演論文集, 1, 449-450
Optimal Auditory Filter and Scale Representation

入野俊夫

Research Report, NTT Basic Research Labs., ISRL-94-6 1995年02月
音響事象検出・強調の計算理論

入野俊夫, Patterson, R.D

日本音響学会聴覚研究会資料, H-94-64 1994年11月
A computational theory of asymmetric intensity enhancement around acoustic transients

Irino, T, Patterson, R. D

NTT Basic Research Labs. Technical Report, ISRL-93-9 1994年
A comutational theory of auditory event detection,

Toshi Irino, Roy D. Patterson

ASA meeting, J. Acoust. Soc. Am., 95, 2943, 1994. 1994年
聴覚ウェーブレット再構成法によるデータ圧縮

入野俊夫

日本音響学会研究発表会講演論文集 1993年03月

　概要を見る

pp.257-258
Signal reconstruction from modified auditory wavelet transform

Irino, T, Kawahara, H

NTT Basic Research Labs. Technical Report, ISRL-93-2 1993年
The effect of the auditory filter response on voicing judgemnets for intervocal stop consonant,

入野俊夫

British Soc. Audiology(BSA), Short Papers Meeting on Experimental Studies of Hearing and Deafness, Bristol, 1993. 1993年
Modeling of the Head Related Trandfer Function to extract features usable in sound localization

入野俊夫

NTT Basic Research Labs. Technical Report, ISRL-93-7 1993年
Wavelet変換による音声信号処理

入野俊夫

電子情報通信学会技術研究報告 1992年10月21日
語中閉鎖子音の知覚における前置音の聴覚フィルターレスポンスの影響

入野俊夫

日本音響学会研究発表会講演論文集 1992年10月

　概要を見る

日本音響学会秋季大会講演論文集, ,pp.369-370
聴覚wavelet再構成音の主観評価値と係数歪の関係

入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集 1992年03月

　概要を見る

日本音響学会春季大会講演論文集, , pp.391-392
聴覚wavelet変換による聴覚末梢系表現からの信号再構成

入野俊夫

AVIRG,92年1月例会waveletセミナー 1992年01月

　概要を見る

資料はH-91-44と同じ
招待講演 Wavelet変換よる音声信号処理

入野俊夫

電子情報通信学会, 音声研究会・ディジタル信号処理研究会技術報告 1992年

　概要を見る

SP-92-81, DSP92-6.
聴覚末梢系表現からの信号再構成

入野俊夫, 河原英紀

日本音響学会聴覚研究会資料, H-91-44 1991年11月
wavelet変換による音声の駆動情報の抽出法について

河原英紀, 入野俊夫

日本音響学会研究発表会講演論文集 1991年10月

　概要を見る

日本音響学会秋季大会講演論文集, , 3-7-8
聴覚wavelet変換による音の変形操作

入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集 1991年10月

　概要を見る

pp.411-412
Wavelet変換による音声の駆動源の特徴付けについて

河原英紀, 入野俊夫

電子情報通信学会技術研究報告 1991年07月

　概要を見る

電子情報通信学会音声研究会資料, SP91-46, H-91-24
聴覚系インパルス応答を用いたWavelet変換による分析合成

入野俊夫, 河原英紀

日本音響学会研究発表会講演論文集 1991年03月

　概要を見る

日本音響学会春季大会講演論文集, ,1-8-1
Representing temporal information in auditory periphery based on random field theory

Herve, T, Irino, T, Kawahara, H

日本音響学会聴覚研究会資料, H-90-41 1990年09月
Wavelet変換に基づく聴覚初期過程の神経回路網モデルについて

河原英紀, 入野俊夫

日本音響学会研究発表会講演論文集 1990年09月

　概要を見る

日本音響学会春季大会講演論文集, 1-7-15
聴覚モデルによる音声の時間的変動検出能力の検討

河原英紀, 入野俊夫

日本音響学会春季大会講演論文集, 2-5-2 1990年03月
多変量解析により構成した多層神経回路網による不特定話者母音の特徴抽出

入野俊夫, 河原英紀

日本音響学会秋季大会講演論文集, 1-1-15 1989年10月
多層神経回路網の非線形多変量解析による構成法不特定話者母音認識への適用

入野俊夫, 河原英紀

電子情報通信学会論文誌 D-2 1989年08月

　概要を見る

(資料は、信学会論文と同じ）
多変量解析により構成した多層神経回路網の解析不特定話者母音認識を例として

入野俊夫, 河原英紀

電子情報通信学会技術研究報告 1989年05月19日
状態縮約表現により形成された神経回路網の解析

河原英紀, 入野俊夫

日本音響学会聴覚研究会資料, H-89-11 1989年05月
多変量解析によるニューラルネットワークの構成法 - 不特定話者母音認識への適用 -

入野俊夫, 河原英紀

日本音響学会春季大会講演論文集, 2-8-2 1989年03月
聴覚モデルによる音声の時間的変動検出能力の検討

河原英紀, 入野俊夫

日本音響学会春季大会講演論文集, 2-5-2 1989年03月
状態縮約表現を用いた神経回路網による破裂音の識別の検討

河原英紀, 入野俊夫

日本音響学会春季大会講演論文集, 2-8-4 1989年03月
多層神経回路網の多変量解析による構成法と不特定話者母音認識への適用

入野俊夫, 河原英紀

電子情報通信学会技術研究報告 1989年01月

　概要を見る

電子情報通信学会音声研究会資料, SP88-123
Simulation of ear using a fluid dynamics model of cochlea

Irino, T, Kawahara, H

NTT Basic Research Labs. Technical Report, ISRL-89-1 1989年
3層構造のニューラルネットによる認識機能の実現について

河原英紀, 入野俊夫

電子情報通信学会技術研究報告 1988年10月28日
多層ニューラルネットワークを用いた不特定話者母音知覚モデルの解析

入野俊夫, 河原英紀

日本音響学会秋季大会講演論文集, 2-P-10 1988年10月

　概要を見る

(日本音響学会学術奨励賞受賞)
3層構造のニューラルネットによる任意の連続写像の近似実現とパターン処理への適用

河原英紀, 入野俊夫

電子情報通信学会技術研究報告 1988年09月16日
基底膜振動を入力としたニューラルネットワークによる母音特徴抽出の検討

入野俊夫, 河原英紀

第10回神経情報科学研究会資料 1988年08月
神経回路網を用いた音声の時間的特徴の表現に関する検討

河原英紀, 入野俊夫

電子情報通信学会技術研究報告 1988年07月28日
Speaker independent feature extraction of Japanese vowels using neural networks

Irino, T, Kawahara, H

ATR Workshop on Neural Networks and Parallel Distributed Processing 1988年07月 (Kyoto)
A study on the speaker independent feature extraction of Japanese vowels by neural networks,

Toshio Irino, Hideki Kawahara

115th Meeting of the Acoust. Soc. Amer, May, 1988. 1988年05月
基底膜振動を入力とした母音特徴抽出の検討 - 神経回路網による表現の探索 -

入野俊夫, 河原英紀

日本音響学会春季大会講演論文集, , 3-P-15 1988年03月
零温度係数を持つSiC/SiO2/LiTaO3構造弾性境界波基板

入野俊夫, 渡辺隆弥, 清水康敬

日本音響学会講演論文集,2-2-3,pp.799-800 1987年10月03日
神経回路網アプローチに基づく母音特徴要素抽出の検討

入野俊夫, 河原英紀

日本音響学会秋季大会講演論文集, , 1-3-6 1987年10月
神経回路網による母音認識特徴抽出能力の検討

入野俊夫, 河原英紀

電子情報通信学会技術研究報告 1987年10月

　概要を見る

日本音響学会聴覚研究会, EA87-55, H-87-52
SiO2/LiTaO3構造中に伝搬するストンリー波の温度特性

入野俊夫, 渡辺隆弥, 清水康敬

日本音響学会講演論文集, 1-7-2, pp.591-592 1987年03月26日
弾性境界波の特徴と特性

入野俊夫, 清水康敬

日本音響学会講演論文集, 1-7-3, pp.593-594 1987年03月26日
C-4 零温度係数を持つSiC/SiO_2/LiTaO_3構造弾性境界波基板(表面弾性波)

入野俊夫, 渡辺隆弥, 清水康敬

超音波エレクトロニクスの基礎と応用に関するシンポジウム講演予稿集 1987年

　概要を見る

超音波シンポジウム,pp.69-70
弾性境界波の特徴とその特性

入野俊夫, 清水康敬

日本学術振興会弾性波素子技術第150委員会,第9回研究 1987年
SiO2/LiTaO3構造中に伝搬するストンリー波の実験的検討

入野俊夫, 渡辺隆弥, 清水康敬

日本音響学会講演論文集 1986年10月03日

　概要を見る

3-2-1, pp.811-812
SiO2/ZnO/SiO2構造中に伝搬する弾性境界波の実験的検討

入野俊夫, 清水康敬

日本音響学会講演論文集 1986年10月03日

　概要を見る

3-2-4,pp.817-818
ZnOを中間層に持つ三媒質構造中に伝搬する弾性境界波の検討

入野俊夫, 白崎良昌, 清水康敬

電子通信学会技術研究報告 1986年09月29日

　概要を見る

電子通信学会超音波研究会, US86-39, pp.47-54
SiO2／ZnO／ガラス三層構造中に伝搬する弾性境界波の理論的検討

入野俊夫, 白崎良昌, 清水康敬

日本音響学会講演論文集 1986年03月28日

　概要を見る

2-7-5,pp.645-646
二枚の同一圧電体を接合した境界面に伝搬するストンリー波の理論的検討

入野俊夫, 清水康敬

電子通信学会技術研究報告 1986年03月20日

　概要を見る

電子通信学会超音波研究会資料, US.85-69, Vol.85, No.3
E-3 二枚の基板を接着した境界層に沿って伝搬する弾性境界波(弾性表面波とデバイスI)

入野俊夫, 清水康敬

超音波エレクトロニクスの基礎と応用に関するシンポジウム講演予稿集 1985年12月10日

　概要を見る

pp.119-118,1985
圧電体を含む三層構造に伝搬する弾性境界波

入野俊夫, 清水康敬

日本音響学会講演論文集 1985年10月01日

　概要を見る

2-5-19,pp.757-758
圧電体＝媒質間に伝搬する境界波の検討

入野俊夫, 清水康敬

日本音響学会講演論文集 1984年10月04日

　概要を見る

1-7-9,1984
圧電体二媒質境界面を伝搬するストンリー波の理論的検討

入野俊夫, 清水康敬

電子通信学会技術研究報告 1984年05月23日

　概要を見る

電子通信学会マイクロ波研究会資料, MW84-11, 1984
圧電体二媒質境界面を伝搬するストンリー波の理論的検討

入野俊夫, 清水康敬

日本学術振興会薄膜第131委員会 1984年05月18日
圧電体二媒質構造におけるストンリー波の理論的検討

入野俊夫, 清水康敬

日本音響学会研究発表会講演論文集 1984年03月31日

　概要を見る

3-5-10,1984
２枚の PZT基板を接着した境界面に伝搬する境界波

入野俊夫, 清水康敬

日本音響学会講演論文集 1984年03月28日

　概要を見る

2-2-7,pp.635-636
圧電体と等方体の境界を伝搬するストンリー波の存在条件

清水康敬, 入野俊夫

日本音響学会研究発表会講演論文集 1983年10月04日

　概要を見る

2-8-17,1983
任意方向に分極した圧電セラミック基板を伝搬する表面波特性

清水康敬, 清水徹, 入野俊夫

電子通信学会技術研究報告 1983年01月27日

　概要を見る

電子通信学会超音波研究会資料, US82-72,1983
圧電体とガラスの境界面を伝搬するストンリー波の特性

清水康敬, 入野俊夫

日本学術振興会薄膜第131委員会 1983年01月26日
C-1 圧電体とガラスとの境界面を伝搬するストンリー波(表面波伝搬とデバイスI)

清水康敬, 入野俊夫

超音波エレクトロニクスの基礎と応用に関するシンポジウム講演予稿集 1982年12月07日
LiNbO3とガラスの境界面を伝搬するストンリー波の理論的検討

清水康敬, 入野俊夫

日本音響学会研究発表会講演論文集 1982年10月20日

　概要を見る

1-4-9,1982
圧電体とガラスの境界面を伝搬するストンリー波について

清水康敬, 入野俊夫

電気学会エレクトロメカニカル機能部品調査委員会 1982年09月28日

　概要を見る

26-73, 1982
ＺｎＯとガラスの境界面を伝搬するストンリー波の理論的検討

清水康敬, 入野俊夫

日本音響学会研究発表会講演論文集 1982年03月03日

　概要を見る

1-6-8,1982
圧電体とガラスとの境界面を伝搬するストンリー波

清水康敬, 入野俊夫

超音波シンポジウム 1982年03月

　概要を見る

pp.79-80,1982
ZnOとガラス境界面を伝搬するストンリー波の理論的検討

清水康敬, 入野俊夫

電子通信学会技術研究報告 1982年01月29日

　概要を見る

電子通信学会超音波研究会資料,US81-63,1982
音声データ収集と表示のための実時間インタラクティブ音響測定ツール

Hideki Kawahara, Kohei Yatabe, Ken-Ichi Sakakibara, Mitsunori Mizumachi, Masanori Morise, Hideki Banno, Toshio Irino

Interspeech2021

▼全件表示

特許

学習装置、学習方法、推定装置、推定方法及びプログラム

特許番号：特許第7424587号

登録日： 2024年01月22日

出願日： 2020年08月27日（特願2020-143955 ）公開日： 2022年03月10日（ 2022-39104 ）

発明者：新井賢一、中谷智広、木下慶介、荒木章子、小川厚徳、入野俊夫出願人：日本電信電話株式会社、和歌山大学
予測装置、予測方法及び予測プログラム

特許番号：特許第7306626号

登録日： 2023年07月03日

出願日： 2019年08月13日（特願2019-148529 ）公開日： 2021年03月01日（特開2021-32909 ）

発明者：入野俊夫、山本克彦、新井賢一、中谷智広、木下慶介、荒木章子、小川厚徳出願人：日本電信電話株式会社、和歌山大学
音声明瞭度計算方法、音声明瞭度計算装置及び音声明瞭度計算プログラム

特許番号： 11462228

登録日： 2022年10月04日アメリカ

出願日： 2018年08月03日（ 16/636032 ）

発明者：入野俊夫、松井淑恵、荒木章子、木下慶介、中谷智広、山本克彦出願人：国立大学法人和歌山大学、日本電信電話株式会社
音声明瞭度計算方法、音声明瞭度計算装置及び音声明瞭度計算プログラム

特許番号：特許第6849978号

登録日： 2021年03月09日

出願日： 2018年08月03日（特願2019-534607 ）公表日： 2020年07月09日（再表2019/027053 ）

発明者：入野俊夫、松井淑恵、荒木章子、木下慶介、中谷智広、山本克彦出願人：国立大学法人和歌山大学、日本電信電話株式会社
信号処理装置及び方法並びに補聴特性の調整方法

特許番号： 6482117

登録日： 2019年02月22日

出願日： 2015年02月16日（特願2015-27305 ）公開日： 2016年08月22日（特開2016-152433 ）

発明者：入野俊夫、河原英紀出願人：国立大学法人和歌山大学
周期信号処理方法、周期信号変換方法、周期信号処理装置および周期信号の分析方法

特許番号： 2178082

登録日： 2016年08月17日フランス

出願日： 2010年01月18日（ 8778299.1 ）

発明者：河原英紀、森勢将雅、高橋徹、入野俊夫出願人：国立大学法人和歌山大学
周期信号処理方法、周期信号変換方法、周期信号処理装置および周期信号の分析方法

特許番号： 2178082

登録日： 2016年08月17日ドイツ

出願日： 2010年01月18日（ 8778299.1 ）

発明者：河原英紀、森勢将雅、高橋徹、入野俊夫出願人：国立大学法人和歌山大学
周期信号処理方法、周期信号変換方法、周期信号処理装置および周期信号の分析方法

特許番号： 2178082

登録日： 2016年08月17日イギリス

出願日： 2010年01月18日（ 8778299.1 ）

発明者：河原英紀、森勢将雅、高橋徹、入野俊夫出願人：国立大学法人和歌山大学
周期信号処理方法、周期信号変換方法、周期信号処理装置および周期信号の分析方法

特許番号： 8781819

登録日： 2014年07月15日アメリカ

出願日： 2010年01月18日（ 12/669533 ）

発明者：河原英紀、森勢将雅、高橋徹、入野俊夫出願人：国立大学法人和歌山大学
周期信号処理方法、周期信号変換方法および周期信号処理装置ならびに周期信号の分析方法

特許番号： 5275612

登録日： 2013年05月24日

出願日： 2007年11月06日（特願2007-289006 ）公開日： 2009年02月26日（特開2009-42716 ）

発明者：河原英紀、森勢将雅、高橋徹、入野俊夫出願人：国立大学法人和歌山大学
周期信号処理方法、周期信号変換方法、周期信号処理装置および周期信号の分析方法

特許番号： 10-1110141

登録日： 2012年01月19日韓国

出願日： 2010年02月18日（ 2010-7003580 ）

発明者：河原英紀、森勢将雅、高橋徹、入野俊夫出願人：国立大学法人和歌山大学
インパルス応答測定方法及び装置

特許番号： 4552016

登録日： 2010年07月23日

出願日： 2005年07月12日（特願2006-529052 ）公表日： 2008年05月01日（再表2006/011356 ）

発明者：入野俊夫、河原英紀、坂野秀雄、森勢将雅出願人：国立大学法人和歌山大学
音の評価指標計算方法、評価データを生成する方法、音の評価装置、及びコンピュータプログラム

出願日： 2022年06月07日（特願2022-092345 ）公開日： 2023年12月19日（特開2023-179189 ）

発明者：入野俊夫出願人：和歌山大学
音の評価指標計算方法、評価データを生成する方法、音の評価装置、及びコンピュータプログラム

出願日： 2022年06月07日（特願2022-092345 ）公開日： 2023年12月19日（特開2023-179189 ）

発明者：入野俊夫出願人：国立大学法人和歌山大学

▼全件表示

研究交流

音声了解度のクラウドソーシングによる効率的取得法および客観予測手法の高度化に関する研究

2022年06月

-

2023年02月

共同研究
科研萌芽　全体研究打ち合わせ

2022年05月

共同研究
日本音響学会　聴覚委員会委員長としての活動

2022年04月

-

2024年04月
科研B 全体研究打ち合わせ

2021年09月

共同研究
科研萌芽　全体研究打ち合わせ

2021年09月

共同研究
音声了解度のクラウドソーシングによる効率的取得法および客観予測手法の高度化に関する研究

2021年06月

-

2022年02月

共同研究
音声了解度のクラウドソーシングによる効率的取得法および客観予測手法の高度化に関する研究

2020年06月

-

2021年02月

共同研究
面接におけるノート使用のインタラクションへの影響評価

2020年04月

-

2023年03月

共同研究
科研A + 萌芽研究合同ミーティング

2020年03月
聴覚特性推定に基づく模擬難聴を用いた明瞭音声特徴の抽出

2019年09月

-

2020年03月

共同研究
科研説明会　（講演し、パネルディスカッションのMCも行った。）

2019年07月
初学者における傾聴のうわすべりの解明とその回避のための臨床心理学的研究

2018年06月

-

2021年03月

共同研究
難聴理解を促進するための模擬難聴システムの開発と教育への応用

2018年06月

-

2021年03月

共同研究
複合音ABR (cABR）における時間分解能から見た難聴病態解明と次世代補聴器開発

2017年04月

-

2019年03月

共同研究
対話的可視化に基づく音声コミュニケーション研究支援環境

2017年04月

-

2018年03月

共同研究
科研萌芽: 対話的可視化可聴化に基づく音声コミュニケーション研究支援環境

2017年04月

-

2018年03月

共同研究
CREST応募説明会

2017年04月
Collaboration on Hearing Impairment simulator

2016年09月

-

2018年03月

共同研究
聴覚特性に基づく明瞭音声の客観指標と音声聴覚支援手法の開発

2016年06月

-

2020年03月

共同研究
褒める行為が響くとき：カウンセリング対話への重層的なラベル付けによる解明

2016年04月

-

2018年03月

共同研究
科研萌芽: 対話的可視化可聴化に基づく音声コミュニケーション研究支援環境

2016年04月

-

2017年03月

共同研究
複合音ABR (cABR）における時間分解能から見た難聴病態解明と次世代補聴器開発

2016年04月

-

2017年03月

共同研究
聴覚情報の静的表現に基づく高度音声処理基盤の構築

2016年04月

-

2017年03月

共同研究
対話的可視化可聴化に基づく音声コミュニケーション研究支援環境

2016年04月

-

2017年03月

共同研究
(科研A)^2 合同成果発表会

2016年03月
講演会：　France CNRS Dr. Grimault 、京都市芸大津崎教授、和歌山大　入野教授　

2016年03月
聴覚モデルによる音声評価の研究

2015年06月

-

2016年03月

共同研究
聴覚情報の静的表現に基づく高度音声処理基盤の構築

2015年04月

-

2017年03月

共同研究
聴覚の情報表現に基づく機能性音声デザイン機構の研究

2015年04月

-

2016年03月

共同研究
臨床心理面接の時系列連続評価と客観定量化手法の開発

2015年04月

-

2016年03月

共同研究
第1回　京都大学ー稲森財団　合同京都賞シンポジウム

2014年07月
聴覚モデルによる音声評価の研究

2014年06月

-

2015年03月

共同研究
非言語音認識の研究

2014年06月

-

2015年03月

共同研究
クライアントが効果を実感できる聴き方の支援:概念再考と傾聴教育プログ開発

2014年04月

-

2015年03月

共同研究
クライアントが効果を実感できる聴き方の支援：傾聴概念再考と傾聴教育プログラム開発

2014年04月

-

2015年03月

共同研究
非言語音認識の研究

2013年08月

-

2014年03月

共同研究
加齢に伴う絶対音感シフトに関する心理物理的実験検討と計算モデルの構築

2013年04月

-

2017年03月

共同研究
感音難聴における時間分解能の測定機器の開発と、時間分解能エンハンス補聴器の開発

2013年04月

-

2016年03月

共同研究
聴覚音声支援のための聴知覚特性の解明と信号処理開発

2013年04月

-

2016年03月

共同研究
対面対話進行における探索と調整機構の解明：カウンセリング場面を中心に

2013年04月

-

2015年03月

共同研究
科研費説明会

2012年09月
加齢に伴う絶対音感シフトに関する心理物理的実験検討と計算モデルの構築

2012年04月

-

2013年03月

共同研究
加齢に伴う絶対音感シフトに関する心理物理的実験検討と計算モデルの構築

2012年04月

-

2013年03月

共同研究
CREST symposium on Human-Harmonized Information Technology

2012年04月
ICASSP 2012, Kyoto

2012年03月
非言語音認識の研究

2012年02月

-

2013年01月

共同研究
難聴者の音声の聞こえの研究

2011年04月

-

2013年03月

共同研究
聴覚における寸法知覚と音脈分凝に関する研究

2009年04月

-

2012年03月

共同研究
臨床心理面接の対話における音声やうなずきの役割やその実践応用への研究

2007年04月

-

2013年03月

共同研究
マルチモーダルデータからの不変情報の発見とその方法論の研究

2005年04月

-

2010年03月

共同研究

▼全件表示

科学研究費

高齢難聴者の聴知覚特性のモデル化とそれに基づく音声聴覚支援基盤の構築

2024年04月

-

2027年03月

基盤研究（B）代表
介護職同士の会話はコミュニケーション媒体になりうるか：被介護者にさりげなく伝える

2023年04月

-

2026年03月

基盤研究（C）分担
高齢難聴者への音声感情伝達特性の解明と革新的音声モーフィング手法の開発

2021年04月

-

2024年03月

挑戦的研究（萌芽）代表
聴知覚特性に基づき高齢難聴者に対応した音声コミュニケーション支援基盤の構築

2021年04月

-

2024年03月

基盤研究（B）代表
面接におけるノート使用のインタラクションへの影響評価

2020年04月

-

2023年03月

基盤研究（C）分担
初学者における傾聴のうわすべりの解明とその回避のための臨床心理学的研究

2018年04月

-

2023年03月

基盤研究（C）分担
聴覚特性に基づく明瞭音声の客観指標と音声聴覚支援手法の開発

2016年04月

-

2020年03月

基盤研究（A）代表
褒める行為が響くとき：カウンセリング対話への重層的なラベル付けによる解明

2016年04月

-

2019年03月

基盤研究（C）分担
複合音ABR(cABR)における時間分解能から見た難聴病態解明と次世代補聴器開発

2016年04月

-

2019年03月

基盤研究（C）分担
対話的可視化可聴化に基づく音声コミュニケーション研究支援環境

2016年04月

-

2018年03月

挑戦的萌芽研究分担
聴覚の情報表現に基づく機能性音声デザイン機構の研究

2015年04月

-

2016年03月

挑戦的萌芽研究分担
聴覚情報の静的表現に基づく高度音声処理基盤の構築

2015年04月

-

2018年03月

基盤研究（B）分担
臨床心理面接の時系列連続評価と客観定量化手法の開発

2015年04月

-

2018年03月

挑戦的萌芽研究代表
クライアントが効果を実感できる聴き方の支援：傾聴概念再考と傾聴教育プログラム開発

2014年04月

-

2017年03月

基盤研究（C）分担
感音難聴における時間分解能の測定機器の開発と、時間分解能エンハンス補聴器の開発

2013年04月

-

2016年03月

基盤研究（C）分担
聴覚音声支援のための聴知覚特性の解明と信号処理開発

2013年04月

-

2016年03月

基盤研究（B）代表
加齢に伴う絶対音感シフトに関する心理物理学的実験検討と計算モデルの構築

2012年04月

-

2017年03月

基盤研究（A）分担
聴覚の情報表現に基づく高度音声分析変換合成方式の研究

2012年04月

-

2015年03月

基盤研究（B）分担
対面対話進行における探索と調整機構の解明：カウンセリング場面を中心に

2012年04月

-

2015年03月

基盤研究（C）分担
感性にはたらきかけるカウンセリングのためのパラ言語情報と身体動作の計測と解析

2011年04月

-

2014年03月

挑戦的萌芽研究代表
臨床心理面接における対話齟齬の理解：音声とうなずきの観点から

2010年04月

-

2013年03月

基盤研究（C）分担
音声知覚の基盤となる聴覚特性と計算理論の研究

2009年04月

-

2013年03月

基盤研究（B）代表
音声・音響信号に備わる寸法恒常性による音脈分凝と音色知覚の時間追従性

2009年04月

-

2012年03月

基盤研究（B）分担
聴覚・音声機能の支援・拡張技術に関する総合的研究

2007年04月

-

2011年03月

基盤研究（A）分担
初期聴覚系における寸法・形状知覚理論の検証と応用に関する研究

2006年04月

-

2009年03月

基盤研究（B）代表
帰納的学習機械による空間音源定位に関する研究

2006年04月

-

2009年03月

萌芽研究・萌芽的研究分担
音声知覚特性の解析に対する音声認識技術の適用

2006年04月

-

2009年03月

萌芽研究・萌芽的研究代表
音響的生態を基礎とした音の知覚属性の実験的再検討

2005年04月

-

2008年03月

基盤研究（C）分担
音を放射しない音響システム構築に関する研究

2005年04月

-

2007年03月

萌芽研究・萌芽的研究分担
聴覚計算理論の構築とそれに基づく音信号処理の研究

2003年04月

-

2006年03月

基盤研究（B）代表
聴覚情報表現の不動点に基づく聴覚的情景分析空間の構築

2003年04月

-

2005年03月

萌芽研究・萌芽的研究分担

▼全件表示

公的資金（他省庁、省庁の外郭団体、地方自治体等）

Temporal processing in the auditory system from cochlea to cortex

2004年04月

-

2010年03月

分担
ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術

2003年04月

-

2008年03月

分担
聴覚の情景分析に基づく音声・音響処理システム

1997年04月

-

2003年03月

分担

財団・企業等からの寄附金、公募型研究助成等

システム工学部寄附金(The Daiwa Foundation Anglo-Japanese Foundation (大和日英基金))

2006年04月

-

2007年03月

研究助成代表
システム工学部寄附金（(財) テレコム先端技術研究支援センター研究助成）

2005年04月

-

2008年03月

研究助成代表

財団・企業等との共同研究、受託研究、学術指導等

クラウドソーシングを用いた了解度の効率的取得法、および了解度客観予測法の適用範囲拡張の検討

2023年07月

-

2024年02月

共同研究代表
クラウドソーシングを用いた了解度の効率的取得法、および了解度客観予測法の適用範囲拡張に関する共同研究

2022年07月

-

2023年02月

共同研究代表
人間の聴覚の周波数分解能と時間分解能に関する研究

2021年11月

-

2022年10月

共同研究代表
最新の音声強調処理のクラウドソーシングによる評価および客観予測手法の高度化に関する研究

2021年07月

-

2022年02月

共同研究代表

公開講座等の講師、学術雑誌等の査読、メディア出演等

InterSpeech reviewer

2023年05月

International Speech Communication Association

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

InterSpeech reviewer ,任期:1回
IEEE ICASSP reviewer

2022年10月

-

2022年11月

IEEE

　詳細を見る

信号処理

国際会議IEEE ICASSPにおける査読
InterSpeech reviewer

2022年05月

International Speech Communication Association

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

InterSpeech reviewer ,任期:1回
IEEE ICASSP reviewer

2021年10月

-

2021年11月

IEEE

　詳細を見る

信号処理

国際会議IEEE ICASSPにおける査読
InterSpeech reviewer

2021年06月

International Speech Communication Association

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

InterSpeech reviewer ,任期:1回
IEEE ICASSP reviewer

2020年10月

-

2020年11月

IEEE

　詳細を見る

信号処理

国際会議IEEE ICASSPにおける査読
InterSpeech reviewer

2020年06月

International Speech Communication Association

　詳細を見る

音声科学／工学

国際会議InterSpeechの査読委員
毎日放送　News ミント　2月に取材を受けた番組が7月2日に放送

2020年02月19日

-

2020年07月02日

毎日放送

　詳細を見る

毎日放送、Newsミント、音声合成、AI

毎日放送　News ミント【特集】「限りなく本人に近い『ＡＩ音声』　進化する"合成音声"技術が難病患者を手助け」ー　
2020年2月に取材を受けた番組が7月2日に放送され、その中でコメント。
IEEE ICASSP reviewer

2019年10月

-

2019年11月

IEEE

　詳細を見る

信号処理

国際会議IEEE ICASSPにおける査読
大阪府立富田林高等学校の福田雅文教諭と生徒の指導

2019年06月

その他

　詳細を見る

小・中・高校生を対象とした学部体験入学・出張講座等

スーパーサイエンスハイスクールSSHの研究課題に関する指導を研究室にて行った。スピーカーの音についてのデモと研究方法を指導。高校のブログ https://www.osaka-c.ed.jp/blog/tondabayashi/koutyou/2019/06/13-143099.html,日付:6月22日
InterSpeech reviewer

2019年05月

International Speech Communication Association

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

InterSpeech reviewer ,任期:1回
IEEE ICASSP reviewer

2018年10月

-

2018年11月

IEEE

　詳細を見る

信号処理

国際会議IEEE ICASSPにおける査読
InterSpeech reviewer

2018年05月

International Speech Communication Association

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

InterSpeech reviewer ,任期:1回
IEEE ICASSP reviewer

2017年10月

-

2017年11月

IEEE

　詳細を見る

信号処理

国際会議IEEE ICASSPにおける査読
InterSpeech reviewer

2017年05月

International Speech Communication Association

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

InterSpeech reviewer ,任期:1回
メディア出演等

2017年03月28日

日刊工業新聞

　詳細を見る

研究成果に係る新聞掲載、テレビ・ラジオ出演

トップ科学技術・大学ニュース記事詳細 [ 科学技術・大学 ]和歌山大学モーションキャプチャー加速度センサージャイロセンサー映画・ゲームの「足音」リアルに−和歌山大、歩行データから自動合成
外国人研究者等の受入

2017年03月

CNRS Lyon France

　詳細を見る

外国人研究者等の受入

外国人研究者等の受入,氏名:Nicolas Grimault
IEEE ICASSP reviewer

2016年10月

-

2016年11月

IEEE

　詳細を見る

信号処理

国際会議IEEE ICASSPにおける査読
講師　（招待講演)

2016年10月

情報・システム研究機構

　詳細を見る

講演講師等

講師　（招待講演),任期:1 回
InterSpeech reviewer

2016年05月

International Speech Communication Association

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

InterSpeech reviewer ,任期:1回
InterSpeech reviewer

2015年05月

-

2016年03月

International Speech Communication Association

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

InterSpeech reviewer ,任期:2015
ASLP reviewer

2015年04月

-

2021年03月

IEEE ASLP (Acoustic, Signal, Language Processing)

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

ASLP reviewer ,任期:2015～2020
板倉記念独創研究奨励賞　委員

2015年04月

-

2017年03月

日本音響学会

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

板倉記念独創研究奨励賞　委員,任期:2015.4～
外国人研究者等の受入

2015年04月

France ENS

　詳細を見る

外国人研究者等の受入

外国人研究者等の受入,氏名:Alain de Cheivenier
Reviewer

2014年10月

Speech Communication

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

Reviewer,任期:2014.10
論文賞選奨委員

2014年09月

-

2015年05月

日本音響学会

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

論文賞選奨委員 ,任期:2014.5～
EUSIPCO Reviewer

2014年04月

EUSIPCO (Europian Signal Processing Conference

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

EUSIPCO Reviewer ,任期:2014.4
InterSpeech reviewer

2013年05月

-

2020年10月

International Speech Communication Association

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

InterSpeech reviewer ,任期:2013～
編集委員会査読委員

2013年05月

-

2020年05月

日本音響学会

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

編集委員会査読委員 ,任期:2013.5～複数年（任期未定)
ICASSP reviewer

2013年01月

-

2015年02月

IEEE ICASSP (International Conference on Acoustic, Speech, and Signal Processing)

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

ICASSP reviewer ,任期:2013～2015
外国人研究者等の受入

2012年11月

Yahoo Inc.

　詳細を見る

外国人研究者等の受入

外国人研究者等の受入,氏名:Malcolm Slaney
外国人研究者等の受入

2012年09月

University of Minnesota

　詳細を見る

外国人研究者等の受入

外国人研究者等の受入,氏名:Andrew Oxenham
JASP Reviewer

2012年08月

Journal of Advances in Signal Processing

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

JASP Reviewer ,任期:2012.8
外国人研究者等の受入

2011年09月

Google Inc., University of Maryland

　詳細を見る

外国人研究者等の受入

外国人研究者等の受入,氏名:Dick Lyon, Shihab Shamma
編集委員会　会誌部会　幹事

2011年05月

-

2013年05月

日本音響学会

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

編集委員会　会誌部会　幹事,任期:2011.5～2013.5
InterSpeech reviewer

2009年05月

-

2013年10月

International Speech Communication Association

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

InterSpeech reviewer ,任期:2009.5～2013.10
InterSpeech 2010 Area Cordinator

2009年05月

-

2010年10月

International Speech Communication Association

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

InterSpeech 2010 Area Cordinator ,任期:2009.5～2010.10
編集委員会査読委員

2005年09月

-

2013年05月

日本音響学会

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

編集委員会査読委員 ,任期:2005.9～2013.5
編集委員会　会誌部会委員

2005年05月

-

2011年05月

日本音響学会

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

編集委員会　会誌部会委員 ,任期:2005.5～2011.5
ASLP reviewer

2005年04月

-

2015年10月

IEEE ASLP (Acoustic, Signal, Language Processing)

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

ASLP reviewer ,任期:2005～2015
JASA Reviewer

2000年04月

-

2020年04月

Acoustical Society of America (ASA)

　詳細を見る

学術雑誌等の編集委員・査読・審査員等

JASA Reviewer ,任期:2000.4～ (任期未定）

▼全件表示

学協会、政府、自治体等の公的委員

和歌山県大規模小売店舗立地審議会委員

2024年06月01日

-

2025年03月31日

和歌山県

　詳細を見る

地域産業活性化

和歌山県大規模小売店舗立地審議会委員に就任し、専門的立場から意見をいただく。
新飛行経路案に係る環境検証委員会

2024年04月

-

2025年03月31日

大阪府、和歌山県、兵庫県

　詳細を見る

関西国際空港、神戸空港、騒音評価、航空機発着枠

関西空港、神戸空港の航空機発着回数増加に伴う新飛行経路案に係る環境検証の委員として、評価を行う。
日本音響学会　聴覚研究会委員

2024年04月

-

2025年03月

日本音響学会

　詳細を見る

音響学

日本音響学会・聴覚研究会の委員として、音響学の発展および普及を行う。
新飛行経路案に係る環境検証委員会

2023年07月05日

-

2024年03月31日

大阪府・兵庫県・和歌山県

　詳細を見る

騒音、環境評価、地域活性化

新飛行経路案に係る環境検証委員会委員に就任し、専門的立場から意見を述べる。
日本音響学会評議員

2023年05月22日

-

2025年05月

日本音響学会

　詳細を見る

音響学

日本における音響学の促進と普及をはかる。
和歌山県　公害審査委員候補者

2023年04月27日

-

2025年03月31日

和歌山県

　詳細を見る

学協会、政府、自治体等の公的委員

公害紛争処理法第１８条に規定する公害審査委員候補者
日本音響学会代議員

2023年02月

-

2025年02月

日本音響学会

　詳細を見る

音響学

日本における音響学の促進と普及をはかる。
日本音響学会関西支部会計監査

2022年04月23日

-

2024年04月

日本音響学会関西支部

　詳細を見る

音響学

日本音響学会　関西支部　会計監査として、音響学の発展および普及を行う。
日本音響学会　聴覚研究会委員長

2022年04月

-

2024年03月

日本音響学会

　詳細を見る

音響学

日本音響学会・聴覚研究会の委員長として、音響学の発展および普及を行う。
和歌山県公害審査委員候補者

2022年04月

-

2023年03月

和歌山県

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員候補者,任期:2020年4月～2021年4月
日本音響学会評議員

2021年05月22日

-

2023年05月

日本音響学会

　詳細を見る

音響学

日本における音響学の促進と普及をはかる。
公害審査委員候補者

2021年04月27日

-

2024年04月26日

和歌山県

　詳細を見る

学協会、政府、自治体等の公的委員

公害紛争処理法第１８条に規定する公害審査委員候補者
日本音響学会関西支部支部長

2021年04月22日

-

2022年04月

日本音響学会関西支部

　詳細を見る

音響学

日本音響学会　関西支部　支部長として、音響学の発展および普及を行う。
和歌山県公害審査委員候補者

2021年04月

-

2022年03月

和歌山県

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員候補者,任期:2020年4月～2021年4月
日本音響学会代議員

2021年02月

-

2023年02月

日本音響学会

　詳細を見る

音響学

日本における音響学の促進と普及をはかる。
和歌山県大規模小売店舗立地審議会委員

2020年06月01日

-

2024年05月31日

和歌山県

　詳細を見る

地域産業活性化

和歌山県大規模小売店舗立地審議会委員に就任し、専門的立場から意見をいただく。
和歌山県公害審査委員候補者

2020年04月27日

-

2021年04月26日

和歌山県

　詳細を見る

学協会、政府、自治体等の公的委員

和歌山県公害審査委員候補者に就任いただき、県民から公害紛争の調停等の申請がなされた場合、候補者から調停等を行う委員に任命させていだくための候補者
和歌山県環境影響評価審査会委員

2020年04月10日

-

2024年04月09日

和歌山県

　詳細を見る

環境保護

和歌山県環境影響評価審査会委員に就任し、専門的立場から意見をいただく。
日本音響学会関西支部副支部長

2020年04月

-

2021年03月

日本音響学会関西支部

　詳細を見る

学協会、政府、自治体等の公的委員

副支部長,任期:1年間
和歌山県公害審査委員候補者

2020年04月

-

2021年03月

和歌山県

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員候補者,任期:2020年4月～2021年4月
和歌山県公害審査委員候補者

2019年04月

-

2020年03月

和歌山県

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員候補者,任期:2019年４月～2020年３月
和歌山県洋上風力発電に係るゾーニング検討会委員

2019年02月

-

2021年03月

和歌山県

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員,任期:2019年2月～2021年3月
代議員／評議員

2019年02月

-

2021年02月

日本音響学会

　詳細を見る

学協会、政府、自治体等の公的委員

代議員／評議員,任期:2年間
委員

2018年06月

-

2020年05月

和歌山県大規模小売店舗立地審議会

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員,任期:2018年6月～2020年5月
委員

2018年06月

-

2020年05月

和歌山県大規模小売店舗立地審議会

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員,任期:2018年6月-2020年5月
委員

2018年04月

-

2020年04月

和歌山県環境影響評価審査会

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員,任期:2018年4月～2020年4月
委員

2018年04月

-

2020年04月

和歌山県環境影響評価審査会委員

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員,任期:2018/04～2020/04
委員

2018年04月

-

2019年04月

和歌山県公害審査

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員,任期:2018年4月～2019年4月
委員候補者

2017年04月

-

2018年03月

和歌山県公害審査委員

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員候補者,任期:2017年４月～2018年３月
代議員／評議員

2017年02月

-

2019年02月

日本音響学会

　詳細を見る

学協会、政府、自治体等の公的委員

代議員／評議員,任期:2年間
委員

2016年06月

-

2018年05月

和歌山県大規模小売店舗立地審議会

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員,任期:2016年6月-2018年5月
委員

2016年04月

-

2017年04月

和歌山県環境影響評価審査会委員

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員,任期:2016/04～2018/04
委員候補者

2016年04月

-

2017年04月

和歌山県公害審査委員候補者

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員候補者,任期:2016/04/27～2017/04/26
委員

2015年06月

-

2017年03月

科学技術振興機構　マッチングプランナープログラム　

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員,任期:2015/06/17～2017/03/31
委員

2015年05月

-

2016年04月

和歌山県公害審査　第1号事件調停委員

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員,任期:2015/05/12～2016/04/30
委員

2015年04月

-

2017年03月

科学技術振興機構　研究成果最適展開支援プログラム　

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員,任期:2015/04/21～2017/03/31
委員候補者

2015年04月

和歌山県公害審査委員候補者

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員候補者,任期:2015/04/27～2016/04/26
代議員

2015年02月

-

2017年02月

日本音響学会

　詳細を見る

学協会、政府、自治体等の公的委員

代議員,任期:2015/2 - 2017/2
委員

2014年06月

-

2016年05月

和歌山県大規模小売店舗立地審議会

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員,任期:2014年6月-2016年5月
委員

2014年06月

-

2016年05月

和歌山県大規模小売店舗立地審議会

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員 ,任期:2014/06/01～2016/05/31
委員

2013年06月

-

2014年05月

和歌山県大規模小売店舗立地審議会

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員 ,任期:2013/04/02～2014/05/31
委員

2013年05月

-

2015年03月

科学技術振興機構　研究成果最適展開支援プログラム専門委員

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員,任期:2013/05/27～2015/03/31
副委員長

2013年04月

-

2015年05月

日本音響学会

　詳細を見る

学協会、政府、自治体等の公的委員

聴覚研究会副委員長,任期:2013/5 - 2015/5
代議員／評議員

2013年04月

-

2015年05月

日本音響学会

　詳細を見る

学協会、政府、自治体等の公的委員

代議員／評議員,任期:2013/5 - 2015/5
委員

2012年06月

-

2013年03月

和歌山県大規模小売店舗立地審査会

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員 ,任期:2012/06/01～2013/03/31
委員

2011年05月

-

2013年03月

独立行政法人科学技術振興機構研究成果最適展開支援プログラム専門委員

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

国や地方自治体、他大学・研究機関等での委員,任期:2011/05/16～2013/03/31
代議員／評議員

2005年04月

-

2013年05月

日本音響学会

　詳細を見る

学協会、政府、自治体等の公的委員

代議員／評議員,任期:2005/5 - 2013/5
委員

2004年06月

-

2012年05月

和歌山県大規模小売店立地審査会

　詳細を見る

国や地方自治体、他大学・研究機関等での委員

委員 ,任期:2004.6～2012.5

▼全件表示

その他の社会活動

新居紙器における、新規展開に関する相談

2020年02月

その他

　詳細を見る

産業界、行政諸機関等と行った共同研究、新技術創出、コンサルティング等

新居紙器において、音関係の付加価値創出に関する相談を受けた,実施者:和歌山大学　産学連携イノベーションセンター
令和元年度和歌山大学産学官見学交流会研究室見学対応

2019年07月

その他

　詳細を見る

産業界、行政諸機関等と行った共同研究、新技術創出、コンサルティング等

最新の研究成果や研究環境を参加者に見せ、研究交流に役立てる。,実施者:和歌山大学　産学連携イノベーションセンター
大阪府泉南郡田尻町、防災無線の音声明瞭度改善に関する検討

2011年04月

-

2012年03月

その他

　詳細を見る

ボランティア活動等

田尻町における防災無線の音声明瞭度を改善するため、町の担当者と相談を行った。研究の専門性を生かして支援することを行う。,実施者:入野俊夫