2024/06/05 更新

写真a

イリノ トシオ
入野 俊夫
所属
システム工学部 メディアデザインメジャー
職名
教授
兼務
情報学領域(教授)
emailアドレス
emailアドレス
ホームページ
外部リンク

学歴

  • 1982年
    -
    1987年

    東京工業大学   大学院 理工学研究科   電気電子工学専攻 博士課程  

  • 1978年
    -
    1982年

    東京工業大学   工学部   電気・電子工学科  

学位

  • 工学博士   1987年

経歴

  • 2005年
    -
    2007年

    統計数理研究所   客員教授

  • 2002年
    -
    継続中

    和歌山大学   システム工学部   教授

  • 2000年
    -
    2002年

    NTTコミュニケーション科学基礎研究所   主任研究員

  • 1997年
    -
    2000年

    ATR人間情報通信研究所   主任研究員

  • 1993年
    -
    1994年

    英国MRC-APU   客員研究員

  • 1987年
    -
    1997年

    NTT基礎研究所   研究主任〜主任研究員

▼全件表示

所属学協会

  • 米国音響学会 (ASA)

  • 電子情報通信学会

  • IEEE

  • 日本音響学会

  • ISCA

  • ARO

▼全件表示

研究分野

  • 人文・社会 / 実験心理学

  • 情報通信 / 知覚情報処理

  • ライフサイエンス / 認知脳科学

  • 人文・社会 / 臨床心理学

  • 人文・社会 / 言語学

  • 情報通信 / 統計科学

  • 情報通信 / 知能ロボティクス

▼全件表示

【学部】授業等(実験、演習、卒業論文指導、卒業研究、課題研究を含む)

  • 2024年度   メディア情報数理   専門教育科目

  • 2024年度   メディアデザインセミナー1A   専門教育科目

  • 2024年度   メディアデザインセミナー1B   専門教育科目

  • 2024年度   卒業研究(MD・後期)   専門教育科目

  • 2024年度   音響設計論   専門教育科目

  • 2024年度   卒業研究(MD)   専門教育科目

  • 2023年度   最新情報技術概論   専門教育科目

  • 2023年度   メディアデザインセミナー1A   専門教育科目

  • 2023年度   メディアデザインセミナー2B   専門教育科目

  • 2023年度   メディアデザインセミナー1B   専門教育科目

  • 2023年度   メディアデザインセミナー2A   専門教育科目

  • 2023年度   メディア情報数理   専門教育科目

  • 2023年度   音響設計論   専門教育科目

  • 2023年度   メディアデザインセミナー1B   専門教育科目

  • 2023年度   メディアデザインセミナー1A   専門教育科目

  • 2023年度   メディアデザインセミナー2B   専門教育科目

  • 2023年度   メディアデザインセミナー2A   専門教育科目

  • 2023年度   卒業研究(MD)   専門教育科目

  • 2023年度   卒業研究(MD・後期)   専門教育科目

  • 2023年度   メディア情報数理   専門教育科目

  • 2023年度   音響設計論   専門教育科目

  • 2023年度   卒業研究   専門教育科目

  • 2022年度   ロボット学   教養教育科目

  • 2022年度   メディアデザインセミナー1A   専門教育科目

  • 2022年度   メディアデザインセミナー1B   専門教育科目

  • 2022年度   メディアデザインセミナー2A   専門教育科目

  • 2022年度   メディアデザインセミナー2B   専門教育科目

  • 2022年度   メディア情報数理   専門教育科目

  • 2022年度   音響設計論   専門教育科目

  • 2022年度   卒業研究   専門教育科目

  • 2022年度   システム工学入門セミナー   専門教育科目

  • 2021年度   音響設計論   専門教育科目

  • 2021年度   卒業研究   専門教育科目

  • 2021年度   メディアデザインセミナー2B   専門教育科目

  • 2021年度   ロボット学   教養教育科目

  • 2021年度   メディアデザインセミナー1A   専門教育科目

  • 2021年度   メディアデザインセミナー1B   専門教育科目

  • 2021年度   メディアデザインセミナー2A   専門教育科目

  • 2021年度   メディア情報数理   専門教育科目

  • 2020年度   音響設計論   専門教育科目

  • 2020年度   メディア情報数理   専門教育科目

  • 2020年度   メディアデザインセミナーⅡ   専門教育科目

  • 2020年度   卒業研究   専門教育科目

  • 2020年度   メディア情報数理   専門教育科目

  • 2020年度   メディアデザインセミナー1A   専門教育科目

  • 2020年度   メディアデザインセミナー1B   専門教育科目

  • 2020年度   メディアデザインセミナー2A   専門教育科目

  • 2020年度   メディアデザインセミナー2B   専門教育科目

  • 2020年度   卒業研究   専門教育科目

  • 2020年度   卒業研究   専門教育科目

  • 2020年度   卒業研究   専門教育科目

  • 2019年度   メディアデザインセミナーⅠ   専門教育科目

  • 2019年度   音響設計論   専門教育科目

  • 2019年度   サウンドプログラミング演習   専門教育科目

  • 2019年度   メディアデザインセミナーⅡ   専門教育科目

  • 2019年度   卒業研究   専門教育科目

  • 2019年度   メディア情報数理   専門教育科目

  • 2019年度   音響設計論   専門教育科目

  • 2019年度   システム工学入門セミナー   専門教育科目

  • 2019年度   音響設計論   専門教育科目

  • 2019年度   システム工学入門セミナー   専門教育科目

  • 2019年度   メディア情報数理   専門教育科目

  • 2019年度   サウンドプログラミング演習   専門教育科目

  • 2019年度   メディアデザインセミナーⅠ   専門教育科目

  • 2019年度   メディアデザインセミナーⅡ   専門教育科目

  • 2018年度   音響設計論   専門教育科目

  • 2018年度   サウンドプログラミング演習   専門教育科目

  • 2018年度   メディアデザインセミナーⅠ   専門教育科目

  • 2018年度   メディアデザインセミナーⅡ   専門教育科目

  • 2018年度   卒業研究   専門教育科目

  • 2018年度   メディア情報数理   専門教育科目

  • 2018年度   メディアデザインセミナーⅠ   専門教育科目

  • 2018年度   メディア情報数理   専門教育科目

  • 2018年度   サウンドプログラミング演習   専門教育科目

  • 2018年度   卒業研究   専門教育科目

  • 2018年度   メディアデザインセミナーⅠI   専門教育科目

  • 2018年度   音響設計論   専門教育科目

  • 2017年度   メディアデザインセミナーⅠ   専門教育科目

  • 2017年度   メディアデザインセミナーⅡ   専門教育科目

  • 2017年度   メディア情報数理   専門教育科目

  • 2017年度   サウンドプログラミング演習   専門教育科目

  • 2017年度   システム工学入門セミナー   教養教育科目

  • 2017年度   卒業研究   専門教育科目

  • 2017年度   システム工学入門セミナー   専門教育科目

  • 2017年度   メディア情報数理   専門教育科目

  • 2017年度   サウンドプログラミング演習   専門教育科目

  • 2017年度   メディアデザインセミナーⅠ   専門教育科目

  • 2017年度   システム工学自主演習Ⅳ   専門教育科目

  • 2017年度   メディアデザインセミナーⅠI   専門教育科目

  • 2016年度   メディア情報数理   専門教育科目

  • 2016年度   音響設計論   専門教育科目

  • 2016年度   サウンドプログラミング演習   専門教育科目

  • 2016年度   システム工学自主演習Ⅳ   専門教育科目

  • 2016年度   システム工学自主演習Ⅴ   専門教育科目

  • 2016年度   デザイン情報セミナーⅠ   専門教育科目

  • 2016年度   デザイン情報セミナーⅡ   専門教育科目

  • 2016年度   卒業研究   専門教育科目

  • 2016年度   音響設計論   専門教育科目

  • 2015年度   情報応用数理   専門教育科目

  • 2015年度   デザイン情報セミナーⅠ   専門教育科目

  • 2015年度   ディジタル信号処理   専門教育科目

  • 2015年度   システム工学入門セミナー   教養教育科目

  • 2015年度   メディア情報処理   専門教育科目

  • 2015年度   メディアサイエンス基礎   専門教育科目

  • 2015年度   システム工学自主演習Ⅱ   専門教育科目

  • 2015年度   デザイン情報セミナーⅡ   専門教育科目

  • 2015年度   メディアサイエンス基礎   専門教育科目

  • 2015年度   システム工学自主演習Ⅲ   専門教育科目

  • 2015年度   システム工学自主演習Ⅴ   専門教育科目

  • 2015年度   システム工学入門セミナー   専門教育科目

  • 2015年度   ディジタル信号処理   専門教育科目

  • 2015年度   デザイン情報セミナーⅠ   専門教育科目

  • 2015年度   メディア情報処理   専門教育科目

  • 2015年度   情報応用数理   専門教育科目

  • 2014年度   情報応用数理   専門教育科目

  • 2014年度   メディアサイエンス基礎   専門教育科目

  • 2014年度   ディジタル信号処理   専門教育科目

  • 2014年度   生活の中の情報システム   教養教育科目

  • 2014年度   デザイン情報入門セミナー   専門教育科目

  • 2014年度   ディジタル信号処理   専門教育科目

  • 2014年度   デザイン情報入門セミナー   専門教育科目

  • 2014年度   メディアサイエンス基礎   専門教育科目

  • 2014年度   情報応用数理   専門教育科目

  • 2014年度   デザイン情報セミナーⅠ   専門教育科目

  • 2014年度   デザイン情報セミナーⅡ   専門教育科目

  • 2013年度   デザイン情報セミナーⅡ   専門教育科目

  • 2013年度   基礎教養セミナー   教養教育科目

  • 2013年度   情報応用数理   専門教育科目

  • 2013年度   デザイン情報セミナーⅡ   専門教育科目

  • 2013年度   卒業研究   専門教育科目

  • 2013年度   メディアサイエンス基礎   専門教育科目

  • 2013年度   ディジタル信号処理   専門教育科目

  • 2013年度   デザイン情報セミナーⅠ   専門教育科目

  • 2013年度   デザイン情報入門セミナー   専門教育科目

  • 2013年度   生活の中の情報システム   教養教育科目

  • 2013年度   メディアサイエンス基礎   専門教育科目

  • 2013年度   基礎教養セミナー   教養教育科目

  • 2013年度   生活の中の情報システム   教養教育科目

  • 2013年度   ディジタル信号処理   専門教育科目

  • 2013年度   デザイン情報入門セミナー   専門教育科目

  • 2013年度   メディアサイエンス基礎   専門教育科目

  • 2013年度   情報応用数理   専門教育科目

  • 2013年度   デザイン情報セミナーⅠ   専門教育科目

  • 2012年度   デザイン情報セミナーⅡ   専門教育科目

  • 2012年度   メディアサイエンス基礎   専門教育科目

  • 2012年度   生活の中の情報システム   教養教育科目

  • 2012年度   システム工学自主演習Ⅲ   専門教育科目

  • 2012年度   システム工学自主演習Ⅴ   専門教育科目

  • 2012年度   ディジタル信号処理   専門教育科目

  • 2012年度   デザイン情報セミナーⅠ   専門教育科目

  • 2012年度   デザイン情報入門セミナー   専門教育科目

  • 2012年度   情報応用数理   専門教育科目

  • 2012年度   卒業研究   専門教育科目

  • 2011年度   システム工学自主演習Ⅰ   専門教育科目

  • 2011年度   システム工学自主演習Ⅱ   専門教育科目

  • 2011年度   システム工学自主演習Ⅲ   専門教育科目

  • 2011年度   システム工学自主演習Ⅳ   専門教育科目

  • 2011年度   デザイン情報セミナーI   専門教育科目

  • 2011年度   情報応用数理   専門教育科目

  • 2011年度   ディジタル信号処理   専門教育科目

  • 2011年度   デザイン情報入門セミナー   専門教育科目

  • 2011年度   卒業研究   専門教育科目

  • 2011年度   生活の中の情報システム   教養教育科目

  • 2011年度   メディアサイエンス基礎   専門教育科目

  • 2011年度   デザイン情報セミナーII   専門教育科目

  • 2010年度   生活の中の情報システム   教養教育科目

  • 2010年度   デザイン情報セミナーII   専門教育科目

  • 2010年度   デザイン情報セミナーI   専門教育科目

  • 2010年度   情報応用数理   専門教育科目

  • 2010年度   ディジタル信号処理   専門教育科目

  • 2010年度   メディアサイエンス基礎   専門教育科目

  • 2010年度   デザイン情報入門セミナー   専門教育科目

  • 2010年度   卒業研究   専門教育科目

  • 2009年度   生活の中の情報システム   教養教育科目

  • 2009年度   卒業研究   専門教育科目

  • 2009年度   デザイン情報入門セミナー   専門教育科目

  • 2009年度   メディアサイエンス基礎   専門教育科目

  • 2009年度   ディジタル信号処理   専門教育科目

  • 2009年度   情報応用数理   専門教育科目

  • 2009年度   デザイン情報セミナーI   専門教育科目

  • 2009年度   デザイン情報セミナーII   専門教育科目

  • 2008年度   生活の中の情報システム   教養教育科目

  • 2008年度   卒業研究   専門教育科目

  • 2008年度   デザイン情報入門セミナー   専門教育科目

  • 2008年度   メディアサイエンス基礎   専門教育科目

  • 2008年度   ディジタル信号処理   専門教育科目

  • 2008年度   情報応用数理   専門教育科目

  • 2008年度   デザイン情報セミナーI   専門教育科目

  • 2008年度   デザイン情報セミナーII   専門教育科目

  • 2007年度   生活の中の情報システム   教養教育科目

  • 2007年度   卒業研究   専門教育科目

  • 2007年度   デザイン情報入門セミナー   専門教育科目

  • 2007年度   メディアサイエンス基礎   専門教育科目

  • 2007年度   ディジタル信号処理   専門教育科目

  • 2007年度   情報応用数理   専門教育科目

  • 2007年度   デザイン情報セミナーI   専門教育科目

  • 2007年度   デザイン情報セミナーII   専門教育科目

▼全件表示

【学部】自主演習

  • 2016年度   スピーカー製作と音や音響機器に関する基礎知識の修得

  • 2015年度   スピーカー通じて音の出る仕組みを理解しよう

  • 2015年度   ドラムとボイスパーカッションの特徴比較

  • 2011年度   高級オーディオに匹敵するステレオシステムの製作

  • 2011年度   音響増幅装置製作

  • 2010年度   聴覚とスピーカーのしくみ

  • 2010年度   音響提示装置作製

  • 2010年度   身体動作と聴覚の関係の基礎検討

▼全件表示

【大学院】授業等

  • 2024年度   システム工学研究ⅡB(システム知能)   博士前期

  • 2024年度   システム工学研究ⅡA(システム知能)   博士前期

  • 2024年度   システム工学研究ⅠB(システム知能)   博士前期

  • 2024年度   システム工学研究ⅠA(システム知能)   博士前期

  • 2024年度   システム工学講究ⅡB(システム知能)   博士前期

  • 2024年度   システム工学講究ⅠB(システム知能)   博士前期

  • 2024年度   システム工学講究ⅡB(システム知能)   博士前期

  • 2024年度   システム工学講究ⅠB(システム知能)   博士前期

  • 2024年度   システム工学特別講究Ⅰ   博士後期

  • 2024年度   システム工学特別講究Ⅱ   博士後期

  • 2024年度   システム工学特別研究   博士後期

  • 2024年度   システム工学研究ⅡB   博士前期

  • 2023年度   システム工学研究ⅡB(システム知能)   博士前期

  • 2023年度   システム工学講究ⅠB(システム知能)   博士前期

  • 2023年度   システム工学講究ⅡA(システム知能)   博士前期

  • 2023年度   システム工学講究ⅡB(システム知能)   博士前期

  • 2023年度   システム工学研究ⅠA(システム知能)   博士前期

  • 2023年度   システム工学研究ⅠB(システム知能)   博士前期

  • 2023年度   システム工学講究ⅠA(システム知能)   博士前期

  • 2023年度   システム工学グローバル講究Ⅱ   博士後期

  • 2023年度   システム工学グローバル講究Ⅰ   博士後期

  • 2023年度   システム工学グローバル講究Ⅰ   博士後期

  • 2023年度   システム工学特別研究   博士後期

  • 2023年度   システム工学特別講究Ⅱ   博士後期

  • 2023年度   システム工学特別講究Ⅰ   博士後期

  • 2023年度   システム工学グローバル講究Ⅱ   博士後期

  • 2023年度   システム工学研究ⅡA   博士前期

  • 2023年度   システム工学研究ⅠB   博士前期

  • 2023年度   システム工学研究ⅠA   博士前期

  • 2023年度   システム工学講究ⅡB   博士前期

  • 2023年度   システム工学講究ⅡA   博士前期

  • 2023年度   システム工学講究ⅠA   博士前期

  • 2023年度   システム工学特別研究   博士後期

  • 2023年度   システム工学特別講究Ⅱ   博士後期

  • 2023年度   システム工学特別講究Ⅰ   博士後期

  • 2023年度   システム工学講究ⅠB   博士前期

  • 2023年度   システム工学研究ⅡB   博士前期

  • 2023年度   システム工学研究ⅡA(システム知能)   博士前期

  • 2022年度   システム工学講究ⅠB   博士前期

  • 2022年度   システム工学講究ⅡA   博士前期

  • 2022年度   システム工学講究ⅡB   博士前期

  • 2022年度   システム工学研究ⅠA   博士前期

  • 2022年度   システム工学研究ⅠB   博士前期

  • 2022年度   システム工学研究ⅡA   博士前期

  • 2022年度   システム工学研究ⅡB   博士前期

  • 2022年度   システム工学特別講究Ⅰ   博士後期

  • 2022年度   システム工学特別講究Ⅱ   博士後期

  • 2022年度   システム工学特別研究   博士後期

  • 2022年度   システム工学グローバル講究Ⅰ   博士後期

  • 2022年度   システム工学グローバル講究Ⅱ   博士後期

  • 2022年度   システム工学講究ⅠA   博士前期

  • 2021年度   システム工学グローバル講究Ⅰ   博士後期

  • 2021年度   システム工学特別研究   博士後期

  • 2021年度   システム工学特別講究Ⅱ   博士後期

  • 2021年度   システム工学特別講究Ⅰ   博士後期

  • 2021年度   システム工学研究ⅡB   博士前期

  • 2021年度   システム工学研究ⅡA   博士前期

  • 2021年度   システム工学研究ⅠB   博士前期

  • 2021年度   システム工学研究ⅠA   博士前期

  • 2021年度   システム工学講究ⅡB   博士前期

  • 2021年度   システム工学講究ⅡA   博士前期

  • 2021年度   システム工学講究ⅠB   博士前期

  • 2021年度   システム工学講究ⅠA   博士前期

  • 2021年度   システム工学グローバル講究Ⅱ   博士後期

  • 2021年度   システム工学グローバル講究Ⅱ   博士後期

  • 2020年度   システム工学特別講究Ⅱ   博士後期

  • 2020年度   システム工学特別研究   博士後期

  • 2020年度   システム工学グローバル講究Ⅰ   博士後期

  • 2020年度   システム工学グローバル講究Ⅱ   博士後期

  • 2020年度   システム工学特別講究Ⅰ   博士後期

  • 2020年度   システム工学講究ⅠB   博士前期

  • 2020年度   システム工学講究ⅡA   博士前期

  • 2020年度   システム工学講究ⅡB   博士前期

  • 2020年度   システム工学研究ⅠA   博士前期

  • 2020年度   システム工学研究ⅠB   博士前期

  • 2020年度   システム工学研究ⅡA   博士前期

  • 2020年度   システム工学研究ⅡB   博士前期

  • 2020年度   システム工学講究ⅠA   博士前期

  • 2020年度   システム工学講究ⅠA   博士前期

  • 2020年度   システム工学研究ⅡA   博士前期

  • 2020年度   システム工学研究ⅠA   博士前期

  • 2020年度   システム工学研究ⅠB   博士前期

  • 2020年度   システム工学講究ⅠIB   博士前期

  • 2020年度   システム工学研究ⅡB   博士前期

  • 2020年度   システム工学講究ⅠB   博士前期

  • 2020年度   システム工学講究ⅠIA   博士前期

  • 2019年度   システム工学講究ⅡA   博士前期

  • 2019年度   システム工学講究ⅡB   博士前期

  • 2019年度   システム工学特別研究   博士後期

  • 2019年度   システム工学特別研究   博士後期

  • 2019年度   システム工学特別講究Ⅱ   博士後期

  • 2019年度   システム工学特別講究Ⅱ   博士後期

  • 2019年度   システム工学講究ⅠB   博士前期

  • 2019年度   システム工学研究ⅡB   博士前期

  • 2019年度   システム工学講究ⅠB   博士前期

  • 2019年度   システム工学講究ⅡA   博士前期

  • 2019年度   システム工学講究ⅡB   博士前期

  • 2019年度   システム工学研究ⅠA   博士前期

  • 2019年度   システム工学研究ⅠB   博士前期

  • 2019年度   システム工学研究ⅡA   博士前期

  • 2019年度   システム工学研究ⅠA   博士前期

  • 2019年度   システム工学研究ⅠB   博士前期

  • 2019年度   システム工学研究ⅡA   博士前期

  • 2019年度   システム工学研究ⅡB   博士前期

  • 2019年度   システム工学グローバル講究Ⅱ   博士後期

  • 2019年度   システム工学グローバル講究Ⅱ   博士後期

  • 2019年度   システム工学講究ⅠA   博士前期

  • 2018年度   システム工学講究ⅠA   博士前期

  • 2018年度   システム工学グローバル講究Ⅱ   博士後期

  • 2018年度   システム工学講究ⅡB   博士前期

  • 2018年度   システム工学研究ⅡA   博士前期

  • 2018年度   システム工学研究ⅠA   博士前期

  • 2018年度   システム工学研究ⅠB   博士前期

  • 2018年度   システム工学研究ⅡB   博士前期

  • 2018年度   システム工学講究ⅡB   博士前期

  • 2018年度   システム工学講究ⅡA   博士前期

  • 2018年度   システム工学グローバル講究Ⅰ   博士後期

  • 2018年度   システム工学特別研究   博士後期

  • 2018年度   システム工学講究ⅠA   博士前期

  • 2018年度   システム工学講究ⅠB   博士前期

  • 2018年度   システム工学講究ⅡA   博士前期

  • 2018年度   システム工学講究ⅡB   博士前期

  • 2018年度   システム工学研究ⅠA   博士前期

  • 2018年度   システム工学研究ⅠB   博士前期

  • 2018年度   システム工学研究ⅡA   博士前期

  • 2018年度   システム工学研究ⅡB   博士前期

  • 2018年度   システム工学特別講究Ⅰ   博士後期

  • 2018年度   システム工学特別研究   博士後期

  • 2018年度   システム工学グローバル講究Ⅰ   博士後期

  • 2017年度   システム工学講究ⅠB   博士前期

  • 2017年度   システム工学講究ⅡA   博士前期

  • 2017年度   システム工学講究ⅡB   博士前期

  • 2017年度   システム工学研究ⅠA   博士前期

  • 2017年度   システム工学研究ⅠB   博士前期

  • 2017年度   システム工学研究ⅡA   博士前期

  • 2017年度   システム工学研究ⅡB   博士前期

  • 2017年度   システム工学特別研究   博士後期

  • 2017年度   システム工学グローバル講究Ⅱ   博士後期

  • 2017年度   システム工学特別講究Ⅱ   博士後期

  • 2017年度   システム工学グローバル講究Ⅰ   博士後期

  • 2016年度   システム工学講究ⅡB   博士前期

  • 2016年度   システム工学研究ⅠA   博士前期

  • 2016年度   システム工学研究ⅠB   博士前期

  • 2016年度   システム工学研究ⅡB   博士前期

  • 2016年度   システム工学特別研究   博士後期

  • 2016年度   システム工学グローバル講究Ⅱ   博士後期

  • 2016年度   システム工学特別講究Ⅱ   博士後期

  • 2016年度   システム工学研究IIA   博士前期

  • 2016年度   システム工学講究IIA   博士前期

  • 2016年度   システム工学講究IA   博士前期

  • 2016年度   システム工学講究ⅠB   博士前期

  • 2015年度   システム工学研究ⅠA   その他

  • 2015年度   システム工学研究ⅠIA   その他

  • 2015年度   システム工学講究ⅡB   その他

  • 2015年度   システム工学グローバル講究Ⅰ   その他

  • 2015年度   システム工学研究ⅠB   その他

  • 2015年度   システム工学研究ⅡB   その他

  • 2015年度   システム工学講究ⅠB   博士前期

  • 2015年度   システム工学講究ⅡB   その他

  • 2015年度   システム工学特別研究   その他

  • 2015年度   システム工学特別講究Ⅰ   その他

  • 2015年度   システム工学研究ⅠA   その他

  • 2015年度   システム工学研究ⅡA   その他

  • 2015年度   システム工学講究ⅠA   博士前期

  • 2015年度   システム工学講究ⅡA   その他

  • 2015年度   システム工学特別講究Ⅰ   その他

  • 2014年度   システム工学講究ⅠA   その他

  • 2014年度   システム工学特別研究   その他

  • 2014年度   システム工学研究ⅡB   その他

  • 2014年度   システム工学特別講究ⅠA   その他

  • 2014年度   システム工学講究ⅠB   その他

  • 2014年度   システム工学特別講究ⅡB   その他

  • 2014年度   システム工学特別講究ⅡA   その他

  • 2014年度   システム工学研究IB   その他

  • 2014年度   システム工学研究IA   その他

  • 2014年度   システム工学研究IIA   その他

  • 2014年度   システム工学研究IIB   その他

  • 2014年度   システム工学講究ⅠA   その他

  • 2014年度   システム工学講究ⅠB   その他

  • 2014年度   システム工学講究ⅡA   その他

  • 2014年度   システム工学講究ⅡB   その他

  • 2014年度   システム工学研究ⅠA   その他

  • 2014年度   システム工学研究ⅠB   その他

  • 2014年度   システム工学研究ⅡA   その他

  • 2014年度   システム工学研究ⅡB   その他

  • 2014年度   システム工学特別講究Ⅰ   その他

  • 2014年度   システム工学特別講究Ⅰ   その他

  • 2014年度   システム工学特別講究Ⅱ   その他

  • 2014年度   システム工学特別講究Ⅱ   その他

  • 2014年度   システム工学特別研究   その他

  • 2014年度   システム工学特別研究   その他

  • 2013年度   システム工学研究ⅠB   その他

  • 2013年度   システム工学研究ⅡA   その他

  • 2013年度   システム工学研究ⅡB   その他

  • 2013年度   システム工学特別講究Ⅰ   その他

  • 2013年度   システム工学特別講究Ⅰ   その他

  • 2013年度   システム工学特別講究Ⅱ   その他

  • 2013年度   システム工学特別講究Ⅱ   その他

  • 2013年度   システム工学特別研究   その他

  • 2013年度   システム工学特別研究   その他

  • 2013年度   システム工学講究ⅠA   その他

  • 2013年度   システム工学講究ⅠB   その他

  • 2013年度   システム工学講究ⅡA   その他

  • 2013年度   システム工学講究ⅡB   その他

  • 2013年度   システム工学研究ⅠA   その他

  • 2012年度   システム工学研究ⅠB   その他

  • 2012年度   システム工学研究ⅡB   その他

  • 2012年度   システム工学講究ⅠB   その他

  • 2012年度   システム工学講究ⅡB   その他

  • 2012年度   システム工学特別研究   その他

  • 2012年度   システム工学特別講究Ⅰ   その他

  • 2012年度   システム工学特別講究Ⅱ   その他

  • 2012年度   システム工学研究ⅠA   その他

  • 2012年度   システム工学研究ⅡA   その他

  • 2012年度   システム工学講究ⅠA   その他

  • 2012年度   システム工学講究ⅡA   その他

  • 2012年度   システム工学特別研究   その他

  • 2012年度   システム工学特別講究Ⅰ   その他

  • 2012年度   システム工学特別講究Ⅱ   その他

  • 2011年度   システム工学特別講究Ⅰ   その他

  • 2011年度   システム工学特別講究Ⅰ   その他

  • 2011年度   システム工学特別講究Ⅱ   その他

  • 2011年度   システム工学特別講究Ⅱ   その他

  • 2011年度   システム工学講究(ⅠA・ⅡA)   その他

  • 2011年度   システム工学講究(ⅠB・ⅡB)   その他

  • 2011年度   システム工学特別研究   その他

  • 2011年度   システム工学特別研究   その他

  • 2011年度   システム工学研究ⅠA   その他

  • 2011年度   システム工学研究ⅠB   その他

  • 2011年度   システム工学研究ⅡA   その他

  • 2011年度   システム工学研究ⅡB   その他

  • 2010年度   システム工学研究IIA・IIB   博士前期

  • 2010年度   システム工学講究IIA・IIB   博士前期

  • 2010年度   システム工学講究IA・IB   博士前期

  • 2010年度   システム工学研究IA・IB   博士前期

  • 2009年度   システム工学講究IA・IB   博士前期

  • 2009年度   システム工学講究IIA・IIB   博士前期

  • 2009年度   システム工学研究IA・IB   博士前期

  • 2009年度   システム工学研究IIA・IIB   博士前期

  • 2008年度   システム工学講究IA・IB   博士前期

  • 2008年度   システム工学講究IIA・IIB   博士前期

  • 2008年度   システム工学研究IA・IB   博士前期

  • 2008年度   システム工学研究IIA・IIB   博士前期

  • 2007年度   システム工学講究I   博士前期

  • 2007年度   システム工学講究II   博士前期

  • 2007年度   システム工学研究I   博士前期

  • 2007年度   システム工学研究II   博士前期

  • 2005年度   システム工学講究ⅠA   その他

  • 2005年度   システム工学講究ⅠIA   その他

▼全件表示

研究キーワード

  • 模擬難聴

  • 聴覚心理実験

  • 寸法知覚

  • 音声信号処理

  • 聴覚計算理論

  • ガンマチャープ聴覚フィルタ

  • 音声知覚

  • 高齢難聴

  • 音声了解度客観評価指標

  • 非線形時間軸

  • 聴覚モデル

  • 高品質音声分析合成系STRAIGHT

  • 母音正規化

  • 聴覚情報処理

  • 音脈分凝

  • 時間追随性

  • 非線形時間軸伸縮

  • 時間-周波数表現

  • 聴覚ボコーダ

  • wavelet-Mellin変換

  • 音声強調・分離

  • 寸法正規化

  • 単語知覚

  • スケール理論

  • カーネルマシン

  • 生態学的拘束

  • 音響測定

  • 音の生態学

  • 聴覚情報表現

  • 聴覚情景分析

  • 信号処理

  • 音源定位

  • 音声認識器

  • 音源情報

  • 学習機械

▼全件表示

論文

  • Improving Auditory Filter Estimation by Incorporating Absolute Threshold and a Level-dependent Internal Noise

    Toshio Irino, Kenji Yokota, Roy D. Patterson (担当区分: 筆頭著者, 責任著者 )

    Trends in Hearing ( SAGE Publications )  27   2023年10月  [査読有り]

     概要を見る

    Auditory filter (AF) shape has traditionally been estimated with a combination of a notched-noise (NN) masking experiment and a power spectrum model (PSM) of masking. However, there are several challenges that remain in both the simultaneous and forward masking paradigms. We hypothesized that AF shape estimation would be improved if absolute threshold (AT) and a level-dependent internal noise were explicitly represented in the PSM. To document the interaction between NN threshold and AT in normal hearing (NH) listeners, a large set of NN thresholds was measured at four center frequencies (500, 1000, 2000, and 4000 Hz) with the emphasis on low-level maskers. The proposed PSM, consisting of the compressive gammachirp (cGC) filter and three nonfilter parameters, allowed AF estimation over a wide range of frequencies and levels with fewer coefficients and less error than previous models. The results also provided new insights into the nonfilter parameters. The detector signal-to-noise ratio ([Formula: see text]) was found to be constant across signal frequencies, suggesting that no frequency dependence hypothesis is required in the postfiltering process. The ANSI standard “Hearing Level-0dB” function, i.e., AT of NH listeners, could be applied to the frequency distribution of the noise floor for the best AF estimation. The introduction of a level-dependent internal noise could mitigate the nonlinear effects that occur in the simultaneous NN masking paradigm. The new PSM improves the applicability of the model, particularly when the sound pressure level of the NN threshold is close to AT.

    DOI

  • Hearing Impairment Simulator Based on Auditory Excitation Pattern Playback: WHIS

    Toshio Irino (担当区分: 筆頭著者, 責任著者 )

    IEEE Access ( Institute of Electrical and Electronics Engineers (IEEE) )  11   78419 - 78430   2023年07月  [査読有り]

    DOI

  • Speech intelligibility of simulated hearing loss sounds and its prediction using the Gammachirp Envelope Similarity Index (GESI)

    Toshio Irino, Honoka Tamaru, Ayako Yamamoto (担当区分: 筆頭著者, 責任著者 )

    Proc. Interspeech2022     2022年09月  [査読有り]

  • Improving auditory filter estimation with level-dependent cochlear noise floor

    Toshio Irino, Kenji Yokota, Roy Patterson (担当区分: 筆頭著者, 責任著者 )

    International Symposium on Hearing 2022   10.5281/zenodo.6576893   2022年06月  [査読有り]

    DOI

  • Modelling speaker-size discrimination with voiced and unvoiced speech sounds based on the effect of spectral lift

    Toshie Matsui, Toshio Irino, Ryo Uemura, Kodai Yamamoto, Hideki Kawahara, Roy D. Patterson (担当区分: 責任著者 )

    Speech Communication ( Elsevier BV )  136   23 - 41   2022年01月  [査読有り]

    DOI

  • GEDI: Gammachirp envelope distortion index for predicting intelligibility of enhanced speech

    Katsuhiko Yamamoto, Toshio Irino, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani (担当区分: 責任著者 )

    Speech Communication   123   43 - 58   2020年10月  [査読有り]

  • The gammachirp auditory filter and its application to speech perception

    Toshio Irino, Roy D. Patterson (担当区分: 筆頭著者, 責任著者 )

    Acoust, Sci. & Tech.   41 ( 1 ) 99 - 107   2020年01月  [査読有り]  [招待有り]

    DOI

  • Auditory Representation Effective for Estimating Vocal Tract Information

    Toshio Irino, Shintaro Doan (担当区分: 筆頭著者, 責任著者 )

    2023 Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC) ( IEEE )    2023年10月  [査読有り]

    DOI

  • Impact of Residual Noise and Artifacts in Speech Enhancement Errors on Intelligibility of Human and Machine

    Shoko Araki, Ayako Yamamoto, Tsubasa Ochiai, Kenichi Arai, Atsunori Ogawa, Tomohiro Nakatani, Toshio Irino (担当区分: 最終著者 )

    INTERSPEECH 2023 ( ISCA )    2023年08月  [査読有り]

    DOI

  • Effective data screening technique for crowdsourced speech intelligibility experiments: Evaluation with IRM-based speech enhancement,

    Ayako Yamamoto, Toshio Irino, Shoko Araki, Kenichi Ara, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani (担当区分: 責任著者 )

    Proc. APSIPA ASC 2022     2022年11月  [査読有り]

  • Intelligibility Prediction of Enhanced Speech Using Recognition Accuracy of End-To-End ASR System

    Kenichi Arai, Atsunori Ogawa, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani, Naoyuki Kamo, Toshio Irino (担当区分: 最終著者 )

    Proc. APSIPA ASC2022     2022年11月  [査読有り]

  • Speech Intelligibility Prediction Through Direct Estimation of Word Accuracy Using Conformer

    Naoyuki Kamo, Kenichi Arai, Atsunori Ogawa, Shoko Araki, Tomohiro Nakatani, Keisuke Kinoshita, Marc Delcroix, Tsubasa Ochiai, Toshio Irino (担当区分: 最終著者 )

    Proc. APSIPA ASC 2022     2022年11月  [査読有り]

  • Comparison of Remote Experiments Using Crowdsourcing and Laboratory Experiments on Speech Intelligibility

    Ayako Yamamoto, Toshio Irino, Kenichi Arai, Shoko Araki, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani (担当区分: 責任著者 )

    Interspeech 2021 ( ISCA )    2021年08月  [査読有り]

    DOI

  • Observational and accelerometer analysis of head movement patterns in psychotherapeutic dialogue

    Masashi Inoue, Toshio Irino, Nobuhiro Furuyama, Ryoko Hanada

    Sensors   21 ( 9 )   2021年05月  [査読有り]

  • Interactive and real-time acoustic measurement tools for speech data acquisition and presentation: Application of an extended member of time stretched pulses

    Hideki Kawahara, Kohei Yatabe, Ken Ichi Sakakibara, Mitsunori Mizumachi, Masanori Morise, Hideki Banno, Toshio Irino (担当区分: 最終著者 )

    Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH   3   2197 - 2198   2021年

     概要を見る

    Objective measurements of speech data acquisition and presentation processes are crucial for assuring reproducibility and reusability of experimental results and acquired materials. We introduce setting and measurement examples of those conditions using an interactive and real-time acoustic measurement tool based on an extended time-stretched pulse. We also introduce supporting tools.

  • Mixture of Orthogonal Sequences Made from Extended Time-Stretched Pulses Enables Measurement of Involuntary Voice Fundamental Frequency Response to Pitch Perturbation.

    Hideki Kawahara, Toshie Matsui, Kohei Yatabe, Ken-Ichi Sakakibara, Minoru Tsuzaki, Masanori Morise, Toshio Irino (担当区分: 最終著者 )

    Interspeech ( ISCA )  4   3206 - 3210   2021年  [査読有り]

     概要を見る

    Auditory feedback plays an essential role in the regulation of the fundamental frequency of voiced sounds. The fundamental frequency also responds to auditory stimulation other than the speaker’s voice. We propose to use this response of the fundamental frequency of sustained vowels to frequency-modulated test signals for investigating involuntary control of voice pitch. This involuntary response is difficult to identify and isolate by the conventional paradigm, which uses step-shaped pitch perturbation. We recently developed a versatile measurement method using a mixture of orthogonal sequences made from a set of extended time-stretched pulses (TSP). In this article, we extended our approach and designed a set of test signals using the mixture to modulate the fundamental frequency of artificial signals. For testing the response, the experimenter presents the modulated signal aurally while the subject is voicing sustained vowels. We developed a tool for conducting this test quickly and interactively. We make the tool available as an open-source and also provide executable GUI-based applications. Preliminary tests revealed that the proposed method consistently provides compensatory responses with about 100 ms latency, representing involuntary control. Finally, we discuss future applications of the proposed method for objective and non-invasive auditory response measurements.

    DOI

  • Implementation of Interactive Tools for Investigating Fundamental Frequency Response of Voiced Sounds to Auditory Stimulation

    Hideki Kawahara, Toshie Matsui, Kohei Yatabe, Ken Ichi Sakakibara, Minoru Tsuzaki, Masanori Morise, Toshio Irino (担当区分: 最終著者 )

    2021 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA ASC 2021 - Proceedings   abs/2109.11594   897 - 903   2021年  [査読有り]

     概要を見る

    We introduced a measurement procedure for the involuntary response of voice fundamental-frequency to frequency modulated auditory stimulation. This involuntary response plays an essential role in voice fundamental frequency control while less investigated due to technical difficulties. This article introduces an interactive and real-time tool for investigating this response and supporting tools adopting our new measurement method. The method enables simultaneous measurement of multiple system properties based on a novel set of extended time-stretched pulses combined with orthogonalization. We made MATLAB implementation of these tools available as an open-source repository. This article also provides the detailed measurement procedure using the interactive tool followed by offline measurement tools for conducting subjective experiments and statistical analyses. It also provides technical descriptions of constituent signal processing subsystems as appendices. This application serves as an example for adopting our method to biological system analysis.

  • Predicting Intelligibility of Enhanced Speech Using Posteriors Derived from DNN-based ASR System

    Kenichi Arai, Shoko Araki, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani, Toshio Irino (担当区分: 最終著者 )

    Interspeech 2020     2020年10月  [査読有り]

  • Speech clarity improvement by vocal self-training using a hearing impairment simulator and its correlation with an auditory modulation index

    Toshio Irino, Soichi Higashiyama, Hanako Yoshigi (担当区分: 筆頭著者, 責任著者 )

    Interspeech 2020     2020年10月  [査読有り]

  • Speech intelligibility prediction using a multi-resolution gammachirp envelope distortion index with common parameters for different noise conditions

    Katsuhiko Yamamoto, Toshio Irino, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani (担当区分: 責任著者 )

    Acoust, Sci. & Tech.   41 ( 1 ) 396 - 399   2020年01月  [査読有り]

    DOI

  • Frequency domain variant of Velvet noise and its application to acoustic measurements,

    Hideki Kawahara, Ken-Ichi Sakakibara, Mitsunori Mizumachi, Hideki Banno, Tomoki Toda, Toshio Irino (担当区分: 最終著者 )

    APSIPA ASC 2019 ( IEEE )    1523 - 1532   2019年11月  [査読有り]

     概要を見る

    APSIPA ASC 2019 ,Lanzhou, China, 18-21 Nov. 2019,

    DOI

  • Predicting speech intelligibility of enhanced speech using phone accuracy of DNN-based ASR systems,

    Kenichi Arai, Shoko Araki, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani, Katsuhiko Yamamoto, Toshio Irino (担当区分: 最終著者 )

    Interspeech 2019 ( ISCA )    4275 - 4279   2019年09月  [査読有り]

     概要を見る

    Graz, Austria, 15-19 Sep. 2019

    DOI

  • Modification of piano performance by simulated hearing loss: Analyses on the key velocities and output powers,

    Minoru Tsuzaki, Noriko Maegawa, Chie Ohsawa, Hideki Banno, Toshio Irino (担当区分: 最終著者 )

    International Symposium on Performance Science 2019     2019年07月  [査読有り]

     概要を見る

    (ISPS2019), 16-20 July 2019.

  • Rising-frequency chirp stimulus to effectively enhance wave-I amplitude of auditory brainstem response,

    Takashi Morimoto, Yoh-ichi Fujisaka, Yasuhide Okamoto, Toshio Irino (担当区分: 最終著者 )

    Hear. Res   377   104 - 108   2019年06月  [査読有り]

     概要を見る

    (Short communication)

  • 臨床心理面接における「傾聴」の再考に向けた時系列連続評価アプローチの提案

    花田里欧子, 入野俊夫, 古山宣洋, 井上雅史, 門田圭祐

    東京女子大学 心理臨床センター紀要   9   41 - 62   2019年03月

  • Speech intelligibility prediction with the dynamic compressive gammachirp filterbank and modulation power spectrum,

    Katsuhiko Yamamoto, Toshio Irino, Toshie Matsui, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani (担当区分: 責任著者 )

    Acoust. Sci. & Tech   40 ( 2 ) 84 - 92   2019年03月  [査読有り]

    DOI

  • Two-Point Method for Measuring the Temporal Modulation Transfer Function.

    Takashi Morimoto, Toshio Irino, Kouta Harada, Takeshi Nakaichi, Yasuhide Okamoto, Ayako Kanno, Sho Kanzaki, Kaoru Ogawa (担当区分: 責任著者 )

    Ear and hearing   40 ( 1 ) 55 - 62   2019年01月  [査読有り]

     概要を見る

    OBJECTIVE: The temporal modulation transfer function (TMTF) has been proposed to estimate the temporal resolution abilities of listeners with normal hearing and listeners with hearing loss. The TMTF data of patients would be useful for clinical diagnosis and for adjusting the hearing instruments at clinical and fitting sites. However, practical application is precluded by the long measurement time of the conventional method, which requires several measurement points. This article presents a new method to measure the TMTF that requires only two measurement points. DESIGN: Experiments were performed to estimate the TMTF of normal listeners and listeners with hearing loss to demonstrate that the two-point method can estimate the TMTF parameter and the conventional method. Sixteen normal hearing and 21 subjects with hearing loss participated, and the difference between the estimated TMTF parameters and measurement time were compared. RESULTS: The TMTF parameters (the peak sensitivity Lps and cutoff frequency fcutoff) estimated by the conventional and two-point methods showed significantly high correlations: the correlation coefficient for Lps was 0.91 (t(45) = 14.3; p < 10) and that for fcutoff was 0.89 (t(45) = 13.2; p < 10). There were no fixed and proportional biases. Therefore, the estimated values were in good agreement. Moreover, there was no systematic bias depending on the subject's profile. The measurement time of the two-point method was approximately 10 min, which is approximately one-third that of the conventional method. CONCLUSION: The two-point method enables the introduction of TMTF measurement in clinical diagnosis.

    DOI

  • A real time hearing loss simulator

    Nicolas Grimault, Toshio Irino, Samar Dimachki, Alexandra Corneyllie, Roy D. Patterson, Samuel Garcia

    Acta Acustica united with Acustica   104 ( 5 ) 904 - 908   2018年10月  [査読有り]

    DOI

  • Auditory filter derivation at low levels where masked threshold interacts with absolute threshold

    Toshio Irino, Kenji Yokota, Toshie Matsui, Roy D. Patterson (担当区分: 筆頭著者, 責任著者 )

    Acta Acustica united with Acustica   104 ( 5 ) 887 - 890   2018年10月  [査読有り]

    DOI

  • Speech intelligibility prediction using a multi-resolution gammachirp envelope distortion index with common parameters for different noise conditions,

    Katsuhiko Yamamoto, Toshio Irino, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani (担当区分: 責任著者 )

    Seminar on brain, hearing and speech sciences for universal speech communication     2018年10月  [査読有り]

     概要を見る

    Tohoku Univ., Sendai, Japan, 25 - 26 Oct 2018, (発表:25 Oct 2018)

  • Multi-resolution Gammachirp Envelope Distortion Index for Intelligibility Prediction of Noisy Speech

    Katsuhiko Yamamoto, Toshio Irino, Narumi Ohashi, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani (担当区分: 責任著者 )

    Proc. Interspeech 2018     1863 - 1867   2018年08月  [査読有り]

    DOI

  • Frequency Domain Variants of Velvet Noise and Their Application to Speech Processing and Synthesis

    Hideki Kawahara, Ken-Ichi Sakakibara, Masanori Morise, Hideki Banno, Tomoki Toda, Toshio Irino (担当区分: 最終著者 )

    Proc. Interspeech 2018 ( ISCA )    2027 - 2031   2018年08月  [査読有り]

    DOI

  • 高齢難聴者の文聴取における文節休止の効果―模擬難聴システムを用いたシミュレーションによる検討―

    畑山春菜, 長谷川純, 吐師道子, 松井淑恵, 入野俊夫 (担当区分: 最終著者 )

    県立広島大 紀要 人間と科学 ( 県立広島大学保健福祉学部学術誌編集委員会 )  18 ( 1 ) 19‐26 - 26   2018年03月

     概要を見る

    &quot;難聴のある高齢者に話しかける際に,聞き取りを助ける方法の1つとして,文節の間をあけて話すことが推奨されている。こうした文節休止が文の聴取に与える効果について,模擬難聴システムを用いて高齢者の聴力をシミュレーションし,若年健聴者を対象に聴取実験を行なって検討した。その結果,文節休止0.6 秒,文節休止0.1秒,文節休止なしの順に文聴取の正答率が高く,文節休止は聞き取りの向上につながると考えられた。また,ごく短い0.1 秒の休止でも,一定の効果があることが示唆された。&quot;When speaking to elderly people with hard of hearing, it is commonly recommended to insert short pauses between phrases of a sentence in order to assist their listening comprehension. In this study, the effectiveness of inter-phrase pausing for listening comprehension of sentences was investigated by simulating elderly people&#039;s hearing utilizing a hearing impairment simulator. Young adults with normal hearing participated in an experiment in which they listened to sentences through the hearing impairment simulator and were asked to repeat the sentences as they heard them. The results showed that the correct answer rate was highest with a 0.6 second pausing, followed by a 0.1 second pausing, and lowest when sentences were presented without pausing. It can be concluded that inter-phrase pausing facilitates listening comprehension of sentences and even a very short pausing of 0.1 second is effective.原著

  • 高齢難聴者の文聴取における文節休止の効果 模擬難聴システムを用いたシミュレーションによる検討

    畑山 春菜, 長谷川 純, 吐師 道子, 松井 淑恵, 入野 俊夫

    人間と科学: 県立広島大学保健福祉学部誌 ( 県立広島大学保健福祉学部学術誌編集委員会 )  18 ( 1 ) 19 - 26   2018年03月

  • An Auditory Model of Speaker Size Perception for Voiced Speech Sounds.

    Toshio Irino, Eri Takimoto, Toshie Matsui,Roy D. Patterson (担当区分: 筆頭著者, 責任著者 )

    Interspeech 2017, 18th Annual Conference of the International Speech Communication Association, Stockholm, Sweden, August 20-24, 2017 ( ISCA )  2017-   1153 - 1157   2017年08月  [査読有り]

     概要を見る

    An auditory model was developed to explain the results of behavioral experiments on perception of speaker size with voiced speech sounds. It is based on the dynamic, compressive gammachirp (dcGC) filterbank and a weighting function (SSI weight) derived from a theory of size-shape segregation in the auditory system. Voiced words with and without high-frequency emphasis (+6 dB/octave) were produced using a speech vocoder (STRAIGHT). The SSI weighting function reduces the effect of glottal pulse excitation in voiced speech, which, in turn, makes it possible for the model to explain the individual subject variability in the data.

    DOI

  • A New Cosine Series Antialiasing Function and its Application to Aliasing-Free Glottal Source Models for Speech and Singing Synthesis.

    Hideki Kawahara, Ken-Ichi Sakakibara, Masanori Morise, Hideki Banno, Tomoki Toda, Toshio Irino (担当区分: 最終著者 )

    Interspeech 2017, 18th Annual Conference of the International Speech Communication Association, Stockholm, Sweden, August 20-24, 2017 ( ISCA )  abs/1702.06724   1358 - 1362   2017年08月  [査読有り]

     概要を見る

    We Formulated And Implemented A Procedure To Generate Aliasing-Free Excitation Source Signals. It Uses A New Antialiasing Filter In The Continuous Time Domain Followed By An Iir Digital Filter For Response Equalization. We Introduced A Cosine-Series-Based General Design Procedure For The New Antialiasing Function. We Applied This New Procedure To Implement The Antialiased Fujisaki-Ljungqvist Model. We Also Applied It To Revise Our Previous Implementation Of The Antialiased Fant-Liljencrants Model. A Combination Of These Signals And A Lattice Implementation Of The Time Varying Vocal Tract Model Provides A Reliable And Flexible Basis To Test FO Extractors And Source Ape-Riodicity Analysis Methods. Matlab Implementations Of These Antialiased Excitation Source Models Are Available As Part Of Our Open Source Tools For Speech Science.

    DOI

  • The Effect of Spectral Tilt on Size Discrimination of Voiced Speech Sounds.

    Toshie Matsui, Toshio Irino, Kodai Yamamoto, Hideki Kawahara,Roy D. Patterson (担当区分: 責任著者 )

    Interspeech 2017, 18th Annual Conference of the International Speech Communication Association, Stockholm, Sweden, August 20-24, 2017 ( ISCA )  2017-   601 - 605   2017年08月  [査読有り]

     概要を見る

    A number of studies, with either voiced or unvoiced speech, have demonstrated that a speaker's geometric mean formant frequency (MFF) has a large effect on the perception of the speaker's size, as would be expected. One study with unvoiced speech showed that lifting the slope of the speech spectrum by 6 dB/octave also led to a reduction in the perceived size of the speaker. This paper reports an analogous experiment to determine whether lifting the slope of the speech spectrum by 6 dB/octave affects the perception of speaker size with voiced speech (words). The results showed that voiced speech with high-frequency enhancement was perceived to arise from smaller speakers. On average, the point of subjective equality in MFF discrimination was reduced by about 5%. However, there were large individual differences
    some listeners were effectively insensitive to spectral enhancement of 6 dB/octave
    others showed a consistent effect of the same enhancement. The results suggest that models of speaker size perception will need to include a listener specific parameter for the effect of spectral slope.

    DOI

  • Predicting Speech Intelligibility Using a Gammachirp Envelope Distortion Index Based on the Signal-to-Distortion Ratio.

    Katsuhiko Yamamoto, Toshio Irino, Toshie Matsui, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani (担当区分: 責任著者 )

    Interspeech 2017, 18th Annual Conference of the International Speech Communication Association, Stockholm, Sweden, August 20-24, 2017 ( ISCA )  2017-   2949 - 2953   2017年08月  [査読有り]

     概要を見る

    A new intelligibility prediction measure, called "Gammachirp Envelope Distortion Index (GEDI)" is proposed for the evaluation of speech enhancement algorithms. This model calculates the signal-to-distortion ratio (SDR) in envelope responses SDRenv derived from the gammachirp filterbank outputs of clean and enhanced speech, and is an extension of the speech based envelope power spectrum model (sEPSM) to improve prediction and usability. An evaluation was performed by comparing human subjective results and model predictions for the speech intelligibility of noise-reduced sounds processed by spectral subtraction and a recent Wiener filtering technique. The proposed GEDI predicted the subjective results of the Wiener filtering better than those predicted by the original sEPSM and well-known conventional measures, i.e., STOI, CSII, and HASPI.

    DOI

  • The Effect of Peripheral Compression on Syllable Perception Measured with a Hearing Impairment Simulator

    Toshie Matsui, Toshio Irino, Misaki Nagae, Hideki Kawahara, Roy D. Patterson (担当区分: 責任著者 )

    PHYSIOLOGY, PSYCHOACOUSTICS AND COGNITION IN NORMAL AND IMPAIRED HEARING ( SPRINGER-VERLAG BERLIN )  894   307 - 314   2016年  [査読有り]

     概要を見る

    Hearing impaired (HI) people often have difficulty understanding speech in multi-speaker or noisy environments. With HI listeners, however, it is often difficult to specify which stage, or stages, of auditory processing are responsible for the deficit. There might also be cognitive problems associated with age. In this paper, a HI simulator, based on the dynamic, compressive gammachirp (dcGC) filterbank, was used to measure the effect of a loss of compression on syllable recognition. The HI simulator can counteract the cochlear compression in normal hearing (NH) listeners and, thereby, isolate the deficit associated with a loss of compression in speech perception. Listeners were required to identify the second syllable in a three-syllable "nonsense word", and between trials, the relative level of the second syllable was varied, or the level of the entire sequence was varied. The difference between the Speech Reception Threshold (SRT) in these two conditions reveals the effect of compression on speech perception. The HI simulator adjusted a NH listener's compression to that of the "average 80-year old" with either normal compression or complete loss of compression. A reference condition was included where the HI simulator applied a simple 30-dB reduction in stimulus level. The results show that the loss of compression has its largest effect on recognition when the second syllable is attenuated relative to the first and third syllables. This is probably because the internal level of the second syllable is attenuated proportionately more when there is a loss of compression.

    DOI

  • Speech intelligibility prediction based on the envelope power spectrum model with the dynamic compressive gammachirp auditory filterbank

    Katsuhiko Yamamoto, Toshio Irino, Toshie Matsui, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani (担当区分: 責任著者 )

    17TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2016), VOLS 1-5 ( ISCA-INT SPEECH COMMUNICATION ASSOC )    2885 - 2889   2016年  [査読有り]

     概要を見る

    In this study, we develop a new method to realize speech intelligibility prediction of synthetic sounds processed by nonlinear speech enhancement algorithms. A speech envelope power spectrum model (sEPSM) was proposed to account for subjective results on a spectral subtraction, but it is untested by recent state-of-the-art speech enhancement algorithms. We introduce a dynamic compressive gammachirp auditory filterbank as the front-end of the sEPSM (dcGC-sEPSM) to improve the predictability. We perform subjective experiments on speech intelligibility (SI) of noise-reduced sounds processed by the spectral subtraction, and a recently developed Wiener filter algorithm. We compare the subjective SI scores with the objective SI scores predicted by the proposed dcGC-sEPSM, the original GT-sEPSM, the three-level coherence SII (CSII), and the short time objective intelligibility (STOI). The results show that the proposed dcGC-sEPSM performs better than the conventional models.

    DOI

  • Aliasing-free implementation of discrete-time glottal source models and their applications to speech synthesis and F0 extractor evaluation.

    Hideki Kawahara, Ken-Ichi Sakakibara, Hideki Banno, Masanori Morise, Tomoki Toda, Toshio Irino

    Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA 2015, Hong Kong, December 16-19, 2015 ( IEEE )    520 - 529   2015年12月  [査読有り]

     概要を見る

    A closed-form representation of anti-aliased L-F model is derived for a LPF function family based on cosine series. The Matlab based implementation of the derived form provides virtually aliasing-free source signal, which is applicable to speech synthesis and F0 extractor evaluation. This aliasing-free representation is also suitable for testing perceptual effects of wave shape parameters in the L-F model, since possible artifacts caused by spurious component are completely removed. A post processing procedure for fine tuning spectral shape is also introduced. An interactive tool for investigating speech production model parameters is designed using this Matlab implementation and will be made freely available.

    DOI

  • How the slope of the speech spectrum affects the perception of speaker size.

    Kodai Yamamoto, Toshio Irino, Ryuichi Nisimura, Hideki Kawahara,Roy D. Patterson (担当区分: 責任著者 )

    INTERSPEECH 2015, 16th Annual Conference of the International Speech Communication Association, Dresden, Germany, September 6-10, 2015 ( ISCA )    1556 - 1560   2015年09月  [査読有り]

     概要を見る

    We performed a behavioral experiment to demonstrate the effect of spectral slope on the perception of speaker size, and we developed an auditory model based on the dynamic compressive gammachirp filterbank (dcGC-FB) to explain the results. STRAIGHT was used to generate "unvoiced" and "whispered" versions of naturally recorded words; the only difference was that the spectral slope of the whispered words was tilted up 6 dB/octave with respect to that of the unvoiced words. The experiment confirmed that the whispered words are heard to come from smaller speakers. The auditory model uses the tonotopic excitation pattern, Ep, as the internal representation of speech sounds. The model is found to be much more effective when the gradient of the excitation pattern, del Ep, is included in the size discrimination process. It is particularly useful for explaining individual subject variability.

  • 劣化音声認識における単語の音響的連続性とモーラ遷移情報の影響の評価

    森本隆司, 入野俊夫, 西村竜一, 河原英紀 (担当区分: 責任著者 )

    日本音響学会誌 ( 一般社団法人日本音響学会 )  70 ( 11 ) 578 - 588   2014年11月  [査読有り]

     概要を見る

    模擬難聴を実現する一手段として劣化音声を用いることが考えられている。日常会話における聴取特性を調べたい場合,単音節ではなく単語以上の単位の音声を使うことが望ましい。しかし,音声発話に伴う調音や韻律の連続性や心的辞書内のモーラ遷移情報がどの程度結果に影響しているか分かっていない。そこで本研究では,単語了解度試験用リストFW03中の低親密度単語の劣化音声における音響的な連続性やモーラ遷移情報の影響を評価することを試みた。まず,自然発話単語の劣化音声の聴取実験の結果と対比するために,単音節を有意味あるいは無意味に並ぶようにした単音節系列劣化音声を用いた聴取実験を行った。更に,自動音声認識器を用いて自然発話単語における劣化音声の認識実験を行い,人間の聴取実験結果と対比して考察した。この結果,人間でも自動音声認識器で抽出可能な音響的な連続性やモーラ遷移情報に支えられて劣化音声を認識していることが示唆された。

    DOI

  • Excitation source analysis for high-quality speech manipulation systems based on an interference-free representation of group delay with minimum phase response compensation.

    Hideki Kawahara, Masanori Morise, Tomoki Toda, Hideki Banno, Ryuichi Nisimura, Toshio Irino (担当区分: 最終著者 )

    INTERSPEECH 2014, 15th Annual Conference of the International Speech Communication Association, Singapore, September 14-18, 2014 ( ISCA )    2243 - 2247   2014年09月  [査読有り]

     概要を見る

    (発表日 17 Sept.)

  • Proposal for an Interactive 3D Sound Playback Interface Controlled by User behavior.

    Ryuichi Nisimura, Kazuki Hashimoto, Hideki Kawahara, Toshio Irino (担当区分: 最終著者 )

    HCI International 2014 - Posters' Extended Abstracts - International Conference, HCI International 2014, Heraklion, Crete, Greece, June 22-27, 2014. Proceedings, Part I ( Springer )  434   446 - 450   2014年06月  [査読有り]

     概要を見る

    Springer International Publishing, (2014), presented at HCI International 2014 (Poster), Heraklion, Crete, Greece,

    DOI

  • Excitation source design for high-quality speech manipulation systems based on a temporally static group delay representation of periodic signals

    Hideki Kawahara, Masanori Morise, Tomoki Toda, Hideki Banno, Ryuichi Nisimura, Toshio Irino

    2014 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA) ( IEEE )    1 - 10   2014年  [査読有り]

     概要を見る

    A new group delay representation, which yields value zero for periodic signals irrespective to the initial phase and the relative level of each harmonic component. This new group delay representation provides a unified basis for defining "aperiodicity" in speech sounds. For example, the periodic to noise ratio or harmonic to noise ratio is directly derived from the deviation of this group delay representation from value zero, after removing FM effects of harmonic frequencies and removing AM effects of harmonic component level. The derived deviation is combined with estimated excitation duration information and used to design aperiodic components of excitation source for high-quality synthetic speech. The proposed group delay representation is based on F0-adaptive weighted average of frequency shifted versions and temporally shifted versions of group delays with power spectral weighting.

    DOI

  • Hearing Impairment Simulator Based on Compressive Gammachirp Filter

    Misaki Nagae, Toshio Irino, Ryuich Nisimura, Hideki Kawahara, Roy D. Patterson

    2014 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA) ( IEEE )    1 - 4   2014年  [査読有り]

     概要を見る

    This paper describes a simulator for presenting normal hearing (NH) listeners with the experience of a hearing impaired (HI) listener. The simulator is based on the compressive gammachirp (cGC) filter used to derive level-dependent filter shapes and the cochlear compression function from to notched noise masking data. The level dependence of the cGC is reversed to produce inverse compression which is used to resynthesize sounds that cancel the compression applied by the auditory system of the NH listener. A frame-based analysis/synthesis procedure is newly introduced to improve processing speed for a graphical user interface (GUI) that allows the users to control the degree of compression within the range of the audiogram of the HI person. The simulator is intended for speech-language hearing therapists (ST) and patients' families.

    DOI

  • Development of a Mobile Application for Crowdsourcing the Data Collection of Environmental Sounds

    Minori Matsuyama, Ryuichi Nisimura, Hideki Kawahara, Junnosuke Yamada, Toshio Irino

    HUMAN INTERFACE AND THE MANAGEMENT OF INFORMATION: INFORMATION AND KNOWLEDGE DESIGN AND EVALUATION, PT I ( SPRINGER-VERLAG BERLIN )  8521   514 - 524   2014年  [査読有り]

     概要を見る

    Our study introduces a mobile navigation system enabling a sound input interface. To realize high-performance environmental sound recognition system using Android devices, we organized a database of environmental sounds collected in our daily lives. Crowdsourcing is a useful approach for organizing a database based on collaborative works of people. We recruited trial users to test our system via a web-based crowdsourcing service provider in Japan. However, we found that improvement of the system is important for maintaining the motivation of users in order to continue the collection of sounds. We believe that the improved user interface (UI) design introduced to facilitate the annotation task. This paper describes an overview of our system, focusing on a method for utilizing the crowdsourcing approach using Android devices, and its UI design. We developed a touch panel UI for the annotation task by selecting an appropriate class of a sound source.

    DOI

  • Vocal tract length estimation based on vowels using a database consisting of 385 speakers and a database with MRI-based vocal tract shape information

    Hideki Kawahara, Tatsuya Kitamura, Hironori Takemoto, Ryuichi Nisimura, Toshio Irino

    15TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION (INTERSPEECH 2014), VOLS 1-4 ( ISCA-INT SPEECH COMMUNICATION ASSOC )    870 - 874   2014年  [査読有り]

     概要を見る

    A highly-reproducible estimation method of vocal tract length (VTL) and text independent VTL estimation method are proposed based on a Japanese vowel database spoken by 385 male and female speakers ranging from age 6 to 56 and other vowel database with MRI-based vocal tract shape information. Proposed methods are based on interference-free power spectral representation and systematic suppression of biasing factors. MRI data is used to calibrate VTL estimation result to be represented in terms of physically meaningful unit. These databases are normalized based on the estimated VTL information to provide a reference template, which is used to implement a text independent VTL estimation method. A prototype system for text independent estimation of VTL is implemented using Mat lab and runs faster than realtime on a PC.

  • Continuous Annotations for Dialogue Status and Their Change Points

    Masashi Inoue, Toshio Irino, Ryoko Hanada, Nobuhiro Furuyama, Hiroyasu Massaki

    LREC 2014 - NINTH INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION ( EUROPEAN LANGUAGE RESOURCES ASSOC-ELRA )    2014年  [査読有り]

     概要を見る

    This paper presents an attempt to continuously annotate the emotion and status of multimodal corpora for understanding pyschotherapeutic interviews. The collected continuous annotations are then used as the signal data to find change points in the dialogues. Our target dialogues are carried between clients with some psychological problems and their therapists. We measured two values, namely the degree of the dialogue progress and the degree of clients being listened to. The first value reflects the goal-oriented nature of the target dialogues. The second value corresponds to the idea of active listening that is considered as an important aspect in psychotherapy. We have modified an existing continuous emotion annotation toolkit that has been created for tracking generic emotion of dialogues. By applying a change point detection algorithm on the obtained annotations, we evaluated the validity and utility of the collected annotation based on our method.

  • Spectrally estimaed vocal tract lengths of singing voices and their contributing factors,

    入野俊夫

    Proc. MAVEBA 2013 , Firenze, Italy, 16 - 18 Dec. 2013.     2013年12月  [査読有り]

     概要を見る

    (発表 17 Dec. 2013)

  • Vocal tract length estimation for voiced and whispered speech using gammachirp filterbank.

    Toshio Irino, Erika Okamoto, Ryuichi Nisimura,Array

    Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, APSIPA 2013, Kaohsiung, Taiwan, October 29 - November 1, 2013 ( IEEE )    1 - 4   2013年10月  [査読有り]

     概要を見る

    (発表 30 Oct. 2013)

    DOI

  • Controlling linguistic information and filtered sound identity for a new cross-synthesis vocoder.

    Taiki Nishi, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

    Acoust. Sci. & Tech. (ed. by the Acoustical Society of Japan)   34 ( 4 ) 287 - 288   2013年07月  [査読有り]

     概要を見る

    A study was conducted to propose a new cross-synthesis framework based on an interference-free representation of a power spectrum combined with normalization and modulation transfer function design for spectral envelope preprocessing of speech sounds. The proposed cross-synthesis enabled control of the linguistic information and the timbre identity. The spectral envelope of speech was extracted in the proposed method using a F0-adaptive procedure called TANDEM-STRAIGHT. It was demonstrated that the procedure effectively removed interference caused by periodic excitation from the spectrogram of the speech and yielded a smooth representation. A two-staged procedure was also introduced to remove the timbre-modifying components from the speech spectral envelope. The primary procedure involved the approximation of the global spectral shape and the secondary one was the filtering of temporal modulations.

    DOI

  • The role of size normalization in vowel recognition and speaker identification,

    Roy D. Patterson, Toshio Irino

    The 21st International Congress on Acoustics, ICA2013 , 1pSCb7, ASA Proceedings of Meetings on Acoustics (POMA) 19, 060038, Montreal, Canada, 2 - 7, June, 2013.     2013年06月  [査読有り]

     概要を見る

    (発表 3 June 2013)

    DOI

  • Estimated relative vocal tract lengths from vowel spectra based on fundamental frequency adaptive analyses and their relations to relevant physical data of speakers,

    Mayuko Kobayashi, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

    ICA2013 , 5aCb44, ASA Proceedings of Meetings on Acoustics (POMA) 19, 060288, Montreal, Canada, 2 - 7, June, 2013.   19   2013年06月  [査読有り]

     概要を見る

    (発表 7 June 2013)

    DOI

  • Optimizing the simultaneous estimation of frequency selectivity and compression using notched-noise maskers with asymmetric levels,

    Tomofumi Fukawatase, Toshio Irino, Ryuichi Nisimura, Hideki Kawahara, Roy D. Patterson

    The 21st International Congress on Acoustics, ICA2013 , 1aPP3, ASA Proceedings of Meetings on Acoustics (POMA) 19, 050022, Montreal, Canada, 2 - 7, June, 2013.   19   2013年06月  [査読有り]

     概要を見る

    It is important for the development of hearing aids and other audio devices to estimate the frequency selectivity and compression of the auditory filter accurately. Previously, we reported a technique for estimating the compression of the auditory filter that combined data from a simultaneous notched-noise experiment and a temporal masking curve (TMC) experiment. Unfortunately, the TMC data derived for individual listeners in forward masking is not stable
    the cue to the presence of the signal is not entirely clear in forward masking. In this paper, we report attempts to make the traditional simultaneous notched-noise technique more sensitive to the effects of cochlear compression by varying the relative levels of the noise bands. Asymmetric-level maskers (ALMs) make it possible to estimate the filter shape and compression of the auditory filter simultaneously and reliably
    the slope of the input-output function is substantially lower than with symmetric-level maskers. We also describe a procedure for incorporating a sensitivity analysis into the filter-fitting process to determine the minimum number of notched-noise conditions required to produce reliable estimates of selectivity and compression, in hopes of being able to employ the technique with hearing impaired listeners. © 2013 Acoustical Society of America.

    DOI

  • Higher order waveform symmetry measure and its application to periodicity detectors for speech and singing with fine temporal resolution.

    Hideki Kawahara, Masanori Morise, Ryuichi Nisimura, Toshio Irino

    IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2013, Vancouver, BC, Canada, May 26-31, 2013 ( IEEE )    6797 - 6801   2013年05月  [査読有り]

     概要を見る

    (発表 30 May 2013)

    DOI

  • Accurate estimation of compression in simultaneous masking enables the simulation of hearing impairment for normal-hearing listeners.

    Irino T, Fukawatase T, Sakaguchi M, Nisimura R, Kawahara H, Patterson RD

    Advances in experimental medicine and biology ( SPRINGER )  787   73 - 80   2013年  [査読有り]

     概要を見る

    This chapter presents a unified gammachirp framework for estimating cochlear compression and synthesizing sounds with inverse compression that cancels the compression of a normal-hearing (NH) listener to simulate the experience of a hearing-impaired (HI) listener. The compressive gammachirp (cGC) filter was fitted to notched-noise masking data to derive level-dependent filter shapes and the cochlear compression function (e.g., Patterson et al., J Acoust Soc Am 114:1529-1542, 2003). The procedure is based on the analysis/synthesis technique of Irino and Patterson (IEEE Trans Audio Speech Lang Process 14:2222-2232, 2006) using a dynamic cGC filterbank (dcGC-FB). The level dependency of the dcGC-FB can be reversed to produce inverse compression and resynthesize sounds in a form that cancels the compression applied by the auditory system of the NH listener. The chapter shows that the estimation of compression in simultaneous masking is improved if the notched-noise procedure for the derivation of auditory filter shape includes noise bands with different levels. Since both the estimation and resynthesis are performed within the gammachirp framework, it is possible for a specific NH listener to experience the loss of a specific HI listener.

    DOI

  • Perceptual outcomes by rapid alternation of the resonant scaling and its relation to the fundamental frequency.

    Minoru Tsuzaki, Takeshima Chihiro, Matsui Toshie, Irino Toshio

    Proceedings of Meetings on Acoustics   19   2013年  [査読有り]

     概要を見る

    Timbre provided by the resonant characteristics of the vibrating body can be represented as spectral envelope patterns and can contribute as one of the important cues for sound source identification. However, its concept is not so strictly established as that of loudness, and of pitch. Recently, the fact that the spectral pattern can be decomposed into two factors, i.e., the shape and size of the resonant body, has been reconsidered. Several psychophysical findings have successfully suggested tat a "bottom-up" perceptual mechanism of the decomposition might be implemented. Manipulating the scaling factor of resonance can change the perceptual size of the sound source. By concatenating synthesized vowel segments whose resonant scale (RS) alternates between two values in an "ABA-ABA-" fashion, one can generate series of test stimuli for stream segregation with the galloping rhythm paradigm. The experimental results revealed that th e RS factor could provide a reliable cue for streaming. As an extreme variation of this RS alternation, scale alternating wavelet sequences (SAWSs) have been proposed. In the SAWS, the RS alternates at every regular time grid. When the difference between the two RS factors exceeded a certain limit, perceived pitch shifted downwards by an octave. © 2013 Acoustical Society of America.

    DOI

  • Controlling "shout" expression in a Japanese POP singing performance: analysis and suppression study.

    Yuri Nishigaki, Ken-Ichi Sakakibara, Masanori Morise, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

    INTERSPEECH 2013, 14th Annual Conference of the International Speech Communication Association, Lyon, France, August 25-29, 2013 ( ISCA )    2905 - 2909   2013年  [査読有り]

     概要を見る

    Degree of "shout" singing performance is effectively controlled by combining global spectral shape equalization, peak cancellation in frequency modulation spectrum of FO trajectory, and synchronized shape-modulation of voice spectral envelope. This "shout-reduction" processing is based on a symmetry based FO extractor with fine temporal resolution, a temporally stable representation of instantaneous frequency of periodic signals, and the TANDEM-STRAIGHT, a speech analysis, modification and resynthesis framework. The proposed procedure successfully converted an expressive Japanese POP song performance with "shout" into a plain performance without damaging original naturalness. Possibility of adding artificial "shout" to plain performance is also discussed.

  • Beyond bandlimited sampling of speech spectral envelope imposed by the harmonic structure of voiced sounds.

    Hideki Kawahara, Masanori Morise, Tomoki Toda, Ryuichi Nisimura, Toshio Irino

    INTERSPEECH 2013, 14th Annual Conference of the International Speech Communication Association, Lyon, France, August 25-29, 2013 ( ISCA )    34 - 38   2013年  [査読有り]

     概要を見る

    A new spectral envelope estimation procedure is proposed to recover details beyond band limitation imposed by the Shannon's sampling theory when interpreting periodic excitation of voiced sounds as the sampling operation in the frequency domain. The proposed procedure is a hybrid of STRAIGHT, a FO-adaptive spectral envelope estimation and the auto regressive model parameter estimation. Wavelet analyses of these spectral models on the frequency domain enabled objective evaluation of this recovery procedure. The proposed procedure provides better speech quality especially when parameter manipulation is introduced.

  • Comparison of performance with voiced and whispered speech in word recognition and mean-formant-frequency discrimination

    Toshio Irino, Yoshie Aoki, Hideki Kawahara, Roy D. Patterson

    SPEECH COMMUNICATION ( ELSEVIER SCIENCE BV )  54 ( 9 ) 998 - 1013   2012年11月  [査読有り]

     概要を見る

    There has recently been a series of studies concerning the interaction of glottal pulse rate (GPR) and mean-formant-frequency (MFF) in the perception of speaker characteristics and speech recognition. This paper extends the research by comparing the recognition and discrimination performance achieved with voiced words to that achieved with whispered words. The recognition experiment shows that performance with whispered words is slightly worse than with voiced words at all MFFs when the GPR of the voiced words is in the middle of the normal range. But, as GPR decreases below this range, voiced-word performance decreases and eventually becomes worse than whispered-word performance. The discrimination experiment shows that the just noticeable difference (JND) for MFF is essentially independent of the mode of vocal excitation; the JND is close to 5% for both voiced and voiceless words for all speaker types. The interaction between GPR and VTL is interpreted in terms of the stability of the internal representation of speech which improves with GPR across the range of values used in these experiments. (c) 2012 Elsevier B.V. All rights reserved.

    DOI

  • Accurate estimation of compression in simultaneous masking enables the simulation of hearing impairment for normal hearing listeners,

    Toshio Irino, Tomofumi Fukawatase, Makoto Sakaguchi, Ryuichi Nisimura, Hideki Kawahara, Roy D. Patterson

    16th International Symposium on Hearing (ISH2012) , St John's College, Cambridge UK, 23-27 July, 2012 ( SPRINGER )  787   73 - 80   2012年07月  [査読有り]

     概要を見る

    (発表日 23 July)

    DOI

  • Multimodal corpus for psychotherapeutic situation,

    Masashi Inoue, Ryoko Hanada, Nobuhiro Furuyama, Toshio Irino, Takako Ichinomiya, Hiroyasu Massaki

    Workshop on Multimodal corpora: How Should Multimodal corpora Deal with the Situation? , (Pre-conference workshop of LREC 2012 ), Istanbul, Turkey, 22 May 2012.     2012年05月  [査読有り]

     概要を見る

    (発表日 22 May)

  • Modulation transfer function design for a flexible cross synthesis VOCODER based on F0 adaptive spectral envelope recovery

    Taiki Nishi, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

    2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC) ( IEEE )    1 - 7   2012年  [査読有り]

     概要を見る

    A new design procedure for flexible cross synthesis VOCODER is proposed based on TANDEM-STRAIGHT framework, a F0 adaptive spectral envelope estimator, and modulation transfer function design. The proposed design procedure enables control of speech intelligibility and timber identity of musical instruments or animal voices. Removal of the averaged and smoothed logarithmic spectrum of speech from the filter reduced the timbre modification effect of filtered sounds and manipulation of cut-off frequencies of modulation transfer function for designing the filter enabled control of trade-offs between intelligibility and timbre preservation.

  • Deviation measure of waveform symmetry and its application to high-speed and temporally-fine F0 extraction for vocal sound texture manipulation

    Hideki Kawahara, Masanori Morise, Ryuichi Nisimura, Toshio Irino

    13TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2012 (INTERSPEECH 2012), VOLS 1-3 ( ISCA-INT SPEECH COMMUNICATION ASSOC )    386 - 389   2012年  [査読有り]

     概要を見る

    A simple and high-speed F0 extractor with high temporal resolution is proposed based on a waveform symmetry measure. Strictly speaking, it is not an F0 extractor. Instead, it is a detector of the lowest prominent sinusoidal component with a salience measure. It can make use of an F0 refinement procedure, when the signal under investigation is a sum of harmonic sinusoidal components. The refinement procedure is based on a stable representation of instantaneous frequency of periodic signals. Application of the proposed algorithm revealed that rapid temporal modulations in both F0 trajectory and spectral envelope exist typically in expressive voices such as lively singing performance. Manipulation of these temporal fine structures (texture) effectively modified perceptual expressiveness, while somewhat preserving perceptual vocal effort and register.

  • Detecting child speaker based on auditory feature vectors for VTL estimation

    Ryuichi Nisimura, Shoko Miyamori, Erika Okamoto, Hideki Kawahara, Toshio Irino

    2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC) ( IEEE )    1 - 5   2012年  [査読有り]

     概要を見る

    We introduce novel auditory features in the hidden Markov model (HMM) system for detecting child speakers. The features derived by the gammachirp auditory filterbank (GCFB) have been demonstrated to be suitable for vocal tract length (VTL) estimation, both theoretically and experimentally. We performed numerical experiments to distinguish between child and adult speakers using HMMs trained on 2,360 speech samples collected through a web-based query interface, and we compared the performance of the common mel-frequency cepstral coefficients (MFCC) and the GCFB-based feature vectors. We also introduced the modulation features as the substitution of delta parameters. It has been clearly demonstrated that the error rate distinguishing a child from an adult is reduced by GCFB. To enhance our method for use as a web application, we applied our original voice-enabled web framework to the front-end interface of the proposed system.

  • An interference-free representation of group delay for periodic signals

    Hideki Kawahara, Masanori Morise, Ryuichi Nisimura, Toshio Irino

    2012 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC) ( IEEE )    1 - 4   2012年  [査読有り]

     概要を見る

    This article introduces a new group delay representation for periodic signals. The proposed method yields a group delay representation that is free from interferences due to repetitive excitation. Power spectrum-weighted averaged group delay using shifted copies of the weighted group delay separated by a half fundamental frequency is proven to have the desired property.

  • Developing a method to build Japanese speech recognition system based on 3-gram language model expansion with Google database,

    Toshiaki Shimada, Ryuichi Nisimura, Masayasu Tanaka, Hideki Kawahara, Toshio Irino

    IEEE International Conference on Intelligent Computing and Integrated Systems ICISS2011 , Guilin, China, 24-26 Oct 2011. ( IEEE Computer Society )    2011年10月  [査読有り]

     概要を見る

    We have developed a method to build a Japanese automatic speech recognition (ASR) system based on 3-gram language model expansion with the Google database. Our aim is to enhance the recognition accuracy of ASR systems based on the 3-gram language model, even in cases where the language model is trained using short text segments. We investigate a practical approach to expanding language models by using 3-gram information from external web documents. In addition, we filter 3-gram entries on the basis of term frequency-inverse document frequency (TF-IDF) scores and the output of the Yahoo! web API to prevent the unnecessary addition of redundant or irrelevant 3-gram entries. In the experiments, we achieved an improvement of 0.71% in the word error rate and proved that the recognition accuracy can be improved by combining the proposed method and the traditional back-off smoothing technique without any costs being incurred in collecting additional text for training the model. © 2013 IEEE.

    DOI

  • スペクトルピークを強調したFO適応型スペクトル包絡抽出法の最適化と評価

    赤桐 隼人, 森勢 将雅, 入野 俊夫, 河原 英紀

    電子情報通信学会論文誌. A, 基礎・境界 = The transactions of the Institute of Electronics, Information and Communication Engineers. A ( 一般社団法人電子情報通信学会 )  94 ( 8 ) 557 - 567   2011年08月  [査読有り]

     概要を見る

    窓の位置に依存しない周期信号のパワースペクトルの計算方法と,対数スペクトル上での基本周波数に適応したスペクトル平滑化及び補償処理を組み合わせることにより,聴覚的に重要であるスペクトルピーク周辺での近似精度を改善した,スペクトル包絡の抽出法を提案する.提案法はケプストラムのlifterとして実装されており,1個の調整用パラメータを有する.本研究では,MRIに基づく声道形状及び梨状窩や音源波形モデルから求められるスペクトルを目標としたシミュレーションにより,このパラメータを数値的に最適化する.なお,最適化のための精度の評価には,聴覚の特性を反映した周波数軸重みを加えた板倉-斎藤距離を用いる.その結果,数値的に最適化された提案法は,短時間パワースペクトル,ケプストラムの次数打切りによる平滑化,線形予測分析,STRAIGHTの従来の実装のいずれよりも高い近似精度であることが示された.

  • Evaluation of voice morphing using vocal tract length normalization based on auditory filterbank,

    Erika Okamoto, Toshio Irino, Ryuichi Nishimura, Hideki Kawahara

    J. Signal Processing (信号処理) ( 〔信号処理学会〕 )  15 ( 4 ) 283 - 286   2011年07月

  • A proposal of expanding language model using web data resources for Japanese automatic speech recognition systems,

    Ryuichi Nisimura, Toshiaki Shimada, Yuuki Nagai, Hideki Kawahara, Toshio Irino

    2011 International Conference on Data Engineering and Internet Technology ( DEIT 2011 ),429-432, Bali Dynasty Resort, Bali, Indonesia, 15-17 March 2011.     429 - 432   2011年03月  [査読有り]

     概要を見る

    (発表日 16 Mar.)

  • Evaluation of Voice Morphing Using Vocal Tract Length Normalization Based on Auditory Filterbank,

    Erika Okamoto, Toshio Irino, Ryuichi Nisimura, Hideki Kawahara

    2011 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing ( NCSP'11 )Tianjin SaiXiang Hotel, Tianjin, China, 1-3 March , 2011.     187 - 190   2011年03月  [査読有り]

     概要を見る

    (発表日 2 Mar.)

  • A New Formulation of a Multiple Periodicity Extractor for Expressive and Pathological Voices,

    Yoshika Wada, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

    2011 RISP International Workshop on Nonlinear Circuits, Communications and Signal Processing ( NCSP'11 ),Tianjin SaiXiang Hotel, Tianjin, China, 1-3 March , 2011.     336 - 339   2011年03月  [査読有り]

     概要を見る

    (発表日 3 Mar.)

  • AN INTERFERENCE-FREE REPRESENTATION OF INSTANTANEOUS FREQUENCY OF PERIODIC SIGNALS AND ITS APPLICATION TO F0 EXTRACTION

    H. Kawahara, T. Irino, M. Morise

    2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING ( IEEE )    5420 - 5423   2011年  [査読有り]

     概要を見る

    An interference-free representation of the instantaneous frequency of constituent harmonic components of periodic signals is introduced. The power weighted average instantaneous frequency of a band-pass filter yields this property when the effective passband of the filter covers up to two harmonic components and the two windows used in averaging are separated by a half pitch period. The proposed representation eliminates the abrupt changes found in usual instantaneous frequency representations and is applicable to any periodic signals consisting of multiple harmonic components. An F0 extractor of voiced sounds based on this representation is introduced as an example of prospective applications.

    DOI

  • Development of Web-Based Voice Interface to Identify Child Users Based on Automatic Speech Recognition System

    Ryuichi Nisimura, Shoko Miyamori, Lisa Kurihara, Hideki Kawahara, Toshio Irino

    HUMAN-COMPUTER INTERACTION: USERS AND APPLICATIONS, PT IV ( SPRINGER-VERLAG BERLIN )  6764   607 - 616   2011年  [査読有り]

     概要を見る

    We propose a method to identify child speakers, which can be adopted in Web filtering systems to protect children from the dangers of the Internet. The proposed child identification method was developed relies on an automatic speech recognition (ASR) algorithm, that uses an acoustic hidden Markov model (HMM) and a support vector machine (SVM). To extend the proposed method for use in a Web application, we used our voice-enabled Web system (the w3voice system) as a front-end interface for a prototype system. In this paper, we present an overview of the prototype system to elucidate our proposal. We also evaluate the efficacy of the proposed method in identifying child speakers by using voices captured from real Web users.

    DOI

  • Manual and Accelerometer Analysis of Head Nodding Patterns in Goal-oriented Dialogues

    Masashi Inoue, Toshio Irino, Nobuhiro Furuyama, Ryoko Hanada, Takako Ichinomiya, Hiroyasu Massaki

    HUMAN-COMPUTER INTERACTION: INTERACTION TECHNIQUES AND ENVIRONMENTS, PT II ( SPRINGER-VERLAG BERLIN )  6762   259 - 267   2011年  [査読有り]

     概要を見る

    We studied communication patterns in face-to-face dialogues between people for the purpose of identifying conversation features that can be exploited to improve human-computer interactions. We chose to study the psychological counseling setting as it provides good examples of task-oriented dialogues. The dialogues between two participants, therapist and client, were video recorded. The participants' head movements were measured by using head-mounted accelerometers. The relationship between the dialogue process and head nodding frequency was analyzed on the basis of manual annotations. The segments where nods of the two participants correlated were identified on the basis of the accelerometer data. Our analysis suggests that there are characteristic nodding patterns in different dialogue stages.

    DOI

  • Auditory Filterbank Improves Voice Morphing

    Erika Okamoto, Toshio Irino, Ryuichi Nisimura, Hideki Kawahara

    12TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION 2011 (INTERSPEECH 2011), VOLS 1-5 ( ISCA-INT SPEECH COMMUNICATION ASSOC )    2528 - 2531   2011年  [査読有り]

     概要を見る

    This paper presents a new method for vocal tract length (VTL) estimation and normalization based on a gammachirp auditory filterbank (GCFB) to improve the sound quality in voice morphing. VTL ratios between 28 speakers were estimated based on the spectral distances for all permutations (756 = P-28(27)). The VTL estimation using the mel-frequency filterbank (MFFB), which is a preprocessor for calculating MFCCs commonly used in ASR, was also evaluated for comparison. The results of subjective listening tests of morphed voice sounds with and without VTL normalization are also reported. The objective and subjective results indicate that VTL normalization is essential for voice morphing, and the proposed GCFB-based method outperforms the MFCC-based method.

  • Comparing Abilities of Humans and Machine for Child Speaker Identification based on Web Utterances Collection,

    Shoko Miyamori, Ryuichi Nisimura, Lisa Kurihara, Toshio Irino, Hideki Kawahara

    Proceedings of the Second APSIPA Annual Summit and Conference (APSIPA 2010)(Student Symposium)     9   2010年12月  [査読有り]

     概要を見る

    Biopolis, Singapore, 14-17 Dec. 2010. (発表日 14 Dec.)

  • Optimization of a multiple local periodicity detector for vocal excitation structure analysis

    Yoshika Wada, Masanori Morise, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

    APSIPA ASC 2010 - Asia-Pacific Signal and Information Processing Association Annual Summit and Conference, Biopolis, Singapor, 14-17 Dec. 2010     518 - 521   2010年12月  [査読有り]

     概要を見る

    Non-periodic voices play indispensable roles in expressive speech, traditional theatrical performance, various types of singing and other vocal activities. Such voices usually have complex excitation structures, which are not readily represented by a single number, F0. This article introduces optimization of system parameters and evaluation of our new analysis procedure called XSX (eXcitation Structure eXtractor), designed for such complex excitation signals. The proposed method, XSX consists of two subsystems; an integrated periodicity detector which extracts simultaneous multiple periodicity candidates and a frequency refinement procedure based on instantaneous frequency of F0 and harmonic components. Firstly, the candidate detector is optimized followed by optimization of the refinement procedure. Secondly, comparative test with conventional F0 extractors were conducted and revealed that the proposed method outperforms those procedures in terms of accuracy and tracking speed.

  • Real world utterance collection using voice-enabled web system for child speaker identification,

    Shoko Miyamori, Ryuichi Nisimura, Lisa Kurihara, Toshio Irino, Hideki Kawahara

    13th Oriental COCOSDA Workshop, O-COCOSDA 2010,     2010年11月  [査読有り]

     概要を見る

    Kathmandu, Nepal, 24-25, Nov., 2010. (発表日 25 Nov.)

  • 解説記事 はじめての聴覚フィルタ

    入野 俊夫

    日本音響学会誌 ( 一般社団法人日本音響学会 )  66 ( 10 ) 506 - 512   2010年10月  [招待有り]

    DOI

  • Simplification and extension of non-periodic excitation source representations for high-quality speech manipulation systems.

    Hideki Kawahara, Masanori Morise, Toru Takahashi, Hideki Banno, Ryuichi Nisimura, Toshio Irino

    INTERSPEECH 2010, 11th Annual Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September 26-30, 2010 ( ISCA )    38 - 41   2010年09月  [査読有り]

     概要を見る

    Makuhari, Japan, 26-30 Sep., 2010. (発表日 27 Sep.)

  • Evaluation and optimization of F0-adaptive spectral envelope estimation based on spectral smoothing with peak emphasis,

    Hayato Akagiri, Masanori Morise, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

    20th International Congress on Acoustics, ICA2010,     2010年08月  [査読有り]

     概要を見る

    Sydney, Australia, 23-27 Aug., 2010. (発表日 24 Aug.)

  • Analysis and synthesis of singing with hoarse vocal expressions,

    Hideki Kawahara, Hanae Itagaki, Yoshika Wada, Masanori Morise, Ryuichi Nisimura, Toshio Irino

    20th International Congress on Acoustics, ICA2010     2010年08月  [査読有り]

     概要を見る

    Sydney, Australia, 23-27 Aug., 2010. (発表日 26 Aug.)

  • Auditory speech processing for scale-shift covariance and its evaluation in automatic speech recognition.

    Roy D. Patterson, Thomas C. Walters, Jessica Monaghan, Christian Feldbauer, Toshio Irino

    International Symposium on Circuits and Systems (ISCAS 2010), May 30 - June 2, 2010, Paris, France ( IEEE )    3813 - 3816   2010年05月  [査読有り]

     概要を見る

    (発表日 2 Jun 2010)

    DOI

  • Perception of vowel sequence with varying speaker size

    Chihiro Takeshima, Minoru Tsuzaki, Toshio Irino

    Acoustical Science and Technology   31 ( 2 ) 156 - 164   2010年03月  [査読有り]

     概要を見る

    Speech sounds convey information about the size of the speaker. Several studies have demonstrated that human vowel recognition is possible even for an unnatural size range, and have revealed that size factor normalization can be achieved automatically in the auditory system. In this study, we further investigated the characteristics of the size normalization process, using vowel sequences with temporal changes in the speaker size. In the current experiments, listeners were presented with six-vowel sequences in which the vocal-tract length was alternated vowel by vowel. The experimental results for the identification of the vowel sequence showed that it was increasingly difficult for listeners to identify vowels in the correct order as size alternation was applied with a higher speed and to a larger degree. However, they showed the high performance of vowel recognition when serial order judgment between vowels was not required, and in this case the performance deterioration caused by size alternation became small. The observed deterioration of sequence identification is likely to have been caused not by a failure in size normalization in the auditory system but because of a difficulty in judging the serial order between vowels in the sequence with rapid size changes. The results suggest that the auditory system has a fast process for normalizing speaker-size information and that it operates appropriately even when a sequence contains the temporal alternation of vocal-tract length. © 2010 The Acoustical Society of Japan.

    DOI

  • High-quality and light-weight voice transformation enabling extrapolation without perceptual and objective breakdown.

    Array,Ryuichi Nisimura, Toshio Irino, Masanori Morise, Toru Takahashi, Hideki Banno

    Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2010, 14-19 March 2010, Sheraton Dallas Hotel, Dallas, Texas, USA ( IEEE )    4818 - 4821   2010年03月  [査読有り]

     概要を見る

    (発表日 19 Mar 2010)

    DOI

  • 音の持続時間が音源の大きさ知覚に及ぼす影響 : 母音刺激を用いた検討(日本基礎心理学会第28回大会,大会発表要旨)

    竹島 千尋, 津崎 実, 入野 俊夫

    基礎心理学研究 ( 日本基礎心理学会 )  28 ( 2 ) 278 - 278   2010年

    DOI

  • A bottom-up procedure to extract periodicity structure of voiced sounds and its application to represent and restoration of pathological voices.

    Hanae Itagaki, Masanori Morise, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

    Sixth International Workshop on Models and Analysis of Vocal Emissions for Biomedical Applications, MAVEBA 2009, Florence, Italy, December 12-14, 2009 ( Firenze University Press / ISCA )    115 - 118   2009年12月  [査読有り]

     概要を見る

    (発表日 15 Dec.)

  • Development of speech input method for interactive voiceweb systems

    Ryuichi Nisimura, Jumpei Miyake, Hideki Kawahara, Toshio Irino

    Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) ( SPRINGER-VERLAG BERLIN )  5611 LNCS   710 - 719   2009年10月

     概要を見る

    We have developed a speech input method called &quot;w3voice&quot; to build practical and handy voice-enabled Web applications. It is constructed using a simple Java applet and CGI programs comprising free software. In our website (http://w3voice.jp/), we have released automatic speech recognition and spoken dialogue applications that are suitable for practical use. The mechanism of voice-based interaction is developed on the basis of raw audio signal transmissions via the POST method and the redirection response of HTTP. The system also aims at organizing a voice database collected from home and office environments over the Internet. The purpose of the work is to observe actual voice interactions of human-machine and human-human. We have succeeded in acquiring 8,412 inputs (47.9 inputs per day) captured by using normal PCs over a period of seven months. The experiments confirmed the user-friendliness of our system in human-machine dialogues with trial users. © 2009 Springer Berlin Heidelberg.

    DOI

  • Topic-Dependent Language Modeling for VoiceWeb Systems

    Kentaro Suzuta, Ryuichi Nisimura, Hideki Kawahara, Toshio Irino

    WESPAC X 2009 , Beijing, China, 21-23 Sept. 2009     2009年09月  [査読有り]

     概要を見る

    (発表日23 Sept.)

  • Influences of vowel duration on speaker-size estimation and discrimination.

    Chihiro Takeshima, Minoru Tsuzaki, Toshio Irino

    INTERSPEECH 2009, 10th Annual Conference of the International Speech Communication Association, Brighton, United Kingdom, September 6-10, 2009 ( ISCA )    128 - 131   2009年09月  [査読有り]

     概要を見る

    (発表日 7 Sept.)

  • Observation of empirical cumulative distribution of vowel spectral distances and its application to vowel based voice conversion.

    Hideki Kawahara, Masanori Morise, Toru Takahashi, Hideki Banno, Ryuichi Nisimura, Toshio Irino

    INTERSPEECH 2009, 10th Annual Conference of the International Speech Communication Association, Brighton, United Kingdom, September 6-10, 2009 ( ISCA )    2647 - 2650   2009年09月  [査読有り]

     概要を見る

    (発表日 10 Sept.)

  • Brain regions for auditory size processing of speech sounds,

    Toshio Irino, Yuki Tsukada, Yoshikazu Oya, Hideki Kawahara, Roy D. Patterson

    Auditory Cortex 2009, Magdeburg, Germany, 29 Aug. - 2 Sept. 2009     2009年08月  [査読有り]

     概要を見る

    (発表日 30-31 Aug)

  • Size Perception for acoustically scaled sounds of naturally pronounced and whispered words,

    Toshio Irino, Yoshie Aoki, Hideki Kawahara, Roy D. Patteson

    15th International Symposium on Hearing (ISH2009) , Salamanca, Spain, 1 - 5 Jun. 2009 ( SPRINGER )    235 - +   2009年06月  [査読有り]

     概要を見る

    (発表日 2 Jun )

    DOI

  • Temporally variable multi-aspect auditory morphing enabling extrapolation without objective and perceptual breakdown.

    Array,Ryuichi Nisimura, Toshio Irino, Masanori Morise, Toru Takahashi, Hideki Banno

    Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2009, 19-24 April 2009, Taipei, Taiwan ( IEEE )    3905 - 3908   2009年04月  [査読有り]

     概要を見る

    (発表日 23 Apr. 2009)

    DOI

  • Perception of size modulated vowel sequence: Can we normalize the size of continuously changing vocal tract?

    Minoru Tsuzaki, Chihiro Takeshima, Toshio Irino

    Acoust. Sci. & Tech. ( ACOUSTICAL SOCIETY OF JAPAN )  30 ( 2 ) 83 - 88   2009年03月  [査読有り]

     概要を見る

    Changes in vocal tract size vary the formant frequencies, even when the shape of vocal tracts is the same and the spoken vowels are categorized to be the same. Several studies have demonstrated that the normalization of vocal tract size can be achieved in a bottom-up manner. To investigate how fast this process works, the identification of vowel sequences was examined under conditions where the size was sinusoidally modulated with several frequencies (0.24–62.50 Hz). The performance level changed slightly, but significantly depending on the modulation frequency, and the dependence was not monotonic. The performance dropped for modulation around 4 Hz. The nonmonotonic function could not be predicted by a simple assumption of usage of a single size-estimator that requires a certain processing time. Mismatches were prominent for high frequencies: a deterioration was predicted because of the limited processing time, while the actual performance showed a recovery. This indicates that a switching of the process mode for modulation occurs at around 4 Hz. Below 4 Hz, the auditory system can successfully normalize the size change. Above 4 Hz, the auditory system segregates the sounds using the size cue and the recognition of each vowel is not critically affected.

    DOI

  • 分析時刻に依存しない周期信 号のパワースペクトル推定法を用いた音声分析

    森勢将雅, 高橋徹, 河原英紀, 入野俊夫

    電子情報通信学会論文誌 ( 一般社団法人電子情報通信学会 )  J92-A ( 3 ) 163 - 171   2009年03月  [査読有り]

     概要を見る

    本論文では,周期信号から分析時刻に依存した成分を除去できるパワースペクトル推定法TANDEMを音声分析に用いる場合の評価を行う.TANDEMは,基本周期の半分だけ離れた位置に配置した二つの窓関数で切り出した周期信号のパワースペクトルを平均することで,分析時刻に依存しないパワースペクトルを推定する方法として提案されている.TANDEMの導出においては,サイドローブによる影響と基本周波数の時間変化が無視できるものとしていた.しかし,有限長の窓関数にはサイドローブが存在し,音声の基本周波数は時間的に変化する.本論文では,分析時刻に依存したパワースペクトルの変動量を指標とし,分析対象となる信号の基本周波数が既知という条件で計算機シミユレーションを行い,基本周波数が時間とともに変化し,雑音が混在する音声の分析に適したTANDEM窓を選定する.選定されたTANDEM窓により得られたスペクトル包絡は,従来法よりも分析時刻に依存した変動が少なく,時間分解能,耐雑音性においても優れていることを示す.

  • Vowel-based voice conversion and its application to singing-voice manipulation

    Yuri Yoshida, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

    AES 35th Int. Conf. Audio for Games, 11-13 Feb. 2009, London, UK.     2009年02月  [査読有り]

     概要を見る

    (発表日 13 Feb. 2009)

  • Vowel-based frequency alignment function design and recognition-based time alignment for automatic speech morphing.

    Masato Onishi, Toru Takahashi, Toshio Irino,Array

    2008 IEEE Spoken Language Technology Workshop, SLT 2008, Goa, India, December 15-19, 2008 ( IEEE )    25 - 28   2008年12月  [査読有り]

     概要を見る

    (発表日 15 Dec 2008)

    DOI

  • Speech-to-text input method for web system using JavaScript.

    Ryuichi Nisimura, Jumpei Miyake,Array, Toshio Irino

    2008 IEEE Spoken Language Technology Workshop, SLT 2008, Goa, India, December 15-19, 2008 ( IEEE )    209 - 212   2008年12月  [査読有り]

     概要を見る

    (発表日 17 Dec. 2008)

    DOI

  • Spectral envelope recovery beyond the nyquist limit for high-quality manipulation of speech sounds.

    Hideki Kawahara, Masanori Morise, Hideki Banno, Toru Takahashi, Ryuichi Nisimura, Toshio Irino

    INTERSPEECH 2008, 9th Annual Conference of the International Speech Communication Association, Brisbane, Australia, September 22-26, 2008 ( ISCA )    650 - 653   2008年09月  [査読有り]

     概要を見る

    (発表日 24 Sept.)

  • A unified approach for F0 extraction and aperiodicity estimation based on a temporally stable power spectral representation,

    Hideki Kawahara, Masanori Morise, Toru Takahashi, Ryuichi Nisimura, Hideki Banno, Toshio Irino

    ISCA Tutorial and Research Workshop (ITRW) on "Speech Analysis and Processing for Knowledge Discovery" Aalborg University     2008年06月  [査読有り]

     概要を見る

    Aalborg, Denmark, 4 - 6, Jun. 2008, (発表日 4 Jun. )

  • A method for fundamental frequency estimation and voicing decision: application to infant utterances recorded in real acoustical environments

    Tomohiro Nakatani, Shigeaki Amano, Toshio Irino, Kentaro Ishizuka, Tadahisa Kondo

    Speech Communication ( ELSEVIER SCIENCE BV )  50 ( 3 ) 203 - 214   2008年03月  [査読有り]

     概要を見る

    This paper proposes a method for fundamental frequency (F0) estimation and voicing decision that can handle wide-ranging speech signals including adult and infant utterances recorded in real noisy environments. In particular, infant utterances have unique characteristics that are different from those of adults, such as a wide F0 range, F0 abrupt transitions, and unique energy distribution patterns over frequencies. Therefore, conventional methods that were developed mainly for adult utterances do not necessarily work well for infant utterances especially when the signals are contaminated by background noise. Several techniques are introduced into the proposed method to cope with this problem. We show that the ripple-enhanced power spectrum based method (REPS) can estimate the F0s robustly, and that the use of instantaneous frequency (IF) enables us to refine the accuracy of the F0 estimates. In addition, the degree of dominance defined based on the IF is introduced as a robust voicing decision measure. The effectiveness of the proposed method is confirmed in terms of gross pitch errors and voicing decision errors in comparison with the recently proposed methods, Praat and YIN, using both longitudinal recordings of Japanese infant utterances and adult utterances. © 2007 Elsevier B.V. All rights reserved.

    DOI

  • Tandem-STRAIGHT: A temporally stable power spectral representation for periodic signals and applications to interference-free spectrum, F0, and aperiodicity estimation.

    Hideki Kawahara, Masanori Morise, Toru Takahashi, Ryuichi Nisimura, Toshio Irino, Hideki Banno

    Proceedings of the IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2008, March 30 - April 4, 2008, Caesars Palace, Las Vegas, Nevada, USA ( IEEE )    3933 - 3936   2008年03月  [査読有り]

     概要を見る

    (発表日 1 Apr. )

    DOI

  • Vowel-based voice conversion and its objective evaluation,

    Masato Onishi, Toru Takahashi, Masanori Morise, Toshio Irino, Hideki Kawahara

    2008 RISP International Workshop on Nonlinear Circuits and Signal Processing (NCSP'08), pp.275-278, Gold Coast, Australia, 6-8 Mar. 2008     2008年03月  [査読有り]

     概要を見る

    (発表日 7 Mar. )

  • 窓関数による分析時刻の影響を受けにくい周期信号のパワースペクトル推定法(研究速報)

    森勢将雅, 高橋徹, 河原英紀, 入野俊夫

    電子情報通信学会論文誌. D, 情報・システム ( 社団法人電子情報通信学会 )  90 ( 12 ) 3265 - 3267   2007年12月  [査読有り]

     概要を見る

    信号分析に広く短時間フーリエ変換が用いられている.しかし,周期信号を対象とした場合,推定されるパワースペクトルが分析時刻により変動する問題がある.本論文では二つのハニング窓を用いた分析法により,この問題を実質的に解消できることを示す.

  • Detection of temporal modulation of size in vowel sequences

    Chihiro Takeshima, Minoru Tsuzaki, Toshio Irino

    Acoust. Sci. & Tech. ( ACOUSTICAL SOCIETY OF JAPAN )  28 ( 5 ) 349 - 351   2007年09月  [査読有り]

     概要を見る

    Size extraction, Resonance characteristics, Size modulation detection, Timbre perception Experiments were performed with listeners to detect the STSM in a vowel sequence. The measured characteristics appeared to be high-pass. The observed high-pass tendency suggested that a more efficient cue was available based on the differences in fine temporal structures caused by the resonance change within a vowel. This indicated that the current experimental paradigm was not appropriate to measure the limit of tracking speed of the VTL extraction process. Therefore, further study will be required by using stimuli that cannot be judged as STSM on the basis of the fine structural cues.

    DOI

  • Continuous time-frequency coordinate mapping with sparse anchoring templates and its application to auditory morphing,

    Toru Takahashi, Toshio Irino, Hideki Kawahara

    19th International Congress on Acoustics (ICA2007) , Madrid, Spain, 2-7 Sept. 2007     2007年09月  [査読有り]

     概要を見る

    (発表日 2 Sept.)

  • Group delay for acoustic event representation and its application for speech aperiodicity analysis.

    Hideki Kawahara, Masanori Morise, Toru Takahashi, Toshio Irino, Hideki Banno, Osamu Fujimura

    15th European Signal Processing Conference, EUSIPCO 2007, Poznan, Poland, September 3-7, 2007 ( IEEE )    2219 - 2223   2007年09月  [査読有り]

     概要を見る

    (発表日 7 Sept. )

  • 単母音による歌唱音声スペクトルの統計的分析に基づく音色制御法の提案と評価

    森勢将雅, 田原佳代子, 高橋徹, 入野俊夫, 河原英紀

    第6回情報科学技術フォーラム(情報科学技術レターズ)   FIT 2007   119 - 122   2007年09月  [査読有り]

     概要を見る

    中京大学, 愛知, 2007年9月5日-7日.(発表日 9月6日)

  • 測定用信号として音声を用いたク ロススペクトル法によるインパルス応答推定の誤差評価

    森勢将雅, 入野俊夫, 河原英紀

    電子情報通信学会 論文誌 A ( 一般社団法人電子情報通信学会 )  J90-A ( 7 ) 559 - 566   2007年07月  [査読有り]

     概要を見る

    クロススペクトル法の測定用信号を音声とした場合におけるインパルス応答推定の推定誤差を調査する.先行研究では,時間窓の種類と推定誤差との関係を示し,インパルス応答推定に適した時間窓を提案している.しかし,これはホワイトノイズを測定用信号とした場合における結論である.音声のように,周期的で振幅周波数特性が平たんではない信号を測定用信号とした場合のインパルス応答推定に適した時間窓は,示されていない.本論文では,クロススペクトル法の測定用信号を音声とした場合に生じる推定誤差の要因を示し,推定誤差の小さい時間窓を明らかにする.測定用信号と推定誤差との関係を,様々な測定用信号を用いて調査した.インパルス応答の推定誤差は,測定用信号の振幅周波数特性におけるダイナミックレンジに依存することが明らかとなった.音声のようにダイナミックレンジが40dBを超えるような信号においては,ホワイトノイズにおいて最適とされた時間窓の推定誤差は大きく,ハニング窓,ブラックマン窓のようにサイドローブの小さな時間窓の推定誤差が小さいという結論が得られた.

  • Implementation of realtime STRAIGHT speech manipulation system: Report on its first implementation

    Hideki Banno, Hiroaki Hata, Masanori Morise, Toru Takahashi, Toshio Irino, Hideki Kawahara

    Acoust. Sci. & Tech. ( ACOUSTICAL SOCIETY OF JAPAN )  28 ( 3 ) 140 - 146   2007年05月  [査読有り]

     概要を見る

    A very high quality speech analysis, modification and synthesis system—STRAIGHT—has now been implemented in C language and operated in realtime. This article first provides a brief summary of STRAIGHT components and then introduces the underlying principles that enabled realtime operation. In STRAIGHT, the built-in extended pitch synchronous analysis, which does not require analysis window alignment, plays an important role in realtime implementation. A detailed description of the processing steps, which are based on the so-called &quot;just-in-time&quot; architecture, is presented. Further, discussions on other issues related to realtime implementation and performance measures are also provided. The software will be available to researchers upon request.

    DOI

  • Auditory stream segregation based on speaker size, and identification of size-modulated vowel sequences

    Minoru Tsuzaki, Chihiro Takeshima, Toshio Irino, Roy D. Patterson

    HEARING - FROM SENSORY PROCESSING TO PERCEPTION ( SPRINGER-VERLAG BERLIN )    285 - +   2007年  [査読有り]

  • Discrimination and Recognition of Scaled Word Sounds

    Toshio Irino, Yoshie Aoki, Yoshie Hayashi, Hideki Kawahara, Roy D. Patterson

    INTERSPEECH 2007: 8TH ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, VOLS 1-4 ( ISCA-INT SPEECH COMMUNICATION ASSOC )    321 - +   2007年  [査読有り]

     概要を見る

    Smith et al. [2] and Ives et al. [3] demonstrated that humans could extract information about the size of a speaker's vocal tract from speech sounds (vowels and syllables, respectively). We have extended their discrimination and recognition experiments to naturally pronounced words. The Just Noticeable Difference (JND) for size discrimination was between 5.5% and 19% depending on the listener. The smallest JND is comparable to that of the syllable experiments; the average JND is comparable to that of the vowel experiments. The word recognition scores remain above 50% for speaker sizes beyond the normal range for humans. The fact that good performance extends over such a large range of acoustic scales supports Irino and Patterson's hypothesis [1] that the auditory system segregates size and shape information at an early stage in the processing.

  • Warped-TSP: An acoustic measurement signal robust to background noise and harmonic distortion

    Masanori Morise, Toshio Irino, Hideki Banno, Hideki Kawahara

    ELECTRONICS AND COMMUNICATIONS IN JAPAN PART III-FUNDAMENTAL ELECTRONIC SCIENCE ( SCRIPTA TECHNICA-JOHN WILEY & SONS )  90 ( 4 ) 18 - 26   2007年  [査読有り]

     概要を見る

    TSP (Time-Stretched Pulse, lin-TSP afterwards) and logarithmic TSP (log-TSP) are commonly used in impulse response measurements of audio systems and room acoustics. But the optimal test signal for each environment is different. It is necessary to choose an appropriate test signal for each environment to achieve a better SNR in the measured impulse response. A new acoustic measurement signal that is a hybrid signal of lin-TSP and log-TSP is proposed. The proposed signal, called "warped-TSP," achieves an SNR higher than that obtained by lin-TSP and log-TSP. It also provides a means to eliminate harmonic distortion due to the reproduction system. In this paper, the definition and features of warped-TSP are introduced in comparison with lin-TSP and log-TSP. We also present the relations between the parameters of warped-TSP, the amplitude frequency characteristics of warped-TSP, and the effects on the representation components due to harmonic distortion. Based on these discussions, a method of selecting the optimal parameters of warped-TSP for a specific measuring environment is given. A series of impulse response measurements performed under different ambient noise conditions revealed that the proposed method outperformed lin-TSP and log-TSP under all conditions in terms of the SNR of the measured impulse response. (C) 2006 Wiley Periodicals, Inc.

    DOI

  • A Dynamic Compressive Gammachirp Auditory Filterbank.

    Irino T, Patterson RD

    IEEE transactions on audio, speech, and language processing ( 6 )  14 ( 6 ) 2222 - 2232   2006年11月  [査読有り]

     概要を見る

    It is now common to use knowledge about human auditory processing in the development of audio signal processors. Until recently, however, such systems were limited by their linearity. The auditory filter system is known to be level-dependent as evidenced by psychophysical data on masking, compression, and two-tone suppression. However, there were no analysis/synthesis schemes with nonlinear filterbanks. This paper describe 18300060s such a scheme based on the compressive gammachirp (cGC) auditory filter. It was developed to extend the gammatone filter concept to accommodate the changes in psychophysical filter shape that are observed to occur with changes in stimulus level in simultaneous, tone-in-noise masking. In models of simultaneous noise masking, the temporal dynamics of the filtering can be ignored. Analysis/ synthesis systems, however, are intended for use with speech sounds where the glottal cycle can be long with respect to auditory time constants, and so they require specification of the temporal dynamics of auditory filter. In this paper, we describe a fast-acting level control circuit for the cGC filter and show how psychophysical data involving two-tone suppression and compression can be used to estimate the parameter values for this dynamic version of the cGC filter (referred to as the "dcGC" filter). One important advantage of analysis/synthesis systems with a dcGC filterbank is that they can inherit previously refined signal processing algorithms developed with conventional short-time Fourier transforms (STFTs) and linear filterbanks.

    DOI

  • Speech Segregation Using an Auditory Vocoder With Event-Synchronous Enhancements.

    Irino T, Patterson RD, Kawahara H

    IEEE transactions on audio, speech, and language processing ( 6 )  14 ( 6 ) 2212 - 2221   2006年11月  [査読有り]

     概要を見る

    We propose a new method. to segregate concurrent speech sounds using an auditory version of a channel vocoder. The auditory representation of sound, referred to as an "auditory image&apos; " preserves fine temporal information, unlike conventional window-based processing systems. This makes it possible to segregate speech sources with an event synchronous procedure. Fundamental frequency information is used to estimate the sequence of glottal pulse times for &apos; a target speaker, and to repress the glottal events of other speakers. The procedure leads to robust extraction of the target speech and effective segregation even when the signal-to-noise ratio is as low as 0 dB. Moreover, the segregation performance remains high when the speech contains jitter, or when the estimate of the fundamental frequency F0 is inaccurate. This contrasts with conventional comb-filter methods where errors in F0 estimation produce a mark ed reduction in performance. We compared the new method to a comb-filter method using a cross-correlation measure and perceptual recognition experiments. The results suggest that the new method has the potential to supplant comb-filter and harmonic-selection methods for speech enhancement.

    DOI

  • Speech style conversion based on the statistics of vowel spectrograms and nonlinear frequency mapping.

    Toru Takahashi, Hideki Banno, Toshio Irino, Hideki Kawahara

    14th European Signal Processing Conference, EUSIPCO 2006, Florence, Italy, September 4-8, 2006 ( IEEE )    1 - 5   2006年09月  [査読有り]

     概要を見る

    (発表日 8 Sept.)

  • Analyzing dialogue data for real-world emotional speech classification.

    Ryuichi Nisimura, Souji Omae, Hideki Kawahara, Toshio Irino

    INTERSPEECH 2006 - ICSLP, Ninth International Conference on Spoken Language Processing, Pittsburgh, PA, USA, September 17-21, 2006 ( ISCA )    1822 - 1825   2006年09月  [査読有り]

     概要を見る

    In order to obtain an understanding of the user&apos;s emotion in human-machine dialogues, an analysis of dialogical utterances in the real world was performed. This work comprises three major steps. (1) The actual conditions of 16 basic emotions were evaluated using Japanese child voices, which were collected through the field test of the public spoken dialogue system. (2) Two factors were derived by a factor analysis. The factors were defined as fundamental psychological factors representing "delightful" and "hateable" emotions. (3) The relationships between the factors and the physical acoustic features were investigated to establish a capability to sense a user&apos;s mental state for the dialogue system. In the experimental discriminations between the delightful and hateable emotions, a correct rate of 98.8% was achieved in classifying child&apos;s utterances by the SVM (Support Vector Machine) with 11 acoustic features.

  • Logarithmic temporal processing applied to accurate empirical transfer function measurements in vocal sound propagation.

    Masanori Morise, Toshio Irino, Hideki Kawahara

    14th European Signal Processing Conference, EUSIPCO 2006, Florence, Italy, September 4-8, 2006 ( IEEE )    1 - 5   2006年09月  [査読有り]

     概要を見る

    (発表日 8 Sept.)

  • Comparison of the roex and gammachirp filters as representations of the auditory filter.

    Unoki M, Irino T, Glasberg B, Moore BC, Patterson RD

    The Journal of the Acoustical Society of America ( 3 )  120 ( 3 ) 1474 - 1492   2006年09月  [査読有り]

     概要を見る

    Although the rounded-exponential (roex) filter has been successfully used to represent the magnitude response of the auditory filter, recent studies with the roex(p,w,t) filter reveal two serious problems: the fits to notched-noise masking data are somewhat unstable unless the filter is reduced to a physically unrealizable form, and there is no time-domain version of the roex(p, w, t) filter to support modeling of the perception of complex sounds. This paper describes a compressive gammachirp (cGC) filter with the same architecture as the roex(P I w,t) which can be implemented in the time domain. The gain and asymmetry of this parallel cGC filter are shown to be comparable to those of the roex(p,w,t) filter, but the fits to masking data are still somewhat unstable. The roex(p,w,t) and parallel cGC filters were also compared with the cascade cGC filter [Patterson et al., J. Acoust. Soc. Am. 114, 1529-1542 (2003)], which was found to provide an equivalent fit with 25% fewer coefficients. Moreover, the fits were stable. The advantage of the cascade cGC filter appears to derive from its parsimonious representation of the high-frequency side of the filter. It is concluded that cGC filters offer better prospects than roex filters for the representation of the auditory filter. (c) 2006 Acoustical Society of America.

    DOI

  • Automatic assignment of anchoring points on vowel templates for defining correspondence between time-frequency representations of speech samples.

    Toru Takahashi, Masashi Nishi, Toshio Irino, Hideki Kawahara

    INTERSPEECH 2006 - ICSLP, Ninth International Conference on Spoken Language Processing, Pittsburgh, PA, USA, September 17-21, 2006 ( ISCA )    2514 - 2517   2006年09月  [査読有り]

     概要を見る

    (発表日 21 Sept.)

  • Auditory stream segregation by size and idenfication of size-modulated vowel sequences,

    Minoru Tsuzaki, Chihiro Takeshima, Toshio Irino, Roy D. Patterson

    14 th International Symposium on Hearing (ISH2006)     220 - 226   2006年08月  [査読有り]

     概要を見る

    (発表日 20 Aug.)

  • Human-robot interaction interface using GMM-based noise recognition

    Ryuichi Nisimura, Aki Hashizume, Toshio Irino, Hideki Kawahara

    WESPAC IX 2006, (9th Western Pacific Acoustics Conference)     347 - 352   2006年06月  [査読有り]

     概要を見る

    Seoul, Korea, 26-28 June 2006

  • General framework for flexible speech style manipulation and synthesis,

    Tohru Takahashi, Toshio Irino, Hideki Kawahara

    WESPAC IX 2006, (9th Western Pacific Acoustics Conference), pp.254-259, Seoul, Koria, 26-28 June 2006     2006年06月  [査読有り]

     概要を見る

    (発表日 26 Sept.)

  • Dynamic, Compressive Gammachirp Auditory Filterbank for Perceptual Signal Processing.

    Toshio Irino,Roy D. Patterson

    2006 IEEE International Conference on Acoustics Speech and Signal Processing, ICASSP 2006, Toulouse, France, May 14-19, 2006 ( IEEE )    133 - 136   2006年05月  [査読有り]

     概要を見る

    (発表日 17 May)

    DOI

  • 暗騒音と高調波ひずみに頑健なインパルス応答測定用信号 : Warped-TSP(電気音響, 音響一般)

    森勢将雅, 入野俊夫, 坂野秀樹, 河原英紀

    電子情報通信学会論文誌. A, 基礎・境界 ( 社団法人電子情報通信学会 )  89 ( 1 ) 7 - 14   2006年01月  [査読有り]

     概要を見る

    音響機器や室内伝達関数のインパルス応答測定に線形時間軸伸長のTSP(Linear Time-Stretched Pulse, Lin-TSP)や対数時間軸伸長のLogarithmic TSP(Log-TSP)が従来からよく用いられている. しかし, 暗騒音の特性によって最適な測定用信号は異なっており, 高いSN比を得るには, 測定環境に応じて両信号を使い分ける必要がある. そこで, 本論文では, 両信号を接続した測定用信号&quot;Warped-TSP&quot;を提案する. このWarped-TSPを用いると, 音響機器や室内伝達関数のインパルス応答を, Lin-TSP・Log-TSPより高いSN比で測定できる. 更に, 再生系における高調波ひずみを簡単な操作で除去できるという性質も有している. まずWarped-TSPの定義をLin-TSPやLog-TSPと対比させて述べる. 更に特徴を示し, Warped-TSPに含まれるパラメータと特性の関係や高調波ひずみの影響を明らかにする. 更に測定環境に適したパラメータ設定の方法を述べる. 暗騒音の特性が異なる二つの環境でインパルス応答測定を行い, SN比が改善できることを示す.

  • Dynamic, compressive gammachirp auditory filterbank for perceptual signal processing

    Toshio Irino, Roy D. Patterson

    2006 IEEE International Conference on Acoustics, Speech and Signal Processing, Vols 1-13 ( IEEE )    4991 - 4994   2006年  [査読有り]

     概要を見る

    A gammachirp auditory filter was developed 1) to extend the domain of the gammatone auditory filter, 2) to simulate the changes in filter shape that occur with changes in stimulus level, 3) to explain a large body of simultaneous masking data, 4) to explain the compressive characteristics of the auditory filter system, and 5) to facilitate the development of a nonlinear, analysis/synthesis framework. What remains is to specify the dynamics of how the stimulus level controls the filter parameters. In this paper, we use psychophysical data involving compression to derive the details of the level control circuit for the dynamic version of the cGC (dcGC) filter and filterbank. The dcGC filterbank enhances spectral contrasts and reduces the dynamic range. This property with the analysis/synthesis framework should be useful in various forms of perceptual signal processing.

  • Spectral fluctuation mapping model for Japanese speech style conversion based on statistics in emotional speech database

    Toru Takahashi, Hideki Banno, Ryuich Nisimura, Toshio Irino, Hideki Kawahara

    Oriental COCOSDA 2005 , Indonesia, 6-8 Dec. 2005.     111 - 116   2005年12月  [査読有り]

  • Speech intelligibility derived from time-frequency and source smearing.

    Toshio Irino, Satoru Satou, Shunsuke Nomura, Hideki Banno, Hideki Kawahara

    INTERSPEECH 2005 - Eurospeech, 9th European Conference on Speech Communication and Technology, Lisbon, Portugal, September 4-8, 2005 ( ISCA )    1737 - 1740   2005年09月  [査読有り]

  • Nearly defect-free F0 trajectory extraction for expressive speech modifications based on STRAIGHT.

    Hideki Kawahara, Alain de Cheveigné, Hideki Banno, Toru Takahashi, Toshio Irino

    INTERSPEECH 2005 - Eurospeech, 9th European Conference on Speech Communication and Technology, Lisbon, Portugal, September 4-8, 2005 ( ISCA )    537 - 540   2005年09月  [査読有り]

     概要を見る

    (発表日 5 Sept.)

  • Voice and emotional expression transformation based on statistics of vowel parameters in an emotional speech database.

    Toru Takahashi, Takeshi Fujii, Masashi Nishi, Hideki Banno, Toshio Irino, Hideki Kawahara

    INTERSPEECH 2005 - Eurospeech, 9th European Conference on Speech Communication and Technology, Lisbon, Portugal, September 4-8, 2005 ( ISCA )    1853 - 1856   2005年09月  [査読有り]

     概要を見る

    (発表日 7 Sept.)

  • A test signal robust against background noise in the measurement of acoustic impulse responses: Warped-TSP,

    Masanori Morise, Toshio Irino, Hideki Banno, Hideki Kawahara

    The 34th International Congress and Exposition on Noise Control Engineering (Internoise 2005) , Rio de Janeiro, Brazil,     2005年08月  [査読有り]

     概要を見る

    7-10 Aug. 2005 (発表日 8 Aug.)

  • A Study of Talker Localization Based on Subband CSP Analysis in Real Noisy Environments,

    Yuki Denda, Takanobu Nishiura, Hideki Kawahara, Toshio Irino

    IEEE International Workshop on Nonlinear Signal and Image Processing 2005 (NISP 05)     320 - 323   2005年05月  [査読有り]

     概要を見る

    Sapporo, Japan, 18-20, May 2005.

  • The processing and perception of size information in speech sounds

    DRR Smith, RD Patterson, R Turner, H Kawahara, T Irino

    JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA ( ACOUSTICAL SOC AMER AMER INST PHYSICS )  117 ( 1 ) 305 - 318   2005年01月  [査読有り]

     概要を見る

    There is information in speech sounds about the length of the vocal tract; specifically, as a child grows, the resonators in the vocal tract grow and the formant frequencies. of the vowels decrease. It has been hypothesized that the auditory system applies a scale transform to all sounds to segregate size information from resonator shape information, and thereby enhance both size perception, and speech recognition [Irino. and Patterson, Speech Commun.. 36, 181-203 (2002)]. This paper describes size discrimination experiments and vowel recognition experiments designed to provide evidence for &apos; an auditory scaling mechanism. Vowels were scaled to represent people with vocal tracts much longer and shorter than normal, and with pitches much higher and lower than normal. The results of the discrimination experiments show that listeners can make fine Judgments about the relative size of speakers, and they can do so for vowels scaled well beyond the normal range. Similarly, the recognition experiments show good performance for vowels in the normal range, and for vowels scaled Well beyond the normal range of experience. Together, the experiments support the hypothesis that the auditory system automatically normalizes for the size information in communication sounds. (C) 2005 Acoustical Society of America.

    DOI

  • Comparison of the compressive-gammachirp and double-roex auditory filters

    RD Patterson, M Unoki, T Irino

    AUDITORY SIGNAL PROCESSINGP: PHYSIOLOGY, PSYCHOACOUSTICS, AND MODELS ( SPRINGER )    21 - 29   2005年  [査読有り]

     概要を見る

    ( to appear in &quot;Auditory signal processing: physiology, psychoacoustics, and models,&quot; Pressnitzer, D., de Cheveigne A., McAdams, S., Collet, L. Eds., Springer Verlag, New York, 2004. )

  • Underlying principles of a high-quality speech manipulation system STRAIGHT and its application to speech segregation

    H Kawahara, T Irino

    SPEECH SEPARATION BY HUMANS AND MACHINES ( SPRINGER )    167 - 180   2005年  [査読有り]

  • Speech segregation using an event-synchronous auditory image and STRAIGHT

    T Irino, RD Patterson, H Kawakhara

    SPEECH SEPARATION BY HUMANS AND MACHINES ( SPRINGER )    155 - 165   2005年  [査読有り]

  • Robust and accurate fundamental frequency estimation based on dominant harmonic components

    T Nakatani, T Irino

    JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA ( ACOUSTICAL SOC AMER AMER INST PHYSICS )  116 ( 6 ) 3690 - 3700   2004年12月  [査読有り]

     概要を見る

    This paper presents a new method for robust and accurate fundamental frequency (F-0) estimation in the presence of background noise and spectral distortion. Degree of dominance and dominance spectrum are defined based on instantaneous frequencies. The degree of dominance allows one to evaluate the magnitude of individual harmonic components of the speech signals relative to background noise while reducing the influence of spectral distortion. The fundamental frequency is more accurately estimated from reliable harmonic components which are easy to select given the dominance spectra. Experiments are performed using white and babble background noise with and without spectral distortion as produced by a SRAEN filter. The results show that the present method,is better than previously reported methods in terms of both gross and fine F-0 errors. (C) 2004 Acoustical Society of America.

    DOI

  • Intelligibility of degraded speech from smeared STRAIGHT spectrum.

    Hideki Kawahara, Hideki Banno, Toshio Irino, Jiang Jin

    INTERSPEECH 2004 - ICSLP, 8th International Conference on Spoken Language Processing, Jeju Island, Korea, October 4-8, 2004 ( ISCA )    2004年10月  [査読有り]

  • An evaluation of in-car speech enhancement techniques with microphone array steering,

    Masato Nakayama, Yuki Denda, Takanobu Nishiura, Hideki Kawahara, Toshio Irino

    18th International Congress on Acoustics (ICA2004)   4   3041 - 3044   2004年04月  [査読有り]

     概要を見る

    Kyoto, Japan, 4-9 Apr. 2004 (abstract review)

  • Speech segregation using an auditory vocoder with event-synchronous enhancements,

    Toshio Irino, Roy D. Patterson, Hideki Kawahara

    18th International Congress on Acoustics   4   3025 - 3028   2004年04月  [査読有り]

     概要を見る

    Kyoto, Japan, 4-9 Apr. 2004 (abstract review)

  • Algorithm amalgam: Morphing waveform based methods, sinuisoidal models and straight

    H Kawahara, H Banno, T Irino, P Zolfaghari

    2004 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL I, PROCEEDINGS ( IEEE )  I   13 - 16   2004年  [査読有り]

     概要を見る

    A tool to investigate an important fundamental question in speech processing is proposed aiming to promote research on voice quality and para and non linguistic aspects of speech. The proposed method effectively emulates waveform-based methods, sinusoidal models and the high quality source filter model STRAIGHT The Key idea that enables blending these seemingly disjoint algorithms is a group delay based representation of signal excitation. By using a STRAIGHT-based smoothed time-frequency representation that is shared by these three types of speech processing methods, a unified source representation is used to implement the proposed system. Informal listening tests using the proposed system indicated that phase manipulation introduces different timbre, but it does not need to reproduce the exact waveform to reproduce the same timbre. This may suggest that the possibility of further information reduction exists in synthesizing close to natural quality speech.

    DOI

  • A design of audio-visual talker tracking system based on CSP analysis and frame difference in real noisy environments

    Y Denda, T Nishiura, H Kawahara, T Irino

    2004 IEEE 6TH WORKSHOP ON MULTIMEDIA SIGNAL PROCESSING ( IEEE )    63 - 66   2004年  [査読有り]

     概要を見る

    It is very important to capture distant-talking speech with high-quality for voice-controlled systems or teleconferencing systems. A microphone array steering is an ideal candidate for this purpose. However, for the microphone array steering, it is necessary to track the target talker. Conventional talker tracking algorithms with only audio signal (ex. CSP (Cross-power Spectrum Phase) analysis) have a difficulty estimating the target talker direction accurately in higher noisy environments. To overcome with this problem, we propose a new target talker tracking algorithm that not only utilize the audio signal, but also utilize the visual signal. The proposed algorithm is based on integration of CSP analysis with audio signal and frame difference with visual signal. As a result of evaluation experiments in a real room, we confirmed that the proposed algorithm could track target talker accurately than the conventional algorithm.

    DOI

  • Speech recognition with wavelet spectral subtraction in real noisy environment

    N Denda, T Nishiura, H Kawahara, T Irino

    2004 7TH INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING PROCEEDINGS, VOLS 1-3 ( PUBLISHING HOUSE ELECTRONICS INDUSTRY )    638 - 641   2004年  [査読有り]

     概要を見る

    In this paper, we focused the effectiveness of the wavelet spectral subtraction in noisy speech recognition. For this purpose, Fourier spectral subtraction is a conventional effective technique, for example. It is a suitable technique for stationary noise reduction (ex. white Gaussian like noise), because the short-time Fourier transform provides a uniform time-frequency resolution on each frequency band. However, it can not reduce suddenly noise effectively, etc. On the other hand.. the wavelet transform may be a suitable technique for suddenly signal analysis, etc. (non-stationary, signal analysis), because it admits a non-uniform time-frequency resolution on each frequency band. Therefore, we reported to provide effectively performance of noise reduction using the Fourier spectral subtraction,, the wavelet spectral subtraction and the microphone array steering in real noisy environments on EUROSPEECH2003. However, it was not clear that what kind of noise characteristics could be reduced with the wavelet spectral subtraction. In this paper, to cope with this problem, we evaluated the performance of the wavelet spectral subtraction and the Fourier spectral subtraction in various noisy environments. As a result of evaluation experiments, we confirmed that the wavelet spectral subtraction could effectively reduce suddenly noise or higher frequency noise than the Fourier spectral subtraction.

  • Speech segregation based on fundamental event information using an auditory vocoder.

    Toshio Irino,Roy D. Patterson, Hideki Kawahara

    8th European Conference on Speech Communication and Technology, EUROSPEECH 2003 - INTERSPEECH 2003, Geneva, Switzerland, September 1-4, 2003 ( ISCA )    2003年09月  [査読有り]

  • Dominance spectrum based v/UV classification and f_0 estimation.

    Tomohiro Nakatani, Toshio Irino, Parham Zolfaghari

    8th European Conference on Speech Communication and Technology, EUROSPEECH 2003 - INTERSPEECH 2003, Geneva, Switzerland, September 1-4, 2003 ( ISCA )    2313 - 2316   2003年09月  [査読有り]

  • Extending the domain of center frequencies for the compressive gammachirp auditory filter

    RD Patterson, M Unoki, T Irino

    JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA ( ACOUSTICAL SOC AMER AMER INST PHYSICS )  114 ( 3 ) 1529 - 1542   2003年09月  [査読有り]

     概要を見る

    The gammatone filter was imported from auditory physiology to provide a time-domain version of the roex auditory filter and enable the development of a realistic auditory filterbank for models of auditory perception [Patterson et al., J. Acoust. Soc. Am. 98, 1890-1894 (1995)]. The gammachirp auditory filter was developed to extend the domain of the gammatone auditory filter and simulate the changes in filter shape that occur with changes in stimulus level. Initially, the gammachirp filter was limited to center frequencies in the 2.0-kHz region where there were sufficient "notched-noise" masking data to define its parameters accurately. Recently, however, the range of the masking data has been extended in two massive studies. This paper reports how a compressive version of the gammachirp auditory filter was fitted to these new data sets to define the filter parameters over the extended frequency range. The results show that the shape of the filter can be specified for the entire domain of the data using just six constants (center frequencies from 0.25 to 6.0 kHz and levels from 30 to 80 dB SPL). The compressive, gammachirp auditory filter also has the advantage of being consistent with physiological studies of cochlear filtering insofar as the compression of the filter is mainly limited to the passband and the form of the chirp in the impulse response is largely independent of level. (C) 2003 Acoustical Society of America.

    DOI

  • Glottal closure instant synchronous sinusoidal model for high quality speech analysis/synthesis.

    Parham Zolfaghari, Tomohiro Nakatani, Toshio Irino, Hideki Kawahara, Fumitada Itakura

    8th European Conference on Speech Communication and Technology, EUROSPEECH 2003 - INTERSPEECH 2003, Geneva, Switzerland, September 1-4, 2003 ( ISCA )    2441 - 2444   2003年09月  [査読有り]

  • Speech segregation using event synchronous auditory vocoder

    T Irino, RD Patterson, H Kawahara

    2003 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOL V, PROCEEDINGS ( IEEE )    525 - 528   2003年  [査読有り]

     概要を見る

    We present a new auditory method to segregate concurrent speech sounds. The system is based on an auditory vocoder developed to resynthesize speech from an auditory Mellin representation using the vocoder STRAIGHT. The quality of the transmitted sound is improved by introducing an event synchronous procedure to estimate glottal pulse times. The auditory representation preserves fine temporal information, unlike conventional window-based processing, which makes it possible to segregate the speech synchronously. The results show that the segregation is good even when the SNR is 0 dB; the extracted target speech was a little distorted but entirely intelligible (like telephone speech), whereas the distracter speech was reduced to a non-speech sound that was not perceptually disturbing. So, this auditory vocoder has potential for speech enhancement in applications such as hearing aids.

    DOI

  • Evaluation of a speech recognition / generation method based on HMM and straight.

    Toshio Irino, Yasuhiro Minami, Tomohiro Nakatani, Minoru Tsuzaki, H. Tagawa

    7th International Conference on Spoken Language Processing, ICSLP2002 - INTERSPEECH 2002, Denver, Colorado, USA, September 16-20, 2002 ( ISCA )    2545 - 2548   2002年09月  [査読有り]

  • Robust fundamental frequency estimation against background noise and spectral distortion.

    Tomohiro Nakatani, Toshio Irino

    7th International Conference on Spoken Language Processing, ICSLP2002 - INTERSPEECH 2002, Denver, Colorado, USA, September 16-20, 2002 ( ISCA )  3   1733 - 1736   2002年09月  [査読有り]

  • Auditory vocoder to playback sound from an auditory Mellin representation,

    Toshio Irino, Roy D. Patterson, Hideki Kawahara

    Dynamics of Speech Production and Perception, NATO Advanced Study Institute , Il Ciocco, Itary, 24 June - 6 July, 2002.     2002年06月  [査読有り]

  • Segregating information about the size and shape of the vocal tract using a time-domain auditory model:The Stabilised Wavelet Mellin Transform

    Toshio Irino, Roy D.Patterson

    Speech Communication   36 ( 3-4 ) 181 - 203   2002年01月  [査読有り]

     概要を見る

    We hear vowels pronounced by men and women as approximately the same although the length of the vocal tract varies considerably from group to group. At the same time, we can identify the speaker group. This suggests that the auditory system can extract and separate information about the size of the vocal-tract from information about its shape. The duration of the impulse response of the vocal tract expands or contracts as the length of the vocal tract increases or decreases. There is a transform, the Mellin transform, that is immune to the effects of time dilation; it maps impulse responses that differ in temporal scale onto a single distribution and encodes the size information separately as a scalar constant. In this paper we investigate the use of the Mellin transform for vowel normalisation. In the auditory system, sounds are initially subjected to a form of wavelet analysis in the cochlea and then, in each frequency channel, the repeating patterns produced by periodic sounds appear to be stabilised by a form of time-interval calculation. The result is like a two-dimensional array of interval histograms and it is referred to as an auditory image. In this paper, we show that there is a two-dimensional form of the Mellin transform that can convert the auditory images of vowel sounds from vocal tracts with different sizes into an invariant Mellin image (MI) and, thereby, facilitate the extraction and separation of the size and shape information associated with a given vowel type. In signal processing terms, the MI of a sound is the Mellin transform of a stabilised wavelet transform of the sound. We suggest that the MI provides a good model of auditory vowel normalisation, and that this provides a good framework for auditory processing from cochlea to cortex. © 2002 Elsevier Science B.V. All rights reserved.

    DOI

  • Auditory VOCODER: Speech resynthesis from an auditory Mellin representation

    T Irino, RD Patterson, H Kawahara

    2002 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOLS I-IV, PROCEEDINGS ( IEEE )  II   1921 - 1924   2002年  [査読有り]

     概要を見る

    We assume that speech morphing, noise suppression, and speech segregation would improve if they were more accurately based on human perception, Accordingly, an Auditory VOCODER was developed to resynthesize speech from an auditory Mellin representation used to explain human perception. The Auditory VOCODER has three modules: an Auditory Mellin Image model [9,10], a STRAIGHT VOCODER [2], and a mapping module consisting of warped-frequency cepstral analysis and nonlinear, multivariate regression analysis (MRA). We describe the modules and an evaluation of the system. Informal listening indicates that the sound quality is reasonable.

    DOI

  • Improvement of an IIR asymmetric compensation gammachirp filter

    Unoki Masashi, Irino Toshio, Patterson Roy D

    Acoustical science and technology ( ACOUSTICAL SOCIETY OF JAPAN )  22 ( 6 ) 426 - 430   2001年11月  [査読有り]

     概要を見る

    An IIR implementation of the gammachirp filter has been proposed to simulate basilar membrane motion efficiently (Irino and Unoki, 1999). A reasonable filter response was provided by a combination of a gammatone filter and an IIR asymmetric compensation (AC) filter. It was noted, probably however, that the rms error was high when the absolute values of the parameters are large, because the coefficients of the IIR-AC filter were selected heuristically. In this report, we show that this is due to the sign inversion of the phase of poles and zeros in the conventional model. We propose a new definition of the IIR-AC filter and we describe a method of systematic determining the optimum coefficients and number of cascade for the second-order filter. This results in a reduction of the error to about 1/3 that produced by the conventional model.

    DOI

  • Sound resynthesis from Auditory Mellin Image using STRAIGHT,

    Toshio Irino, Roy D. Patterson, Hideki Kawahara

    CRAC (Consistent and Reliable Acoustic Cues for sound analysis) workshop , Aalborg, Denmark, 2nd Sept. 2001     2001年09月  [査読有り]

  • A compressive gammachirp auditory filter for both physiological and psychophysical data

    Toshio Irino, Roy D.Patterson

    J.Acoust.Soc.Amer. ( ACOUSTICAL SOC AMER AMER INST PHYSICS )  109 ( 5,Pt.1 ) 2008 - 2022   2001年05月  [査読有り]

     概要を見る

    A gammachirp auditory filter was developed by Irino and Patterson [J. Acoust. Soc. Am. 101, 412-419 (1997)] to provide a level-dependent version of the linear, gammatone auditory filter, with which to explain the level-dependent changes in cochlear filtering observed in psychophysical masking experiments. In this &#039;analytical&#039; gammachirp filter, the chirp varied with level and there was no explicit representation of the change in filter gain or compression with level. Subsequently, Carney et al. [J. Acoust. Soc. Am. 105, 2384-2391 (1999)] reviewed Carney and Yin&#039;s [J. Neurophysiol. 60, 1653-1677 (1988)] reverse-correlation (revcor) data and showed that the frequency glide of the chirp does not vary with level in their data. In this article, the architecture of the analytical gammachirp is reviewed with respect to cochlear physiology and a new form of gammachirp filter is described in which the magnitude response, the gain, and the compression vary with level but the chirp does not. This new &#039;compressive&#039; gammachirp filter is used to fit the level-dependent revcor data reported by Carney et al. (1999) and the level-dependent masking data reported by Rosen and Baker [Hear. Res. 73, 231-243 (1994)] . © 2001 Acoustical Society of America.

    DOI

  • 解説記事 トピックス1 聴覚フィルタ/蝸牛の周波数分析機能

    入野 俊夫

    日本音響学会誌 ( 一般社団法人日本音響学会 )  57 ( 1 ) 56 - 56   2001年01月  [招待有り]

  • An analysis/synthesis auditory filterbank based on an IIR gammachirp filter

    T Irino, M Unoki

    COMPUTATIONAL MODELS OF AUDITORY FUNCTION ( I O S PRESS )  312   49 - 64   2001年  [査読有り]

  • 調波成分の瞬時周波数を用いた基本周波数推定方法(音声情報処理 : 現状と将来技術論文特集)

    阿竹義徳, 入野俊夫, 河原英紀, 陸金林, 中村哲, 鹿野清宏

    電子情報通信学会論文誌. D-II, 情報・システム, II-パターン処理 ( 社団法人電子情報通信学会 )  83 ( 11 ) 2077 - 2086   2000年11月  [査読有り]

     概要を見る

    河原らにより開発されたSTRAIGHTは, VOCODER型分析合成方式であるにもかかわらず, 原音に迫る高い自然性をもった分析合成音を得ることが可能である.しかし, 耐雑音性が低く, 雑音環境下では合成音声の品質が大きく劣化するという弱点があった.それは, STRAIGHTが処理の各段階に基本周期にした処理を積極的に利用していて, 雑音により推定された基本周波数が誤差を含んだ場合, その影響を大きく受けることが原因と考えられる.そこで本論文では, その欠点を克服するために耐雑音性の高い基本周波数推定方法を提案する.このため, 従来のTEMPO法で用いられてきた基本波成分だけではなく, その調波成分も利用し, Cohenの帯域幅方程式を用いて統合する新しい方法を提案する.また, 提案手法の性能の評価のために, 音声データとEGGデータを同時収録したデータベースを作成した.これを用いて提案法及びTEMPO法などの従来法と推定精度の比較をした結果, 提案法は他の従来法に比べて無雑音では同等以上で, 雑音付加時の推定精度は大幅に改善されることがわかった.

  • 解説記事 音源の形状情報と寸法情報を分離する聴覚でのイメージング

    入野 俊夫

    日本音響学会誌 ( 一般社団法人日本音響学会 )  56 ( 7 ) 505 - 508   2000年07月  [招待有り]

    DOI

  • 解説記事 聴覚イメージ:複雑な音が聴覚システムでいかに表現されるか

    パターソン ロイ D, 入野 俊夫

    日本音響学会誌 ( 一般社団法人日本音響学会 )  56 ( 7 ) 503 - 504   2000年07月  [招待有り]

    DOI

  • Mellin images of vowel sounds and the phonological distinctiveness of multi-formant vowels

    RD Patterson, S Uppenkamp, T Irino

    BRITISH JOURNAL OF AUDIOLOGY ( WHURR PUBLISHERS LTD )  34 ( 2 ) 118 - 118   2000年04月  [査読有り]

  • Robust fundamental frequency estimation using instantaneous frequencies of harmonic components

    Yoshinori Atake, Toshio Irino, Toshio Irino, Hideki Kawahara, Hideki Kawahara, Hideki Kawahara, Jinlin Lu, Satoshi Nakamura, Kiyohiro Shikano

    6th International Conference on Spoken Language Processing, ICSLP 2000   2   907 - 910   2000年01月

     概要を見る

    This paper proposes a noise-tolerant method for fundamental frequency (F0) extraction. This method includes several new ideas, including the estimation of the instantaneous frequencies of the higher harmonic components, and the design of an adaptive weighting function based on a bandwidth equation that combines the F0 information in the harmonic components. To evaluate the proposed method, we constructed a relatively large database of simultaneous recordings of speech waveforms and EGG (Electro Glotto Graphy). The database consists of 30 sentences pronounced by 14 male and 14 female normal subjects, i.e., 840 sentences in total. The duration of the sound is about 35 minutes including about 20 minutes of voicing. The experiments were performed with additive noise for four pitch extraction methods, i.e., the proposed method, the original TEMPO, an improved cepstrum method, and a common F0 extraction program in ESPS. The results were as follows: 1) the proposed method is always better than any of the other methods when the SNR is greater than about 2 dB; 2) for high SNR values (&gt; 15 dB), the correct rates of the proposed method and the original TEMPO are about 95% and much better than the improved cepstrum method (92%) and the ESPS function (89%); and 3) all of the methods degrade to less than 62% when the SNR is 0 dB. As a result, the proposed method improves the performance for low SNR values and also maintains high accuracy inherent from the original TEMPO for high SNR values.

  • A gammachirp perspective of cochlear mechanics that can also explain human auditory masking quantitatively

    T Irino, RD Patterson

    PROCEEDINGS OF THE INTERNATIONAL SYMPOSIUM ON RECENT DEVELOPMENTS IN AUDITORY MECHANICS ( WORLD SCIENTIFIC PUBL CO PTE LTD )    230 - 236   2000年  [査読有り]

     概要を見る

    Recently, the gammachirp function was proposed as an auditory filter for explaining psychoacoustical masking data [7]. It can also account for some basic physiological observations such as the frequency glide in basilar membrane motion (BMM), but it cannot readily account for other observations such as the nonlinear compressive relationship between signal level and BMM. In this paper, the gammachirp filter is extended to include an extra stage of filtering as suggested by the NonLinear Resonant Tectorial Membrane (NL-RTM) hypothesis [1,2]. The extra filter was initially proposed for an IIR implementation of the gammachirp [8]. The new gammachirp filter provides excellent fits to human masking data, and it enables us to unify physiological and psychoacoustical data within a common modelling framework.

  • An analysis/synthesis auditory filterbank based on an llR implementation of the gammachirp"

    Toshio Irino, Masashi Unoki

    J.Acoust.Soc.Japan(E) ( Acoustical Society of Japan )  20 ( 6 ) 397 - 406   1999年11月  [査読有り]

     概要を見る

    This paper proposes a new auditory filterbank that enables signal resynthesis from dynamic representations produced by a level-dependent auditory filterbank. The filterbank is based on a new IIR implementation of the gammachirp, which has been shown to be an excellent candidate for asymmetric, level-dependent auditory filters. Initially, the gammachirp filter is shown to be decomposed into a combination of a gammatone filter and an asymmetric function. The asymmetric function is excellently simulated with a minimum-phase IIR filter, named the `asymmetric compensation filter&#039;. Then, two filterbank structures are presented each based on the combination of a gammatone filterbank and a bank of asymmetric compensation filters controlled by a signal level estimation mechanism. The inverse filter of the asymmetric compensation filter is always stable because the minimum-phase condition is satisfied. When a bank of inverse filters is utilized after the gammachirp analysis filterbank and the idea of wavelet transform is applied, it is possible to resynthesize signals with small time-invariant errors and achieve a guaranteed precision. This feature has never been accomplished by conventional active auditory filterbanks. The proposed analysis/synthesis gammachirp filterbank is expected to be useful in various applications where human auditory filtering has to be modeled.

    DOI

  • Stabilised wavelet mellin transform: an auditory strategy for normalising sound-source size.

    Toshio Irino,Roy D. Patterson

    Sixth European Conference on Speech Communication and Technology, EUROSPEECH 1999, Budapest, Hungary, September 5-9, 1999 ( ISCA )    1899 - 1902   1999年09月  [査読有り]

  • Extracting size and shape information of sound source in an optimal auditory processing model,

    Toshio Irino, Roy D. Patterson

    Workshop on Computational Auditory Scene Analysis (CASA), International Joint Conference on Artificial Intelligence (IJCAI'99) , Stockholm, Sweden, 1st August 1999.     1999年08月  [査読有り]

  • Noise suppression using a time-varying, analysis/synthesis gammachirp filterbank

    T Irino

    ICASSP '99: 1999 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, PROCEEDINGS VOLS I-VI ( IEEE )    97 - 100   1999年  [査読有り]

     概要を見る

    Spectral subtraction has been cited most often as a noise suppression method for speech signals in steady background noise, because it is basically a non-parametric method and simple enough to implement for various applications using FFT. It has also been well known, however, that spectral subtraction produces so called "musical noise" in synthetic sounds. Since such musical noise, even at low levels, can often bother humans in speech perception, spectral subtraction has not been very successful in signal processing applications for human listeners. To suppress noise without producing musical noise, an alternative method has been developed using a time-varying, analysis/synthesis gammachirp filterbank; this was initially proposed as an auditory filterbank. The present method achieves about the same SNR improvement as spectral subtraction when using the same information on the non-speech interval. Moreover, the synthetic sounds only contain steady white-like noise at reduced levels when the original noise is white. This method is, therefore, advantageous in various applications for human listeners.

    DOI

  • Modeling temporal asymmetry in the auditory system

    RD Patterson, T Irino

    JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA ( ACOUSTICAL SOC AMER AMER INST PHYSICS )  104 ( 5 ) 2967 - 2979   1998年11月  [査読有り]

     概要を見る

    Sound sources in the environment produce waves that are almost invariably asymmetric in time, and human listeners are highly sensitive to temporal asymmetry. The spectral analysis and neural transduction processes in the cochlea enhance temporal asymmetry, as do time-domain models of cochlear processes, but it appears that the resulting asymmetry is not sufficient to explain the observed perceptual asymmetry. In the auditory image model (AIM) of hearing, the temporal asymmetry in the neural activity produced by the cochlea is further enhanced by the "strobed" temporal integration that converts the neural activity pattern into an auditory image, and the temporal asymmetry in the auditory image is sufficient to explain the perceptual asymmetry. Modern versions of the "duplex model" of pitch have time-domain cochlea simulations that produce neural activity with temporal asymmetry similar to that produced by AIM. In the final stage, however, they apply autocorrelation to the neural pattern and autocorrelation is a symmetric process in time. In this paper the effect of autocorrelation on temporal asymmetry is examined in a range of auditory models with varying forms of auditory filterbank, compression, and neural transduction. It is concluded that autocorrelation does not enhance temporal asymmetry and often reduces it, and that autocorrelogram models cannot explain the magnitude of the perceptual asymmetry in their current form. Then, the original version of strobed-temporal-integration is reviewed with regard to temporal asymmetry, and the delta-gamma theory of temporal asymmetry [Irino and Patterson, J. Acoust. Soc. Am. 99, 2316-2331 (1996)] is used to develop a new version of strobed-temporal-integration that is more robust and physiologically more plausible. (C) 1998 Acoustical Society of America. [S0001-4966(98)05711-7]

    DOI

  • A time-varying analysis/synthesis auditory filterbank based on an IIR gammachirp filter

    Toshio Irino, Masashi Unoki

    NATO Advanced Study Institute, Computational Hearing     205 - 210   1998年07月  [査読有り]

     概要を見る

    Il Ciocco (Tuscany), Italy, July 1 - July 12, 1998.

  • The gammachirp for optimal auditory filtering

    T Irino, RD Patterson

    ICONIP'98: THE FIFTH INTERNATIONAL CONFERENCE ON NEURAL INFORMATION PROCESSING JOINTLY WITH JNNS'98: THE 1998 ANNUAL CONFERENCE OF THE JAPANESE NEURAL NETWORK SOCIETY - PROCEEDINGS, VOLS 1-3 ( OHMSHA LTD )    1322 - 1326   1998年  [査読有り]

     概要を見る

    This paper reviews the "gammachirp" auditory filter based on physical theory and supported by psychoacoustical 'and physiological observations. Various studies have demonstrated that the auditory filter cannot be simulated by the Gabor function that is well-known as an optimal function in terms of minimal uncertainty in a time-frequency representation. This seems to suggest that the auditory system is non-optimal. However, for a time-scale representation, the function minimizing uncertainty is the gammachirp. With a frequency-modulation term. the gammachirp is an extension of the gammatone filter that is often used in functional auditory filterbanks. The gammachirp is found to provide an excellent tit to human masking data that show level-dependent asymmetry in the frequency characteristic. Moreover, it is consistent with recent physiological observations of the frequency-modulation in the impulse response of the basilar membrane.

  • A time-varying, analysis/synthesis auditory filterbank using the gammachirp

    T Irino, M Unoki

    PROCEEDINGS OF THE 1998 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING, VOLS 1-6 ( IEEE )  VI   3653 - 3656   1998年  [査読有り]

     概要を見る

    A time-varying, analysis/synthesis auditory filterbank has been developed using a new implementation of the "gammachirp", which has been shown to be an excellent function for the asymmetric, level-dependent auditory filter. The gammachirp filter is shown to be implemented through a combination of a gammatone filter and an IIR asymmetric compensation filter; which largely reduces the computational cost for time-varying filtering. The gammachirp filterbank is designed using a linear gammatone filterbank and a bank of time-varying asymmetric compensation filters controlled by the sound pressure level estimated at the output of the filterbank. Since the inverse filter of the asymmetric compensation filter is always stable, it is possible to resynthesize signals from time-varying, level-dependent auditory representations. The resynthesis error is only determined by the linear analysis/synthesis gammatone filterbank. The proposed filterbank is applicable to various types of signal processing required to model human auditory filtering.

    DOI

  • A time-domain,leve-dependent auditory filter:the gammachirp

    Toshio Irino, Roy D.Patterson

    J.Acoust.Soc.Amer. ( ACOUSTICAL SOC AMER AMER INST PHYSICS )  101 ( 1 ) 412 - 419   1997年01月  [査読有り]

     概要を見る

    A frequency modulation term has been added to the gammatone auditory filter to produce a filter with an asymmetric amplitude spectrum. When the degree of asymmetry in this &#039;gammachirp&#039; auditory tiller is associated with stimulus level, the gammachirp is found to provide an excellent fit to 12 sets of notched-noise masking data from three different studies. The gammachirp has a well-defined impulse response, unlike the conventional roex auditory filter, and so it is an excellent candidate for an asymmetric, level-dependent auditory filterbank in time-domain models of auditory processing.

    DOI

  • Temporal asymmetry in the auditory system

    T Irino, RD Patterson

    JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA ( ACOUSTICAL SOC AMER AMER INST PHYSICS )  99 ( 4 ) 2316 - 2331   1996年04月  [査読有り]

     概要を見る

    When a damped exponential with a half-life of 4-8 ms is repeated every 25-50 ms and used to modulate a sinusoid or a wideband noise, it suppresses the sound quality typically associated with the carrier. When the envelopes of these ''damped'' sounds are reversed in time, producing ''ramped'' sounds, a continuous component with the sound quality of the carrier is restored to the perception. This paper presents an experiment that measures the temporal asymmetry revealed by this perceptual contrast. A ramped sinusoid or noise with a given half-life was presented with a damped sinusoid or noise having the same or greater half-life, to determine the damped half-life required to produce a continuous component with the equivalent relative strength in the two sounds. The results with sinusoidal carriers show that the half-life of the damped sound has to be, on average, about five times the half-life of the ramped sound if the tonal component of the two perceptions is to have the same relative strength. The asymmetry for the noise carrier is about half that of the sinusoidal carrier and, again, the damped sound has the greater matching half-life. Several multichannel auditory models based on a gammatone filterbank are used to try to explain the data in terms of traditional leaky integration, but they produce neither sufficient asymmetry nor the correct pattern of asymmetry. A ''delta-gamma'' theory is then developed to provide a framework for understanding temporal asymmetry in the auditory system. The theory is used to compare the temporal asymmetry produced by several auditory models and to explain when and how they can accommodate the perceptual asymmetry observed in the experiments. (C) 1996 Acoustical Society of America.

    DOI

  • A 'gammachirp' function as an optimal auditory filter with the Mellin transform

    Toshio, I

    1996 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, CONFERENCE PROCEEDINGS, VOLS 1-6 ( IEEE )  II   981 - 984   1996年  [査読有り]

     概要を見る

    Atlanta, Georgia, May 7-10, 1996.

    DOI

  • An Optimal Auditory Filter,

    Toshio Irino

    IEEE SP 1995 Workshop on Applications of Signal Processing to Audio and Acoustics , IEEE Signal Processing Society, Mohonk, New Paltz, NY, October 15-18, 1995.     1995年10月  [査読有り]

  • A theory of asymmetric intensity enhancement around acoustic transients.

    Toshio Irino,Roy D. Patterson

    The 3rd International Conference on Spoken Language Processing, ICSLP 1994, Yokohama, Japan, September 18-22, 1994 ( ISCA )  4   1955 - 1958   1994年09月  [査読有り]

  • SIGNAL RECONSTRUCTION FROM MODIFIED AUDITORY WAVELET TRANSFORM

    T IRINO, H KAWAHARA

    IEEE TRANSACTIONS ON SIGNAL PROCESSING ( IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC )  41 ( 12 ) 3549 - 3554   1993年12月  [査読有り]

     概要を見る

    We propose a new method for signal modification in auditory peripheral representation: an auditory wavelet transform and algorithms for reconstructing a signal from a modified wavelet transform. We present the characteristics of signal analysis, synthesis, and reconstruction and also the data reduction criteria for signal modification.

    DOI

  • SIGNAL RECONSTRUCTION FROM MODIFIED WAVELET TRANSFORM - AN APPLICATION TO AUDITORY SIGNAL-PROCESSING

    T IRINO, H KAWAHARA

    ICASSP-92 - 1992 INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING, VOLS 1-5 ( I E E E )  1   A85 - A88   1992年  [査読有り]

     概要を見る

    © 1992 IEEE. A new method of signal reconstruction from a modified auditory representation is presented. This consists of four parts: 1) an algorithm to reconstruct a signal from its modified wavelet transform with a general wavelet; 2) obtaining an auditory representation using an auditory wavelet transform whose analyzing wavelet is the impulse response of an auditory peripheral model; 3) estimating the reconstruction algorithm both with and without data reduction; 4) an example of its application to the time-scale modification of speech. This wavelet reconstruction algorithm is the counterpart of the signal reconstruction algorithm which uses the short-time Fourier transform. High-quality speech successfully generated by time-scale modification shows that the reconstruction method is suitable for various applications as well as making experimental auditory stimuli.

    DOI

  • A method for designing neural networks using nonlinear multivariate analysis—application to speaker‐independent vowel recognition

    Toshio Irino, Hideki Kawahara

    Systems and Computers in Japan   21 ( 9 ) 80 - 88   1990年01月  [査読有り]

     概要を見る

    This paper proposes a method of constructing a multilayered neural network, using the multiple logistic model (MLM). The model is a nonlinear multivariate analysis considering the output logistic function of each unit, which is used in the back‐propagation method (BP). The idea can be applied directly to the determination of the multilayered neural network structure. The model can also be utilized as a systematic method to introduce such information as pattern distribution into the neural network structure. Considering the speaker‐independent vowel recognition as the problem, this paper compares the results by the proposed method (MLM), the construction by the linear multiple regression analysis (MRA), the learning by BP with the weight being defined at random as the initial value, and the learning by BP with the initial weight determined by MLM or MRA. It is seen as a result that the recognition rate is the best when BP is applied after introducing the speaker distribution information by the proposed method. It is seen also that the computation time is reduced compared with the BP, with the initial weight being defined at random. Copyright © 1990 Wiley Periodicals, Inc., A Wiley Company

    DOI

  • A Method for Designing Neural Networks Using Nonlinear Multivariate Analysis: Application to Speaker-Independent Vowel Recognition.

    Toshio Irino, Hideki Kawahara

    Neural Computation   2 ( 3 ) 386 - 397   1990年  [査読有り]

    DOI

  • 多層神経回路網の非線形多変量解析による構成法--不特定話者母音認識への適用 (新しい音声処理技術特集)

    入野 俊夫, 河原 英紀

    電子情報通信学会論文誌 D-2 情報・システム ( 電子情報通信学会情報・システムソサイエティ )  72 ( 8 ) p1187 - 1193   1989年08月

  • Theoretical analysis of Stoneley waves propagating along an interface between two substrates of the same piezoelectric material

    Toshio Irino, Yasutaka Shimizu

    Electronics and Communications in Japan, Part III: Fundamental Electronic Science (English translation of Denshi Tsushin Gakkai Ronbunshi)   72   1 - 12   1989年04月  [査読有り]

     概要を見る

    A theoretical investigation of Stoneley waves propagating along an interface between two substrates of the same piezoelectric material is presented. A method of determining the upper cutoff velocity of Stonely waves is described Stoneley waves can also occur in trigonal LiNbO 3 and LiTaO 3 and also with one of the substrates turned over, even without a short-circuit plate. The degree of energy concentration, velocity and the electromechanical coupling coefficient k 2 of Stoneley waves in LiNbO 3 are calculated for various cuts and propagation velocities. The occurrence or nonoccurrence of Stoneley waves when two substrates of different cuts are joined and when two substrates of the same cut are joined with different orientations in the plane is investigated.

  • OPTIMIZED STONELEY WAVE DEVICE BY PROPER CHOICE OF GLASS OVERCOAT

    T IRINO, Y SHIMIZU

    IEEE TRANSACTIONS ON ULTRASONICS FERROELECTRICS AND FREQUENCY CONTROL ( IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC )  36 ( 2 ) 159 - 167   1989年03月  [査読有り]

     概要を見る

    The characteristics of Stoneley wave propagated along an interface between a piezoelectric material and an isotropic material were investigated both theoretically and experimentally. First, the condition for existence of Stoneley waves was shown for various piezoelectric materials. A rule of thumb for selecting the combination of the two materials was obtained. Then, LiTa03 was selected for a piezoelectric material and Si02 was selected for an isotropic material. After the calculation of the Stoneley wave characteristics, actual devices were fabricated and measured. The experimental results were found to be in good agreement with the theory; zero slope temperature (TCD = 0) and high electromechanical coupling coefficient (K2 = 1.5 percent) were obtained for Stoneley wave propagation between Si02/X-148° LiTa03. As a result, future surface-acoustic-wave (SAW) devices can be made without any package. © 1989 IEEE

    DOI

  • Propagation of Boundary Acoustic Waves Along a ZnO Layer between Two Materials

    Toshio Irino, Yoshimasa Shirosaki, Yasutaka Shimizu

    IEEE Transactions on Ultrasonics, Ferroelectrics, and Frequency Control ( IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC )  35 ( 6 ) 701 - 707   1988年11月

     概要を見る

    Theoretical and experimental results on boundary acoustic waves (BAW) propagated along a ZnO layer sandwiched between two materials are presented. The dispersion curve of the propagation velocity, the electromechanical coupling coefficient (K2) and the displacements were obtained theoretically as a function of the normalized thickness of the ZnO layer. The temperature coefficients of delay time (TCD) were also calculated and become zero at a particular thickness. Boundary acoustic waves can exist only when the material constants of three materials satisfy the particular conditions obtained in the work. The existence regions are larger than those of the Stoneley waves the authors presented elsewhere. Experiments on SiO2/Zn0/SiO2 were also performed to verify the theoretical prediction of the existence of boundary waves. A ZnO film and a thick SiO2 layer were fabricated on a fused quartz substrate by a sputtering technique. Then the boundary waves were excited and received by interdigital transducers and propagated along the ZnO layer. Propagation loss was practically the same value as for Rayleigh waves, indicating a proper mode of the system. These results lead us to expect that future SAW devices can be made without any package. © 1988 IEEE

    DOI

  • Vowel-feature extraction from cochlear vibration using neural networks.

    Toshio Irino, Hideki Kawahara

    Neural Networks   1 ( Supplement-1 ) 300 - 301   1988年09月  [査読有り]

     概要を見る

    First annual conference of International Neural Network Society (INNS), Boston, Sept. 1988.

    DOI

  • Propagation of boundary acoustic waves along a ZnO layer between two materials

    Toshio Irino, Yoshimasa Shirosaki, Yasutaka Shimizu

    Electronics and Communications in Japan (Part II: Electronics)   71 ( 5 ) 1 - 12   1988年01月  [査読有り]

     概要を見る

    This paper describes the theoretical and experimental results on the propagation of boundary acoustic waves along a ZnO layer between two materials. It was proven theoretically that the boundary acoustic waves propagate in SiO 2 /ZnO/SiO 2 , SiO 2 /ZnO/PYREX and SiO 2 /ZnO/(Z – X)Si structures. The propagation velocity, electromechanical coupling coefficient K 2 , and the concentration of energy to the mid‐layer were calculated as a function of the ZnO film thickness. The thermal coefficient of delay time TCD was also calculated for the SiO 2 /ZnO/SiO 2 and SiO 2 /ZnO/(Z – X)Si structures, showing that a certain ZnO film thickness provides zero TCD. Next, requirements of a glass substrate for propagation of boundary acoustic waves along the ZnO film sandwiched by SiO 2 and glass substrate or glass film and glass substrate is discussed. As a result, as the thickness of the ZnO film and the second velocity increase, the boundary acoustic wave has a better chance to exist. Finally, the device with SiO 2 /ZnO/SiO 2 structure was actually fabricated and it was confirmed that the boundary acoustic wave was excited and propagated in the device. If the Rayleigh wave characteristic is taken into account, the experimental and theoretical results agree. Copyright © 1988 Wiley Periodicals, Inc., A Wiley Company

    DOI

  • Zero slope tempartures SiO<inf>2</inf>/LiTaO<inf>3</inf> structure substrate for stoneley waves

    Toshio Irino, Yasutaka Shimizu, Takaya Watanabe

    Electronics and Communications in Japan (Part II: Electronics)   71 ( 6 ) 55 - 62   1988年01月  [査読有り]

     概要を見る

    A theoretical and experimental study has been conducted on Stoneley waves propagating along the interface between LiTaO 3 and SiO 2 . First, it is shown that Stoneley waves can exist for specific cuts and propagation directions. The velocity, electromechanical coupling coefficient, energy concentration, delay time temperature coefficient, and delay time temperature characteristics are calculated. In an SiO 2 /X‐148°Y LiTaO 3 structure, a zero temperature coefficient which is not available for a Rayleigh wave on an LiTaO 3 substrate has been realized. In addition, the electromechanical coupling coefficient is larger. Next, a device of this structure has been fabricated. It is confirmed that Stoneley waves can be excited and received by interdigital electrodes. The characteristics observed have been found to agree well with the theoretical predictions. Also, a zero temperature coefficient is obtained with an SiO 2 /X‐148.5°Y LiTaO 3 structure and the quadratic temperature coefficient is about the same as in an ST cut quartz Rayleigh wave substrate. Copyright © 1988 Wiley Periodicals, Inc., A Wiley Company

    DOI

  • Zero slope temperature sic/sio<inf>2</inf>/litao<inf>3</inf>substrate for boundary acoustic waves

    Toshio Irino, Takaya Watanabe, Yasutaka Shimizu

    Japanese Journal of Applied Physics ( JAPAN J APPLIED PHYSICS )  27-1   154 - 156   1988年01月  [査読有り]

     概要を見る

    Zero slope temperature SiO 2 /X-148ºY LiTaO 3 substrate has been proposed for use in packageless SAW devices. However, the SiO 2 film is required to be about three times the wavelength and, therefore, is easily removed by temperature variation. In this paper, SiC overcoat on SiO 2 to reduce the film thickness is proposed. The calculated energy concentration to the middle layer is better than the two media structure. The experimental result agreed with the theory and zero slope temperature was obtained when the total thickness of SiC and SiO 2 was about 2.5 times the wavelength. © 1988 The Japan Society of Applied Physics.

    DOI

  • ZERO SLOPE TEMPERATURE SIO//2/LITAO//3 STRUCTURE SUBSTRATE FOR STONELEY WAVES.

    Toshio Irino, Takaya Watanabe, Yasutaka Shimizu

    Ultrasonics Symposium Proceedings     257 - 260   1987年12月  [査読有り]

     概要を見る

    Theoretical and experimental results on Stoneley waves along an interface between LiTaO//3 and SiO//2 are presented. Stoneley waves can exist only when the material constants of a piezoelectric material and an isotropic material satisfy particular conditions. After the cut angle and propagation direction of LiTaO//3 with SiO//2 were determined from the calculated characteristics, an experiment was performed showing the measured values to be in good agreement with the theory. Zero slope temperature (TCD equals 0) and higher coupling coefficient (K**2 equals 1. 5%) were obtained with Stoneley waves in the SiO//2/X-148 degree Y LiTaO//3 structure. These results indicate that future SAW devices could be made without package.

  • 零温度係数をもつSiO2/LiTaO3構造ストンリ-波基板

    入野 俊夫, 渡辺 隆弥, 清水 康敬

    電子情報通信学会論文誌 C エレクトロニクス ( 電子情報通信学会 )  70 ( 7 ) p1070 - 1075   1987年07月  [査読有り]

  • PROPAGATION OF BOUNDARY ACOUSTIC-WAVES ALONG A ZNO LAYER BETWEEN 2 MATERIALS

    T IRINO, Y SHIROSAKI, Y SHIMIZU

    IEEE TRANSACTIONS ON ULTRASONICS FERROELECTRICS AND FREQUENCY CONTROL ( IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC )  34 ( 3 ) 390 - 390   1987年05月  [査読有り]

  • ZnOを中間層に持つ3媒質構造中に伝搬する弾性境界波の検討

    入野 俊夫, 白崎 良昌, 清水 康敬

    電子情報通信学会論文誌 C エレクトロニクス ( 電子情報通信学会 )  70 ( 1 ) p59 - 68   1987年01月  [査読有り]

  • PROPAGATION OF BOUNDARY ACOUSTIC WAVES ALONG A ZnO LAYER BETWEEN TWO MATERIALS.

    Toshio Irino, Yoshimasa Shirosaki, Yasutaka Shimizu

    Ultrasonics Symposium Proceedings     195 - 200   1986年12月  [査読有り]

     概要を見る

    Theoretical and experimental results are presented for boundary acoustic waves propagated along a ZnO layer sandwiched between two materials. The dispersion curve of the propagation velocity, the electromechanical coupling coefficient and the displacements were obtained theoretically as a function of the normalized thickness of the ZnO layer. The temperature coefficients of delay time were also calculated and found to become zero at a particular thickness. Boundary acoustic waves can exist only when the material constants of three materials satisfy the particular conditions obtained here. Experiments on SiO//2/ZnO/SiO//2 were also performed to verify theoretical prediction of the existence of boundary waves. Propagation loss was practically the same value as for Rayleigh waves.

  • 同一圧電体を接合した境界面に伝搬するストンリー波の理論的検討

    入野俊夫, 清水康敬

    電子通信学会論文誌 A ( 電子通信学会 )  69 ( 9 ) 1144 - 1153   1986年09月  [査読有り]

  • Acoustic boundary waves propagating along a thin layer between two bonded substrates

    Toshio Irino, Yasutaka Shimizu

    Japanese Journal of Applied Physics   25 ( 1 ) 130 - 132   1986年01月  [査読有り]

     概要を見る

    The characteristics of boundary waves propagating along a thin layer between two bonded substrates were investigated both theoretically and experimentally. The structures are PZT/ADHESIVE/PZT and PZT/ADHESIVE/GLASS. It was found that the propagation loss of the devices is greater than theoretical results because of a non-uniform adhesive layer. Therefore, the two substrates must be carefully and accurately bonded to decrease the propagation loss. © 1986 The Japan Society of Applied Physics.

    DOI

  • Theoretical analysis of stoneley waves propagating along an interface between piezoelectric material and isotropic material

    Toshio Irino, Yasutaka Shimizu

    Electronics and Communications in Japan (Part II: Electronics)   68 ( 3 ) 29 - 36   1985年01月  [査読有り]

     概要を見る

    Conventional surface acoustic wave (SAW) devices mainly use Rayleigh waves that propagate on the substrate surface. Therefore, they require protective packaging and are expensive as well as unreliable. This paper reports an effort to develop SAW devices that do not require packaging. To this end we study the Stoneley waves propagating along the interface between the piezoelectric and isotropic materials. A range of material constants of isotropic materials is obtained which allows the Stoneley wave if combined with piezoelectric materials with various cuts and propagation directions. We obtain the relation of the allowable range to the maximum velocity of the Stoneley wave and the velocity of the Rayleigh wave. It is found that the Stoneley wave can be supported with a combination of glass and LiTaO 3 , PZT 4 and ZnO. It is not possible to concentrate the energy near the interface if LiNbO 3 and Bi 12 GeO 20 are used. Copyright © 1985 Wiley Periodicals, Inc., A Wiley Company

    DOI

  • STONELEY WAVES PROPAGATING ALONG AN INTERFACE BETWEEN PIEZOELECTRIC MATERIAL AND GLASS

    Y SHIMIZU, T IRINO

    IEEE TRANSACTIONS ON SONICS AND ULTRASONICS ( IEEE-INST ELECTRICAL ELECTRONICS ENGINEERS INC )  32 ( 1 ) 105 - 105   1985年  [査読有り]

  • 圧電体と等方体の境界面を伝搬するStoneley波の理論的検討

    入野俊夫, 清水康敬

    電子通信学会論文誌 C ( 電子通信学会 )  67 ( 10 ) 727 - 732   1984年10月  [査読有り]

  • STONELEY WAVES PROPAGATING ALONG AN INTERFACE BETWEEN PIEZOELECTRIC MATERIAL AND ISOTROPIC MATERIAL.

    Yasutaka Shimizu, Toshio Irino

    Ultrasonics Symposium Proceedings   1   373 - 376   1983年12月  [査読有り]

     概要を見る

    IEEE Ultrasonics Symposium, Atlanta, GA, Nov, 1983.

  • Stoneley Waves Propagating along an Interface between Piezoelectric Material and Glass : Surface Acoustic Waves and Devices

    SHIMIZU Yasutaka, IRINO Toshio

    Japanese journal of applied physics. Supplement ( 社団法人応用物理学会 )  22 ( 3 ) 145 - 147   1983年07月  [査読有り]

  • ZnOとガラスの境界面を伝搬するストンリー波の理論的検討

    清水康敬, 入野俊夫

    電子通信学会論文誌 C ( 電子通信学会 )  65 ( 11 ) 883 - 890   1982年11月  [査読有り]

  • The theoretical analysis of stoneley waves propagating along an interface between Zno and glass

    Yasutaka Shimizu, Toshio Irino

    Electronics and Communications in Japan (Part I: Communications)   65 ( 11 ) 108 - 117   1982年01月  [査読有り]

     概要を見る

    Conventional surface acoustic wave devices mainly use a Rayleigh wave, propagating along the surface of the substrate. Therefore, they require packaging. How—ever, the cost of packaging is high. Also, if the packaging quality is poor, water drops accumulate on the substrate surface at low temperature and the device may malfunction. This paper describes devices that do not require packaging and examine Stoneley waves, propagating along the interface between a piezoelectric ZnO layer, which can excite a surface wave, and a glass layer, in which material constants can be changed relatively easily. We find the range of the material constants of the glass which, in combination with ZnO, can generate Stoneley waves. We obtain the velocity, electromechanical coupling coefficient and energy concentration at the interface within this range. The effect of the material constants on these parameters is also considered. It is found that there are glasses that support Stoneley waves and others that do not. Copyright © 1982 Wiley Periodicals, Inc., A Wiley Company

    DOI

▼全件表示

書籍等出版物

  • 聴覚 (音響学講座 5 )

    古川 茂人, 堀川 順生, 入野 俊夫, 鈴木 陽一, 飯田 一博, 津崎 実, 柏野 牧夫, 小澤 賢司, 森 周司, 北川 智利, 日高 聡太, 坂田 俊文, 白石 君男( 担当: 共著,  担当範囲: 第2章 周波数分析機能)

    コロナ社  2021年03月 

  • 人工知能学大辞典

    人工知能学会編( 担当: 共著,  担当範囲: 入野俊夫 "聴覚系のモデル,")

    共立出版  2017年07月  ISBN: 9784320124202

  • Perspectives on Auditory Research

    A. N. Popper, R. R. Fay( 担当: 共著,  担当範囲: Roy D. Patterson and Toshio Irino, "Size Matters in Hearing: How the Auditory System Normalizes the Sounds of Speech and Music for Source Size,")

    Springer  2014年  ISBN: 9781461491019

     概要を見る

    Springer Handbook of Auditory Research Vol. 50

  • 聴覚モデル

    森 周司, 香田 徹, 日比野 浩, 任 書晃, 倉智 嘉久, 入野 俊夫, 鵜木 祐史, 鈴木 陽一, 牧 勝弘, 津崎 実( 担当: 共著,  担当範囲: 第4章"聴覚フィルタの心理物理実験とモデル," 第7章"シミュレータによる内部表現と特徴量,")

    コロナ社  2011年  ISBN: 9784339013238

     概要を見る

    日本音響学会編 音響サイエンスシリーズ

  • Neurophysiological Bases of Auditory Perception

    Enrique A. Lopez-Poveda, Alan R. Palmer, Ray Meddis( 担当: 共著,  担当範囲: Toshio Irino, Yoshie Aoki, Hideki Kawahara, and Roy D. Patterson, "Size Perception for acoustically scaled sounds of naturally pronounced and whispered words,")

    Springer, LaVergne, TN USA  2010年04月  ISBN: 9781441956859

  • Computer Processing of Asian Spoken Languages

    Shuichi Itahashi, Chiu-yu Tseng( 担当: 共著,  担当範囲: Hideki Kawahara, Masanori Morise, Toru Takahashi, Ryuich Nishimura, Hideki Banno, Toshio Irino, "STRAIGHT, a framework for speech analysis, modification and synthesis,")

    Consideration Books, Los Angeles, USA  2010年03月  ISBN: 9780935047721

  • 現代数理科学辞典(第2版)

    広中平祐, 他( 担当: 共著,  担当範囲: 入野俊夫, 河原英紀, "聴覚認知過程の数理,")

    丸善, 東京  2009年12月  ISBN: 9784621081259

  • 新編感覚知覚心理学ハンドブック Part 2 (分担:"聴覚初期過程の機能モデル")

    大山正, 今井省吾, 和氣典二, 菊池正 編( 担当: 共著,  担当範囲: 入野俊夫, 津崎実 第III部聴覚 "聴覚初期過程の機能モデル,")

    誠信書房  2007年09月  ISBN: 9784414305043

  • The Dynamics of Speech Production and Perception (分担:"Vowel normalisation: Time-domain processing of the internal dynamics of speech,"

    Pierre Divenyi, Steven Greenberg, George Meyer( 担当: 共著,  担当範囲: Richard E. Turner, Marc A. Al-Hames, David R. R. Smith, Hideki Kawahara, Toshio Irino, and Roy D. Patterson "Vowel normalisation: Time-domain processing of the internal dynamics of speech,")

    IOS press, Amsterdam  2006年  ISBN: 1586036661

     概要を見る

    NATO Science Series, Series A: Life Sciences,

  • Speech Separation by Humans and Machines

    Pierre Divenyi( 担当: 共著,  担当範囲: "Speech Segregation Using an Event-Synchronous Auditory Image and STRAIGHT," "Underlying Principles of a High-quality Speech Manipulation Systsem STRAIGHT and Its Application to Speech Segregation,")

    Kluwer Academic Publishers, Dordrechet (The Netherlands)  2005年  ISBN: 1402080018

  • Auditory Signal Processing: Physiology, Psychoacoustics, and Models

    Pressnitzer, D, de Cheveigne A, McAdams, S, Collet, L( 担当: 共著,  担当範囲: Roy D. Patterson, Masashi Unoki, and Toshio Irino, "Comparison of the compressive-gammachirp and double-roex auditory filters,")

    Springer, New York  2005年  ISBN: 0387219153

  • Computational Models of Auditory Function NATO Science Series, Series A: Life Sciences, Vol. 312

    Greenberg, S, Slaney, M( 担当: 共著,  担当範囲: Toshio Irino and Masashi Unoki, "An analysis/synthesis auditory filterbank based on an IIR gammachirp filter")

    IOS Press, Amsterdam  2001年  ISBN: 9051994575

  • Physiological and Psychophysical Bases of Auditory Function,

    Breebaart, D.J, Houstsma, A.J.M, Kohlrausch, A, Prijs, V.F, Schoonhoven, R( 担当: 共著,  担当範囲: Toshio Irino and Roy D. Patterson ,"A gammachirp framework of auditory filtering : Unification of cochlear frequency-glide data and Psychoacoustical masking data,")

    Shaker Publishing, The Netherlands  2001年  ISBN: 9042301155

  • Recent Developments in Auditory Mechanics

    Wada, H, Takasaka, T, Ikeda, K, Ohyama, K, Koike, T( 担当: 共著,  担当範囲: Toshio Irino and Roy D. Patterson , "A gammachirp perspective of cochlear mechanics that can also explain human auditory masking quantitatively,")

    World Scientific, Singapole  2000年  ISBN: 9810241704

  • Psychophysical and Physiological Advances in Hearing

    A.R.Palmer, A.Rees, A.Q.Summerfield, R.Meddis( 担当: 共著,  担当範囲: Roy D. Patterson and Toshio Irino "Auditory temporal asymmetry and autocorrelation")

    Whurr Publishers, London  1998年  ISBN: 1861560699

  • Mathematics Applied to Biology and Medicine

    J. Demongeot, V. Capasso( 担当: 共著,  担当範囲: Thierry Herve, Toshio Irino, Hideki Kawahara, "How synaptic delays change the response of a massively parallel post-cochlear neural network,")

    Wuerz Publishing Ltd., Winnipeg, Canada  1993年  ISBN: 0920063632

▼全件表示

Misc

  • Subjective intelligibility of speech sounds enhanced by ideal ratio mask via crowdsourced remote experiments with effective data screening,

    Ayako Yamamoto, Toshio Irino, Shoko Araki, Kenichi Arai, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani (担当区分: 責任著者 )

    arXiv   arXiv:2203.16760   2022年03月

  • GESI: Gammachirp Envelope Similarity Index for Predicting Intelligibility of Simulated Hearing Loss Sounds

    Ayako Yamamoto, Toshio Irino, Fuki Miyazaki, Honoka Tamaru (担当区分: 責任著者 )

    arXiv.2310.15399 preprint     2023年12月

    DOI

  • Speech intelligibility of simulated hearing loss sounds and its prediction using the Gammachirp Envelope Similarity Index (GESI)

    Toshio Irino, Honoka Tamaru, Ayako Yamamoto (担当区分: 筆頭著者, 責任著者 )

    arXiv.2206.06573 preprint --- accepted to Interspeech2022     2022年06月

    DOI

  • Comparison of remote experiments using crowdsourcing and laboratory experiments on speech intelligibility

    Ayako Yamamoto, Toshio Irino, Kenichi Arai, Shoko Araki, Atsunori Ogawa, Keisuke Kinoshita, Tomohiro Nakatani (担当区分: 責任著者 )

    arXiv ( ISCA )  2104.10001   2021年08月

    DOI

  • 音声資料の収録・再生環境の簡易な把握に向けて:オールパスフィルタの従属接続に基づく拡張された時間伸長パルスの応用

    河原英紀, 矢田部浩平, 榊原健一, 水町光徳, 森勢将雅, 坂野秀樹, 入野俊夫

    日本音響学会研究発表会講演論文集(CD-ROM)   2021   2021年

  • 音声の基本周波数に対する聴覚の影響の測定への周波数領域ベルベットノイズの応用について

    河原英紀, 榊原健一, 津崎実, 松井淑恵, 森勢将雅, 入野俊夫

    電子情報通信学会技術研究報告   119 ( 440(SIP2019 103-169) )   2020年

  • GEDI: Gammachirp envelope distortion index for predicting intelligibility of enhanced speech

    Katsuhiko Yamamoto, Toshio Irino, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani

    arXiv   1904.02096   2019年04月

  • 音響システムの各種特性の計測における周波数領域velvet noiseの応用について

    河原英紀, 榊原健一, 水町光徳, 森勢将雅, 坂野秀樹, 入野俊夫

    電子情報通信学会技術研究報告   119 ( 253(EA2019 36-49) )   2019年

  • コンプリメントのアノテーション (ヒューマンコミュニケーション基礎)

    井上 雅史, 中島 隆太郎, 花田 里欧子, 古山 宣洋, 入野 俊夫

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 電子情報通信学会 )  117 ( 509 ) 11 - 15   2018年03月

  • 臨床心理面接における傾聴度変化の評価:臨床心理士と初学者の比較

    花田 里欧子, 中島 隆太郎, 井上 雅史, 古山 宣洋, 入野 俊夫

    人工知能学会全国大会論文集 ( 一般社団法人 人工知能学会 )  2018   3C1OS14a02 - 3C1OS14a02   2018年

     概要を見る

    <p>臨床心理面接という対話の評価において,傾聴は欠くことのできない重要な軸の一つである.これまで傾聴を構成する要素に関する知見はあるが[アイビイ1985],面接全体として傾聴が真に成立したかどうかについて評価測定するための手法は,まだ十分確立していない.特に傾聴に際してそうしているつもりでも相手はそう感じていないといったすれ違いがつきまとうことはこの課題をいっそう困難にしている.しかし面接の質の把握や向上のためには,傾聴の評価測定をすすめていく必要がある.本研究ではそのためのひとつのアプローチとして次の手順で実験を実施し,評価の実際と課題について明らかにする.(1)第三者の臨床心理士が面接ビデオを視聴し,感情評価値入力手法により傾聴度を時系列入力,(2)傾聴度時系列データの変化点(上昇/下降)を多重解像度分析によって自動検出, (3)同じ臨床心理士によって,なぜ変化点をそのように評価したのかの記述, (4)その変化点が上昇か下降かの判断を初学者の集団で実験, (5)両者の評価の比較と統計的分析.</p>

    DOI

  • 模擬難聴システムを用いた言語聴覚士養成課程での演習とWebアプリ化の検討 (ヒューマンコミュニケーション基礎)

    米満 麻弥, 入野 俊夫, 松井 淑恵, 西村 竜一, 吐師 道子, 長谷川 純

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 電子情報通信学会 )  117 ( 29 ) 277 - 282   2017年05月

  • Aliasing-free Fujisaki-Ljungqvist model and its application to voice quality perception

    KAWAHARA Hideki, TSUZAKI Minoru, MATSUI Toshie, IRINO Toshio, SAKAKIBARA Ken-Ichi

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  47 ( 2 ) 71 - 76   2017年03月

  • 感情推移観測システム(EMO system)による傾聴評価とマイクロカウンセリングのタグ付けとの関連 (ヒューマンコミュニケーション基礎)

    花田 里欧子, 入野 俊夫, 古山 宣洋, 井上 雅史, 中島 隆太郎

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 電子情報通信学会 )  116 ( 524 ) 113 - 118   2017年03月

  • 臨床心理面接コーパスと感情推移観測システム(EMO system)を用いた傾聴学習支援 (ヒューマンコミュニケーション基礎)

    花田 里欧子, 入野 俊夫, 古山 宣洋, 井上 雅史, 中島 隆太郎

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 電子情報通信学会 )  116 ( 436 ) 5 - 10   2017年01月

  • 動的圧縮型ガンマチャープフィルタバンクを用いた音声明瞭度予測法の改良

    山本 克彦, 入野 俊夫, 松井 淑恵

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  46 ( 1 ) 35 - 40   2016年02月

  • 無声音の高域強調処理が寸法知覚に与える影響に関する検討

    山本 航大, 入野 俊夫, 岡本 江美

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  45 ( 8 ) 681 - 686   2015年11月

  • Study on predicting speech intelligibility of enhanced speech sounds using the dynamic compressive gammachirp auditory filterbank and modulation filterbank

    YAMAMOTO Katsuhiko, IRINO Toshio, ARAKI Shoko

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  45 ( 7 ) 569 - 574   2015年10月

  • 高次対称性に基づく基本周波数推定法のモデル化とfilled pauseの分析への応用について (音声)

    河原 英紀, 西村 竜一, 入野 俊夫

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 )  114 ( 475 ) 307 - 312   2015年03月

     概要を見る

    日常の環境で使われている音声の物理特性は、様々な要因で大きく変動する。発話の途中などに出現するfilled pauseでは、声帯振動が不安定になる場合が多く、通常の分析法では、基本周波数の抽出に大きな誤差が含まれるなどの問題が生ずる。本報告では、局所的な周期性を波形の対称性に基づいて評価する方法と統計的手法を組み合わせることにより、基本波の抽出と基本周波数の初期推定における頑健性を改善する方法を提案する。

  • 聴覚末梢の圧縮特性のキャンセル処理による模擬難聴を通した音声の同定

    松井 淑恵, 入野 俊夫, 永江 美沙貴

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  45 ( 2 ) 93 - 98   2015年03月

  • 音声の高域強調処理による寸法知覚特性変化と計算理論について

    山本 航大, 入野 俊夫, 西村 竜一

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  45 ( 2 ) 99 - 104   2015年03月

  • 声道形状と声帯音源特性を用いたグロウル系歌唱音声への実時間変換の提案

    溝渕 翔平, 西村 竜一, 入野 俊夫, 河原 英紀

    情報処理学会研究報告. [音楽情報科学] ( 一般社団法人情報処理学会 )  2015 ( 12 ) 1 - 6   2015年02月

     概要を見る

    本研究では通常歌唱音声をグロウル系歌唱音声の印象をもつ音声に変換するシステムについて検討している.これまでの研究よりグロウル系歌唱音声特有の物理的特徴としてスペクトル形状の高速な変動が確認された.本発表ではスペクトル形状の高速な変動を声帯音源特性と声道形状の変化としてモデル化し,グロウルの印象を付与する方法を提案する.声帯音源特性の時間変化は LF model を用いることでスペクトル傾斜の時間変化をモデル化した.声道形状の変化は入力音声について分析した声道断面積関数を操作することで実現した.提案手法による変換処理はフィルタリングで構成されているため,原理上はリアルタイム処理が可能である.

  • 音声の好感度改善補助ツールの開発を目指した好感度改善方法の検討

    吉元 照貴, 西村 竜一, 入野 俊夫, 河原 英紀

    情報処理学会研究報告. [音楽情報科学] ( 一般社団法人情報処理学会 )  2015 ( 25 ) 1 - 6   2015年02月

     概要を見る

    本稿では,音声の好感度改善トレーニング補助を目的とした簡易ツールの紹介と,音声の好感度改善の具体的な方法について述べる.これまで,音声から受ける印象の一つである好感度と音声の物理属性との関係を,音声モーフィングの技術を用いて調べてきた.それらの検討から,(1) 音声の物理属性の中では,基本周波数やスペクトル形状が好感度へ与える影響が大きいこと,(2) 話者の音声から聞き手が受ける好感度は,聞き手によって大きく異なっていること,(3) 聞き手が好感度を改善するように音声を操作する際に,操作された音声の話者性が変化して感じられると好感度の判断が大きく影響されることが示唆された.今回報告する好感度改善手法では,これらの知見を考慮し,音声パラメタの基本周波数とスペクトル形状を操作することで好感度の改善を図る.また,好感度を改善する操作の妨害要因となっていた話者性が変化する問題を解決するために,演劇部の学生が好感度の異なる話し方で演技した音声から求められる音声の物理属性の変化量を求めた.この変化量を好感度が低い他者の音声の物理属性の操作に用いた.ここでは,変化量を抽出した話者と聞き手および操作対象となった話者の組み合わせについて好感度の改善の効果を調べた.これらの結果に基づいて,提案する簡易ツールの概要を説明する.

  • 声道形状と声帯音源特性を用いたグロウル系歌唱音声への実時間変換の提案

    溝渕 翔平, 西村 竜一, 入野 俊夫, 河原 英紀

    研究報告エンタテインメントコンピューティング(EC) ( 一般社団法人情報処理学会 )  2015 ( 12 ) 1 - 6   2015年02月

     概要を見る

    本研究では通常歌唱音声をグロウル系歌唱音声の印象をもつ音声に変換するシステムについて検討している.これまでの研究よりグロウル系歌唱音声特有の物理的特徴としてスペクトル形状の高速な変動が確認された.本発表ではスペクトル形状の高速な変動を声帯音源特性と声道形状の変化としてモデル化し,グロウルの印象を付与する方法を提案する.声帯音源特性の時間変化は LF model を用いることでスペクトル傾斜の時間変化をモデル化した.声道形状の変化は入力音声について分析した声道断面積関数を操作することで実現した.提案手法による変換処理はフィルタリングで構成されているため,原理上はリアルタイム処理が可能である.Outline of a system to convert usual singing voice to growl-like performance in realtime is introduced. Relatively high-speed periodic variations (around 70Hz) in spectral shapes and fundamental frequency trajectories were found dominant features of growl-like singing in our pervious investigations. A set of simulations revealed that these spectral shape variations can be closely replicated by introducing vocal tract shape variations around spura-glottal structures and shape variations in glottal source waveform using the LF-model. Despite the fact that realtime extraction of LF parameters from input voice is not feasible, the simulation results indicated that the net effect of the variation can be represented by simple spectral slope variations. For vocal tract shape variation, several set of spectral models for approximating simulated variations can be suggested. These indicate that by using these approximated models, it is possible to design a realtime system for converting usual singing voices to growl-like voices.

  • 音声の好感度改善補助ツールの開発を目指した好感度改善方法の検討

    吉元 照貴, 西村 竜一, 入野 俊夫, 河原 英紀

    情報処理学会研究報告. EC, エンタテインメントコンピューティング ( 一般社団法人情報処理学会 )  2015 ( 25 ) 1 - 6   2015年02月

     概要を見る

    本稿では,音声の好感度改善トレーニング補助を目的とした簡易ツールの紹介と,音声の好感度改善の具体的な方法について述べる.これまで,音声から受ける印象の一つである好感度と音声の物理属性との関係を,音声モーフィングの技術を用いて調べてきた.それらの検討から,(1) 音声の物理属性の中では,基本周波数やスペクトル形状が好感度へ与える影響が大きいこと,(2) 話者の音声から聞き手が受ける好感度は,聞き手によって大きく異なっていること,(3) 聞き手が好感度を改善するように音声を操作する際に,操作された音声の話者性が変化して感じられると好感度の判断が大きく影響されることが示唆された.今回報告する好感度改善手法では,これらの知見を考慮し,音声パラメタの基本周波数とスペクトル形状を操作することで好感度の改善を図る.また,好感度を改善する操作の妨害要因となっていた話者性が変化する問題を解決するために,演劇部の学生が好感度の異なる話し方で演技した音声から求められる音声の物理属性の変化量を求めた.この変化量を好感度が低い他者の音声の物理属性の操作に用いた.ここでは,変化量を抽出した話者と聞き手および操作対象となった話者の組み合わせについて好感度の改善の効果を調べた.これらの結果に基づいて,提案する簡易ツールの概要を説明する.

  • 聴覚におけるスケール分析のための末梢系フィルタバンクのウェーブレット性と非線形性 (ウェーブレット解析とサンプリング理論)

    入野 俊夫, 河原 英紀, Patterson Roy D.

    数理解析研究所講究録 ( 京都大学 )  1928   27 - 57   2014年12月

  • Invited talk : The role of STRAIGHT in research on the perception of size in speech and music (音声)

    PATTERSON Roy D., 入野 俊夫

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 )  114 ( 272 ) 71 - 75   2014年10月

     概要を見る

    あらまし15年ほど前、ガンマチャープ聴覚フィルタの数学的導出の研究過程で、音声と音楽の知覚においてもスケール不変性があることに気がついた。たとえば、人の声を聞く時、ピッチや平均ホルマント周波数に関わらず理解できる。また、楽器属(管楽器、弦楽器)は大きさや音域にかかわらず同じ形で作られている。そこで、聴覚系において、音声や楽器音の正規化を行う「安定化ウェーブレットメリン変換」がどのように利用可能かを示し、それらの音の知覚不変性の研究を開始することとした。言うは易いが、そのためには自然な音の音響スケール変数を操作する必要がある。運が良いことに、同時期に河原先生が音声のピッチと声道長や楽器音を高品質で操作できるSTRAIGHTを発表された。本報告では、STRAIGHTでスケール変数を操作した音の寸法知覚に関する一連の研究を紹介する。また、STRAIGHTの合成系を楽器音操作にどのように適用したかも述べる。これらの研究は、STRAIGHTがいかに自然音の知覚研究の原動力になったかの一つの大きな事例となっている。

  • 招待講演 音声と楽器音の寸法知覚研究におけるSTRAIGHTの役割

    PATTERSON Roy D., 入野 俊夫

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  44 ( 7 ) 473 - 477   2014年10月

  • 線形予測分析を用いた声道断面積関数推定のための前処理の検討(オーガナイズドセッション:ポスター発表,分析,特徴量,音声一般,聴覚一般)

    伊佐 衣代, 吉元 照貴, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  114 ( 272 ) 27 - 28   2014年10月

     概要を見る

    線形予測分析を用いた声道断面積関数推定では、声帯音源波形、口唇の放射特性などにより誤差が生ずる。これらの影響の除去のため高域強調やスペクトル平坦化処理などの前処理について検討している。ここでは、母音データベースの音声に様々な前処理を加えて分析した結果について報告する。

  • グロウル系歌唱から求められる声道断面積関数の特徴について(オーガナイズドセッション:ポスター発表,分析,特徴量,音声一般,聴覚一般)

    溝渕 翔平, 伊佐 衣代, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  114 ( 272 ) 29 - 30   2014年10月

     概要を見る

    グロウル系歌唱では、2から4kHz付近のスペクトル形状に、高速でほぼ周期的な変動が認められる。この変動を見通し良くモデル化することを目的に、歌唱音声の分析により求めた声道断面積関数の変動を調べた。本稿では、スペクトル概形補償の前処理と、周期性に起因する系統誤差を軽減するためにTANDEM-STRAIGHTを用いた1msのフレーム周期での分析結果を報告する。

  • ささやき声からの寸法知覚の手がかり獲得と保持について (音声 音学シンポジウム2014)

    山本 航大, 入野 俊夫, 西村 竜一, 河原 英紀

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 )  114 ( 52 ) 237 - 242   2014年05月

     概要を見る

    人間の聴覚系には,音源の寸法情報と形状情報を分離抽出する機能があるという理論が提案されている.先行研究にて,音声刺激を用いた寸法知覚の弁別閾が測定されており,約5%であると示されている.ところが,これは寸法情報の知覚手がかりを把握している場合であり,この実験の未経験者においては弁別閾がそれほど小さくないことも多い.そこで本研究では,弁別訓練による手がかり情報の獲得,またその保持について検討する.無声音声を用いた寸法弁別実験において,プリテスト,訓練,ポストテストを被験者8名で行った.ポストテストの結果,訓練効果があることがわかったが,弁別閾が小さいHP群と大きいLP群に分かれた,HP群は一定期間後,手がかり保持に関するテストを行い,弁別精度に違いがないことが確認できた.LP群は再訓練を行うことにより弁別閾が小さくなることを確認した.これらのことより,手がかりが十分把握できれば先行研究と同程度の弁別閾になることがわかった.

  • ROCKON : スマホを用いた環境音の収集と認識システム (音声 音学シンポジウム2014)

    松山 みのり, 津田 貴彦, 西村 竜一, 河原 英紀, 山田 順之介, 入野 俊夫

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 )  114 ( 52 ) 181 - 186   2014年05月

     概要を見る

    本研究では、身の回りの環境音を認識することで、ユーザに有益な情報を提供できるモバイルアプリケーションを開発する。本稿では、環境音の認識アルゴリズムとして比較したHMMとAdaBoostによる性能評価と、クラウドソーシングを用いた環境音サンプルの収集方法について述べる。評価実験の結果、Android端末を用いて収集した実環境の環境音サンプルに対して、AdaBoostがHMMよりも認識性能および処理スピードにおいて有利な結果を示した。今後、対応音源の種類を増やすためには多くの環境音サンプルが必要となってくる。そのため、環境音収集アプリの改良をした。環境音を収集する際に協力者に与える負担の軽減を目指して、本研究では2種類のユーザインタフェーズ(UI)を提案する。実験協力者を用いた調査では、提案する2種類のUIの併用が妥当であるという結論が得られた。そこで、改良後の環境音収集アプリには両手法を併用したUIを実装することにした。

  • 受験者を焦らせない音声入力ウェブ試験システムを目指したデザインの検討 (音声 音学シンポジウム2014)

    田藤 千弘, 西村 竜一, 河原 英紀, 入野 俊夫

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 )  114 ( 52 ) 337 - 342   2014年05月

     概要を見る

    本研究は、音声入力機能を備えたウェブ試験システムにおけるユーザインタフェース(UI)のデザイン指針を検討する。本研究で対象とするウェブ試験システムの問題提示画面では、問題文の他、音声の入力状態を確認するためのレベルメータと解答時間の残りを示すタイムゲージが受験者に提示される。従来のシステムでは、この二つの視覚的情報提示が似ており、受験者に混同されることがあった。受験者に適切な問題提示画面を提供するために、UIデザインを改良した。実験では、発話によって計算問題を解答するシステムを試作し、タイムゲージに着目して、解答の際に受験者が感じる「焦り」と「体感時間の速さ」を調査した。その結果、1秒ずつ離散的に区切って表示するブロック型のデザインが適切であることを確認した。受験者の発話態度と音声認識率の関係を調査したところ、機械との対話を意識しなかった人の精度は低くなる傾向があった。また、本研究では、音声入力UIの実装言語をHTML5とした。その結果、PCおよびモバイル端末(Android)から利用できるシステムを実現することができた。

  • 歌声にグロウルの味を加えるGUIについて (音声 音学シンポジウム2014)

    溝渕 翔平, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 )  114 ( 52 ) 279 - 284   2014年05月

     概要を見る

    本研究では通常歌唱をグロウル系統の歌唱音声の印象をもつ音声に変換するシステムの検討を行っている.先行研究では簡単な信号処理で歌唱音声にグロウルらしさを付与する方法が提案された.本報告では提案手法で用いる特徴付与のパラメタを対話的に操作し,歌唱音声にグロウルらしさを付与するGUIについて紹介する.提案手法は時間変調による基本周波数の高速な時間振動の付与,FIRフィルタによる処理範囲に共通した帯域強調処理,及び近似時変フィルタによる第3フォルマント周辺の高速な時間変調の付与の3つより構成されている.提案手法は変換処理に分析・合成を必要としないためリアルタイム処理を可能とし,ライブで一種のエフェクターとして用いることが出来る.GUIの開発は主にデモやポスターセッションの場で本手法による処理内容と処理の影響について直感的理解を促すことを目的としている.開発したGUIは実際にポスターセッションの場で操作し,操作性やデザイン性についてコメントを頂きたい.

  • 歌声にグロウルの味を加えるGUIについて

    溝渕 翔平, 西村 竜一, 入野 俊夫, 河原 英紀

    研究報告音楽情報科学(MUS)   2014 ( 55 ) 1 - 6   2014年05月

     概要を見る

    本研究では通常歌唱をグロウル系統の歌唱音声の印象をもつ音声に変換するシステムの検討を行っている.先行研究では簡単な信号処理で歌唱音声にグロウルらしさを付与する方法が提案された.本報告では提案手法で用いる特徴付与のパラメタを対話的に操作し,歌唱音声にグロウルらしさを付与する GUI について紹介する.提案手法は時間変調による基本周波数の高速な時間振動の付与,FIR フィルタによる処理範囲に共通した帯域強調処理,及び近似時変フィルタによる第 3 フォルマント周辺の高速な時間変調の付与の 3 つより構成されている.提案手法は変換処理に分析・合成を必要としないためリアルタイム処理を可能とし,ライブで一種のエフェクターとして用いることが出来る.GUI の開発は主にデモやポスターセッションの場で本手法による処理内容と処理の影響について直感的理解を促すことを目的としている.開発した GUI は実際にポスターセッションの場で操作し,操作性やデザイン性についてコメントを頂きたい.A set of GUIs is designed to add and manipulate growl-like taste in singing voice based on a set of simple signal processing procedures, proposed in our previous report. It consists of a temporal axis modulator for simulating rapid F0 variations, an equalizer to modify global spectral shape, and an approximate time varying filter for simulating rapid spectral modulation around F3 area. The proposed set of procedures is potentially applicable to realtime applications, such as live performance. This set of GUIs will be presented in the poster session for demonstrating possibilities of the proposed procedures and acquiring feedback and comments from prospective participants.

  • ROCKON:スマホを用いた環境音の収集と認識システム

    松山 みのり, 津田 貴彦, 西村 竜一, 河原 英紀, 山田 順之介, 入野 俊夫

    研究報告音楽情報科学(MUS)   2014 ( 37 ) 1 - 6   2014年05月

     概要を見る

    本研究では、身の回りの環境音を認識することで、ユーザに有益な情報を提供できるモバイルアプリケーションを開発する。本稿では、環境音の認識アルゴリズムとして比較した HMM と AdaBoost による性能評価と、クラウドソーシングを用いた環境音サンプルの収集方法について述べる。評価実験の結果、Android 端末を用いて収集した実環境の環境音サンプルに対して、AdaBoost が HMM よりも認識性能および処理スピードにおいて有利な結果を示した。今後、対応音源の種類を増やすためには多くの環境音サンプルが必要となってくる。そのため、環境音収集アプリの改良をした。環境音を収集する際に協力者に与える負担の軽減を目指して、本研究では 2 種類のユーザインタフェース (UI) を提案する。実験協力者を用いた調査では、提案する 2 種類の UI の併用が妥当であるという結論が得られた。そこで、改良後の環境音収集アプリには両手法を併用した UI を実装することにした。We have been developing an Android mobile application which can provide an useful information for users by recognizing environmental sounds around us. This paper evaluates environmental sound recognition methods in comparison with the AdaBoost and the HMMs (Hidden Markov Models). The experimental results proved that AdaBoost could obtain better performances from the viewpoint of the accuracy and the processing speed. Further collection of environmental sounds based on the crowdsourcing approach needs to introduce the Android app with the improved user interface (UI) for annotating a source type of a sound. Crowdsourcing proved useful for easily developing the sound database. However,we discovered that improvements to the system were necessary to maintain the motivation of trial users in order for them to continue the sound collection activity. We developed a new UI that enables users to simply select an appropriate sound source class from a list prepared in advance. In the experiments in evaluating two types of UIs: a hierarchical type and a list view type, we concluded that there is no significant difference between both UIs in terms of convenience. In order to utilize the advantages of both types, we implemented an annotation UI that can be switched between both types of UIs.

  • ささやき声からの寸法知覚の手がかり獲得と保持について

    山本 航大, 入野 俊夫, 西村 竜一, 河原 英紀

    研究報告音楽情報科学(MUS)   2014 ( 47 ) 1 - 6   2014年05月

     概要を見る

    人間の聴覚系には,音源の寸法情報と形状情報を分離抽出する機能があるという理論が提案されている.先行研究にて,音声刺激を用いた寸法知覚の弁別閾が測定されており,約 5%であると示されている.ところが,これは寸法情報の知覚手がかりを把握している場合であり,この実験の未経験者においては弁別閾がそれほど小さくないことも多い.そこで本研究では,弁別訓練による手がかり情報の獲得,またその保持について検討する.無声音声を用いた寸法弁別実験において,プリテスト,訓練,ポストテストを被験者 8 名で行った.ポストテストの結果,訓練効果があることがわかったが,弁別閾が小さい HP 群と大きい LP 群に分かれた,HP 群は一定期間後,手がかり保持に関するテストを行い,弁別精度に違いがないことが確認できた LP 群は再訓練を行うことにより弁別閾が小さくなることを確認した.これらのことより,手がかりが十分把握できれば先行研究と同程度の弁別閾になることがわかった.We have suggested that the auditory system can extract and separate information about vocal tract shape from information about vocal tract length (VTL) (strictly speaking, acoustic scale). The previous research shows that just noticeable difference (JND) values using the speech stimuli is about 5%. This is the case when the subjects have acquired size perception clue. The JND values is not necessarily small particularly for naive subjects. This parer presents a series of experiments to survey the characteristics of acquisition and retention of the perceptual cue for size discrimination task. We performed pretest, training session, posttest, and retention test using whispered words in the same procedure as reported previously. From the results of the first posttest, eight subjects was grouped into high performance (HP) group and low performance (LP) group. HP group performed the retention test after one month to confirm the JND values are almost the same. LP group was trained again to improve the JND values similar to the HP's values. As a result, given the sufficient acquisition of size perception clue, the JND values become the same as the values reported in the previous studies.

  • 受験者を焦らせない音声入力ウェブ試験システムを目指したデザインの検討

    田藤 千弘, 西村 竜一, 河原 英紀, 入野 俊夫

    研究報告音楽情報科学(MUS)   2014 ( 65 ) 1 - 6   2014年05月

     概要を見る

    本研究は、音声入力機能を備えたウェブ試験システムにおけるユーザインタフェース (UI) のデザイン指針を検討する。本研究で対象とするウェブ試験システムの問題提示画面では、問題文の他、音声の入力状態を確認するためのレベルメータと解答時間の残りを示すタイムゲージが受験者に提示される。従来のシステムでは、この二つの視覚的情報提示が似ており、受験者に混同されることがあった。受験者に適切な問題提示画面を提供するために、UI デザインを改良した。実験では、発話によって計算問題を解答するシステムを試作し、タイムゲージに着目して、解答の際に受験者が感じる 「焦り」 と 「体感時間の速さ」 を調査した。その結果、1 秒ずつ離散的に区切って表示するブロック型のデザインが適切であることを確認した。受験者の発話態度と音声認識率の関係を調査したところ、機械との対話を意識しなかった人の精度は低くなる傾向があった。また、本研究では、音声入力 UI の実装言語を HTML5 とした。その結果、PC およびモバイル端末 (Android) から利用できるシステムを実現することができた。We have investigated the user interface (UI) design of the web-based test system with a voice input function. As for the visual feedbacks to the examinee, a time gauge indicating the remainder of the answer time and a level meter for checking an input state of the speech are located on the screen of our system displaying the questions. In the previous UI, the similarities of two visual presentations often caused confusions of the examinees. In order to provide the appropriate presentations of the questions on the web screen, we improved the design of the voice-enabled UI. In the experiment for evaluating the improved UI, we have developed a system to answer computational questions via the speech web interface. By focusing on the time gauge, we investigated "time guage speed and impatience" which the users feel in the time of using the system. As a result, we confirmed the suitability that the brick-type time gauge displaying elapsed time based on discreted indicators dividing the time into 1 second. Based on investigations of the relationship of examinees' speaking styles and speech recognition rates, we found a tendency for the accuracy of the person who did not aware of the interaction with the machine is low. Because we adopted HTML5 as a implementation language of the voice-enabled UI, the improved system could run on the Android mobile machine and PCs.

  • 加齢に伴う絶対音感のシフト : 音域の影響

    津崎 実, 松井 淑恵, 入野 俊夫

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  44 ( 2 ) 81 - 86   2014年03月

  • D-9-25 クラウドソーシングによる環境音収集に向けたスマホアプリの開発(D-9.ライフインテリジェンスとオフィス情報システム,一般セッション)

    松山 みのり, 津田 貴彦, 西村 竜一, 山田 順之介, 入野 俊夫, 河原 英紀

    電子情報通信学会総合大会講演論文集 ( 一般社団法人電子情報通信学会 )  2014 ( 1 ) 109 - 109   2014年03月

  • Realtime conversion of growl-type voice qualities based on modulation and approximate time-varying filtering driven by a non-linear oscillator: Formulation

    Hideki Kawahara, Shohei Mizobuchi, Masanori Morise, Ken-ichiSakakibara, Ryuichi Nisimura, Toshio Irino

    研究報告音楽情報科学(MUS) ( 一般社団法人情報処理学会 )  2014 ( 14 ) 1 - 6   2014年02月

     概要を見る

    A formulation of voice conversion to add growl-like voice qualities to singing voices is proposed based on our findings of features in such singing performances. The proposed method does not consist of any analysis and synthesis stage(s). A preliminary implementation using Matlab demonstrated that its throughput is faster than realtime. The proposed formulation provides not only post processing capabilities of rendering styles of existing performances to recorded materials but also realtime capabilities of adding growl-like voice qualities in live performances.A formulation of voice conversion to add growl-like voice qualities to singing voices is proposed based on our findings of features in such singing performances. The proposed method does not consist of any analysis and synthesis stage(s). A preliminary implementation using Matlab demonstrated that its throughput is faster than realtime. The proposed formulation provides not only post processing capabilities of rendering styles of existing performances to recorded materials but also realtime capabilities of adding growl-like voice qualities in live performances.

  • 模擬難聴実現のための逆圧縮特性処理とユーザインタフェース

    永江 美沙貴, 入野 俊夫, 西村 竜一

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  44 ( 1 ) 13 - 18   2014年02月

  • 圧縮特性推定における非対称レベルノッチマスキング法と時間マスキング曲線法の対比

    深渡瀬 智史, 入野 俊夫, 西村 竜一

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  44 ( 1 ) 7 - 12   2014年02月

  • 文章音声の好感度評価と属性別モーフィングを用いた要因の検討について (音声) -- (オーガナイズドセッション 多様な音声の認識・合成へ向けて)

    吉元 照貴, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 )  113 ( 404 ) 49 - 54   2014年01月

     概要を見る

    著者らが新しく定式化した時変多属性任意事例数音声モーフィングアルゴリズムを利用した音声の好感度の評価と制御法の検討を提案する。この新しいアルゴリズムでは、任意の個数の音声試料を一段階の処理でモーフィングすることができる。モーフィングの割合は、それぞれの試料の5種類の物理属性毎に時系列として指定することができ、負の割合も許容される。ここでは、まず好感度が大きく異なる文章音声試料を複数選択し、それらの試料間のモーフィングにより好感度が系統的に制御されることを確認した。次いで、各属性により張られる5次元超立方体の頂点にあるモーフィング音声の好感度を、対比較により評価し、それぞれの属性の影響を調べた。さらに、新しいアルゴリズムにより可能となった、音声の平均化と外挿によるカリカチュア化による探索的検討を今後の課題として提案した。

  • 周期信号の群遅延の静的表現と音声の非周期成分への応用について

    河原英紀, 森勢将雅, 榊原健一, 戸田智基, 坂野秀樹, 西村竜一, 入野俊夫

    日本音響学会研究発表会講演論文集(CD-ROM)   2014   2014年

  • 加齢に伴う絶対音感のシフト : 気導聴力検査結果との関係

    津崎 実, 松井 淑恵, 入野 俊夫

    日本音響学会研究発表会講演論文集 日本音響学会 編 ( 日本音響学会 )    549 - 552   2014年

  • 加齢による絶対音感シフトと耳音響反射との関連性について

    津崎 実, 松井 淑恵, 入野 俊夫

    日本音響学会研究発表会講演論文集 日本音響学会 編 ( 日本音響学会 )    479 - 482   2014年

  • 聴覚末梢系の圧縮特性の心理物理測定と模擬難聴への応用

    入野 俊夫

    日本音響学会研究発表会講演論文集 日本音響学会 編 ( 日本音響学会 )    1579 - 1582   2014年

  • SAWS(スケール交替ウェーブレッド系列)刺激のピッチ移動に対するスペクトル-時間受容野モデルからの検討 : フーリエ分析による検討も交えて

    津崎 実, 入野 俊夫, 竹島 千尋

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  43 ( 8 ) 631 - 638   2013年11月

  • 説明対話における韻律情報および頭部運動と感情評価値の関連性分析の試み (音声)

    八木 みゆき, 森田 礼子, 中井 正人, 西村 竜一, 河原 英紀, 入野 俊夫

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 )  113 ( 220 ) 15 - 20   2013年09月

     概要を見る

    音声のパラ言語情報と感情の関連性については音声研究の初期段階から検討されている.感情の評価値は通常発話区間ごとに付与されているため,対話者の感情の変化度を検討しているものは少ないと考えられる.また,音声以外にも重要と考えられる,頷きや身振り,手振りなどのジェスチャーを含めた検討は多くない.そこで本研究では,対話における音声やそれ以外の情報が対話の感情推移とどのように関連づけられるか検討することを目指した.まず,目的指向対話の一例として,認知心理の身振り研究でよく用いられるアニメーション説明課題を対象として対話の様子を音声,動画,加速度データの同時計測を行った.その上で収録より得られた動画データを見ながら,感情評価値をGUIで連続的に入力を行った.その上で,評価者によらず感情評価が同傾向で変化する時点を検討した.また,音声や頭部の頷きの物理量から,感情評価値やその推移を線形モデルで説明できるかを検討した.

  • 歌唱音声のスペクトル形状の線形伸縮に影響する要因の検討 (応用音響)

    坂口 諒, 小林 真優子, 入野 俊夫, 西村 竜一, 河原 英紀

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 ( 一般社団法人電子情報通信学会 )  113 ( 134 ) 9 - 14   2013年07月

     概要を見る

    短時間Fourier変換に基づく簡易な方法により,相対的な声道長を高い再現性で推定する方法を明らかにしてきた.この方法では,駆動信号の周期性に起因する調波構造の影響を取り除いた音声スペクトル包絡に,声帯音源波形や唇からの放射特性に起因するスペクトル概形の除去と,声道の分岐や声門閉止区間の存在や個々の声道共鳴の鋭さの違いによるスペクトル形状の細部の平滑化による前処理を加え,距離計算に用いる周波数範囲を適切に選択することにより,声道長以外の要因による影響を軽減している.ここでは,この方法を歌唱音声に適用することにより,歌い手の個人性と音高により,相対的声道長がどのように変化するかを調べた結果について報告し,歌唱訓練への応用の可能性について議論する.

  • 声から身体情報を求める

    小林 真優子, 西村 竜一, 入野 俊夫, 河原 英紀

    研究報告音楽情報科学(MUS)   2013 ( 47 ) 1 - 6   2013年05月

     概要を見る

    声を聴くと,何となくその人の体型が分かる.ここでは,母音だけを用いて相対的な声道長を推定する方法を提案する.この方法では,声道長以外の要因によるスペクトル形状変化の影響を軽減するために,スペクトル距離の計算に用いる帯域を制限し,スペクトルの大局的な平坦化と形状の過度な詳細の平滑化とを組合せている.6歳から56歳までの284名の男女が発声した母音と身体情報からなるデータベースを用いることで,これらの処理に用いるパラメタを決定した.母音だけを用いた簡易な方法にも関わらず,以前報告した聴覚モデルを用いた方法を凌駕する精度での声道長推定が可能であることを確認した.また,このデータベースに付与された身体情報を母音だけから推定できることを示した.When we hear a voice, we will see the person's body type somehow. In this article, we propose a method for estimating relative vocal tract length using only vowels. The proposed method consists of procedures to alleviate spectral deforming effects caused by other factors than the vocal tract length. They are selection of spectral region for calculating spectral distance, removal of global spectral shape, and smoothing of excessive details of spectrum. Parameter tuning of the proposed method was conducted by using a speech database with relevant physical data which consists of Japanese five vowels spoken by 284 male, female and adolescent talkers ranging from 6 to 56 years old. This simple vowel-based method found to provide better estimates than our previously proposed method. The proposed method also provides estimates of talkers' height and weight only from vowels using the relevant physical data stored in the database.

  • モバイル携帯端末を用いた環境音収集とその認識手法の検討

    津田 貴彦, 中西 恭介, 松山 みのり, 西村 竜一, 山田 順之介, 河原 英紀, 入野 俊夫

    研究報告音楽情報科学(MUS)   2013 ( 18 ) 1 - 6   2013年05月

     概要を見る

    本研究では、環境音を入力とするインターフェースを有するモバイルアプリケーションの開発を行っている。実現に必要なのは、環境音認識手法の開発と、環境音サンプルの収集及び、クライアントアプリケーションの実装である。認識システムを予備評価した結果、アルゴリズムの改良と学習用データの拡充が必要であることを確認した。この問題に対し、データ収集用のAndroidアプリケーションを作成し、学内ではサークル等の活動に伴う音を29時間24分、学外では電車の走行音や救急車のサイレン等の音を10時間36分にわたって集めることに成功した。本発表では、収集データの分類と、その認識手法について議論する。We have been developing an Android mobile application which can recognize environmental sound signals. This report describes environmental sound signal recognition method, our collection of environmental sounds, and an overview of the prototype system. In order to collect further samples of environmental sounds, Android applications for data collection was developed.

  • 環境音認識を応用した情報提供機能を有するモバイルアプリケーションの検討

    中西恭介, 津田貴彦, 西村竜一, 河原英紀, 入野俊夫

    全国大会講演論文集 ( 一般社団法人情報処理学会 )  2013 ( 1 ) 463 - 465   2013年03月

     概要を見る

    近年、スマートフォンで利用できる音声ナビゲーション機能が注目されている。また、日常では環境音からも多くの情報を得ることができる。そこで、本研究では環境音認識を応用し,その場の状況を判断するガイドシステムの開発を目指す。具体的には、和歌山大学の案内システムを開発する。本システムは、サーバークライアント型のアーキテクチャを採用しており、Android端末で録音した音響信号をサーバー側で認識処理する。実現に必要なのは、環境音認識プログラムの開発と、音響信号サンプルの収集およびアプリケーションの実装である。現在までに、収集した環境音を用いて認識実験を行った。結果を報告する。

  • 波形の高次対称性に基づく基本周波数抽出法における潜在変数ダイナミクスの導入について

    河原英紀, 森勢将雅, 榊原健一, 西村竜一, 入野俊夫

    日本音響学会研究発表会講演論文集(CD-ROM)   2013   2013年

  • 非対称レベルマスカを導入したノッチ雑音マスキング法の測定点の削減

    深渡瀬 智史, 入野 俊夫, 西村 竜一

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  42 ( 7 ) 547 - 552   2012年10月

  • 周期信号の群遅延の安定な表現について

    河原 英紀, 森勢 将雅, 西村 竜一, 入野 俊夫

    電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 )  112 ( 125 ) 1 - 6   2012年07月

     概要を見る

    位相の時間微分および周波数微分としてそれぞれ定義される瞬時周波数と群遅延は,位相そのものよりも物理的な意味を理解し易く,またunwrapという脆弱な処理を必要としないなど,優れた性質を有する表現である.しかし,周期信号を対象とした場合,周期的に繰返される成分間の干渉により,それらの値には不連続や急激な変化が生ずる問題があった.著者らは,これまで周期信号から求められる表現に含まれる周期性に起因する干渉を解消する方法を,パワースペクトルと瞬時周波数について明らかにしてきた.ここでは,Flanaganらによる瞬時周波数計算法と同様な表現に基づくことにより,群遅延についてもそのような干渉を解消した表現が可能であることを示す.具体的には,求められた群遅延をパワースペクトルで重み付けた後,コピーを作成し,それぞれを周波数軸上で反対方向に基本周波数の1/4だけ移動させたものの加重平均を求めれば良い.

  • スケール変形母音の話者寸法弁別と母音同定 : 母音持続時間の依存性

    竹島 千尋, 津崎 実, 入野 俊夫

    聴覚研究会資料 ( 日本音響学会聴覚研究委員会 )  42 ( 4 ) 369 - 374   2012年06月

  • スケール変形母音の話者寸法弁別と母音同定 : 母音持続時間の依存性

    竹島 千尋, 津崎 実, 入野 俊夫

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  112 ( 81 ) 39 - 44   2012年06月

     概要を見る

    本研究の目的は,聴覚の寸法情報処理における積分特性を明らかにすることである。母音のスペクトル包絡の周波数スケールを伸縮させた母音刺激に対し話者寸法の弁別実験を行った。その結果,母音の持続時間が16msから32msに増加すると弁別成績が大きく向上した。32ms以上の母音では持続時間の増加に伴って僅かに成績が向上する程度にとどまった。結果から,32ms付近の積分の時間窓が寸法情報処理に影響を及ぼす可能性が示唆された。母音同定実験においても16msの持続時間で成績が最も低下した。しかし寸法弁別実験とは異なり,母音同定では母音の駆動条件によって持続時間の効果の程度に違いが見られた。

  • 楽器音や動物の鳴声の音色と音声の言語情報を保持したクロス合成VOCODER

    西 大輝, 西村 竜一, 入野 俊夫, 河原 英紀

    研究報告音楽情報科学(MUS)   2012 ( 3 ) 1 - 6   2012年05月

     概要を見る

    楽器音や動物の鳴声と,音声の2つの音源の特徴を併せ持つ合成音を作るクロス合成 VOCODER の検討をしている.クロス合成は,音声の狭帯域伝送技術である VOCODER を応用した技術で,現在では楽曲制作や Vocal エフェクター等,音楽の分野で広く用いられる.しかし,クロス合成でつくられる合成音は,楽器音等の音色の特徴が失われ,元の楽器の音が何か不明確になるという問題がある.本報告では,この問題を解決するため,変調周波数領域を帯域制限することにより,音声の言語情報だけを残したスペクトルを用いる新たなクロス合成を提案する.さらに,変調周波数領域を処理するフィルタにおける遮断周波数の設計を検討し,その効果を主観評価実験により明らかにした.A new design method of cross synthesis VOCODER, which synthesizes sounds by mixing features of two input sounds, such as speech and musical instruments or animal voices, is proposed. Cross synthesis VOCODER is originated from a narrow-band transmission technology and currently widely used as an effector for musical performance and production. However, current cross synthesis effects tend to deteriorate original character of musical instruments and linguistic information of the processed sound is not always intelligible. The proposed method provide ways to alleviate these difficulties using two technique. One is spectral global shape removal form the speech spectral envelope and the other is band-pass filtering in the modulation frequency domain. Subjective test results indicated relevance of the proposed techniques and provide design guideline of new flexible cross synthesis VOCODERs.

  • 音源およびスペクトル包絡の時間的微細構造の加工と歌唱音声の印象への影響について

    河原 英紀, 森勢 将雅, 西村 竜一, 入野 俊夫

    研究報告音楽情報科学(MUS)   2012 ( 4 ) 1 - 6   2012年05月

     概要を見る

    シャウトやデスボイスなどの激しい表現は、ポピュラー歌唱で広く用いられている。これらを適切に分析、再現、制御する方法を明らかにすることは、歌唱合成システムに豊かな表現力を与えるために解決すべき重要な課題である。本報告では、まず、新たに開発した高い時間分解能を有する基本周波数抽出法とそれに基づく TANDEM-STRAIGHT により、様々な歌唱音声を分析した結果について報告する。分析結果は、激しい表現にいおいて、70 Hz付近に 20 dB程度の高さのピークを有する高速の (基本周波数の) 周波数変調と、同様に、高速の (スペクトル包絡の) 振幅変調が存在することを示した。このような高速の変調の存在は、これまでにはっきりとは報告されていない。予備的な実験により、それらの高速の変調を加工することにより、発声の声区と努力の印象を保ったまま、シャウトなどの歌唱表現の強さ (生々しさ) を制御できる可能性が示された。Strong expressions such as "shout" and "death voice" are common in popular singing. However, current singing synthesis systems are not good at handling these strong expressions and are not capable of using them to expand their limit of expressiveness. This is the topic this article tries to address. A set of singing voice analysis tests was conducted using our newly developed F0 extraction method, which has high temporal resolution and is light-weighted, and TANDEM-STRAIGHT for spectral envelope analyses. This test revealed that expressive singing voices consist of high-speed frequency as well as amplitude modulations in F0 and spectral envelope respectively. In one typical case, about 20 dB higher modulation frequency spectral peak was found around 70 Hz for expressive performance than that of normal performance. Preliminary tests suggested that selective control of "expressiveness" can be implemented by manipulating these high-speed modulations while preserving vocal register and effort intact.

  • 日本語発話能力測定ウェブテストシステムを用いて収集した留学生の日本語発話の分析

    栗原理沙, 西村竜一, 和田芳佳, 河原英紀, 入野俊夫

    日本音響学会研究発表会講演論文集(CD-ROM)   2012   ROMBUNNO.3-11-19   2012年03月

  • ウェブデータベースを用いた音声認識用言語モデルの簡易適応

    西村竜一, 島田敏明, 田中雅康, 河原英紀, 入野俊夫

    全国大会講演論文集 ( 一般社団法人情報処理学会 )  2012 ( 1 ) 5 - 7   2012年03月

     概要を見る

    我々は、大語彙連続音声認識の精度向上の為、ウェブデータベースを用いた3-gram言語モデルの拡張手法を検討している。本手法は、Googleの日本語N-gramデータベースの登録情報に基づき、学習用コーパス内では未観測であった3-gramの出現確率を推定する。また、本手法では情報量を基準として重要単語を抽出し、拡張する3-gramを選別する。昨年の報告に引き続き、提案法を言語モデルのタスク適応に応用した。実験では、日本語話し言葉コーパス(CSJ)から抽出した講演発話を対象に本手法を適用し、認識精度を評価した。また、提案法を実装したウェブアプリサービスを構築する予定なので、その概要を報告する。

  • 若年話者判別法の音響特徴に対する聴覚フィルタバンクの導入

    宮森翔子, 西村竜一, 岡本恵里香, 入野俊夫, 河原英紀

    全国大会講演論文集 ( 一般社団法人情報処理学会 )  2012 ( 1 ) 613 - 615   2012年03月

     概要を見る

    本研究では、対話インタフェースにおいて子どもに優しい振舞いを提供するために、音声認識を用いた若年者判別技術に関する検討を行っている。今回、従来から用いている音響特徴量であるMFCC(メル周波数ケプストラム係数)に、ガンマチャープ聴覚フィルタバンク(GCFB)から抽出した特徴量を組み合わせ、判別性能の調査を行った。MFCCは、音声認識に一般的に使用されている特徴量である。一方、聴覚フィルタバンクは人間の聴覚特性を模擬しており、先行研究により、音声モーフィングのための声道長正規化に有効であることがわかっている。声道長と人間の身長には相関があることから、聴覚フィルタバンクの導入は若年話者判別にも有効であると考えられる。

  • RJ-005 対話型音声インタフェースのための大人・子ども判別技術の改良(HIP(2),J分野:ヒューマンコミュニケーション&インタラクション)

    宮森 翔子, 西村 竜一, 入野 俊夫, 河原 英紀

    情報科学技術フォーラム講演論文集 ( FIT(電子情報通信学会・情報処理学会)運営委員会 )  10 ( 3 ) 37 - 40   2011年09月

  • 言葉の明瞭度と楽器等の音色を保持したクロス合成法の検討

    西 大輝, 西村 竜一, 入野 俊夫

    聴覚研究会資料 ( 日本音響学会聴覚研究委員会 )  41 ( 6 ) 463 - 468   2011年08月

  • 複数の周期成分を持つ音声のための周期構造抽出法と障害音声分析への応用について

    和田 芳佳, 森勢 将雅, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 )  111 ( 175 ) 81 - 86   2011年08月

     概要を見る

    歌唱音声や障害音声,強い感情音声など,基本周波数のみでは十分に表すことのできない複雑な構造をもつ音声を分析するために,XSX(eXcitation Structure extractor)と呼ばれる方法を提案してきた.本資料では,従来の基本周波数抽出法と比較することで,XSXの特長と有効な適用領域を明らかにする.まず,FM調波複合音を試験用の信号として,基本周波数の変調周波数に対する追従性能を調べ,XSXが比較対象であるYINとSWIPEを大きく凌ぐ性能を有することを明らかにした.次いで,障害音声データの分析を行い,比較対象の方法と大きく異なる結果が得られる音声に対して詳細な検討を行った.XSXによる詳細な分析結果は,それらの音声では,いわゆる基本周期に加えて,複数の周期が組み合わされた単位が繰返されるサブハーモニックが生じていることを明らかにした.これらの結果は,XSXが従来の方法では困難な複雑な音声の分析に有用な方法であることを示すものである.

  • 言葉の明瞭度と楽器等の音色を保持したクロス合成法の検討

    西 大輝, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 )  111 ( 175 ) 87 - 92   2011年08月

     概要を見る

    音声と,楽器音や動物の鳴声などの2つの音源の特徴を混合して合成音を作るクロス合成VOCODERに,F0に適応したスペクトル包絡抽出法であるTANDEM-STRAIGHTを適用した.時変フィルタをFIRフィルタにより実装した検討では,STRAIGHTスペクトルを用いることにより,合成音の明瞭度が向上することが示された.しかし,同時に楽器等の音色の特徴が失われるという問題が明らかとなった.この問題を解決するため,音声の変位スペクトルと最小位相応答を用いた時変フィルタによる新たなクロス合成法を提案する.予備的な検討では,提案手法により,言葉の明瞭度を維持しながら,楽器音の特徴を保存できる可能性が示された.

  • 聴覚フィルタバンクを用いた声道長比推定

    岡本 恵里香, 入野 俊夫, 西村 竜一, 河原 英紀

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  111 ( 153 ) 11 - 16   2011年07月

     概要を見る

    音声認識や,高品質な音声モーフィングなどの音声アプリケーションには声道長正規化(VTLN)は重要な技術となっている.しかし,声道長を個人差が大きい音声から正確に推定することはけして容易ではない.これは,音声の母音のスペクトル形状が,声道長ばかりでなく,声道音源波形や梨状窩による零などの影響により個人毎に大きく異なっているためである.本研究では,聴覚フィルタバンクを用いて.声道長の推定精度を改善する手法を提案する.2話者の音声の間のスペクトル距離が最小となるスペクトル伸縮度合を声道長比とし,28名分の音声(全順列_<28>P_<27>=756通り)について計算を行い,その結果から回帰分析によって推定誤差を統計的に求めた.また,スペクトル表現による違いを比較するために,音声認識に従来から用いられているMFCCの計算に用いられるメル周波数フィルタバンク(MFFB),代表的な聴覚モデルであるガンマトーンフィルタバンク(GTFB),ガンマチャープフィルタバンク(GCFB)を対象とした.この結果,GCFBを用いた場合に,他の手法よりも声道長比推定の精度が良くなることがわかった.

  • 外部知識としてウェブを用いた3-gram言語モデル拡張手法の検討

    西村竜一, 島田敏明, 田中雅康, 河原英紀, 入野俊夫

    第73回全国大会講演論文集   2011 ( 1 ) 75 - 76   2011年03月

     概要を見る

    大語彙連続音声認識の精度向上の為、ウェブを用いた3-gram言語モデルの拡張手法に関して報告する。3-gramモデルにおいて、学習コーパスに存在しない未観測3-gramの確率値を推定する手法として、バックオフが従来から用いられている。内包的な確率推定手法であるバックオフが広く普及する一方、本研究のように、外部のデータベースを用いた未観測3-gramの確率推定の手法も存在する。本発表では、外部データベースとしてGoogleデータベースを用いた場合の未観測3-gram確率推定法に関して、従来のバックオフ手法との比較を中心に報告する。

  • 周期信号における時間的変動の影響を受けない位相関連情報の表現について

    河原 英紀, 森勢 将雅, 入野 俊夫

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  110 ( 297 ) 47 - 51   2010年11月

     概要を見る

    基本周期の1/2の間隔を隔てた二つの時間窓を用いて、短時間Fourier変換により求められる二つのパワースペクトルの平均を計算すると、波形と時間窓の相対位置に依存しない表現が得られる。本資料では、瞬時周波数についても、同様に波形と時間窓の相対位置に依存しない表現が得られることを示す.具体的には、基本周期の1/2の間隔を隔てた二つの時間窓を用いて求められる瞬時周波数のパワーによる重み付き平均が、そのような性質を持つ。本資料では、幾つかの前提条件の下で、この方法により求められる瞬時周波数が波形と時間窓の相対位置に依存しないことを示す。また、実際に良く用いられる窓関数を用いて実装した場合の性能について、数値例を示す。

  • E-012 音声ウェブシステムを用いて収集した実環境子供発話に関する調査(E分野:自然言語・音声・音楽,一般論文)

    栗原 理沙, 西村 竜一, 宮森 翔子, 河原 英紀, 入野 俊夫

    情報科学技術フォーラム講演論文集 ( FIT(電子情報通信学会・情報処理学会)運営委員会 )  9 ( 2 ) 229 - 230   2010年08月

  • J-006 ちょっとした一言の音声認識による子ども利用者判別法の検討(J分野:ヒューマンコミュニケーション&インタラクション,一般論文)

    宮森 翔子, 西村 竜一, 栗原 理沙, 入野 俊夫, 河原 英紀

    情報科学技術フォーラム講演論文集 ( FIT(電子情報通信学会・情報処理学会)運営委員会 )  9 ( 3 ) 469 - 472   2010年08月

  • 単語重要度を用いたN-gram補完手法が与える音声認識性能の調査

    島田 敏明, 西村 竜一, 河原 英紀, 入野 俊夫

    研究報告音声言語情報処理(SLP) ( 情報処理学会 )  2010 ( 19 ) 1 - 6   2010年07月

     概要を見る

    単語 3-gram モデルは,テキストコーパスから統計的手法に基づいて構築される.しかし,テキスト量が少ないと統計量を正しく算出できない.そこで本研究では,Google N-gram データに含まれる 3-gram エントリを用いて,3-gram 情報の補完を行った.3-gram エントリを選別せず補完すると,3-gram エントリ数が爆発的に増加する問題が発生する.そこで,提案手法では TF・IDF 指標と Yahoo! 関連キーワードから算出した単語重要度に基づき,追加する 3-gram エントリを選別した.これにより,重要性の低い 3-gram エントリの追加と,エントリ数の爆発的増加を防ぐ事が出来た.評価では,CSJ コーパスを用いて認識実験を行った.その結果,補完前より単語正解精度において 1.64% の向上が得られた.We have developed a method that utilizes the Google N-gram database to complement 3-gram entries in a language model. Our aim was to improve the accuracies of LVSR systems even when a 3-gram model trained on short texts is being used. This method is based on 3-gram occurrence information in external web documents and consists of three main steps. First, 3-gram entries are searched in the Google database. Secondly, 3-gram appearance counts are normalized on the basis of the ratio of total number of 3-gram entries. Lastly, 3-gram entries are selected on the basis of keywords. To prevent the addition of redundant or not relevant entries, 3-gram entries without a keyword are excluded to calculate 3-gram probabilities. The keywords were composed by measuring the TF-IDF weights and employing the web API of Yahoo! Japan. Experimental results confirmed 1.64% improvement in a recognition accuracy using the CSJ Corpus.

  • 擬似音声信号を用いた評価による音源構造抽出法の最適化について

    和田 芳佳, 板垣 英恵, 森勢 将雅, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 )  110 ( 71 ) 77 - 82   2010年06月

     概要を見る

    「痩れ声」や「だみ声」のように,感情音声や歌唱音声において強い印象を与える音声の分析・合成の研究を進めている.それらの音声を駆動する信号は,基本周波数のみでは十分に表すことのできない複雑な構造を有している.本資料では,この駆動信号の構造を分析する方法として提案しているXSX(eXcitation Structure eXtractor)法に含まれる設計パラメタの最適化と,評価方法を検討した結果について報告する.評価用の疑似音声信号としては,音声のスペクトル傾斜を模した調波複合音を用い,評価目的に応じて,瞬時周波数に対するFM,瞬時振幅に対するAMを加えた.提案する方法は,初期推定値の抽出と,抽出された基本周波数候補の推定値の改良の二つのサブシステムから構成されている.本資料では,まず,初期推定値の抽出部分を最適化し,その後,推定値の改良部分を加えた全体のシステムの評価を行った.その結果,提案する方法は,様々な変動に対して,従来の方法を凌ぐ精度と追従性を有することが示された.

  • スペクトル距離に基づく声道長正規化のための周波数帯域の選定について

    岡本 恵里香, 浅香 佳希, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 )  110 ( 71 ) 83 - 88   2010年06月

     概要を見る

    母音のスペクトル形状は,主要な要因である声道長に加え,声道音源波形や梨状窩による零などの影響により個人毎に大きく異なっている.この個人差を取り除くことは,高品質な音声モーフィングの実現や音声認識における重要な課題である.本研究では,この主要な変動要因である声道長比の推定精度を改善する方法を検討した.スペクトル距離に基づく声道長比の推定において,声道長比の影響が支配的である周波数帯域を選択することにより,推定精度を改善できると考えられる.実験では,28名により読み上げられた文音声の全ての組合せから推定された相対的な声道長を真値と仮定し,周波数帯域と推定精度との関係を調べた.その結果,MFCCの計算に用いられるフィルタ出力の対数スペクトル距離とその周波数方向の導関数の距離とを合成した距離を400Hzから4000Hzの周波数帯域で評価した場合に,最良の結果が得られることが示された.

  • Auditory filter shape from temporal masking curves and notched-noise data,

    Toshio Irino, Nozomi Shimoshio, Hiroki Takahashi, Hideki Kawahara, Roy Patterson

    Auditory Features Workshop, Equipe Audition, DEC, Ecole normale supérieure, France     2010年06月

     概要を見る

    1 &amp; 3 Jun., 2010 (発表日 3 Jun)

  • ウェブ収集発話を対象とした若年者判別の検討

    宮森 翔子, 西村 竜一, 入野 俊夫, 河原 英紀

    全国大会講演論文集   72   285 - 286   2010年03月

  • 高品質分析合成のための有声音の非周期成分の表現と推定について

    河原 英紀, 森勢 将雅, 高橋 徹, 坂野 秀樹, 西村 竜一, 入野 俊夫

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  109 ( 451 ) 99 - 104   2010年02月

     概要を見る

    高品質な音声分析変換合成系において、駆動信号に非周期成分を加えることは大きな効果を有する。しかし、この非周期成分をどのように表現し推定するかという問題には、幾つかの両立困難な条件がある。TANDEM-S-TRAIGHTでは、推定問題に一応の解を与えたものの、解釈と操作が困難な表現となったことが、応用を広げる上での障害となっていた。本報告では、非周期成分をsigmoidと幕乗による非線形変換とを組み合わせてモデル化する方法を提案する。実際の音声の多数の分析に基づいた検証が必要ではあるが、2個のパラメタのみを用いて非周期成分を効率よく表現できる可能性が示された。予備的な試聴による印象では、この簡単な表現を用いることにより、分析合成音声の品質が向上する効果が認められた。

  • 音声のピッチと寸法情報の処理を担う脳領域のfMRIによる検討

    塚田 裕樹, 入野 俊夫, 大屋 義和

    聴覚研究会資料 ( 日本音響学会聴覚研究委員会 )  39 ( 7 ) 531 - 536   2009年11月

  • レクチャー講演 聴覚フィルタの測定と定式化について

    入野 俊夫

    聴覚研究会資料 ( 日本音響学会聴覚研究委員会 )  39 ( 6 ) 413 - 418   2009年10月

  • E-038 大人・子ども発話の自動識別に基づく安心Webシステムの検討(自然言語・音声・音楽,一般論文)

    宮森 翔子, 西村 竜一, 鈴田 健太郎, 河原 英紀, 入野 俊夫

    情報科学技術フォーラム講演論文集 ( FIT(電子情報通信学会・情報処理学会)運営委員会 )  8 ( 2 ) 343 - 344   2009年08月

  • 安心ウェブの実現に向けた大人・子ども発話のネット収集実験

    西村 竜一, 宮森 翔子, 鈴田 健太郎, 河原 英紀, 入野 俊夫

    研究報告音声言語情報処理(SLP) ( 情報処理学会 )  2009 ( 19 ) 1 - 6   2009年07月

     概要を見る

    本研究では,利用者の年齢層を発話音声から自動推定し,子どものアクセスを制限するウェブフィルタリングサービスの開発を目指す.今回,提案システムの実現に向けて,(1) 音声ウェブシステム w3voice を用いた大人・子ども発話のネットワーク収集実験,(2) GMM 音響モデルを用いた若年者自動判別の予備的実験を行った.発話収集の実験では,389 名の被験者の実環境発話 1,109 を集めることに成功した.発話を分析した結果,大人と子どもで,発話内容に異なる言語的傾向があることを確認した.また,GMM 音響モデルを用いた 14 歳以下の子どもの検出実験では正解率 65.9% を得た (大人の検出も含めると正解率 82.6%).This study aims at developing a voice-based web filtering service to restrict children from the harmful websites. It is based on an automatic estimation of an age group from their voices. To realize it, we have performed (1) a collection of adult and child voices using voice-enabled web system "w3voice", and (2) an experiment of young voice detection on the basis of GMM-based acoustic recognition. In the experiment of the utterance collection, we succeeded in the collection of the 389 testees' real environmental 1,109 utterances. It was confirmed that there was the difference of language tendencies between adults and children as a result of analyzing the utterances. In the experiment on 14-years-old or younger child detection, 65.9% correct rate was obtained.

  • 圧縮型ガンマチャープ聴覚フィルタによるノッチ雑音データと圧縮特性データへの同時適合

    入野 俊夫, 高橋 弘樹, 河原 英紀

    聴覚研究会資料 ( 日本音響学会聴覚研究委員会 )  39 ( 4 ) 283 - 288   2009年06月

  • 音声中の複数の繰返し構造の表現とその基本周波数および非周期性抽出への応用について

    板垣 英恵, 森勢 将雅, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 )  109 ( 100 ) 91 - 96   2009年06月

     概要を見る

    本資料では、分析時刻に非依存な周期信号のパワースペクトル推定法(TANDEM)と、適応的周波数平滑化(STIRAIGHT)に基づいた、音声中の繰り返し構造を抽出するボトムアップな方法を提案する。この方法では、周波数領域における局所的な周期構造から時間領域における繰り返し構造を抽出する。広い繰返し周期の範囲にわたる構造を抽出するために、提案する方法では、それぞれ特定の周期の繰り返しの抽出に特化した一群の検出器を配置し、それらの出力を統合している。この提案手法を、XSX(eXcitation Structure eXtractor)と呼ぶことにする。信号に含まれる非周期的な成分の抽出における提案手法の性質を調べるため、shimmerおよびjitter等を含む試験信号を用いたシミュレーションが行われた。その結果、提案手法は、従来のF0推定法で分析することが困難な信号の複雑な周期性構造の検出に優れていることが示された。また、実際の障害音声の例を分析することにより、それらによって品質が劣化した音声の修復への本方法の適用可能性を検討した。

  • 圧縮型ガンマチャープ聴覚フィルタによるノッチ雑音データと圧縮特性データへの同時適合

    入野 俊夫, 高橋 弘樹, 河原 英紀, パターソン ロイ D.

    電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 )  109 ( 100 ) 67 - 72   2009年06月

     概要を見る

    聴覚末梢系の周波数選択性/聴覚フィルタ形状と圧縮特性を正確に推定することは、人間の音声や音響信号に対する知覚特性をモデル化するための第一歩として重要である。本研究では、健聴被験者に対してノッチ雑音実験と順向性マスキング実験の両方を実施し、ノッチ雑音マスキングデータと圧縮特性が反映される入出力関数を推定した。次に、これらの両データに対して、圧縮型ガンマチャープ聴覚フィルタを同時適合し、パラメータ推定を行った。これにより、被験者間での共通点と相違点を明確に区別し、しかもパラメータ値のばらつきも小さい安定な推定ができたことを報告する。このことは、健聴者と例えば老人性難聴者を、少数パラメータの同一モデルで表現できる可能性を示すものである。

  • 視聴覚統合を利用した非言語的手段による音色知覚の評価について

    西田 沙織, 森勢 将雅, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 )  109 ( 100 ) 49 - 54   2009年06月

     概要を見る

    人間の知覚特性に基づく音の可視化に向けての基礎的検討として、音色を図形の形で表現することを試みる。振幅の時間変化・スペクトル構造の異なる11種類の音と、9種類の図形を用い、どのような音に対してどのような図形が選択されるのか調べる実験を行った。その結果、音のスペクトル構造が周波数軸方向に周期的か非周期的かによって、被験者の回答の傾向がはっきり分かれた。図形に関しては、選択基準となる要因が複雑さや鋭さであることがわかったが、これらは主観的な指標にすぎない。そこで、面積の平方根と輪郭線の長さとの比、円の軌跡からのずれの大きさ、尖度という定量的指標を用いて各図形を分析した。これらの結果と、主観的評価に基づくMDSの結果とを比較したところ、面積の平方根と輪郭線の長さとの比は横軸とほぼ対応しており、尖度は縦軸と一部対応していることがわかった。

  • 再合成音声の品質に対する音声スペクトル包絡推定法の影響について

    赤桐 隼人, 大西 壮登, 森勢 将雅, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  109 ( 99 ) 63 - 68   2009年06月

     概要を見る

    著者らが検討を進めている音声分析変換合成法TANDEM-STRAIGHTでは、有声音などの周期性に起因する影響を取り除いたパワースペクトルの推定を目的として、(1)分析位置に依存しない周期信号のパワースペクトル推定法TANDEMと、(2)consistent samplingに基づくF0適応型スペクトル平滑化を用いている。この(2)の実装では、平滑化関数として矩形関数を用い、本来は無限個の係数を必要とする補償項を1項で打ち切り、かつ、|x|≪1の場合には、log(1+x)&sime;xで近似できることを利用し、スペクトルの正値性を保証している。本資料では、これらの実装での近似による影響を、従来のSTRAIGHTを比較対象とし、有声音を用いた再合成音声の主観評価実験と、スペクトル距離の客観評価実験により調べた結果について報告する。主観評価実験の結果は、両STRAIGHTによる再合成音声が、MNRUのQ値40〜50に相当する高い品質を有するものであることを示すとともに、従来のSTRAIGHTによる再合成音声がTANDEM-STRAIGHTによるものよりも、やや高く評価される傾向を示した。これらの結果は、周波数重みを加えたピーク重み付きスペクトル距離尺度による客観評価結果とも整合しており、TANDEM-STRAIGHTによる再合成音声の品質を向上させるための手がかりを与える。

  • 声道長の正規化に基づく簡易モーフィング音声の品質改良について

    浅香 佳希, 西田 沙織, 赤桐 隼人, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  109 ( 99 ) 69 - 74   2009年06月

     概要を見る

    手作業による参照点の付与が必要であることは、現在の音声モーフィングの大きな問題となっている。この手作業が不要となる音声モーフィングを実現するため、声道断面積関数の補間に基づく方法の検討を進めている。今回は、検討の第一段階として声道長の正規化を行うことで、簡易モーフィング音声の品質を改善する方法を提案する。提案した方法では、聴覚特性を考慮したスペクトル距離尺度を用いることにより、モーフィングの対象となる話者間の声道長の比を推定した。主観評価実験の結果、提案した方法は簡易モーフィングの音声の品質を改善する上で有効であることが示された。また、品質を更に向上させるためには、声道長に加え、形状に関するパラメタの調整が必要であることが示唆された。

  • TANDEM-STRAIGHTおよび時変モーフィングのための研究用インタフェースの開発について

    河原 英紀, 森勢 将雅, 高橋 徹, 坂野 秀樹, 西村 竜一, 入野 俊夫

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  108 ( 465 ) 51 - 56   2009年02月

     概要を見る

    TANDEM-STRAIGHTは、STRAIGHTの全アルゴリズムを基礎から置き換え、プログラムを見通しと実行効率の良いものとした。また、時変モーフィング、母音情報に基づく音声変換など、音声加工の新しい枠組みも生み出された。本資料では、様々な分野の研究者がこれらの方法を容易に利用できるように開発している幾つかのインタフェースとそれらの利用法について紹介する。これらのインタフェースの開発は、応用研究を促進するだけではなく、様々な利用形態からのフィードバックと試行錯誤のサイクルの短縮により、アルゴリズム開発そのものを促進することを狙っている。

  • 視聴覚統合における刺激音の時間-周波数的特徴と視覚刺激の形状特徴の検討 -人間の知覚特性に基づく音楽の可視化システムに向けて-

    西田 沙織, 森勢 将雅, 西村 竜一, 入野 俊夫, 河原 英紀

    研究報告音楽情報科学(MUS) ( 一般社団法人情報処理学会 )  2009 ( 13 ) 65 - 70   2009年02月

     概要を見る

    音楽を元に生成された映像を見て鳴っている音が直感的にわかるような音の可視化を目指し、先行研究を参考に聴覚情報と視覚情報の間の妥当な対応付けを検討した。音色と図形形状の間に対応関係が存在する可能性があるが、厳密な実験がまだ行われていないため、これについて検証することとした。振幅の時間変化・スペクトル構造の異なる 11 種類の音と、9 種類の図形を用い、どのような音に対してどのような図形が選択されるのか調べる実験を行った。その結果、スペクトル構造が周期的か非周期的か、また高調波成分が多いか少ないかによって選択される図形に違いが見られた。An audio-visual integration test was conducted to investigate innate correspondence between sounds and shapes. Seven typical sound stimuli including periodic sounds and aperiodic sounds as well as musical instrumental sounds were presented followed by a pair of shapes. Subjects were asked to select one of shape that fit better with the preceding sound stimulus. MDS analyses of the results suggested that there seem to exist a common perceptual structure between vision and audition.

  • 実時間操作インタフェースへの応用を目的とした歌唱モーフィング操作パラメタの時系列への拡張について

    河原 英紀, 森勢将雅, 高橋 徹, 坂野 秀樹, 西村 竜一, 入野 俊夫

    情報処理学会研究報告音楽情報科学(MUS) ( 一般社団法人情報処理学会 )  2008 ( 127 ) 91 - 96   2008年12月

     概要を見る

    歌唱デザインの転写では,歌唱の歌い回しや声質・表現をモーフィング等を用いて局所的に操作することが必要となる。操作は、コンサートでのように実時間で行われる場合も、ポストプロダクションでのように時系列を編集してオフラインで行われる場合もある。このような操作を矛盾無く実現するために,本資料では,TANDEM-STRAIGHT を用いたモーフィングにおけるモーフィング率を多次元の時系列に拡張するとともに,実時間での処理を明確に定式化した。この定式化により、モーフィング対象となる 5 種類のパラメタ(基本周波数、非周期性、STRIAGHT スペクトル、時間軸、周波数軸)を個別に異なった時系列で制御するシステムを実装する基盤が確立された。また、この定式化を、変換関数の導関数の対数上での補間に基づいたものとすることにより、これまで問題となっていた外挿による品質の劣化を回避することが可能となった。なお、この定式化は、事例に関して対称であるため、事例の数が複数の場合のモーフィングに容易に拡張することができる。Reuse of performance design in singing requires temporally localized manipulations of singing style, voice quality and expressions.They can be done in realtime such as in live concert scenes or can be done in off-line such as in the post production editing or recorded materials. A new framework is introduced to extend TANDEM-STRAIGTH-based morphing with a temporally variable multi-dimensional morphing rate and formulated. This formulation provides solid basis for implementing five morphing parameters(fundamental frequency, aperiodicity, STRAIGHT spectrogram, time and frequency axes) on each time-series independently.This formulation is based on interpolation of logarithmic derivative of transformation functions and enables extrapolative morphing without quality breakdown found in our previous formulations. The proposed method is easily extended to multiple exemplar morphing because the formulation is symmetric for each exemplar utterance.

  • 劣化音声の知覚特性と音声認識器の認識傾向の比較

    森本 隆司, 入野 俊夫, 西村 竜一

    聴覚研究会資料 ( 日本音響学会聴覚研究委員会 )  38 ( 8 ) 803 - 808   2008年12月

  • TANDEM-STRAIGHTに基づく基本周波数抽出法の最適化に関する一検討

    板垣 英恵, 森勢 将雅, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション ( 一般社団法人電子情報通信学会 )  108 ( 337 ) 155 - 160   2008年12月

     概要を見る

    分析位置に依存しない周期信号のパワースペクトル推定法であるTANDEMと、それに基づくスペクトル包絡の推定法STRAIGHTとを組み合わせた、基本周波数抽出法が提案されている。本資料では、このTANDEM-STRAIGHTに基づく基本周波数抽出法に含まれている設計パラメタの役割と抽出器の性能との関係を調べ、それらの最適化を試みた。取上げた設計パラメタは、周波数軸上での周期性の評価に用いる調波の個数と、それぞれ異なった基本周波数に特化した複数の基本周波数抽出器を統合する際の、それぞれの抽出器の守備範囲を定める重み関数の幅である。まず、それぞれのパラメタがどのように抽出性能に影響するかを説明した後、EGG信号を同時記録した音声データベースを用いて、パラメタの値と抽出器の性能との関係を定量的に評価した。その結果、Gross errorを評価指標とした場合の最適値として、調波の個数は3、重み関数の幅は、特化した基本周波数の1/1.2が採用された。これらの最適値を用いた場合の性能は、これまでのSTRAIGHTの基本周波数抽出器、および広く引用されているYINと比較しても、遜色ないことが確認された。

  • 基本周波数情報に基づく線形予測と時間軸伸縮を利用した非周期成分の抽出について

    河原 英紀, 森勢 将雅, 高橋 徹, 坂野 秀樹, 西村 竜一, 入野 俊夫

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション ( 一般社団法人電子情報通信学会 )  108 ( 337 ) 85 - 90   2008年12月

     概要を見る

    高品質の音声分析変換合成のための非周期成分の抽出を検討している。本報告では,これまでにSTRAIGHTで用いてきたものを中心に、従来の方法とそれらの問題点を挙げ、新しい方法を提案する。提案する方法は、基本周期程度の時間間隔を隔てた部分からの前方および後方予測可能な成分を取り除いたものを非周期成分とし、時間-帯域幅積(TB積)を設定するためのQuadrature Mirror filterによる帯域分割と、基本周波数の瞬時周波数に基づく時間軸の伸縮を併用する。これらから得られる複数の手掛かりを統合することにより、従来の方法よりも効率が良くランダムな揺らぎの影響の少ない推定が可能となった。

  • TANDEM-STRAIGHTに基づく基本周波数抽出法の最適化に関する一検討

    板垣 英恵, 森勢将雅, 西村 竜一, 入野 俊夫, 河原 英紀

    情報処理学会研究報告音声言語情報処理(SLP) ( 一般社団法人情報処理学会 )  2008 ( 123 ) 155 - 160   2008年12月

     概要を見る

    分析位置に依存しない周期信号のパワースペクトル推定法である TANDEM と、それに基づくスペクトル包絡の推定法 STRAIGHT とを組み合わせた、基本周波数抽出法が提案されている。本資料では、この TANDEM-S TRAIGHT に基づく基本周波数抽出法に含まれている設計パラメタの役割と抽出器の性能との関係を調べ、それらの最適化を試みた。取上げた設計パラメタは、周波数軸上での周期性の評価に用いる調波の個数と、それぞれ異なった基本周波数に特化した複数の基本周波数抽出器を統合する際の、それぞれの抽出器の守備範囲を定める重み関数の幅である。まず、それぞれのパラメタがどのように抽出性能に影響するかを説明した後、 EGG 信号を同時記録した音声データベースを用いて、パラメタの値と抽出器の性能との関係を定量的に評価した。その結果、 Grosserror を評価指標とした場合の最適値として、調波の個数は 3 ,重み関数の幅は、特化した基本周波数の 1/1.2 が採用された。これらの最適値を用いた場合の性能は、これまでの STRAIGHT [7] の基本周波数抽出器、および広く引用されている YIN と比較しても、遜色ないことが確認された。A fundamental frequency extractor based on a temporally stable power spectral representation for periodic signals (TANDEM spectrum) and a spectral envelope derived from the representation (STRAIGHT spectrum) is proposed. This article describes roles of system parameters of the proposed method and their effects on system performance and reports results of preliminary optimization of them. System parameters investigated are; number of harmonic component for detecting hypothesized periodicity peak and weighting width on the log-lag domain for integrating specialized individual F0 detectors. Detailed descriptions of these parameters and their impact on F0 extraction performance are presented and they were further investigated using a database consisting of simultaneous recording of speech and EGG (electroglottogram) signals. Test results indicated that the proposed method has comparable performance with F0 extractors used in STRAIGHT and other popular F0 extractors such as YIN, when three harmonic components are used and weighting with a width of 1/√2 of the center lag is used.

  • 基本周波数情報に基づく線形予測と時間軸伸縮を利用した非周期成分の抽出について

    河原 英紀, 森勢将雅, 高橋 徹, 坂野 秀樹, 西村 竜一, 入野 俊夫

    情報処理学会研究報告音声言語情報処理(SLP) ( 一般社団法人情報処理学会 )  2008 ( 123 ) 85 - 90   2008年12月

     概要を見る

    高品質の音声分析変換合成のための非周期成分の抽出を検討している。本報告では,これまでに Straight で用いてきたものを中心に、従来の方法とそれらの問題点を挙げ〈新しい方法を提案する。提案する方法は、基本周期程度の時間間隔を隔てた部分からの前方および後方予測可能な成分を取り除いたものを非周期成分とし、時間-帯域幅積 (TB 積) を設定するための Quadrature Mirrorhlter による帯域分割と、基本周波数の瞬時周波数に基づく時間軸の伸縮を併用する。これらから得られる複数の手掛かりを統合することにより、従来の方法よりも効率が良くランダムな揺らぎの影響の少ない推定が可能となった。A reliable aperiodicity extractor is crucial for high-quality speech manipulation systems. This article proposes a new extractor based on a critical review on conventional methods (mainly on our previous proposals) and fundamental issues. The proposed method uses forward and backward linear predictors with lags around fundamental period and consists of an instantaneous fundamental frequency-based temporal axis warping. The extractor also consists of Quadrature Mirror Filter for frequency band division to control TB (time-bandwidth) product for reliable estimates. Combination of multiple clues extracted using the original and the manipulated time axes yields reliable and efficient estimates of aperiodicity spectrogram

  • 単独母音間の話者寸法弁別に影響を与える時間的要因の検討

    竹島 千尋, 津崎 実, 入野 俊夫

    聴覚研究会資料 ( 日本音響学会聴覚研究委員会 )  38 ( 6 ) 633 - 637   2008年10月

  • 日英母国語話者におけるCVとVC音節の脳領域の比較

    大屋 義和, 入野 俊夫, Hervais-Adelman Alexis G.

    聴覚研究会資料 ( 日本音響学会聴覚研究委員会 )  38 ( 6 ) 597 - 602   2008年10月

  • E-023 ウェブ上の言語知識を利用した音声認識用単語辞書の更新手法(自然言語・音声・音楽,一般論文)

    鈴田 健太郎, 西村 竜一, 河原 英紀, 入野 俊夫

    情報科学技術フォーラム講演論文集 ( FIT(電子情報通信学会・情報処理学会)運営委員会 )  7 ( 2 ) 189 - 190   2008年08月

  • スケール変形した有声/無声単語の寸法弁別と音韻認識に関する検討

    青木 良枝, 入野 俊夫, Patterson Roy D.

    聴覚研究会資料 ( 日本音響学会聴覚研究委員会 )  38 ( 5 ) 507 - 512   2008年08月

  • 解説記事 劣化合成音声を用いた模擬難聴の基礎検討

    入野俊夫

    Telecom Frontier ( テレコム先端技術研究センター刊)   ( 60 ) 4 - 13   2008年08月

  • 零周波数フィルタ信号に基づく基本周波数抽出法のTANDEM-STRAIGHTヘの応用について

    河原 英紀, 森勢将雅, 坂野 秀樹, 板垣 英恵, 大西壮登, 西村 竜一, 入野 俊夫

    情報処理学会研究報告音楽情報科学(MUS) ( 一般社団法人情報処理学会 )  2008 ( 78 ) 97 - 102   2008年07月

     概要を見る

    Yegnanarayana らは、インド語の CV 連鎖における破裂子音の分析を目的として、零周波数に 4 重の極を有するフィルタと局所的平均値を除去する FIR フィルタを組み合わせ、声帯の動作に関連するイベントを抽出する方法を提案した。ここでは、TANDEM-STRAIGHT および real time STRAIGHT への応用を狙い、追試および幾つかの評価を行った。その結果、この方法は、laptop PC 上のMatlab を用いた実装でも実時間の 1/7 で基本周波数を抽出することができること、最新の方法にはやや劣るものの十分に実用になるgross error である 0.55% が達成されること、瞬時周波数に基づく方法と同等の結果を、1/3 程度の持続時間という高い時間分解能で求められることが示された。An event based f0 extraction method based on so called zero frequency filtering method was proposed by Yegnanarayana for representing Indian stop consonants . The proposed method uses unstable IIR filters that place four poles at zero frequency and at the same time employs local mean subtracting filters to stabilize its output. This simple method was reported to run extremely fast and has comparative performance with existing F0 extractors. This article reports on a follow-up implementation of the method and evaluations and investigations for its performance and characteristics having its applicability to TANDEM-STRAIGHT and real time STRAIGHT in mind. The results indicated that the proposed method runs 7 times faster than real time with Matlab implementation on a standard laptop PC. It was also found that the gross error rate was 0.55% which is somewhat worse than the most recent methods but still reasonably high for practical applications, Finally, temporal resolution finer (namely 1/3) than instantaneous frequency based methods was also demonstrated.

  • スケール変形した有声/無声単語の寸法弁別と音韻認識に関する検討

    青木 良枝, 入野 俊夫, Patterson Roy D., 河原 英紀

    電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 )  108 ( 179 ) 35 - 40   2008年07月

     概要を見る

    人間の聴覚系において,音源の寸法情報と形状情報を分離抽出する機能があるという仮説を提案してきた.例えば大人と子供が発声した同じ言葉は,スペクトル形状は異なるものの同じ言葉として聞くことができ,同時に大人か子供か寸法の違いもわかる.これまで,母音・単音節・楽器・動物の鳴声などを用いて心理物理実験が行われてきた.さらに通常のコミュニケーションの場で自然な発話を聞いている状況においても,同様な知覚特性が観測されるか検討が必要である.本研究では自然発話された単語音声とささやき声を用いて寸法知覚における弁別閾と音韻認識率を測定した.この結果,有声/無声問わず声道寸法の違いを聞き分けられ,通常発声範囲を超えた音声でも認識可能であることがわかった.

  • TANDEM-STRAIGHT によるスペクトル包絡の近似精度の改善について基本周波数により定まる Nyquist 周波数以上の空間周波数成分の復元について

    河原 英紀, 森勢 将雅, 高橋 徹, 坂野 秀樹, 西村 竜一, 入野 俊夫

    電子情報通信学会技術研究報告. SP, 音声   108 ( 116 ) 19 - 24   2008年06月

  • STRAIGHT を用いた簡易モーフィングによる印象変化の評価について

    西田 沙織, 大西壮登, 吉田 有里, 森勢将雅, 西村 竜一, 入野 俊夫, 河原 英紀

    情報処理学会研究報告音楽情報科学(MUS) ( 一般社団法人情報処理学会 )  2008 ( 50 ) 43 - 48   2008年05月

     概要を見る

    時間軸だけを整合させるという簡易な方法によりモーフィングした音声を対象として、自然性と話者性の主観評価実験を行った。その結果を、単語・モーフィング率・話者の組み合わせという 3 つの観点から分析した。単語別に見た場合、自然性・話者性の評価には、有意差は認められなかった。モーフィング率別に見た場合、モーフィング率が 50% に近づくほど自然性が低下し、モーフィング率が 25% から 75% では、話者性の正答率が 60% 程度となった。話者の組み合わせ別に見た場合、組み合わせが同性か異性かで評価の傾向に差が見られた。組み合わせが同性のときは自然性は高くなるが話者性を判別しにくくなり、異性のときは自然性は低くなるが話者性を判別しやすいという傾向が認められた。これらの結果より、同性の話者の場合には、簡易なモーフィングを実用的な手法として利用できる可能性があることが分かった。A morphing procedure only relies on temporal axis alignment was tested subjectively in terms of naturalness and speakers' identity. Effects of contributing factors were investigated regarding on test words, morphing rates and used speakers. Naturalness of the morphed speech was deteriorated when the morphing rate nears 50%. Identification of mixing rate of two speakers was about 60% when the morphing rate is 25%, 50% or 75%. Naturalness of the morphed speech sounds were found higher when speakers' sex was identical while mixing rate identification were lower. These results suggest that the proposed simplified procedure is practically usable for morphing speakers having the same sexual distinction.

  • 音声入力Webシステムによる音声認識アプリケーションの構築技術

    西村 竜一, 三宅 純平, 河原 英紀, 入野 俊夫

    全国大会講演論文集   70   343 - 344   2008年03月

  • リアルタイムSTRAIGHTの改良とSTRAIGHTライブラリの実装

    坂野 秀樹, 森勢 将雅, 高橋 徹, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  107 ( 551 ) 157 - 162   2008年03月

     概要を見る

    実時間動作するSTRAIGHT,リアルタイムSTRAIGHTの改良を行ったので,その詳細について報告する.高品質音声分析変換合成法STRAIGHTは極めて高品質であり,合成システムや聴覚実,験用のツールとして広く利用されるようになってきている.STRAIGHTは,MATLABによって実装されており,オフラインでの処理にはこれが広く用いられているが,実時間で動作するものではない.そこで,我々は,実時間で動作するリアルタイムSTRAIGHTをC言語による実装で構築してきた.今回は,まず,C言語によるSTRAIGHTの実装であるC言語版を,MATLAB版STRAIGHTの最新版と同等のものに更新した.そして,このC言語版の関数の一部を利用し,リアルタイムSTRAIGHTのスペクトル抽出部分を改良した.改良したリアルタイムSTRAIGHTを用いて主観評価実験を行った所,MOS値が3.4となり,これまでのリアルタイムSTRAIGHTに比べ0.7程度改善したことが分かった.また,C言語版STRAIGHTにおいては,バージョンによるAPIの違いが大きいという問題があった.今回,このような問題を解決したC言語版STRAIGHTのAPIを策定し,STRAIGHTライブラリとして実装した.

  • STRAIGHTに基づく柔軟な音声合成技術の開発

    河原 英紀, 大西 壮登, 森勢 将雅, 高橋 徹, 西村 竜一, 坂野 秀樹, 入野 俊夫

    全国大会講演論文集   70   357 - 358   2008年03月

  • AS-5-1 時間平均に基づく周期信号のパワースペクトル推定法(AS-5. 音響信号のモデリングと表現,シンポジウムセッション)

    森勢 将雅, 高橋 徹, 河原 英紀, 入野 俊夫

    電子情報通信学会総合大会講演論文集 ( 一般社団法人電子情報通信学会 )  2008   "S - 48"-"S-49"   2008年03月

  • ポップス系歌唱音声における基本周波数軌跡の楽譜からの変位について

    吉田 有里, 森勢将雅, 高橋 徹, 西村 竜一, 入野 俊夫, 河原 英紀

    情報処理学会研究報告音声言語情報処理(SLP) ( 一般社団法人情報処理学会 )  2008 ( 12 ) 13 - 18   2008年02月

     概要を見る

    STRAIGHTの基本周波数抽出法を、周期信号用の新しいパワースペクトル推定法であるTANDEMを用いて再構成することにより、長時間の歌唱音声を容易に扱うことができるようになった。ここでは、実際のプロ歌手による様々な演奏スタイルの歌唱音声の基本周波数軌跡を求め、演奏スタイルによる物理特性の変化を、規範となる楽譜からの変位として調べた。また、歌唱音声に顕著に認められる大きな周波数遷移での基本周波数推定の問題について検討した。A reformulation of STRAIGHT F0 extractor based on a new power spectrum estimation method for periodic signals called TANDEM made it practical to extract whole F0 trajectory of a singing voice of an actual performance. This article reports a first attempt for representing effects of singing style in terms of deviations from a nominal musical transcription, using a singing database that consists of various types of singing performance played by professional pop singers. F0 extraction issues caused by fast F0 transitions commonly found in singing voices are also discussed.

  • 聴覚系における共鳴体の「大きさ」知覚の時間追随性 : 寸法変調音声を用いた検討(日本基礎心理学会第26回大会,大会発表要旨)

    竹島 千尋, 津崎 実, 入野 俊夫

    基礎心理学研究 ( 日本基礎心理学会 )  26 ( 2 ) 213 - 214   2008年

    DOI

  • TANDEM-STRAIGHT に基づく基本周波数の抽出と評価について

    河原 英紀, 森勢将雅, 高橋 徹, 西村 竜一, 坂野 秀樹, 入野 俊夫

    情報処理学会研究報告音声言語情報処理(SLP) ( 一般社団法人情報処理学会 )  2007 ( 129 ) 259 - 264   2007年12月

     概要を見る

    簡単な処理で、周期信号のパワースペクトルの時間方向の変動を取り除くことのできる方法 (TANDEM 窓法)を用いて、音声分析変換合成法 STRAIGHT の再構築を進めている。ここでは、TANDEM スペクトルと STRAIGHT スペクトルの比を利用することにより、基本周期のみを選択的に抽出する方法を提案する。複数の基本周期を仮定し、それぞれの基本周期の成分を選択的に検出する機構を用意して組み合わせることにより、広い範囲にわたって、同じ基準で基本周波数の確からしさを評価することが可能となる。さらに、こうして求められた基本周波数情報を用いて、周波数軸上の直交位相信号を用いて非周期成分を推定する方法を提案する。提案した方法は、二重音声のような従来の基本周波数抽出法では扱いが難しい信号に対しても、合理的な分析結果を与える。TANDEM method, a power spectrum estimation method for periodic signals was proposed to provide temporally stable representation and has been applied to reformulate STRAIGHT, a system for speech analysis modification and synthesis. This article proposes a fundamental period estimation method based on a ratio between TANDEM spectrum and STRAIGHT spectrum. By providing specialized F0 detectors for multiple F0 candidates and integrating individual clues, the proposed method selectively detects fundamental components and yields a probability measure for each estimate. It also provides a method to estimate aperiodicity in each frequency band by making use of estimated fundamental frequency information to design a quadrature signal on the frequency axis for filtering periodic spectral component due to the signal periodicity. The proposed method is capable of representing pathological speech signals more precisely than conventional methods.

  • TANDEM-STRAIGHTに基づく基本周波数の抽出と評価について

    河原 英紀, 森勢 将雅, 高橋 徹, 西村 竜一, 坂野 秀樹, 入野 俊夫

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  107 ( 406 ) 259 - 264   2007年12月

     概要を見る

    簡単な処理で、周期信号のパワースペクトルの時間方向の変動を取り除くことのできる方法(TANDEM窓法)を用いて、音声分析変換合成法STRAIGHTの再構築を進めている。ここでは、TANDEMスペクトルとSTRAIGHTスペクトルの比を利用することにより、基本周期のみを選択的に抽出する方法を提案する。複数の基本周期を仮定し、それぞれの基本周期の成分を選択的に検出する機構を用意して組み合わせることにより、広い範囲にわたって、同じ基準で基本周波数の確からしさを評価することが可能となる。さらに、こうして求められた基本周波数情報を用いて、周波数軸上の直交位相信号を用いて非周期成分を推定する方法を提案する。提案した方法は、二重音声のような従来の基本周波数抽出法では扱いが難しい信号に対しても、合理的な分析結果を与える。

  • 自然発話された単語音声を用いた音源寸法知覚における弁別閾の測定

    青木 良枝, 入野 俊夫, Patterson Roy D.

    聴覚研究会資料 ( 日本音響学会聴覚研究委員会 )  37 ( 10 ) 787 - 792   2007年12月

  • 劣化処理した単音節系列音の知覚に関する検討

    森本 隆司, 入野 俊夫, 河原 英紀

    聴覚研究会資料 ( 日本音響学会聴覚研究委員会 )  37 ( 10 ) 775 - 780   2007年12月

  • 音声入力・認識機能を有する Web システム w3voice の開発と運用

    西村 竜一, 三宅 純平, 河原 英紀, 入野 俊夫

    情報処理学会研究報告音声言語情報処理(SLP) ( 一般社団法人情報処理学会 )  2007 ( 103 ) 13 - 18   2007年10月

     概要を見る

    提案する w3voice システムは、Web システムに対して、音声による入力インタフェースを拡張する。Java アプレットと CGI プログラムから構成し、通信プロトコルには、HTTP POST method と Redirection response を応用した実装を行った。このため、事前に特別な専用プログラムのインストールを要求せず、普段の Web ブラウザをそのままで使うことができる。また、音声認識、対話、ボイスチェンジャ、掲示板等の音声 Web アプリケーションを作成し、Web サイトで公開した。本研究は、家庭や職場等での音声インタフェースの利用環境を調べることを目的とする。そのために、利用者からの入力発話を蓄積し、分析をはじめている。約7ケ月で一日 47.6個、合計で 8 412 の入力を得ることができた。本稿では、提案システムの概要を述べ、収集データの発話時間及び SNR に関する調査結果を報告する。We have developed a speech input method called "w3voice" to build practical and handy voice-enabled Web applications. It is constructed using a simple Java applet and CGI programs comprising free software. The mechanism of voice-based interaction is developed on the basis of raw audio signal transmissions via the POST method and the redirection response of HTTP. We have released a number of w3voice applications on our website for public uses. The system also aims at organizing a voice database obtained from home and office environments. We have succeeded in acquiring 8,412 inputs (47.9 inputs / day) over a period of seven months. This report describes an overview of the proposed system, and results of analyzing collected inputs to observe utterance lengths and SNR.

  • 一般逆行列を用いた母音情報に基づく声質変換法について

    大西 壮登, 高橋 徹, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  107 ( 282 ) 75 - 80   2007年10月

     概要を見る

    これまで日本語5母音の情報に基づいて,ある話者の音声から別の話者の音声へ声質変換する方法について検討してきた.この方法では,まず「あいうえお」と発声された音声サンプルから各母音間の音声パラメタを変換するための変換関数を求める.入力音声の各時刻のスペクトル特徴量と各母音のスペクトル特徴量との類似度を重みとして,求められた各母音間の変換関数を合成する.このようにして自動設計された合成変換関数を用いて,入力音声のパラメタを変換する.従来,変換関数を合成するための類似度を,確率的解釈に基づいて,各時刻のスペクトル特徴量が母音カテゴリに属す事後確率として求めてきた.本研究では,幾何学的解釈に基づき,各母音のスペクトル特徴量を斜交基底として捉える.各時刻のスペクトル特徴量について,それらの基底関数を用いて最小自乗近似したときの展開係数を類似度とする方法を提案する.提案する声質変換法について,スペクトル距離による客観評価,自然性と話者性に関する主観評価を行った.

  • E-041 音声モーフィングのための母音スペクトル間区分線形写像関数自動設計手法(E分野:自然言語・音声・音楽)

    高橋 徹, 大西 壮登, 森勢 将雅, 坂野 秀樹, 河原 英紀, 入野 俊夫

    情報科学技術フォーラム一般講演論文集 ( FIT(電子情報通信学会・情報処理学会)運営委員会 )  6 ( 2 ) 233 - 236   2007年08月

  • E-072 音声入力機能を有する対話型Webアプリケーションの公開試験(E分野:自然言語・音声・音楽)

    西村 竜一, 三宅 純平, 河原 英紀, 入野 俊夫

    情報科学技術フォーラム一般講演論文集 ( FIT(電子情報通信学会・情報処理学会)運営委員会 )  6 ( 2 ) 319 - 322   2007年08月

  • 時間方向および周波数方向の周期性の影響を除去した周期信号のパワースペクトルの表現について : STRAIGHTスペクトル推定の無調整化に向けて

    河原 英紀, 森勢 将雅, 高橋 徹, 西村 竜一, 入野 俊夫, 坂野 秀樹

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  107 ( 165 ) 13 - 18   2007年07月

     概要を見る

    STRAIGHTのスペクトル推定には、幾つかの数値的に最適化しなければならないパラメタが含まれている。ここでは、そのような調整を必要とするパラメタを含まず、現在のSTRAIGHTのスペクトルと同様に、周期性に起因する影響が除去されたスペクトルを推定することのできる方法を提案する。時間方向の周期性による影響の除去では、基本周期の半分の間隔で配置した時間窓によるパワースペクトルの和を求める方法を提案する。周波数方向の周期性の影響の除去では、標本化定理の関数近似としての解釈に基づくことたより、パワースペクトルの周波数方向の債分と線形補間による簡単な方法を提案する。こうして提案された方法は、現在のSTRAIGHTよりも実時間処理に適したものとなっている。

  • 聴覚系における寸法・形状情報抽出の計算理論と脳内部位の検討

    入野 俊夫, 大屋 義和, 河原 英紀, パターソン ロイ D.

    電子情報通信学会技術研究報告. NC, ニューロコンピューティング ( 一般社団法人電子情報通信学会 )  107 ( 92 ) 11 - 16   2007年06月

     概要を見る

    視覚系において物体の寸法や形状が知覚されることは日常経験からも信じられており研究も盛んである。これに対し、聴覚系においても同様に音源の寸法や形状が知覚されていることはあまり気がつかれていない。本稿では、音響的な寸法・形状情報について述べ、その情報を抽出するための聴覚計算理論を紹介する。さらに、この理論を支持する心理物理実験結果、理論から導出される聴覚末梢系フィルタの最適性の議論、生態学的な観点等を紹介する。さらに、この寸法・形状情報抽出の脳内部位特定のためfMRI(機能的核磁気共鳴画像)実験を行ったので、その結果と課題を報告する。

  • 音声のテクスチャマッピングに基づく変換関数を利用した音声モーフィングの自動化について : 音声テクスチャマッピングの一応用例

    高橋 徹, 森勢 将雅, 大西 壮登, 西村 竜一, 入野 俊夫, 坂野 秀樹, 河原 英紀

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  107 ( 77 ) 31 - 34   2007年05月

     概要を見る

    STRAIGHTに基づく音声モーフィングの応用の障害であった特徴点の設定を不要とする方法を提案する。著者らが提案した母音情報に基づく音声変換では、音声パラメタの類似度に基づいてパラメタ変換関数を自動設計している。提案する方法は、このパラメタの類似度に基づく変換関数の自動設計を、モーフィング用の周波数軸変換関数の設計用に応用したものである。こうして求められた周波数軸の変換関数に時間軸の整合法を組み合わせることで、特徴点の付与を必要としないモーフィングが可能となる

  • 母音情報に基づく話者変換システムの提案 : 音声テクスチャマッピングの一実装例

    高橋 徹, 森勢 将雅, 西村 竜一, 入野 俊夫, 坂野 秀樹, 河原 英紀

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  106 ( 613 ) 13 - 18   2007年03月

     概要を見る

    母音テンプレート間の写像を母音類似度に基づいてフレーム毎に計算することにより、実時間処理に適した高品質の話者変換システムを実現する方法を提案する。この方法は、筆者らが提案した音声テクスチャマッピングという概念の一つの実装例である。スペクトルの詳細な構造と概形とは別の役割を担っており、それぞれに適切な変換は異なっているとするこの概念に基づくことにより、母音情報のみという極度に少ない資料に基づいて任意話者の音声への変換が可能になるとともに、通常の統計的方法で生ずる品質劣化を回避することが可能となる。

  • 帯域毎の持続時間に基づく音響イベント検出と位置推定への応用

    森勢 将雅, 高橋 徹, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 )  106 ( 371 ) 19 - 24   2006年11月

     概要を見る

    本研究では,帯域毎の持続時間に着目した音響イベントの高精度抽出法について検討を進めている.本報告で提案する手法は,帯域分割した評価指標を用いているため,検出対象となる音のスペクトルから高いエネルギーを持つ帯域のみを選択できる特徴を有する.この特徴により,全帯域のSNRが低い環境においても高SNRの帯域のみを用いることが出来,高い精度で音響イベントの検出が可能となる.本報告では,音響イベント検出に用いるパラメタを定義し,音響イベント検出を行う手順の説明を行う.音響イベント検出に用いるパラメタと音響イベント検出率との関係を示す.さらに様々なSNRの雑音を加え,SNRと音響イベント検出精度との関連を明らかにする.これらの検討結果より,複数マイクを用いた位置推定への応用について述べる.

  • 知覚特性を考慮したインパルス応答補償法についての一検討 : 群遅延操作の弁別閾の周波数依存性について

    森勢 将雅, 高橋 徹, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 )  106 ( 371 ) 13 - 18   2006年11月

     概要を見る

    本報告では,2肢強制選択を用いて群遅延操作による音の違いの周波数依存性を示す.この実験により,インパルス応答補償において知覚されない誤差を許容するための指標の構築を目指す.この許容誤差を利用し,知覚に影響しない伝達関数の補償アルゴリズムの検討を行う.本報告は,人間の聴覚が変化に最も敏感であるパルス列を用いて主観評価を行った.群遅延の操作は,ERB_Nが一定の帯域幅の中心周波数で,様々な変動量を持たせるよう行った.主観評価の結果,1000Hzより低い周波数では弁別が困難であること,1000Hz以上では弁別域の境界が周波数によって異なることが示された.また,群遅延に負のピーク値がある場合,正のピーク値より弁別境界が狭くなることも明らかとなった.

  • 騒音適応型音楽再生システムのパラメタ設定における聴覚モデルによる評価の応用について

    福田 俊介, 森勢 将雅, 河原 英紀, 入野 俊夫

    電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 )  106 ( 371 ) 43 - 48   2006年11月

     概要を見る

    非線形で適応的に周波数分析を行う人間の聴覚機能を近似したガンマチャープフィルタバンク(GCFB)に基づいて適応的にマルチバンドイコライザーを調整するシステム構成を提案する。提案するシステム構成は,客観的評価法の確立と車内での再生音の最適化を目指している。一般的なリスニングルームで音楽を聴く印象を自動車室内でも体験できるように音楽をイコライズすることを最終目標とする。本報告では、GCFBを用いて自動車室内騒音、音楽、イコライズした音楽と自動車室内騒音を足したものを分析した結果を示す。

  • 解説記事 音声研究から音聲研究へ(ちょっとしたエッセイ,コーヒーブレーク)

    入野 俊夫

    日本音響学会誌 ( 一般社団法人日本音響学会 )  62 ( 11 ) 834 - 834   2006年11月

  • 高品質音声分析変換合成システム STRAIGHT における分析窓の検討

    高橋 徹, 森勢 将雅, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  106 ( 222 ) 1 - 5   2006年08月

     概要を見る

    高品質音声分析変換合成システムSTRAIGHTのスペクトル分析は,スペクトルのピーク位置での時間変動を除去することを目的に,ピッチ同期分析を拡張している.具体的には,ガウス窓に基本周期の2倍の長さのバートレット窓を畳み込んでいる.ガウス窓が用いられた理由は,ガウス関数のフーリエ変換もガウス関数になり,時間周波数の不確定性が最小であるからである.しかし,ブラックマン窓は,バートレット窓を畳み込まなくても,もともとピッチ同期の性質を持っている.cos関数族で定義された窓であれば,窓長を正数倍にするこで,調波位置にある成分の時間変動を0にできるからである.ハニング窓もcos関数族で定義された窓でありブラックマン窓と同様な性質をもっている.本稿では,これらの窓をピッチ同期化ガウス窓と比較する.振幅と位相をランダマイズした調波複合書を用いて時間変動を評価した.ブラックマン窓が,最も変動量が少いという結果が得られた.

  • 寸法変調母音系列の同定成績と寸法抽出過程の時間的追随性との関連性

    竹島 千尋, 津崎 実, 入野 俊夫

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  36 ( 5 ) 439 - 443   2006年07月

  • 寸法変調母音系列の同定成績と寸法抽出過程の時間的追随性との関連性

    竹島 千尋, 津崎 実, 入野 俊夫

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  106 ( 178 ) 13 - 17   2006年07月

     概要を見る

    発話者によって声道長はそれぞれ異なるにも関わらず,我々はいかなる発話者であっても母音の種類を識別することができる。同時に,発話者の判断すなわち声道長の違いを特定することができる。このような識別能力を模擬化する目的として,寸法情報と形状情報とを分離・抽出する過程に対する計算モデルが提案されている。本研究ではモデルの精緻化を目指すため,寸法抽出過程の時間的追随性の調査を実施した。時間的に寸法変調をかけた母音系列の同定実験を行った結果,寸法情報の違いによって音脈分凝が生じたことを示唆するような寸法変調による成績の低下が見られた。母音系列内からターゲットとなる母音を見つけ出す課題を与えた実験結果においても,その仮説を裏付けるような傾向が見られた。

  • 音声テクスチャマッピング : 多様な発話変換・合成をめざして

    高橋 徹, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  105 ( 571 ) 31 - 36   2006年01月

     概要を見る

    多様な発話変換・合成を記述できる音声テクスチャマッピングモデルを提案する. 提案するモデルは, 音声を特徴づける骨格となるワイヤフレームに発話スタイルや話者性を表わすテクスチャをマッピングする枠組みによって音声を表わす. ワイヤフレームやテクスチャは, 統計的にあるいは, 発話事例から求めることができる. このモデルは, 画像分野で用いられるテクスチャマッピングを音声に適用したモデルである. 一般に, 発話変換は, スペクトルに対する演算と変形によって実現される. テクスチャマッピングの枠組みを用いて演算と変形を取り扱う仕組みについて述べる. ワイヤフレームにどのようなテクスチャをマッピングするかによって多様な発話スタイルを表現できることを示す. また, 様々な発話スタイルの音声を合成できることを示す. 最後に, ある発話に基づいてワイヤフレームを生成し, テクスチャをマッピングすることで発話変換を行うことができることを示す.

  • 母音テンプレートを用いた音声モーフィングのためのスペクトル特徴点設定

    西 雅史, 高橋 徹, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  105 ( 571 ) 19 - 24   2006年01月

     概要を見る

    音声モーフィングにおける時間・周波数特徴点設定の自動化法について提案する。これまで、音声モーフィングでは素材となる二つの音声試料の時間周波数平面上での対応関係を設定し、パラメタを線形変換して実現されていた。モーフィング音声の品質は、時間周波数平面上での対応関係の設定に強く依存する。現状では時間周波数平面上の対応関係である時間・周波数特徴点を手作業で付与する必要があり、膨大な音声試料を処理するなど応用の際に障害となっていた。本稿では、この時間・周波数特徴点の設定を自動化する方法について検討した。特徴点は周波数座標と時間座標により構成される。データベースより設計されたテンプレートスペクトル上に予め特徴点を設定しておき、入力のスペクトルに合うようにテンプレートスペクトルを変形することにより間接的に特徴点の周波数座標を設定する方法を提案する。最適な変形を求める方法として、本稿ではDPマッチングを用いた。特徴点の時間座標は、音韻ラベルを利用し、テンプレートはラベル情報に基づいて、予め用意した母音別のテンプレートから選択することとした。本稿では、自動的に時間・周波数特徴点を設定し、モーフィングされた音声を聴取実験により主観評価を行い、提案法が有効であることを示す。

  • リアルタイム STRAIGHT の実装と特徴量削減の影響に関する検討

    坂野 秀樹, 畑 宏明, 高橋 徹, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  105 ( 571 ) 7 - 11   2006年01月

     概要を見る

    実時間動作するSTRAIGHT, リアルタイムSTRAIGHTを実装したので, その詳細について報告する. 高品質音声分析変換合成法STRAIGHTは極めて高品質であり, 合成システムや聴覚実験用のツールとして広く利用されるようになってきている. しかしながら, 現在のMATLABによる実装では, 実時間での動作が困難である. そこで, リアルタイムSTRAIGHTでは, STRAIGHTのC言語への移植や, 基本周波数抽出部分のケプストラムによる方法への置き換え, 短時間位相制御部分の省略などにより, 高速化を図っている. 予備的検討の結果, リアルタイムSTRAIGHTが, 最近のパソコンで実行可能であることと, ケプストラムボコーダなどの既存の分析合成システムに比べて高品質であることが確認できた.

  • 聴覚特性を考慮した高品質領域における STRAIGHT パラメタの補間特性に関する検討

    畑 宏明, 高橋 徹, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  105 ( 571 ) 1 - 6   2006年01月

     概要を見る

    STRAIGHT(高品質音声分析変換合成システム)は分析周期として1msを用いている。分析前の音声波形のパラメタ数に比べ得られるパラメタ数が膨大な量となる。そのため多くの時間と計算機資源を必要とし、大量の音声資料を分析する際の障害となっている。本報告では、STRAIGHTの情報表現に含まれている高度な冗長性を、高い品質を保ったまま削減することを目的とし、STRAIGHTパラメタの補間特性について検討を行った。分析周期1msで得られるSTRAIGHTスペクトルを基準とし、1msから40msまでの分析周期で分析し最近傍補間または線形補間によって1ms周期相当のスペクトルを求めた補間スペクトルとの距離を調べた。スペクトル距離は、聴覚特性を考慮した非線形周波数軸(ERB_N rate)を用いて評価した。実験の結果、最近傍値を利用した補間法に比べ、一次関数を利用した補間法を用いることにより、より粗い周期での分析が可能でありパラメタの冗長性を削減できることが示された。また、聴覚特性を考慮することにより、さらに冗長性の削減ができることを示した。

  • 聴覚における「形」の恒常性と寸法正規化について(日本基礎心理学会第24回大会,大会発表要旨)

    津崎 実, 竹島 千尋, 入野 俊夫

    基礎心理学研究 ( 日本基礎心理学会 )  24 ( 2 ) 221 - 221   2006年

    DOI

  • ノッチ雑音マスキングデータから推定された縦続型/並列型構成をもつ聴覚フィルタの比較

    鵜木 祐史, 入野 俊夫, Glasberg Brian

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  35 ( 11 ) 727 - 732   2005年12月

  • 対数時間軸伸縮による人間の頭部伝達関数測定の精度改善について

    森勢 将雅, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 )  105 ( 348 ) 43 - 48   2005年10月

     概要を見る

    発声された音声をクロススペクトル法の入力とすることで, 人間の頭部周辺のインパルス応答を測定できる.これまでの研究により, ダミーヘッドを用い音声を入力として求めたインパルス応答は, 4kHz程度までの帯域においてM系列信号を用いて求めた結果と等しいことが分かっている.しかし, 測定用信号として用いる音声は低域と高域のSN比が低いため, それらの帯域での信頼性が低い.この問題に対して, 音声のインパルス応答から直接音に起因する成分を抽出し, 高域の信頼性を向上させる手法を検討している.ここでは, 回折しやすい低域の応答は長時間存在し, 回折しにくい高域の応答は短い時間で消滅するという特徴に着目した.この特徴を利用して, 時間軸の伸縮と低域通過フィルタによって時間周波数領域を抽出する手法を提案し, 信頼性の評価を行った.また, 時間軸の伸縮処理に用いる補間による誤差の補償法を明らかにした.同一条件で128回測定を行い, 提案手法を評価した.その結果, 提案手法を用いることで高域の標準偏差が振幅周波数特性では53%, 群遅延特性では18%, 持続時間では17%まで低減できることが示された.

  • ユーザ感情理解に向けた実環境音声情報案内システムの収集発話分析

    大前 壮司, 西村 竜一, 河原 英紀, 入野 俊夫

    情報処理学会研究報告音声言語情報処理(SLP) ( 一般社団法人情報処理学会 )  2005 ( 69 ) 99 - 104   2005年07月

     概要を見る

    音声対話システムにおいて,ユーザがシステムに抱く感情を理解することは円滑な対話を実現する上で重要となる.本稿では,奈良県生駒市北コミュニティセンターの音声情報案内システム「たけまるくん」のフィールドテストを通じて収集したユーザ発話を分析することで,システムによる感情理解の実現性を検討する.まず,収集発話を16個の基本感情を用いて被験者2名により5段階評定した.評定結果を因子分析したところ,ネガティブ及びポジティブな感情を示す因子の存在を確認することができた.続いて,ユーザ感情理解の実現に向け,因子分析から算出した因子得点と音声特徴量との相関を調査している.今回,基本周波数及びパワーを特徴量として用いたが,顕著な相関を得ることはできなかった.Understanding emotions that users hold is becoming important for realizing smooth conversations in spoken dialogue systems. This study discusses the actualities of an automatic emotion understanding by analyzing actual users' utterances collected via field testing our spoken dialogue system "Takemaru-kun". Two testers have carried out the five grade rating with 16 basic emotions to the collected utterances. The factor analysis on the rating result indicated the existence of two factors concerning negative or positive emotions. For realization of the emotions understanding, we have been investigating the correlation between the factors and acoustic features in user's voices. In this paper, the results showed that the factors have no remarkable correlation with the fundamental frequency and the power.

  • 感情音声データベースにおける母音特徴に注目した STRAIGHT による声質・感情変換について

    藤井 岳史, 西 雅史, 高橋 徹, 坂野 秀樹, 入野 俊夫, 河原 英紀

    日本音響学会研究発表会講演論文集   2005 ( 1 ) 299 - 300   2005年03月

  • 音声の平均スペクトルを用いた帯域分割型CSP法に基づく話者位置推定法に関する検討

    傳田 遊亀, 西浦 敬信, 河原 英紀, 入野 俊夫

    日本音響学会研究発表会講演論文集   2005 ( 1 ) 521 - 522   2005年03月

  • STRAIGHT を用いたビブラート歌唱音声の統計的性質

    森勢 将雅, 平地 由美, 坂野 秀樹, 入野 俊夫, 河原 英紀

    日本音響学会研究発表会講演論文集   2005 ( 1 ) 269 - 270   2005年03月

  • 実環境音声情報案内システムにおける発話感情理解のための発話分析

    大前 壮司, 西村 竜一, 河原 英紀, 入野 俊夫

    日本音響学会研究発表会講演論文集   2005 ( 1 ) 63 - 64   2005年03月

  • STRAIGHT に基く周波数・時間伸縮を用いた感情マッピングのための距離尺度

    高橋 徹, 坂野 秀樹, 西村 竜一, 入野 俊夫, 河原 英紀

    日本音響学会研究発表会講演論文集   2005 ( 1 ) 213 - 214   2005年03月

  • スペクトル時間変化を制限して合成した劣化音声の知覚

    佐藤 諭, 入野 俊夫, 坂野 秀樹, 河原 英紀

    日本音響学会研究発表会講演論文集   2005 ( 1 ) 251 - 252   2005年03月

  • 歌唱音声の音量変化に伴うスペクトル変形の分析について

    田原 佳代子, 森勢 将雅, 坂野 秀樹, 入野 俊夫, 河原 英紀

    日本音響学会研究発表会講演論文集   2005 ( 1 ) 271 - 272   2005年03月

  • 帯域分割型CSP法に基づく話者位置推定法の検討

    傳田 遊亀, 西浦 敬信, 河原 英紀, 入野 俊夫

    電子情報通信学会技術研究報告. NLC, 言語理解とコミュニケーション ( 一般社団法人電子情報通信学会 )  104 ( 539 ) 79 - 84   2004年12月

     概要を見る

    音声制御システムやテレビ会議システムなどにおいて,発話者から離れた位置にあるマイクロホンで発話者の音声を高品質に受音することば極めて重要である.発話者から離れた位置のマイクロホンで発話者の音声を高音質に受音する方法として,マイクロホンアレーによる音声強調法が提案されている.しかし,マイクロホンアレーを用いて音声を強調するためには発話者の位置を推定することが必要となる.このため,例えばCSP(Cross-power Spectrum Phase)法に基づく発話者位置推定法が提案されている.しかし,CSP法には高雑音環境下で話者位置推定性能が低下してしまうという問題がある.そこで本稿では,音声の平均スペクトルで重み付けされた帯域分割型CSP法を提案し,音声に特化した位置推定法を提案する.また.提案手法によって発話者位置を推定した後,マイクロホンアレーによって目的音声を強調した場合の音声認識性能も合わせて評価する.実環境における評価実験の結果,提案手法は.従来法より高い話者位置推定性能を得られることを確認した.

  • 帯域分割型CSP法に基づく話者位置推定法の検討

    傳田遊亀, 西浦 敬信, 河原 英紀, 入野 俊夫

    情報処理学会研究報告音声言語情報処理(SLP) ( 一般社団法人情報処理学会 )  2004 ( 131 ) 169 - 174   2004年12月

     概要を見る

    音声制御システムやテレビ会議システムなどにおいて,発話者から離れた位置にあるマイクロホンで発話者の音声を高品質に受音することは極めて重要である.発話者から離れた位置のマイクロホンで発話者の音声を高音質に受音する方法として,マイクロホンアレーによる音声協調法が提案されている.しかし,マイクロホンアレーを用いて音声を協調するためには発話者の位置を推定することが必要となる.このため,例えばCSP (Cross-power Spectrum Phase)法に基づく発話者位置推定法が提案されている.しかし,CSP法には高雑音環境下で話者位置推定性能が低下してしまうという問題がある.そこで本稿では,音声の平均スペクトルで重み付けされた帯域分割型CSP法を提案し,音声に特化した位置推定法を提案する.また.提案手法によって発話者位置を推定した後,マイクロホンアレーによって目的音声を強調した場合の音声認識性能も合わせて評価する.実環境における評価実験の結果,提案手法は従来法より高い話者位置推定性能を得られることを確認した.It is very important to capture distant-talking speech with high quality for voice-controlled systems or teleconferencing systems. A microphone array steering is an idela candidate as an effective method for capturing distant talking speech with high quality. However, it requires to localize a target talker before capturing distant-talking speech. For this purpose, a talker localization method based on CSP (Cross-power Spectrum Phase) analysis has been proposed, for example. However, talker localization performance of the CSP analysis is degraded in higher noisy environments. To deal with this problem, in this paper, we propose a subband CSP analysis with weighting of average speech spectrum and we propose a specialized localization method for speech. In addition, we evaluate the ASR (Automatic Speech Recognition) performance when the microphone array steering is steered to the estimated talker direction by the proposed method. As a result of evaluation experiments in a real room, we confirmed that the proposed method provides better talker localization performance than the conventional method.

  • Perception of "size-modulated" speech : The relation between the modulation period and the vowel identification

    Tsuzaki Minoru, Irino Toshio

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  34 ( 10 ) 713 - 718   2004年12月

  • 暗騒音に頑健なインパルス応答測定用信号の設計手法

    森勢 将雅, 入野 俊夫, 坂野 秀樹, 河原 英紀

    電子情報通信学会技術研究報告. EA, 応用音響 ( 一般社団法人電子情報通信学会 )  104 ( 247 ) 37 - 42   2004年08月

     概要を見る

    相互相関法によるインパルス応答測定に用いる測定用信号を、測定環境の暗騒音に基づいて設計する手法を提案する。本提案により、室内伝達関数の測定や、音響機器の測定を精度良く行うことが可能となる。特に、コンサートホールなどの室内音響特性を測定する場合問題となる低周波域の暗騒音の影響を低減し、測定精度を向上できる。また、同時に高周波域の暗騒音の影響も低減できる。本報告では、始めに、従来の測定用信号の設計手法と、特徴、問題点を明らかにし、それらを解決する測定用信号の設計手法を示す。また、計算機上のシミュレーションによって、提案手法に含まれるパラメタとパワースペクトルの関係を示す。さらに、実環境による測定例より、提案手法の有効性を示す。

  • 聴覚ボコーダを用いたイベント同期による音声分離

    入野 俊夫, Patterson Roy D., 河原 英紀

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  33 ( 9 ) 603 - 608   2003年11月

  • STRAIGHTスペクトルに基づく音源信号の抽出と非周期成分の評価について

    河原 英紀, 森勢 将雅, 高橋 徹, 入野 俊夫, 坂野 秀樹, 藤村 靖

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  106 ( 333 ) 43 - 48   2003年11月

     概要を見る

    高品質な音声分析・変換・合成を目的として,音源情報抽出の研究を進めている。ここでは問題の設定そのものから議論し直すことにより,合成系との整合性の良い非周期成分の抽出法を提案する。これらの議論を通じて,群遅延を利用した持続時間の周波数領域での表現と,STRAIGHTスペクトルから計算した最小位相の逆フィルタを用いて求められる音源信号の帯域毎の持続時間,基本周期分だけ離れた区間の信号による予測残差,スペクトル概形の時間変化による見かけの予測残差と非周期成分との関係を明らかにする。

  • 聴覚ボコーダを用いた基本周期に基づく音声分離

    入野 俊夫, ロイ D パターソン, 河原 英紀

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  103 ( 155 ) 55 - 60   2003年06月

     概要を見る

    聴覚イメージモデル(AIM)とイベント同期処理にもとづいて、音声を分離する手法を開発した。 AIMは我々が音を知覚する時に使う脳内表現と思われる「聴覚イメージ」を出すために開発されたものである。さらに、このAIMを高音質ボコーダであるSTRAIGHTと組み合わせて、音を再合成できるようにした「聴覚ボコーダ」も開発した。聴覚表現は、従来の窓関数をかけて処理する手法と異なり、詳細な時間情報を保持しているので、声帯イベントに同期させることにより他から音声を分離することができる。そのためにも、基本周波数FOからイベント時刻を計算する手法も開発した。イベント時刻が完全に推定できる場合、SNRがO dB でも同時発話の音声からの分離性能が良いことを示した。抽出された目的音は歪んではいるが明瞭であるのに対し、妨古音は非音声的で知覚的に邪魔ではない。この分離音は、妥当な聴覚モデルの表現から単に再合成されているだけであるので、このシステムは聴覚系の処理についての示唆を与える可能性がある。

  • 聴覚ボコーダを用いた基本周期に基づく音声分離

    入野 俊夫, パターソン ロイ D., 河原 英紀

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  33 ( 4 ) 311 - 316   2003年06月

  • 聴覚ボコーダによる混合音声からの音声分離

    入野 俊夫, パターソン ロイ D., 河原 英紀

    日本音響学会研究発表会講演論文集   2003 ( 1 ) 343 - 344   2003年03月

  • 初期聴覚系におけるスケール理論

    入野 俊夫

    日本音響学会研究発表会講演論文集   2003 ( 1 ) 511 - 514   2003年03月

  • 初期聴覚系の計算理論 : 理論的最適性・データ説明・生態学的観点

    入野 俊夫

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  32 ( 7 ) 455 - 460   2002年09月

  • 占有度を用いた耐雑音性の高い基本周波数推定法

    中谷 智広, 入野 俊夫

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  32 ( 2 ) 105 - 112   2002年03月

  • 占有度を用いた耐雑音性の高い基本周波数推定法

    中谷 智広, 入野 俊夫

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  101 ( 744 ) 21 - 28   2002年03月

     概要を見る

    本稿では、背景雑音に加えてスペクトル変形を伴なった入力音声に対しても、頑健かつ精度良く基本周波数(F_0)を推定するための新しい方法を提案する。このため、各調波成分が近傍の周波数帯域において背景雑音の影響を受けていない度合いを示す尺度である占有度(degree of dominance)を、瞬時周波数に基づき定義する。占有度を用いることで信頼できる調波成分を容易に選択できるようになり、これに基づき頑健にF_0推定を行うことができる。評価実験では、白色雑音下またはマルチトーカ雑音下での入力音に、電話音声を模擬するSRAENフィルタによるスペクトル変形を与えた場合と与えない場合について、F_0正解率、およびF_0の実効誤差の評価を行った。実験結果より、提案法は、あらゆる条件下において、従来法と比べて良い結果が得られることを示す。

  • 時間周波数表現における3種類の不動点と音響的特徴について

    河原 英紀, ZOLFAGHARI Parham, 入野 俊夫

    日本音響学会研究発表会講演論文集   2002 ( 1 ) 497 - 498   2002年03月

  • 調波成分の占有度を用いた基本周波数抽出法

    中谷 智広, 入野 俊夫

    日本音響学会研究発表会講演論文集   2002 ( 1 ) 323 - 324   2002年03月

  • 様々な周波数における圧縮型ガンマチャープのパラメータ推定

    鵜木 祐史, PATTERSON Roy D., 入野 俊夫

    日本音響学会研究発表会講演論文集   2002 ( 1 ) 495 - 496   2002年03月

  • 様々な周波数のノッチ雑音データへの圧縮型ガンマチャープの適合

    鵜木 祐史, Patterson Roy D., 入野 俊夫

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  32 ( 1 ) 41 - 48   2002年01月

  • 幼児音声の基本周波数および有声区間の推定法

    中谷智広, 天野成昭, 入野俊夫

    日本音響学会研究発表会講演論文集   2002   2002年

  • 瞬時周波数を用いたF_0抽出法の複数音声による評価

    中谷 智広, 入野 俊夫

    日本音響学会研究発表会講演論文集   2001 ( 2 ) 211 - 212   2001年10月

  • 解説記事 Multiscale computing

    Mei Kobayashi, Toshio Irino, Wim Sweldens

    Proceedings of the National Academy of Sciences of the United States of America ( NATL ACAD SCIENCES )  98 ( 22 ) 12344 - 12345   2001年10月

     概要を見る

    Multiscale computing (MSC) involves the computation, manipulation, and analysis of information at different resolution levels. Widespread use of MSC algorithms and the discovery of important relationships between different approaches to implementation were catalyzed, in part, by the recent interest in wavelets. We present two examples that demonstrate how MSC can help scientists understand complex data. The first is from acoustical signal processing and the second is from computer graphics.

    DOI

  • 解説記事 私のすすめるこの1冊 : 「相対性理論」アインシュタイン著, 内山龍雄訳・解説, 岩波文庫, 1988

    入野 俊夫

    日本音響学会誌 ( 一般社団法人日本音響学会 )  57 ( 8 ) 565 - 566   2001年08月

  • STRAIGHTを用いた聴覚メリンイメージからの信号再合成

    入野 俊夫, パターソン ロイ D., 河原 英紀

    聴覚研究会資料 = Proceedings of the auditory research meeting ( 日本音響学会 )  31 ( 5 ) 315 - 322   2001年07月

  • STRAIGHTを用いた聴覚メリンイメージからの信号再合成

    入野 俊夫, パターソン ロイ D., 河原 英紀

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  101 ( 232 ) 31 - 38   2001年07月

     概要を見る

    音声分析合成法は、VOCODERに始まり過去様々な研究が積み重ねられ、LPC法での携帯電話に代表されるように幅広く応用されている。しかしながら、人間の聴知覚特性のモデルを導入した音声分析合成法はいままで提案されてこなかった。本稿では、初期聴覚系の計算論での表現である聴覚メリンイメージから、最新型VOCODERであるSTRAIGHTシステムを媒介として音を再合成する手法について提案した。このために、両者を結びつける写像器を導入し、周波数伸縮離散余弦展開と非線形多変量解析を用いて実現した。ここではシステムの構成と各部分の処理、音合成をおこなった結果について述べる。これにより今後、たとえば雑音抑圧や音源分離といった聴覚経路で行われていると考えられる処理を定式化した場合、再合成音を用いて評価し利用することができるようになると期待できる。

  • 調波成分の瞬時周波数を用いたピッチ推定方法の検討

    阿竹 義徳, 入野 俊夫, 河原 英紀, 陸 金林, 中村 哲, 鹿野 清宏

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  99 ( 679 ) 25 - 32   2000年03月

     概要を見る

    1996年に河原らが開発したSTRAIGHTは、VOCODER型分析合成方式であるにも関わらず、原音に迫る高い自然性を持った分析合成音を得ることが可能である。しかし、耐雑音性が低く、雑音環境下では合成音声の品質が大きく劣化するという弱点があった。それは、STRAIGHTが処理の各段階にピッチ周期に同期した処理を積極的に利用していて、雑音により推定されたピッチ周波数が誤差を含んだ場合、その影響を大きく受けることが原因と考えられる。そこで本文では、その欠点を克服するために耐雑音性の高いピッチ周波数推定方法を提案する。このため、従来のTEMPO法で用いられてきた基本波成分だけではなく、その調波成分も利用し、Cohenの帯域幅方程式を用いて統合する新しい方法を提案する。また、提案手法の性能の評価のために、音声データとEGGデータを同時収録したデータベースを作成した。これを用いて提案法およびTEMPO法などの従来法と推定精度の比較をした結果、提案法は他の従来法に比べて無雑音では同等以上で、雑音付加時の推定精度は大幅に改善されることがわかった。

  • ガンマチャープによるネコの基底膜インパルス応答への適合

    入野 俊夫, PATTERSON Roy D.

    日本音響学会研究発表会講演論文集   2000 ( 1 ) 397 - 398   2000年03月

  • 調波成分の瞬時周波数を利用したピッチ推定方法の提案

    阿竹 義徳, 入野 俊夫, 河原 英紀, 陸 金林, 中村 哲, 鹿野 清宏

    日本音響学会研究発表会講演論文集   2000 ( 1 ) 251 - 252   2000年03月

  • ガンマチャープ聴覚フィルタバンクによる定常雑音抑圧

    入野 俊夫

    電子情報通信学会技術研究報告. DSP, ディジタル信号処理 ( 一般社団法人電子情報通信学会 )  99 ( 504 ) 59 - 66   1999年12月

     概要を見る

    雑音環境下における音声信号に対する雑音抑圧処理でもっとも引用されているスペクトルサブトラクション法は、基本的にノンパラメトリックで処理が単純であるため応用しやすい。しかし、分析合成系で用いた場合、合成音には"musical noise"「楽音的雑音」が乗り、処理をした方がかえって目的信号が聞き取りにくくなるという問題点があった。そこで本資料では、先に提案した時変分析合成ガンマチャープ聴覚フィルタバンクを用いてこの問題を本質的に解決する方法を提案する。本方法は、スペクトルサブトラクション法と同じ前提条件だけで同等のSNR改善ができ、また、楽音的雑音が生じず白色雑音は低いレベルの白色的雑音に合成できるので知覚的にも有利である。この実現には、聴覚フィルタ特性を良く近似できるガンマチャープ関数系を使っているので、聴取者がいる場合の応用への展開に有利である。(本資料は、目本音響学会聴覚研究会資料H-98-98(1998年9月)をもとに、一部分に手を加えたものである。)

  • 音源形状のイメージング:聴覚系の最適信号処理

    入野 俊夫, PATTERSON Roy D.

    日本音響学会研究発表会講演論文集   1999 ( 2 ) 1177 - 1178   1999年09月

  • STRAIGHTの基本周波数抽出に対する帯域幅方程式の適用

    阿竹 義徳, 入野 俊夫, 河原 英紀

    日本音響学会研究発表会講演論文集   1999 ( 1 ) 199 - 200   1999年03月

  • 生理学的制約を考慮にいれたガンマチャープの係数決定

    入野 俊夫, PATTERSON Roy D.

    日本音響学会研究発表会講演論文集   1999 ( 1 ) 381 - 382   1999年03月

  • 聴覚経路における音源の大きさの正規化について

    入野 俊夫, PATTERSON Roy D.

    日本音響学会研究発表会講演論文集   1999 ( 1 ) 383 - 384   1999年03月

  • ガンマチャープフィルタバンクによる雑音抑圧

    入野 俊夫

    日本音響学会研究発表会講演論文集   1998 ( 2 ) 241 - 242   1998年09月

  • ガンマチャープフィルタバンクの構築

    鵜木 祐史, 入野 俊夫, 下平 博

    Research report ( 北陸先端科学技術大学院大学 )  98   1 - 11   1998年03月

  • ガンマチャープフィルタバンクによる時変系分析合成聴覚モデル

    入野 俊夫, 鵜木 祐史

    日本音響学会研究発表会講演論文集   1998 ( 1 ) 413 - 414   1998年03月

  • ガンマチャープフィルタバンクにおける非対称性の制御方法

    鵜木 祐史, 入野 俊夫

    日本音響学会研究発表会講演論文集   1998 ( 1 ) 415 - 416   1998年03月

  • 解説記事 11 th International Symposium on HearingとComputational Auditory Scene Analysis'97に参加して

    津崎 実, 入野 俊夫

    日本音響学会誌 ( 一般社団法人日本音響学会 )  54 ( 2 ) 162 - 163   1998年02月

  • IIRフィルタによるガンマチャープフィルタの実現

    入野 俊夫, 鵜木 祐史

    日本音響学会研究発表会講演論文集   1997 ( 2 ) 421 - 422   1997年09月

  • 自己相関関数による聴知覚の時間非対称性の説明可能性

    入野 俊夫, PATTERSON Roy D.

    日本音響学会研究発表会講演論文集   1997 ( 1 ) 455 - 456   1997年03月

  • ガンマチャープ関数による聴覚フィルタの近似

    入野 俊夫, パターソン ロイ D.

    日本音響学会研究発表会講演論文集   1996 ( 2 ) 385 - 386   1996年09月

  • 最適聴覚フィルタの計算理論的位置づけ

    入野 俊夫

    日本音響学会研究発表会講演論文集   1995 ( 2 ) 421 - 422   1995年09月

  • 聴覚末梢系の計算理論

    入野 俊夫

    電子情報通信学会技術研究報告. SP, 音声 ( 一般社団法人電子情報通信学会 )  95 ( 140 ) 23 - 30   1995年07月

     概要を見る

    本論文では、聴覚末梢系の計算理論について、Marrによる初期視覚の計算理論に対応する形で議論を展開した。まず、ガンマチャープ関数が、時間-スケール表現において最小不確定性の意味で最適となり、聴覚フィルタへの近似も心理物理実験的に良くなることを示した。また、ウェーブレットフィルタを使うと800Hz以上の聴覚フィルタバンクが構成可能で、スケール表現不変の意味で最適となることを述べた。次に、聴知覚現象を説明するための事象検出と強調を行うデルタガンマ理論について述べた。末梢系と中枢系の一部の神経細胞の発火パターンをこの理論の枠組で説明できることを示した。

  • ガンマトーンフィルタの最適性について

    入野 俊夫

    日本音響学会研究発表会講演論文集   1995 ( 1 ) 449 - 450   1995年03月

  • C-4 零温度係数を持つSiC/SiO_2/LiTaO_3構造弾性境界波基板(表面弾性波)

    入野 俊夫, 渡辺 隆弥, 清水 康敬

    超音波エレクトロニクスの基礎と応用に関するシンポジウム講演予稿集 ( 超音波エレクトロニクスの基礎と応用に関するシンポジウム運営委員会 )  ( 8 ) 69 - 70   1987年12月

  • E-3 二枚の基板を接着した境界層に沿って伝搬する弾性境界波(弾性表面波とデバイスI)

    入野 俊夫, 清水 康敬

    超音波エレクトロニクスの基礎と応用に関するシンポジウム講演予稿集 ( 超音波エレクトロニクスの基礎と応用に関するシンポジウム運営委員会 )  ( 6 ) 119 - 120   1985年12月

  • C-1 圧電体とガラスとの境界面を伝搬するストンリー波(表面波伝搬とデバイスI)

    清水 康敬, 入野 俊夫

    超音波エレクトロニクスの基礎と応用に関するシンポジウム講演予稿集 ( 超音波エレクトロニクスの基礎と応用に関するシンポジウム運営委員会 )  ( 3 ) 79 - 80   1982年12月

▼全件表示

受賞(研究活動に関するもの)

  • フェロー

    受賞者:  入野俊夫

    2010年04月   米国音響学会 (Acoust. Soc. Am., ASA)  

  • IEEE Kansai支部メダル(IEEE senior member)

    2004年06月   IEEE Kansai chapter  

  • 第40回佐藤論文賞

    2000年   日本音響学会  

  • 粟屋潔学術奨励賞

    1989年   日本音響学会  

講演・口頭発表等

  • Gammachirp Envelope Similarity Index (GESI)による模擬難聴音声の了解度予測 ~ 防音室実験とクラウドソーシング遠隔実験の主観評価データを用いて ~

    入野俊夫, 田丸萌夏, 山本絢子

    音学シンポジウム2022  2022年06月18日  

  • ガンマチャープ聴覚フィルタに基づく模擬難聴システム WHIS の新実装

    入野俊夫

    The 3rd Japan-Taiwan Symposium on Psychological and Physiological Acoustics, 日本音響学会 聴覚研究会  2021年12月11日  

  • 音声からの感情弁別に対する難聴の影響 -模擬難聴処理を用いた健聴者実験-

    花谷 幸歩, 岸田一馬, 内藤朱里, 河原英紀, 入野俊夫

    日本音響学会第151回(2024年春季)研究発表会  2024年03月06日  

  • 音声からの感情弁別に対する難聴の影響 -高齢難聴者と模擬難聴者の実験-

    花谷 幸歩, 岸田一馬, 内藤朱里, 河原英紀, 入野俊夫

    日本音響学会聴覚研究会  2024年02月23日  

  • 模擬難聴システムの音声歪み比較 ーケンブリッジ 対 和歌山ー

    土庵晋太郎, 石川美波, 入野俊夫

    日本音響学会関西支部,第25回関西支部若手研究者交流研究発表会  2023年12月09日  

  • 高齢者を対象とした IRM 強調処理音声の了解度主観評価

    宮﨑芙紀, 馬野颯太, 森本隆司, 入野俊夫

    日本音響学会関西支部,第25回関西支部若手研究者交流研究発表会  2023年12月09日  

  • 高齢者の聞こえの模擬による音声感情知覚実験

    花谷幸歩, 岸田一馬, 内藤朱里, 河原英紀, 入野俊夫

    日本音響学会関西支部,第25回関西支部若手研究者交流研究発表会  2023年12月09日  

  • 音声情報抽出に有効な聴覚表現: 理論・測定・推定・応用

    入野俊夫  [招待有り]

    日本音響学会聴覚研究会  2023年11月23日  

  • What is an Effective Auditory Representation for Estimating Vocal Tract Information? - Effectiveness of "Auditory Motivated" Models -

    Toshio Irino, Shintaro Doan  [招待有り]

    Miini-workshop "Engneering the Future of Hearing Science and Speech Technologies"  2023年11月06日  

  • A First Step in Predicting Speech Intelligibility for Elderly Listeners with Hearing Loss: Gammachirp Envelope Similarity Index (GESI)

    Ayako Yamamoto, Toshio Irino, Fuki Miyazaki, Honoka Tamaru  [招待有り]

    Mini-workshop "Engneering the Future of Hearing Science and Speech Technologies  2023年11月06日  

  • GESI による実拡声環境下での低親密度単語了解度の推定

    渡邊 健太郎, 小林 洋介, 入野 俊夫

    日本音響学会第150回(2023年秋季)研究発表会  2023年09月26日  

  • 客観評価指標 GESI による 模擬難聴音声了解度の個人別予測

    山本絢子, 宮﨑芙紀, 田丸萌夏, 入野俊夫

    日本音響学会 春季研究発表会  2023年03月17日  

  • クラウドソーシング聴取実験のための効果的な事前参加者スクリーニング

    宮﨑芙紀, 山本絢子, 土庵晋太郎, 入野俊夫

    日本音響学会 春季研究発表会  2023年03月17日  

  • 基本周波数適応型聴覚表現による声道長推定

    入野俊夫, 土庵晋太郎

    電子情報通信学会, 音声研究会  2023年02月28日  

  • 客観評価指標 GESI による模擬難聴音声の了解度予測 – 健聴者による原音声の主観評価値のみを用いて –

    山本絢子, 宮﨑芙紀, 田丸萌夏, 入野俊夫

    日本音響学会聴覚研究会 12月 九州大学大橋キャンパス  2022年12月18日  

  • クラウドソーシング聴取実験のための効果的な事前参加者スクリーニングの検討

    宮﨑芙紀, 山本絢子, 土庵晋太郎, 入野俊夫

    日本音響学会関西支部,第25回関西支部 若手研究者交流研究発表会  2022年11月26日  

  • 模擬難聴音声了解度の主観評価実験とGESIによる予測

    山本絢子, 宮﨑芙紀, 田丸萌夏, 入野俊夫

    日本音響学会関西支部,第24回関西支部若手研究者交流研究発表会  2022年11月26日  

  • 拡声環境を想定した音声了解度指標GESIと従来手法との比較

    渡邊健太郎, 小林洋介, 入野俊夫

    日本音響学会:秋季研究発表会  2022年09月16日  

  • 高齢難聴者の音声了解度客観評価を目指したGESI の開発 - 強調音声と模擬難聴音声による評価 -

    山本絢子, 入野俊夫, 荒木章子, 田丸萌夏, 新井賢一, 小川厚徳, 木下慶介, 中谷智広

    日本音響学会:秋季研究発表会  2022年09月16日  

  • 客観評価指標GESIによる音声了解度予測 - 強調処理音声と音圧低減音声を対象として -

    山本絢子, 入野俊夫, 荒木章子, 田丸萌夏, 新井賢一, 小川厚徳, 木下慶介, 中谷智広

    日本音響学会 聴覚研究会  2022年07月08日  

  • Conformer-based fusion of text, audio, and listener characteristics for predicting speech intelligibility of hearing aid users

    Naoyuki Kamo, Kenichi Arai, Atsunori Ogawa, Shoko Araki, Tomohiro Nakatani, Keisuke Kinoshita, Marc Delcroix, Tsubasa Ochiai, Toshio Irino

    the 2nd Clarity Workshop on Machine Learning Challenges for Hearing Aids (Clarity-2022),  2022年06月29日  

  • 異なる身長の小学生の音声を用いた寸法知覚実験

    上野朱音, 入野俊夫, 山本絢子

    日本音響学会 春季研究発表会  2022年03月11日  

  • 模擬難聴システムWHISの新実装と末梢系特性の音声了解度への影響

    入野俊夫, 田丸萌夏, 山本絢子

    日本音響学会 春季研究発表会  2022年03月10日  

  • MVDRビームフォーマーによる音声強調処理の了解度評価 ー 防音室実験とクラウドソーシング実験の対比 ー

    山本絢子, 入野俊夫, 新井賢一, 荒木章子, 小川厚徳, 木下慶介, 中谷智広

    日本音響学会, 2022 春季研究発表会  2022年03月09日  

  • IRMを用いた音声強調処理の主観了解度の上限評価 - 防音室実験とクラウドソーシング実験の対比

    山本絢子, 入野俊夫, 新井賢一, 荒木章子, 小川厚徳, 木下慶介, 中谷智広

    日本音響学会/電子情報通信学会 2022年3月 音声研究会  2022年03月  

  • マルチチャンネル音声強調処理の主観評価

    山本絢子, 入野俊夫, 新井賢一, 荒木章子, 小川厚徳, 木下慶介, 中谷智広

    日本音響学会関西支部,第24回関西支部若手研究者交流研究発表会  2021年12月04日  

  • 利用価値の高い音声データの録音手順の実際と支援ツールについて ~ オールパスフィルタの従属接続に基づく拡張された時間伸長パルスの応用 ~

    河原英紀, 矢田部浩平, 榊原健一, 水町光徳, 森勢将雅, 坂野秀樹, 入野俊夫

    音学シンポジウム2021  2021年06月  

  • クラウドソーシングを利用した音声了解度実験 ーウェッブページ制作からデータスクリーニング ー

    山本絢子, 入野俊夫, 新井賢一, 荒木章子, 小川厚徳, 木下慶介, 中谷智広

    音学シンポジウム2021  2021年06月  

  • 音声資料の収録・再生環境の簡易な把握に向けて: オールパスフィルタの従属接続に基づく拡張された時間伸長パルスの応用

    河原英紀, 矢田部浩平, 榊原健一, 水町光徳, 森勢将雅, 坂野秀樹, 入野俊夫

    日本音響学会 春季研究発表会  2021年03月12日  

  • クラウドソーシングと防音室における 音声了解度実験の対比

    山本絢子, 入野俊夫, 新井賢一, 荒木章子, 小川厚徳, 木下慶介, 中谷智広

    電子情報通信学会, 音声研究会  2021年03月03日  

  • オンライン実験のためのWebページ制作と聴取条件統制へ向けた検討

    山本絢子, 入野俊夫

    日本音響学会関西支部,第23回関西支部若手研究者交流研究発表会  2020年12月05日  

  • 音声収集と聴取における対話的実時間音響計測ツールの応用について

    河原英紀, 榊原健一, 水町光徳, 入野俊夫

    日本音響学会 聴覚研究会  2020年11月20日  

  • 非侵襲心理物理実験による聴覚末梢系の特性推定とその応用

    入野 俊夫  [招待有り]

    第30回 日本耳科学会  2020年11月12日  

  • 模擬難聴システムWHIS を用いた発声訓練が明瞭性に与える効果とその持続性

    東山宗一, 吉木華子, 入野俊夫

    日本音響学会:春季研究発表会  2020年03月16日  

  • ささやき声の寸法知覚にお けるピッチ感を導入したモデル化

    上村怜央, 入野俊夫, ロイ D. パターソン

    日本音響学会:春季研究発表会  2020年03月16日  

  • 音声の基本周波数に対する聴覚の影響の測定への周波数領域ベルベットノイズの応用 について

    河原英紀, 榊原健一, 津崎 実, 松井淑恵, 森勢将雅, 入野俊夫

    電子情報通信学会, 音声研究会  2020年03月02日  

  • 模擬難聴システムWHISを用いた発声訓練音声の発声特徴量と聴覚特徴量

    東山宗一, 吉木華子, 河原英紀, 入野俊夫

    電子情報通信学会, 音声研究会  2020年03月02日  

  • レベル依 存蝸牛雑音フロアを導入した聴覚フィルタ特性推定

    横田健治, 入野俊夫, 松浦弘樹, 仲間 杏, Roy Patterson

    日本音響学会 聴覚 研究会  2020年02月15日   (琉球大学(沖縄県中頭郡))  日本音響学会

     概要を見る

    50 (1), pp.29-34, H-2020-6

  • 聴力低下が音声からの男女判別に与える 影響 ー高齢者と模擬難聴システムWHISによる実験ー

    小森理子, 奥谷友梨, 入野俊夫

    日本音響学会 聴覚 研究会  2020年02月15日   (琉球大学(沖縄県中頭郡))  日本音響学会

     概要を見る

    Vol50(1), pp.17-22, H-2020-4

  • 感情推移観測システムによる スキーマ療法における感情表出の 定量化に関する予備的検討

    仁田雄介, 入野俊夫, 古山宣洋, 花田里欧子, 井上雅史, 門田圭祐, 熊野宏昭

    早稲田大学応用脳科学研究所 応用脳科学カンファレンス  2020年02月10日  

  • Effects of modified auditory feedback simulating age related hearing loss on piano performances

    Minoru Tsuzaki, Noriko Maegawa, Chie Ohsawa, Hideki Banno, Toshio Irino

    ARO 43rd MidWinter Meeting  2020年01月25日   (San Jose, CA, USA)  Association for Research in Otolaryngology

  • Extending the gammachirp model of notched-noise masking to include absolute threshold: Exploring improvements in the fit provided by assuming an internal, level-dependent, cochlear noise floor

    Kenji Yokota, Toshio Irino, Roy D. Patterson

    ARO 43rd MidWinter Meeting  2020年01月25日   (San Jose, CA, USA)  Association for Research in Otolaryngology

  • 模擬難聴システム WHIS を用いた拡張聴覚心理実験と演習

    野崎航, 小森理子, 吉木華子, 松井淑恵, 入野俊夫

    第22回関西支部若手研究者交流研究発表会  2019年11月30日   (大阪産業大(大阪市))  日本音響学会関西支部

     概要を見る

    #14(ポスター)

  • ささやき声のピッチ感は寸法知覚に影響を与えるか? ー 計算モデルによる検討ー

    上村怜央, 入野俊夫, Roy D. Patterson

    第22回関西支部若手研究者交流研究発表会  2019年11月30日   (大阪産業大(大阪市))  日本音響学会関西支部

     概要を見る

    #15(ポスター)(筆頭著者 上村怜央、「優秀奨励賞」受賞 4位内/39件中)

  • 模擬難聴システム WHIS を用いた発声訓練音声の韻律特徴分析

    東山宗一, 吉木華子, 入野俊夫

    第22回関西支部若手研究者交流研究発表会  2019年11月30日   (大阪産業大(大阪市))  日本音響学会関西支部

     概要を見る

    #15(ポスター)(筆頭著者 東山宗一、「奨励賞」受賞 6位内/39件中)

  • 音響システ ムの各種特性の計測における周波数領域velvet noiseの応用について

    河原英紀, 榊原健一, 水町光徳, 森勢将雅, 坂野秀樹, 入野俊夫

    音響研究会(EA)/聴覚研究会  2019年10月28日   (東京 (EA, ASJ-H))  NHK放送技術研究所

     概要を見る

    2019年10月28日-29日

  • 加齢性難聴によりピアノ奏者は何か変わるか

    津崎 実, 前川 典子, 大澤 智恵, 坂野 秀樹, 入野 俊夫  [招待有り]

    日本音響学会春季研究発表会  2019年09月06日   (立命館大学びわこ・くさつキャンパス,滋賀県草津市)  日本音響学会

     概要を見る

    春季研究発表会講演論文集,3-2-6, pp.1333--1336 4-6 Sep 2019

  • 模擬難聴システムと聴覚・音声実験への応用

    入野俊夫  [招待有り]

    日本音響学会春季研究発表会  2019年09月06日   (立命館大学びわこ・くさつキャンパス,滋賀県草津市,)  日本音響学会

     概要を見る

    春季研究発表会講演論文集,3-2-4, pp.1329--1330 4-6 Sep 2019

  • 通常発声とささやき声を対 比した寸法知覚の計算モデル

    上村 怜央, 入野 俊夫, Patterson Roy D

    日本音響学会:春季研究発表会講演論文集  2019年09月04日   (立命館大学びわこ・くさつキャンパス,滋賀県草津市,)  日本音響学会

     概要を見る

    1-R-2, pp.579--582,

  • 聴覚フィルタ推定における蝸牛雑音フロアの設定法について

    横田 健治, 入野 俊夫, Patterson Roy D

    日本音響学会:春季研究発表会講演論文集  2019年09月04日   (立命館大学びわこ・くさつキャンパス,滋賀県草津市,)  日本音響学会

     概要を見る

    1-R-16, pp.615--616,

  • DNN音声認識システムによる単語了解度予測

    新井 賢一, 荒木 章子, 小川 厚徳, 木下 慶介, 中谷 智広, 山本 克彦, 入野 俊夫

    日本音響学会:春季研究発表会講演論文集  2019年09月04日   (立命館大学びわこ・ くさつキャンパス,滋賀県草津市,)  日本音響学会

     概要を見る

    3-P-34, pp.703--706,

  • Modification of piano performance by simulated hearing loss: Analyses on the key velocities and output powers,

    Minoru Tsuzaki, Noriko Maegawa, Chie Ohsawa, Hideki Banno, Toshio Irino

    International Symposium on Performance Science 2019 (ISPS2019)  2019年07月16日  

  • 模擬難聴システムの教育・臨床・研究への適用と言語聴覚士による評価

    長谷川純, 吐師道子, 松井淑恵, 入野俊夫

    第20回 日本言語聴覚学会  2019年06月28日   (iichiko総合文化センター他, 大分)  日本言語聴覚学会

     概要を見る

    1-P03-4,28-29 Jun 2019 http://www.congre.co.jp/jaslht20/

  • Hearing impairment simulator: its background and applications,

    入野俊夫  [招待有り]

    2019 The 2nd Japan-Taiwan Symposium Psychological and Physiological Acoustics — Inclusive Sound Design  2019年05月17日   (National Yang Ming University, Taipei) 

     概要を見る

    https://2019-jptw-symp.github.io

  • 言語聴覚士教育における模擬難聴システムを使用した演習の効果

    長谷川純, 吐師道子, 松井淑恵, 入野俊夫

    第45回日本コミュニケーション障害学会  2019年05月12日   (川崎医療福祉大学, 倉敷) 

     概要を見る

    http://jacd45.umin.jp/program.html

  • 模擬難聴システムを用いた発声訓練が発話長に与える効果とその持続性

    東山宗一, 入野俊夫, 山内悠記

    日本音響学会:春季研究発表会講演論文集,2-3-1  2019年03月05日   (東京都調布市)  電気通信大学

  • 通常発声とささやき声を対比した場合の寸法知覚

    上村怜央, 入野俊夫, Roy D. Patterson

    日本音響学会:春季研究発表会講演論文集,3-P-24  2019年03月05日   (東京都調布市)  電気通信大学

  • ノッチ雑音レベルに依存した蝸牛雑音を考慮した聴覚フィルタ特性推

    横田健治, 入野俊夫, 松浦弘樹, Roy D. Patterson

    日本音響学会:春季研究発表会講演論文集,3-P-40,  2019年03月05日   (東京都調布市)  電気通信大学

  • 模擬難聴を使った聴力低下による音声寸法弁別特性への影響

    米満麻弥, 入野俊夫, 上村怜央, Roy D. Patterson

    日本音響学会:春季研究発表会講演論文集,3-P-23  2019年03月05日   (東京都調布市)  電気通信大学

  • レベル依存性のある蝸牛雑音フロアを考慮した聴覚フィルタ特性の推定

    横田 健治, 入野 俊夫, 松浦 弘樹, Roy D. Patterson

    聴覚研究会  2018年12月14日   (福岡市)  九州大

     概要を見る

    2018年12月14日-15日

  • ガンマチャープ聴覚フィルタバンクに基づく模擬難聴システムの実装と教育応用

    松井淑恵, 坂野秀樹, 西村竜一, 入野俊夫

    電子情報通信学会, 音声研究会/福祉工学研究会  2018年10月27日   (九州工大(北九州市))  電子情報通信学会, 音声研究会/福祉工学研究会

     概要を見る

    vol. 118, no. 269, SP2018-38, pp. 31-36

  • The gammachirp auditory filter and its application to speech perception

    Toshio Irino, Roy D. Patterson  [招待有り]

    International Symposium on Universal Acoustical Communication 2018  2018年10月24日   (東北大学、仙台) 

  • 複数の雑音条件下における共通パラメータを用いた音声了解度予測

    山本克彦, 入野俊夫, 荒木章子, 木下慶介, 中谷智広

    秋季研究発表会講演論文集  2018年09月12日   (大分大学旦野原キャンパス(大分県大分市))  日本音響学会

     概要を見る

    2-P-42, pp.897-898, 12-14 Sep 2018,

  • 敵対的生成ネットワークを用いた楽曲 の自動コード推定法の検討

    納庄 貴大, 西村竜一, 入野 俊夫

    第120回音楽情報科学研究会(夏の シンポジウム)  2018年08月22日   (広島工業大学五日市キャンパス講義棟「三宅の森 Nexus21」 9F(広島県広島市佐伯区))  情報処理学会

     概要を見る

    発表番号6, 研究報告音楽情報科学(MUS), 2018-MUS-120(6),1- 6,2018年8月21日-23日

  • 通常発声とささやき声を比較した時の寸法知覚-どちらが小さい話者に聞こえる?

    上村 怜央, 入野 俊夫, Roy D. Patterson

    情報処理学会, 音学シンポジウム2018  2018年06月17日   (東京大学本郷キャンパス(東京都文京区)) 

     概要を見る

    発表番号57, 研究報告音楽情報科学(MUS),2018-MUS-119(57),1-6 (2018-06-09), 2018年6月16日-17日

  • 蝸牛雑音を導入した絶対閾値と聴覚フィルタ特性の同時推定

    横田 健治, 入野 俊夫, 松井 淑恵, Roy D. Patterson

    情報処理学会, 音学シンポジウム2018  2018年06月17日   (東京大学本郷キャンパス(東京都文京区)) 

     概要を見る

    発表番号59, 研究報告音楽情報科学(MUS),2018-MUS-119(59),1-5 (2018-06-09) , 2018年6月16日-17日

  • 模擬難聴システムを用いた発話訓練による音声の 明瞭性向上の評価

    東山宗一, 入野俊夫

    情報処理学会, 音学シンポジウム2018  2018年06月17日   (東京大学本郷キャンパス(東京都文京区)) 

     概要を見る

    発表番号55, 研究報告音楽情報科学(MUS),2018-MUS-119(55),1-6 (2018-06-09), 2018年6月16日-17日

  • 臨床心理面接における傾聴度変化の評価−臨床心理士と初学者の比較

    花田里欧子, 中島隆太郎, 井上雅史, 古山宣洋, 入野俊夫

    人工知能学会全国大会(第28回)  2018年06月05日   (城山観光ホテル(鹿児島市)) 

     概要を見る

    3C1-OS-14a-02, 2018年6月5日〜8日

  • Effet différencié d’un simulateur de perte auditive sur la compression cochléaire et la sélectivité fréquentielle,

    Nicolas Grimault, Toshio Irino, Samar Dimachki, Alexandra Corneyllie, Roy D. Patterson, Samuel Garcia

    CFA 18 - French Acoustical Congress of Acoustic, Le Harve, 23-27 April 2018.  2018年04月  

  • バブル雑音重畳と強調処理された音声の模擬難聴下における了解度 (応用音響)

    大橋 成美, 余村 直子, 山本 克彦, 荒木 章子, 木下 慶介, 中谷 智広, 入野 俊夫

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報  2018年03月19日   (ホテルミヤヒラ(沖縄石垣市)) 

     概要を見る

    電子情報通信学会 音声研究会, 信学技報, vol. 117,no.517, SP2017-99, pp. 87-92,

  • 低雑音レベルを含めたノッチ雑音マスキング閾値と聴覚フィルタ推定

    横田健治, 入野俊夫, ロイ D. パターソン

    日本音響学会  2018年03月13日   (日本工業大学宮代キャンパス(埼玉県南埼玉郡)) 

     概要を見る

    春季研究発表会講演論文集,2-P-17, pp.691-692, 13-15 Mar 2018

  • コンプリメントのアノテーション

    井上 雅史, 中島 隆太郎, 花田 里欧子, 古山 宣洋, 入野 俊夫

    電子情報通信学会技術研究報告 = IEICE technical report : 信学技報  2018年03月13日   東北大学電気通信研究所(宮城県,仙台市)

     概要を見る

    電子情報通信学会 ヒューマンコミュニケーション基礎研究会 (HCS) , vol. 117, no.509, HCS2017-95, pp. 11-15, 2018年3月13日〜14日

  • 振幅包絡歪み指標に基づくバブル雑音下の音声明瞭予測

    山本克彦, 大橋成美, 入野俊夫, 荒木章子, 木下慶介, 中谷智広

    日本音響学会  2018年03月13日   (日本工業大学宮代キャンパス(埼玉県南埼玉郡)) 

     概要を見る

    春季研究発表会講演論文集,3-P-7, pp.1305-1308, 13-15 Mar 2018

  • 小型ボードコンピュータ Raspberry Piを用いた笑い声の収集

    入野俊夫

    日本音響学会  2018年03月13日   (日本工業大学宮代キャンパス(埼玉県南埼玉郡)) 

     概要を見る

    春季研究発表会講演論文集,2-Q-22, pp.199-200, 13-15 Mar 2018

  • velvet noiseとその変種の聴覚心理・生理研究への応用可能性について (ヒューマン情報処理)

    河原 英紀, 津崎 実, 坂野 秀樹, 森勢 将雅, 松井 淑恵, 入野 俊夫

    日本音響学会聴覚研究会  2018年03月03日   (沖縄産業支援センター(沖縄県那覇市)) 

     概要を見る

    信学技報, vol. 117, no. 470, HIP2017-113, pp. 99-104, 2018年3月3日〜4日

  • Enhancing wave-I of auditory brainstem response by choosing the latency of rising-frequency chirp,

    Takashi Morimoto, Yoh-ichi Fujisaka, Yasuhide Okamoto, Toshio Irino

    ARO 41st midwinter meeting, Abstract PS-33 San Diego, CA, USA, 9-14 Feb., 2018.  2018年02月  

     概要を見る

    (発表日 10 Feb. )

  • Incorporating absolute threshold and a cochlear noise floor into the GammaChirp model of masking,

    Toshio Irino, Kenji Yokota, Toshie Matsui, Roy D. Patterson

    ARO 41st midwinter meeting, Abstract PS-800 San Diego, CA, USA, 9-14 Feb., 2018.  2018年02月  

     概要を見る

    (発表日 12 Feb. )

  • 臨床心理面接における傾聴度変化の評価:臨床心理士と初学者の比較

    花田 里欧子, 中島 隆太郎, 井上 雅史, 古山 宣洋, 入野 俊夫

    人工知能学会全国大会論文集  2018年   一般社団法人 人工知能学会

     概要を見る

    <p>臨床心理面接という対話の評価において,傾聴は欠くことのできない重要な軸の一つである.これまで傾聴を構成する要素に関する知見はあるが[アイビイ1985],面接全体として傾聴が真に成立したかどうかについて評価測定するための手法は,まだ十分確立していない.特に傾聴に際してそうしているつもりでも相手はそう感じていないといったすれ違いがつきまとうことはこの課題をいっそう困難にしている.しかし面接の質の把握や向上のためには,傾聴の評価測定をすすめていく必要がある.本研究ではそのためのひとつのアプローチとして次の手順で実験を実施し,評価の実際と課題について明らかにする.(1)第三者の臨床心理士が面接ビデオを視聴し,感情評価値入力手法により傾聴度を時系列入力,(2)傾聴度時系列データの変化点(上昇/下降)を多重解像度分析によって自動検出, (3)同じ臨床心理士によって,なぜ変化点をそのように評価したのかの記述, (4)その変化点が上昇か下降かの判断を初学者の集団で実験, (5)両者の評価の比較と統計的分析.</p>

  • 聴覚モデル適合の改良のための低レベルノッチ雑音も含めた閾値

    横田健治, 入野俊夫, 松井淑恵, Roy D. Patterson

    日本音響学会関西支部,第20回関西支部若手研究者交流研究発表会  2017年12月16日   (同志社大学(京田辺市)) 

     概要を見る

    #17(ポスター)

  • 音響教育のためのスピーカ及び簡易音圧確認治具

    岩城龍之介, 松浦弘樹, 櫻井梨七, 中川望己, 奥谷友梨, 山内悠記, 上村怜央, 東山宗一, 横田健治, 入野俊夫

    日本音響学会関西支部,第20回関西支部若手研究者交流研究発表会  2017年12月16日   (同志社大学(京田辺市)) 

     概要を見る

    #1(デモ発表)

  • 雑音抑圧で音声は聴き取りやすくなる?ー バブル vs ピンクお邪魔対決ー

    大橋成美, 山本克彦, 入野俊夫, 荒木章子, 木下慶介, 中谷智広

    日本音響学会関西支部,第20回関西支部若手研究者交流研究発表会  2017年12月16日   (同志社大学(京田辺市)) 

     概要を見る

    #18(ポスター)

  • 加齢によるピッチ・シフト現象とピッチ・モデル:モデルで見落とされてきた側面

    津崎実, 牧勝弘, 入野俊夫

    日本基礎心理学会第 36 回大会  2017年12月01日   (立命館大学・大阪いばらきキャンパス(大阪府茨木市)) 

     概要を見る

    1-3 Dec 2017

  • 変調スペクトル領域の信号対歪み比に基づく音声明瞭度予測法の提案

    山本克彦, 山本克彦, 入野俊夫, 松井淑恵, 荒木章子, 木下慶介, 中谷智広

    信号処理シンポジウム講演論文集(CD-ROM)  2017年11月08日  

     概要を見る

    B8-4, pp.372-377, マリオス 盛岡地域交流センター(岩手県盛岡市), 8-10 Nov. 2017

  • 「風力発電所計画厳しい意見続々 県環境影響審査会」

    入野俊夫

      2017年10月05日   朝日新聞(p.22 和歌山面)

  • グループワーク対話の分析を通じた盛り上がりの定量化の検討

    三上菜穂, 西村竜一, 入野俊夫

    日本音響学会  2017年09月25日   (愛媛大学(愛媛県松山市)) 

     概要を見る

    日本音響学会:秋季研究発表会講演論文集,1-R-21, pp.113-114, 25 - 27 Sep 2017

  • 高齢難聴者の文聴取における文節休止の効果―模擬難聴システムによる検討―

    長谷川純, 畑山春菜, 吐師道子, 松井淑恵, 入野俊夫

    第18回日本言語聴覚学会  2017年06月23日   (くにびきメッセ-島根県立産業交流会館-(島根県松江市)) 

     概要を見る

    2017年6月23-24日

  • 有声音の寸法知覚に対する聴覚計算モデル

    瀧本恵理, 入野俊夫, 松井淑恵, PATTERSON Roy D

    情報処理学会, 音学シンポジウム2017  2017年06月18日   (お茶の水女子大(東京都文京区)) 

     概要を見る

    発表番号55, 情報処理学会研究報告,Vol.2017-MUS-115, No.55,pp.1-6,2017年6月17日-18日

  • 有声音の寸法知覚における高域強調処理の影響

    松井淑恵, 入野俊夫, 山本航大, 河原英紀, PATTERSON Roy D

    情報処理学会, 音学シンポジウム2017  2017年06月18日   (お茶の水女子大(東京都文京区)) 

     概要を見る

    発表番号44, 情報処理学会研究報告,Vol.2017-MUS-115, No.44,pp.1-6,2017年6月17日-18日

  • 模擬難聴システムの教育・臨床・研究への適用

    長谷川純, 吐師道子, 山下祐季, 畑山春菜, 松井淑恵, 入野俊夫

    広島県言語聴覚士会学術集会  2017年06月04日   (県立広島大(広島県三原市)) 

  • 模擬難聴システムを用いた言語聴覚士養成課程での演習とWebアプリ化の検討 (ヒューマンコミュニケーション基礎)

    米満 麻弥, 入野 俊夫, 松井 淑恵, 西村 竜一, 吐師 道子, 長谷川 純

    電子情報通信学会ヒューマン情報処理研究会 (HIP) ,ヒューマンコミュニケーション基礎研究会 (HCS) 合同研究会  2017年05月16日   (沖縄産業支援センター(沖縄県那覇市)) 

     概要を見る

    信学技報, vol. 117, no. 30, HIP2017-42, pp. 277-282, 2017年5月16日〜17日

  • Hearing impairment simulator using the dynamic compressive gammachirp filterbank and its application

    入野俊夫

    日本音響学会関西支部, 聴覚基礎理論談話会/ (科研A)^2 合同ミーティング  2017年03月28日   (京都市芸術大学(京都府京都市)) 

  • ユーザ訂正情報に基づいた音声認識API出力の並び替え法の開発

    遠山智明, 西村竜一, 入野俊夫

    日本音響学会:春季研究発表会講演論文集,1-Q-12, pp. 113-114  2017年03月15日   (明治大学(神奈川県川崎市)) 

     概要を見る

    15-17 Mar 2017

  • 感情推移観測システム(EMO system)による傾聴評価とマイクロカウンセリングのタグ付けとの関連

    花田里欧子, 入野俊夫, 古山宣洋, 井上雅史, 中島隆太郎

    電子情報通信学会 ヒューマンコミュニケーション基礎(HCS)研究会  2017年03月15日   (東北大学(宮城県仙台市)) 

     概要を見る

    信学技報, vol. 116, no. 524, HCS2016-110, pp. 113- 118 2017年3月15-16日

  • 非対称レベルノッチ雑音マスキング法による高齢者の聴覚フィルタ形状と圧縮特性の推定

    稲部葉月, 松井淑恵, 西村友里, PATTERSON Roy D, 入野俊夫

    日本音響学会:春季研究発表会講演論文集,2-Q-29, pp.705-706  2017年03月15日   (明治大学(神奈川県川崎市)) 

     概要を見る

    15-17 Mar 2017(筆頭著者 稲部葉月、「学生優秀発表賞賞 (第15回)」受賞)

  • 感情推移観測システム(EMO system)による傾聴評価とマイクロカウンセリングのタグ付けとの関連

    花田里欧子, 入野俊夫, 古山宣洋, 井上雅史, 中島隆太郎

    電子情報通信学会技術研究報告  2017年03月08日  

  • 臨床心理面接コーパスと感情推移観測システム(EMO system)を用いた傾聴学習支援 (ヒューマンコミュニケーション基礎)

    花田 里欧子, 入野 俊夫, 古山 宣洋, 井上 雅史, 中島 隆太郎

    電子情報通信学会 ヒューマンコミュニケーション基礎(HCS)研究会  2017年01月27日   (なみきスクウェア (福岡県福岡市)) 

     概要を見る

    信学技報, vol. 116, no. 436, HCS2016-60, pp. 5-10, 年1月27-28日

  • 難聴者に聞こえやすい音声特徴 ~模擬難聴を用いた発声の振幅変調分析~

    吉田駿, 山本克彦, 西村竜一, 松井淑恵, 入野俊夫

    日本音響学会関西支部,第19回関西支部若手研究者交流研究発表会  2016年12月18日   (関西大学100周年記念会館(大阪府吹田市)) 

     概要を見る

    #44 筆頭著者 吉田駿、「奨励賞」受賞

  • 深層学習を用いたゲームコンテンツのための効果音自動生成手法の検討

    吉田赳, 入野俊夫, 西村竜一

    日本音響学会関西支部,第19回関西支部若手研究者交流研究発表 会  2016年12月18日   (関西大学100周年記念会館(大阪府吹田市)) 

     概要を見る

    #34

  • 非対称レベルノッチ雑音マスキング法における測定点削減討

    西村友里, 入野俊夫, 松井淑恵, Roy D. Patterson

    日本音響学会関西支部,第19回関西支部若手研究者交流研究発表会  2016年12月18日   (関西大学100周年記念会館(大阪府吹田市)) 

     概要を見る

    #51

  • オージオグラムを動かして聞く! ~Web アプリケーションとしての模擬難聴システムを目指して~

    松井淑恵, 米満麻弥, 西村竜一, 入野俊夫

    日本音響学会関西支部,第19回関西支部若手研究者交流研究発表会  2016年12月18日   (関西大学100周年記念会館(大阪府吹田市)) 

     概要を見る

    #52

  • Estimation of auditory compression and filter shape of elderly listeners using notched noise masking,

    Toshie Matsui, Toshio Irino, Hazuki Inabe, Yuri Nishimura, Roy D. Patterson

    Presented at ASA-ASJ joint meeting 2016, J. Acoust. Soc. Am., 140 Hilton Hawaiian Village Waikiki Beach Resort, Honolulu, Hawaii, 28 Nov. - 2 Dec.2016  2016年12月  

     概要を見る

    (発表:1 Dec 2016)

  • 招待講演 Characterizing impairments in compression and filter shape to establish their role in hidden hearing loss,

    Toshio Irino, Toshie Matsui, Roy D. Patterson  [招待有り]

    ASA-ASJ joint meeting 2016  2016年11月30日   (Hilton Hawaiian Village Waikiki Beach Resort, Honolulu, Hawaii,) 

     概要を見る

    28 Nov. - 2 Dec.2016

  • Analysis of acoustic features for speech intelligibility prediction models

    Katsuhiko Yamamoto, Toshio Irino, Toshie Matsui, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani

    J. Acoust. Soc. Am., 140,ASA-ASJ joint meeting 2016, Hilton Hawaiian Village Waikiki Beach Resort, Honolulu, Hawaii, 28 Nov. - 2 Dec.2016  2016年11月  

     概要を見る

    (発表:29 Nov 2016)

  • 招待講演 Acoustic Scale Processing in the Auditory System,

    入野俊夫  [招待有り]

    RIMS Joint Research & CoopMath 2016, Wavelet analysis and signal processing,  2016年10月24日   (Kyoto Univ., Kyoto,) 

     概要を見る

    2016 RIMS 共同研究「ウェーブレット解析と信号処理」 , 24-25, Oct 2016.

  • 音声明瞭度予測法dcGC‐sEPSMの諸検討:評価用雑音の特性と予測精度への影響

    山本克彦, 入野俊夫, 松井淑恵, 荒木章子, 木下慶介, 中谷智広

    日本音響学会研究発表会講演論文集(CD-ROM)  2016年09月14日   (富山大学(富山県富山市)) 

     概要を見る

    2-P-44, pp. 663-666 2016年9月14日-16日

  • ユーザ訂正情報を用いた音声認識APIのカスタマイズ手法の検討

    遠山智明, 西村竜一, 入野俊夫

    日本音響学会研究発表会講演論文集(CD-ROM)  2016年09月14日   (富山大学(富山県富山市)) 

     概要を見る

    3-Q-14, pp. 125-126 2016年9月14日-16日

  • 招待講演 The perceptual ends of the periodicity; but of what periodicity?

    Minoru Tsuzaki, Sawa Hanada, Junko Sonoda, Satomi Tanaka, Toshio Irino  [招待有り]

    Internoise 2016  2016年08月24日   (Hamburg, Germany,) 

     概要を見る

    21-24, Aug 2016.

  • 動的圧縮型ガンマチャープフィルタバンクを用いた音声明瞭度予測法:強調音声を対象とした比較検討

    山本克彦, 入野俊夫, 松井淑恵, 荒木章子, 木下慶介, 中谷智広

    音学シンポジウム2016 学会研究報告(Web)  2016年05月21日   (東海大学(東京都港区)) 

     概要を見る

    発表番号20,Vol.2016-MUS-111, No.20,pp.1-6, 2016年5月21日-22日

  • 招待講演 聴覚心理実験に基づいたモデルとその実践応用,

    入野 俊夫, 松井 淑恵, 津崎 実, 吐師道子  [招待有り]

    日本音響学会  2016年03月11日   (桐蔭横浜大, 横浜,) 

     概要を見る

    春季研究発表会講演論文集, 3-6-2, pp. 1445-1446, 9--11 Mar 2016.

  • 強調音声のための明瞭度予測法の検証:聴取実験結果との比較

    山本克彦, 入野俊夫, 松井淑恵, 荒木章子, 木下慶介, 中谷智広

    日本音響学会研究発表会講演論文集(CD-ROM)  2016年03月09日   (桐蔭横浜大, 横浜) 

     概要を見る

    春季研究発表会講演論文集, 2-P-23, pp. 823-826, 9--11 Mar 2016

  • スペクトル傾斜の異なる音声の寸法知覚と聴覚モデルによる説明

    山本航大, 入野俊夫, 岡本江美, 松井淑恵, 西村竜一, 河原英紀

    日本音響学会研究発表会講演論文集(CD-ROM)  2016年03月09日   (桐蔭横浜大, 横浜) 

     概要を見る

    春季研究発表会講演論文集, 2-Q-13 pp. 481-484, 9--11 Mar 2016

  • GetWild:音声生成過程を考慮したグロウルの印象付与システム

    溝渕翔平, 入野俊夫, 西村竜一, 松井淑恵, 河原英紀

    日本音響学会研究発表会講演論文集(CD-ROM)  2016年03月09日   (桐蔭横浜大, 横浜) 

     概要を見る

    春季研究発表会講演論文集, 2-2-9, pp. 249-252, 9--11 Mar 2016.

  • ウェブ試験向け音声入力UI設計における不要語の扱いについて

    西村竜一, 牧野さやか, 入野俊夫

    日本音響学会研究発表会講演論文集(CD-ROM)  2016年03月09日  

     概要を見る

    春季研究発表会講演論文集, 3-1-5 pp. 81-82, 9--11 Mar 2016

  • 言語聴覚士養成課程における模擬難聴の教育利用に向けた試み

    永江美沙貴, 入野俊夫, 松井淑恵, 長谷川純, 吐師道子, 河原英紀

    日本音響学会研究発表会講演論文集(CD-ROM)  2016年03月09日   (桐蔭横浜大, 横浜) 

     概要を見る

    春季研究発表会講演論文集, 3-6-12 pp. 1471-1472, 9--11 Mar 2016

  • 非対称レベルノッチ雑音マスキング法を用いた圧縮特性推定と測定点削減の検討

    西村友里, 入野俊夫, 松井淑恵, 河原英紀, PATTERSON Roy D

    日本音響学会研究発表会講演論文集(CD-ROM)  2016年03月09日   (桐蔭横浜大, 横浜) 

     概要を見る

    春季研究発表会講演論文集, 3-6-8, pp. 1459-1462 9--11 Mar 2016

  • 声道形状と声帯音源特性の操作に基づいたグロウル系歌唱の印象付与法

    溝渕翔平, 西村竜一, 松井淑恵, 入野俊夫, 河原英紀

    電子情報通信学会論文誌 D(Web)  2016年03月  

  • 動的圧縮型ガンマチャープフィルタバンクを用いた音声明瞭度予測法の改良

    山本克彦, 入野俊夫, 松井淑恵, 荒木章子, 木下慶介, 中谷智広

    聴覚研究会資料 = Proceedings of the auditory research meeting  2016年02月20日   (那覇市IT創造館, 沖縄) 

     概要を見る

    Vol.46, No.1, H-2016-9, pp.25--40, 2016年2月20日-21日

  • 招待講演 模擬難聴とそれを支える聴覚心理実験,

    入野俊夫  [招待有り]

    県立広島大保健福祉学部コミュニケーション障害学科セミナー  2016年02月17日   (県立広島大保健福祉,三原, 広島,) 

  • 音声生成過程を考慮したグロウルの印象付与システム~あなた の声にこぶし、効かせます~

    溝渕翔平, 入野俊夫, 西村竜一, 松井淑恵, 河原英紀

    第18回関西支部若手研究者交流研究発表会  2015年12月13日   (関西大学100周年記念会館,大阪)  日本音響学会関西支部

     概要を見る

    #36

  • 強調音声の明瞭度 -計算機は人の聞こえを予測できる?-

    山本克彦, 入野俊夫, 松井淑恵, 荒木章子, 木下慶介, 中谷智広

    第18回関西支部若手研究者交流研究発表会  2015年12月13日   (関西大学100周年記念会館,大阪)  日本音響学会関西支部

     概要を見る

    #42 著者 山本克彦、「最優秀奨励賞」 受賞

  • 無声音の高域強調処理が寸法知覚に与える影響に関する検討

    山本 航大, 入野 俊夫, 岡本 江美, 松井淑恵, 西村竜一, 河原英紀

    日本音響学会聴覚研究会資料 = Proceedings of the auditory research meeting  2015年11月13日   (甲州市勝沼 ぶどうの丘, 山梨) 

     概要を見る

    Vol.45, No.8, H-2015-120, pp.681--686 2015年11月13日-14日

  • 脳波を用いた時間分解能測定

    森本隆司, 森本隆司, 藪下岳, 藤坂洋一, 中市健志, 入野俊夫, 岡本康秀, 岡本康秀, 貫野彩子, 貫野彩子, 神崎晶, 小川郁

    日本音響学会聴覚研究会資料  2015年11月13日   甲州市勝沼 ぶどうの,山梨

     概要を見る

    Vol.45, No.8, H-2015-119, pp.675--680

  • 招待講演 A perceptual continuum for pitch transition with no chromatic change: A challenge for a new model of pitch,

    Minoru Tsuzaki, Sawa Hanada, Katsuhiro Maki, Toshio Irino, Toshie Matsui, Chihiro Takeshima  [招待有り]

    Taiwan/Japan Joint Auditory Research Meeting, National Tsing Hua University, Taiwan,  2015年10月23日   (国立精華大学,台湾) 

     概要を見る

    日本音響学会聴覚研究会資料, Vol. 45, No.7, H-2015-105, pp.--, 23--24 Oct. 2015. (発表:23 Oct 2015)

  • Study on predicting speech intelligibility of enhanced speech sounds using the dynamic compressive gammachirp auditory filterbank and modulation filterbank,

    Katsuhiko Yamamoto, Toshio Irino, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani

    presented at Taiwan/Japan Joint Auditory Research Meeting, National Tsing Hua University, Taiwan,音響学会聴覚研究会資料  2015年10月  

     概要を見る

    国立精華大学,台湾, 23--24 Oct. 2015 (発表:23 Oct 2015). Proc. Auditory Res. Meeting, Acoust. Soc. Japan,

  • 位相差を伴った同一周期のパルス列が加算される場合の音の知覚について

    津崎実, 花田沙和, 牧勝弘, 入野俊夫

    日本音響学会研究発表会講演論文集(CD-ROM)  2015年09月18日   (会津大, 会津若松,) 

     概要を見る

    秋季研究発表会講演論文集,3-3-5,pp.1309-1312, 2015年9月16日~18日,

  • Raspberry Piを用いた笑い声検知システムの提案

    三上菜穂, 西村竜一, 入野俊夫

    日本音響学会研究発表会講演論文集(CD-ROM)  2015年09月18日   (会津大, 会津若松) 

     概要を見る

    秋季研究発表会講演論文集,3-Q-4,pp.149-150, 2015年9月16日~18日

  • 動的圧縮型ガンマチャープフィルタバンクを用いた強調音声の明瞭度予測法の提案

    山本克彦, 入野俊夫, 荒木章子, 木下慶介, 中谷智広

    日本音響学会研究発表会講演論文集(CD-ROM)  2015年09月17日   (会津大, 会津若松,) 

     概要を見る

    秋季研究発表会講演論文集,2-P-36,pp. 473-474, 2015年9月16日~18日, 筆頭著者 山本克彦、 「学生優秀発表賞」受賞

  • 非対称レベルノッチ雑音マスキング法を用いた1kHzにおける圧縮特性推定

    西村友里, 入野俊夫, 松井淑恵, 河原英紀, PATTERSON Roy D

    日本音響学会研究発表会講演論文集(CD-ROM)  2015年09月17日   (会津大, 会津若松,) 

     概要を見る

    秋季研究発表会講演論文集,2-P-33,pp.467-468, 2015年9月16日~18日

  • 言語聴覚士養成教育への模擬難聴の導入の試みについて

    永江美沙貴, 入野俊夫, 松井淑恵, 長谷川純, 吐師道子, 河原英紀

    日本音響学会研究発表会講演論文集(CD-ROM)  2015年09月17日   (会津大, 会津若松,) 

     概要を見る

    秋季研究発表会講演論文集,2-5-7, pp.1229-1230, 2015年9月16日~18日,

  • 大人・子ども話者識別システムにおける性能改善の検討

    西村竜一, 入野俊夫, 河原英紀

    日本音響学会研究発表会講演論文集(CD-ROM)  2015年09月16日   (会津大, 会津若松) 

     概要を見る

    秋季研究発表会講演論文集,1-2-12, pp.29-30, 2015年9月16日~18日

  • 音声科学教育用対話的ツールのための エリアシングの無い L-F モデルの実装について

    河原 英紀, 榊原 健一, 坂野 秀樹, 森勢 将雅, 戸田 智基, 入野 俊夫

    日本音響学会聴覚研究会, 電子情報通信学会/音響学会 電気音響研究会, , 電子情報通信学会技術研究報告、EA2015-08,  2015年08月03日   (東北大学, 仙台) 

     概要を見る

    2015年8月3 日-4日

  • Hearing Impairment Simulator with Inverse Compression based on the Compressive Gammachirp Filter,

    Toshio Irino, Misaki Nagae, Toshie Matsui, Hideki Kawahara, Roy D. Patterson

    Auditory Model Workshop Universität Oldenburg, Oldenburg, 12-13 Jun, 2015  2015年06月  

  • 声道形状と声帯音源特性の操作に基づくグロウル系 歌唱音声の印象付与法の評価について

    溝渕 翔平, 西村 竜一, 入野 俊夫, 河原 英紀

    音学シンポジウム2015  2015年05月24日   (電気通信大学, 東京)  情報処理学会

     概要を見る

    発表番号60, 情報処理学会研究報告,Vol.2015-MUS-107,No.60,pp.1-6, 2015年5月23日-24日

  • 声道形状と声帯音源特性を用いたグロウル系歌唱音声の印象付与の評価

    溝渕翔平, 西村竜一, 入野俊夫, 河原英紀

    情報処理学会研究報告(Web)  2015年05月  

  • 声道形状と声帯音源特性を利用したグロウル系歌唱音声への変換について

    溝渕翔平, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2015年03月18日   (中央大, 東京) 

     概要を見る

    3-2-7,pp.289-290 2015年3月16日~18日

  • スマホを用いた環境音認識アプリに対するDNNの導入

    松山みのり, 西村竜一, 河原英紀, 山田順之介, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2015年03月17日   (中央大, 東京) 

     概要を見る

    2-1-14,pp.79-80 2015年3月16 日~18日

  • 非対称レベルノッチ雑音マスキング法による4kHzにおける圧縮特性推定

    金内由紀, 入野俊夫, 西村竜一, 河原英紀, PATTERSON Roy D

    日本音響学会:春季研究発表会講演論文集  2015年03月17日   (中央大, 東京) 

     概要を見る

    2-Q-12,pp.505-506 2015年3月16日~18日

  • 聴覚の圧縮特性のキャンセル処理による模擬難聴―語音明瞭度による検討―

    永江美沙貴, 松井淑恵, 西村竜一, 河原英紀, PATTERSON Roy D, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2015年03月17日   (中央大, 東京) 

     概要を見る

    2-Q-20,pp.523-524, 2015年3月16日~18日

  • 無声音の高域強調処理による寸法知覚特性シフト

    山本航大, 入野俊夫, 西村竜一, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2015年03月17日   (中央大, 東京) 

     概要を見る

    2-Q-18,pp.517-518 2015年3月16日~18日

  • 声道断面積関数推定における声帯音源特性の補償について

    伊佐衣代, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2015年03月16日   (中央大, 東京) 

     概要を見る

    1-2-4,pp.231 -232 2015年3月16日~18日

  • 音声の好感度に対する声道形状および音源情報操作の効果について

    吉元照貴, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2015年03月16日   (中央大, 東京) 

     概要を見る

    1-R-32,pp. 351-332 2015年3月16日~18日

  • ウェブアプリケーションにおける音声入力UIの設計と評価について

    田藤千弘, 西村竜一, 河原英紀, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2015年03月16日   (中央大, 東京) 

     概要を見る

    1-P-33,pp. 191-192 2015年3月16日~18日

  • 周期信号の短時間Fourier変換に基づく静的表現と音声分析合成系への応用について

    河原英紀, 森勢将雅, 坂野秀樹, 戸田智基, 榊原健一, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2015年03月16日   (中央大, 東京) 

     概要を見る

    1-R-18,pp. 313-314 2015年3月16日~18日

  • SEANA: 利用者の動作を強調する音の拡張現実アプリの開発

    吉田 赳, 西村 竜一, 入野 俊夫, 河原 英紀

    情報処理学会, インタラクション2015  2015年03月07日   (東京国際交流館) 

     概要を見る

    pp.972--977 2015年3月5日〜7日

  • 高次対称性に基づく基本周波数推定法のモデル化とfilled pauseの分析への応用について (音声)

    河原 英紀, 西村 竜一, 入野 俊夫

    電子情報通信学会/音響学会 音声研究会, 電子情報通信学会技術研究報告、EA2014-127, Vol.114, No.473, pp.307-312  2015年03月03日   (南の美ら花ホテルミヤヒラ, 沖縄) 

     概要を見る

    日常の環境で使われている音声の物理特性は、様々な要因で大きく変動する。発話の途中などに出現するfilled pauseでは、声帯振動が不安定になる場合が多く、通常の分析法では、基本周波数の抽出に大きな誤差が含まれるなどの問題が生ずる。本報告では、局所的な周期性を波形の対称性に基づいて評価する方法と統計的手法を組み合わせることにより、基本波の抽出と基本周波数の初期推定における頑健性を改善する方法を提案する。

  • 音声の好感度改善補助ツールの開発を目指した好感度改善方法の検討

    吉元 照貴, 西村 竜一, 入野 俊夫, 河原 英紀

    第106回音楽情報科学・ 第35回エンタテインメントコンピューティング合同研究発表会, 情報処理学会研究報告, Vol.2015-MUS-106, No.25,  2015年03月03日   (甲府富士屋ホテル, 山梨) 

     概要を見る

    本稿では,音声の好感度改善トレーニング補助を目的とした簡易ツールの紹介と,音声の好感度改善の具体的な方法について述べる.これまで,音声から受ける印象の一つである好感度と音声の物理属性との関係を,音声モーフィングの技術を用いて調べてきた.それらの検討から,(1) 音声の物理属性の中では,基本周波数やスペクトル形状が好感度へ与える影響が大きいこと,(2) 話者の音声から聞き手が受ける好感度は,聞き手によって大きく異なっていること,(3) 聞き手が好感度を改善するように音声を操作する際に,操作された音声の話者性が変化して感じられると好感度の判断が大きく影響されることが示唆された.今回報告する好感度改善手法では,これらの知見を考慮し,音声パラメタの基本周波数とスペクトル形状を操作することで好感度の改善を図る.また,好感度を改善する操作の妨害要因となっていた話者性が変化する問題を解決するために,演劇部の学生が好感度の異なる話し方で演技した音声から求められる音声の物理属性の変化量を求めた.この変化量を好感度が低い他者の音声の物理属性の操作に用いた.ここでは,変化量を抽出した話者と聞き手および操作対象となった話者の組み合わせについて好感度の改善の効果を調べた.これらの結果に基づいて,提案する簡易ツールの概要を説明する.

  • 声道形状と声帯音源特性を用いたグロウル系歌唱音声への実時間変換の提案

    溝渕 翔平, 西村 竜一, 入野 俊夫, 河原 英紀

    第106回音楽情報科学・ 第35回エンタテインメントコンピューティング合同研究発表会, 情報処理学会研究報告, Vol.2015-MUS-106, No.12,  2015年03月03日   (甲府富士屋ホテル, 山梨) 

     概要を見る

    本研究では通常歌唱音声をグロウル系歌唱音声の印象をもつ音声に変換するシステムについて検討している.これまでの研究よりグロウル系歌唱音声特有の物理的特徴としてスペクトル形状の高速な変動が確認された.本発表ではスペクトル形状の高速な変動を声帯音源特性と声道形状の変化としてモデル化し,グロウルの印象を付与する方法を提案する.声帯音源特性の時間変化は LF model を用いることでスペクトル傾斜の時間変化をモデル化した.声道形状の変化は入力音声について分析した声道断面積関数を操作することで実現した.提案手法による変換処理はフィルタリングで構成されているため,原理上はリアルタイム処理が可能である.

  • 音声の高域強調処理による寸法知覚特性変化と計算理論について

    山本 航大, 入野 俊夫, 西村 竜一

    日本音響学会聴覚研究会資料  2015年03月02日   (北海道医療大学札幌サテライトキャンパス, 北海道) 

     概要を見る

    Vol.45, No.2, H-2015-21, pp.99-104

  • 聴覚末梢の圧縮特性のキャンセル処理による模擬難聴を通した音声の同定

    松井 淑恵, 入野 俊夫, 永江 美沙貴, 河原英紀, Roy D. Patterson

    日本音響学会聴覚研究会資料  2015年03月02日   (北海道医療大学札幌サテライトキャンパス, 北海道) 

     概要を見る

    Vol.45, No.2, H-2015-20, pp.93-98

  • Age Related Shifts of Absolute Pitch Judgment and Their Relation to the Auditory Filter Bandwidths.

    Minoru Tsuzaki, Toshie Matsui, Toshio Irino, Chihiro Takeshima

    ARO 38th midwinter meeting 2015 Abstract PS-319,  2015年02月  

     概要を見る

    Baltimore, MA, USA, 21-25 Feb., 2015.(発表日 22 Feb. )

  • 声道断面積関数推定における音源情報の利用の効果について

    伊佐衣代, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会関西支部, 第17回関西若手研究者交流研究発表会, #17  2014年12月14日   (関西大学100周年記念会館,大阪) 

  • 音声の発話方法による聴き 取りやすさの違いの検討〜一人芝居の声で比べてみた〜

    吉田駿, 入野俊夫, 河原英紀, 西村竜一

    日本音響学会関西支部,第17回関西支部若手研究者交流研究発表会,#34  2014年12月14日   (関西大学100周年記念会館,大阪) 

  • DNNを用いた スマホ収集環境音の認識について

    松山みのり, 西村竜一, 河原英紀, 山田順之介, 入野俊夫

    日本音響学会関西支部,第17回関西支部若手研究者交流研究発表会,#18  2014年12月14日   (関西大学100周年記念会館,大阪) 

  • 声道形状を利用したグロウル系歌唱音声への変換について

    溝渕翔平, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会関西支部,第17回関西支部若手研究者交流研究発表会,#33  2014年12月14日   (関西大学100周年記念開館,大阪) 

  • 聴覚系の寸法知覚における手がかり情報に関する検討 ー 聴覚心理実験の側面より ー

    山本航大, 入野俊夫, 西村竜一, 河原英紀

    日本音響学会関西支部,第17回関西支部若手研究者交流研究発表会,#42  2014年12月14日   (関西大学100周年記念会館,大阪) 

  • 招待講演 The role of STRAIGHT in research on the perception of size in speech and music,

    Roy D. Patterson, Toshio Irino  [招待有り]

    [聴覚/音声研究会招待講演], 和歌山,  2014年10月24日   (ホテルシーモア(白浜), 和歌山,) 

     概要を見る

    日本音響学会聴覚研究会資料, H-2014-99, Vol. 44, No. 7, pp.473-477, [聴覚/音声研究会招待講演],2014年10月23〜24日, (発表日10月24日) あらまし15年ほど前、ガンマチャープ聴覚フィルタの数学的導出の研究過程で、音声と音楽の知覚においてもスケール不変性があることに気がついた。たとえば、人の声を聞く時、ピッチや平均ホルマント周波数に関わらず理解できる。また、楽器属(管楽器、弦楽器)は大きさや音域にかかわらず同じ形で作られている。そこで、聴覚系において、音声や楽器音の正規化を行う「安定化ウェーブレットメリン変換」がどのように利用可能かを示し、それらの音の知覚不変性の研究を開始することとした。言うは易いが、そのためには自然な音の音響スケール変数を操作する必要がある。運が良いことに、同時期に河原先生が音声のピッチと声道長や楽器音を高品質で操作できるSTRAIGHTを発表された。本報告では、STRAIGHTでスケール変数を操作した音の寸法知覚に関する一連の研究を紹介する。また、STRAIGHTの合成系を楽器音操作にどのように適用したかも述べる。これらの研究は、STRAIGHTがいかに自然音の知覚研究の原動力になったかの一つの大きな事例となっている。

  • 招待講演 音声と楽器音の寸法知覚研究におけるSTRAIGHTの役割

    PATTERSON Roy D, 入野 俊夫

    聴覚研究会資料 = Proceedings of the auditory research meeting  2014年10月23日  

  • 線形予測分析を用いた声道断面積関数推定のための前処理の検討(オーガナイズドセッション:ポスター発表,分析,特徴量,音声一般,聴覚一般)

    伊佐 衣代, 吉元 照貴, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会/音 響学会 音声研究会, SP2014-79, pp.27-28, 日本音響学会聴覚研究会資料, Vol.44, No.7, H-2014-80, pp.429-430  2014年10月23日   (南紀白浜温泉ホテルシーモア, 和歌山) 

     概要を見る

    線形予測分析を用いた声道断面積関数推定では、声帯音源波形、口唇の放射特性などにより誤差が生ずる。これらの影響の除去のため高域強調やスペクトル平坦化処理などの前処理について検討している。ここでは、母音データベースの音声に様々な前処理を加えて分析した結果について報告する。

  • グロウル系歌唱から求められる声道断面積関数の特徴について(オーガナイズドセッション:ポスター発表,分析,特徴量,音声一般,聴覚一般)

    溝渕 翔平, 伊佐 衣代, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会/音響学会 音声研究会, SP2014-79, pp.29-30, 日本音響学会聴覚研 究会資料, Vol.44, No.7, H-2014-80, pp.431-432  2014年10月23日   (南紀白浜温泉ホテルシー モア, 和歌山) 

     概要を見る

    グロウル系歌唱では、2から4kHz付近のスペクトル形状に、高速でほぼ周期的な変動が認められる。この変動を見通し良くモデル化することを目的に、歌唱音声の分析により求めた声道断面積関数の変動を調べた。本稿では、スペクトル概形補償の前処理と、周期性に起因する系統誤差を軽減するためにTANDEM-STRAIGHTを用いた1msのフレーム周期での分析結果を報告する。

  • 音声認識を用いた日本語スピーキングテストとそのユーザインタフェースデザインの検討

    田藤千弘, 西村竜一, 河原英紀, 入野俊夫, 今井新悟

    教育システム情報学会全国大会講演論文集(CD-ROM)  2014年09月10日   (和歌山大学, 和歌山,) 

     概要を見る

    発表番号I1-32, pp.63-64, 2014年9月10日-12日

  • 聴覚の圧縮特性の逆処理による模擬難聴とその特性

    永江美沙貴, 入野俊夫, 西村竜一, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2014年09月05日   (北海道学園大, 札幌,) 

     概要を見る

    3-Q-27,pp.457-458, 2014年9月3日〜5日

  • うっかり者を手助けする環境音認識アプリの開発について

    松山みのり, 西村竜一, 河原英紀, 山田順之介, 入野俊夫

    日本音響学会:秋季研究発表会講演論文集  2014年09月05日   (北海道学園大, 札幌,) 

     概要を見る

    3-8-14,pp.1559-1560, 2014年9月3日〜5日

  • 加齢による絶対音感シフトと耳音響反射との関連性について

    津崎 実, 松井 淑恵, 入野 俊夫

    日本音響学会研究発表会講演論文集 日本音響学会 編  2014年09月05日   (北海道学園大, 札幌,) 

     概要を見る

    3-Q-37,pp.489-482, 2014年9月3日〜5日

  • 招待講演 聴覚末梢系の圧縮特性の心理物理測定と模擬難聴への応用,

    入野俊夫  [招待有り]

    日本音響学会  2014年09月04日   (北海学園大, 札幌,) 

     概要を見る

    秋季研究発表会講演論文集, 2-2-8, pp.1579-1582, 2014年9月3日~5日,

  • 声道形状と音源情報に注目した音声の好感度改善システムの検討について

    吉元照貴, 伊佐衣代, 溝渕翔平, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2014年09月04日   (北海道学園大, 札幌,) 

     概要を見る

    2-Q-46,pp. 373-375, 2014年9月3日〜5日

  • 周期信号の群遅延の静的表現と音声の非周期成分への応用について

    河原英紀, 森勢 将雅, 榊原 健一, 戸田 智基, 坂野 秀樹, 西村 竜一, 入野 俊夫

    日本音響学会:秋季研究発表会講演論文集  2014年09月03日   (北海道学園大, 札幌,) 

     概要を見る

    1-R-30,pp.273-276, 2014年9月3日〜5日

  • 線形予測分析を用いた声道断面積関数推定のための前処理について

    伊佐衣代, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2014年09月03日   (北海道学園大, 札幌,) 

     概要を見る

    1-R-34,pp.283-284, 2014年9月3日〜5日

  • 時間分解能の低下を模擬した劣化音声の知覚

    森本隆司, 中市健志, 原田耕太, 岡本康秀, 神崎晶, 小川郁, 入野俊夫

    第11回日本聴覚医学会内耳ひずみ研究会  2014年07月04日   (慶應大病院,東京) 

  • 歌声にグロウルの味を加えるGUIについて (音声 音学シンポジウム2014)

    溝渕 翔平, 西村 竜一, 入野 俊夫, 河原 英紀

    情報処理学会/電子情報通信学会, 音学シンポジウム2014 ,発表番号56, 情報処理学会研究報告,2014-MUS-103, No.55,  2014年05月25日   (日本大学文理学部, 東京,) 

     概要を見る

    本研究では通常歌唱をグロウル系統の歌唱音声の印象をもつ音声に変換するシステムの検討を行っている.先行研究では簡単な信号処理で歌唱音声にグロウルらしさを付与する方法が提案された.本報告では提案手法で用いる特徴付与のパラメタを対話的に操作し,歌唱音声にグロウルらしさを付与するGUIについて紹介する.提案手法は時間変調による基本周波数の高速な時間振動の付与,FIRフィルタによる処理範囲に共通した帯域強調処理,及び近似時変フィルタによる第3フォルマント周辺の高速な時間変調の付与の3つより構成されている.提案手法は変換処理に分析・合成を必要としないためリアルタイム処理を可能とし,ライブで一種のエフェクターとして用いることが出来る.GUIの開発は主にデモやポスターセッションの場で本手法による処理内容と処理の影響について直感的理解を促すことを目的としている.開発したGUIは実際にポスターセッションの場で操作し,操作性やデザイン性についてコメントを頂きたい.

  • 受験者を焦らせない音声入力ウェブ試験システムを目指したデザインの検討 (音声 音学シンポジウム2014)

    田藤 千弘, 西村 竜一, 河原 英紀, 入野 俊夫

    情報処理学会/電子情報通信学会, 音学シンポジウム2014 ,発表番号66, 日本音響学会音声研究会資料, SP2014-33, pp.337-342  2014年05月25日   (日本大学文理学部, 東京,) 

     概要を見る

    本研究は、音声入力機能を備えたウェブ試験システムにおけるユーザインタフェース(UI)のデザイン指針を検討する。本研究で対象とするウェブ試験システムの問題提示画面では、問題文の他、音声の入力状態を確認するためのレベルメータと解答時間の残りを示すタイムゲージが受験者に提示される。従来のシステムでは、この二つの視覚的情報提示が似ており、受験者に混同されることがあった。受験者に適切な問題提示画面を提供するために、UIデザインを改良した。実験では、発話によって計算問題を解答するシステムを試作し、タイムゲージに着目して、解答の際に受験者が感じる「焦り」と「体感時間の速さ」を調査した。その結果、1秒ずつ離散的に区切って表示するブロック型のデザインが適切であることを確認した。受験者の発話態度と音声認識率の関係を調査したところ、機械との対話を意識しなかった人の精度は低くなる傾向があった。また、本研究では、音声入力UIの実装言語をHTML5とした。その結果、PCおよびモバイル端末(Android)から利用できるシステムを実現することができた。

  • ROCKON : スマホを用いた環境音の収集と認識システム (音声 音学シンポジウム2014)

    松山 みのり, 津田 貴彦, 西村 竜一, 河原 英紀, 山田 順之介, 入野 俊夫

    情報処理学会/電子情報通信学会, 音学シンポジウム2014 ,発表番号37, 日本音響学会音声研究会資料, SP2014-19, pp.181-186  2014年05月24日   (日本大学文理学部, 東京) 

     概要を見る

    本研究では、身の回りの環境音を認識することで、ユーザに有益な情報を提供できるモバイルアプリケーションを開発する。本稿では、環境音の認識アルゴリズムとして比較したHMMとAdaBoostによる性能評価と、クラウドソーシングを用いた環境音サンプルの収集方法について述べる。評価実験の結果、Android端末を用いて収集した実環境の環境音サンプルに対して、AdaBoostがHMMよりも認識性能および処理スピードにおいて有利な結果を示した。今後、対応音源の種類を増やすためには多くの環境音サンプルが必要となってくる。そのため、環境音収集アプリの改良をした。環境音を収集する際に協力者に与える負担の軽減を目指して、本研究では2種類のユーザインタフェーズ(UI)を提案する。実験協力者を用いた調査では、提案する2種類のUIの併用が妥当であるという結論が得られた。そこで、改良後の環境音収集アプリには両手法を併用したUIを実装することにした。

  • ささやき声からの寸法知覚の手がかり獲得と保持について (音声 音学シンポジウム2014)

    山本 航大, 入野 俊夫, 西村 竜一, 河原 英紀

    情報処理学会/電子情報通信学会, 音学シンポジウム2014 ,発表番号47, 日本音響学会音声研究会資料, SP2014-25, pp.237-243  2014年05月24日   (日本大学文理学部, 東京) 

     概要を見る

    人間の聴覚系には,音源の寸法情報と形状情報を分離抽出する機能があるという理論が提案されている.先行研究にて,音声刺激を用いた寸法知覚の弁別閾が測定されており,約5%であると示されている.ところが,これは寸法情報の知覚手がかりを把握している場合であり,この実験の未経験者においては弁別閾がそれほど小さくないことも多い.そこで本研究では,弁別訓練による手がかり情報の獲得,またその保持について検討する.無声音声を用いた寸法弁別実験において,プリテスト,訓練,ポストテストを被験者8名で行った.ポストテストの結果,訓練効果があることがわかったが,弁別閾が小さいHP群と大きいLP群に分かれた,HP群は一定期間後,手がかり保持に関するテストを行い,弁別精度に違いがないことが確認できた.LP群は再訓練を行うことにより弁別閾が小さくなることを確認した.これらのことより,手がかりが十分把握できれば先行研究と同程度の弁別閾になることがわかった.

  • 招待講演 The relationship between speaker size perception and the auditory filter,

    Toshio Irino, Roy D. Patterson  [招待有り]

    J. Acoust. Soc. Am. , Vol.135(4), Pt.2, p.2347, May 2014, ASA meeting, 5-9 May 2014. Special session:"Cambridge Contributions to Auditory Science: Moore-Patterson Legacy" (4aPP)  2014年05月08日   (Rhode Island, RI, USA,) 

  • クラウドソーシングによる環境音収集に向けたスマホアプリの開発

    松山みのり, 津田貴彦, 西村竜一, 山田順之介, 入野俊夫, 河原英紀

    電子情報通信学会 2014年 総合大会  2014年03月19日   (新潟大, 新潟) 

     概要を見る

    D-9-25, pp.15-20 2014年3月18日〜21日 筆頭著者 松山みのり、「電子情報通信学会H26年度学術奨励賞」受賞

  • 幅広い年齢層の母音データベースを利用した声道長推定法による簡易発声評価システム開発の検討

    坂口諒, 小林真優子, 入野俊夫, 西村竜一, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2014年03月11日   (日本大, 東京) 

     概要を見る

    2-6-5, pp.303-304, 2014年3月10日〜12日

  • グロウル系統の歌唱音声にみられるスペクトルの時間変動に注目した分析と再現の検討

    溝渕翔平, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2014年03月11日   (日本大, 東京) 

     概要を見る

    2-Q5-20, pp.499-500, 2014年3月10日〜12日

  • 日本語母音データベースを用いた声道長推定法の校正について

    小林真優子, 坂口諒, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2014年03月11日   (日本大, 東京) 

     概要を見る

    2-6-6, pp.305-306, 2014年3月10日〜12日

  • ピーク形状と調波構造に注目したスペクトル包絡の近似精度の改善に関する検討

    齊藤啓介, 山口貴史, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2014年03月11日   (日本大, 東京) 

     概要を見る

    2-6-8, pp.311-312, 2014年3月10日〜12日

  • 日本語スピーキングテストS‐CATの音声入力インタフェース設計

    田藤千弘, 西村竜一, 河原英紀, 入野俊夫, 今井新悟

    日本音響学会:春季研究発表会講演論文集  2014年03月11日   (日本大, 東京) 

     概要を見る

    2-Q4-11, pp.141-142, 2014年3月10日〜12日

  • スマートフォンを用いた環境音の収集と認識方法の検討

    津田貴彦, 松山みのり, 西村竜一, 河原英紀, 山田順之介, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2014年03月10日   (日本大, 東京) 

     概要を見る

    1-P5-14,pp.847-848 2014年3月10日〜12日

  • STRAIGHTスペクトルを用いた線形予測分析の改良の検討

    山口貴史, 齊藤啓介, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2014年03月10日   (日本大, 東京) 

     概要を見る

    1-R5-25, pp.437-438, 2014年3月10日〜12日

  • 外挿が可能な時変多属性任意事例数モーフィングを用いた文章音声好感度の改善について

    吉元照貴, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2014年03月10日   (日本大, 東京) 

     概要を見る

    1-R5-22, pp.429-430, 2014年3月10日〜12日

  • 加齢に伴う絶対音感のシフト―気導聴力検査結果との関係―

    津崎実, 松井淑恵, 入野俊夫, 竹島千尋

    日本音響学会:春季研究発表会講演論文集  2014年03月10日   (日本大, 東京) 

     概要を見る

    2-3-1, pp.549-552, 2014年3月10日〜12日

  • 加齢に伴う絶対音感のシフト : 音域の影響

    津崎 実, 松井 淑恵, 入野 俊夫

    日本音響学会聴覚研究会資料  2014年03月05日   (愛知淑徳大, 名古屋) 

     概要を見る

    Vol.44, No.2, H-2014-??, pp.81-86 2014年3月5日〜6 日

  • 加齢に伴う絶対音感のシフト―音域の影響―

    津崎実, 松井淑恵, 入野俊夫, 竹島千尋

    日本音響学会聴覚研究会資料  2014年02月27日  

  • 非線形振動子による変調と近似時変フィルタに基づくグロウル系統の歌唱への実時間変換の定式化について

    河原英紀, 溝渕翔平, 森勢将雅, 榊原健一, 西村竜一, 入野俊夫

    情報処理学会, 第102回 音楽情報科学研究会  2014年02月23日   (筑波大学東京キャンパス, 東京) 

     概要を見る

    2014-MUS-102, No.14, 2014年2月23日-24日

  • Age Related Shifts Of Absolute Pitch Judgment And Their Relation To The Hearing Impairment

    Minoru Tsuzaki, Toshie Matsui, Toshio Irino, Chihiro Takeshima

    Proceedings of 37th ARO MidWinter Meeting  2014年02月21日  

  • 圧縮特性推定における非対称レベルノッチマスキング法と時間マスキング曲線法の対比

    深渡瀬智史, 入野俊夫, 西村竜一, 河原英紀, PATTERSON Roy D

    日本音響学会聴覚研究会資料  2014年02月08日   (那覇市IT創造館, 那覇) 

     概要を見る

    Vol.44, No.1, H-2014-2, pp.7 - 12, 2014年2月8日〜9 日

  • 模擬難聴実現のための逆圧縮特性処理とユーザインタフェース

    永江美沙貴, 入野俊夫, 西村竜一, 河原英紀

    日本音響学会聴覚研究会資料  2014年02月08日   (那覇市IT創造館, 那覇) 

     概要を見る

    Vol.44, No.1, H-2014-3, pp.13 - 18, 2014年2月8日〜9 日

  • Age related shifts of absolute pitch judgment and their relation to the hearing impairment,

    Minoru Tsuzaki, Toshie Matsui, Toshio Irino, Chihiro Takeshima

    ARO 37th midwinter meeting 2014, Abstract PS-784,  2014年02月  

     概要を見る

    San Diego, California, USA, 22-26 Feb., 2014.(発表日 25 Feb. )

  • 文章音声の好感度評価と属性別モーフィングを用いた要因の検討について (音声) -- (オーガナイズドセッション 多様な音声の認識・合成へ向けて)

    吉元 照貴, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会/音響学会 音声研究会, SP2013-104, pp.29-54  2014年01月24日   (名城大, 名古屋) 

     概要を見る

    著者らが新しく定式化した時変多属性任意事例数音声モーフィングアルゴリズムを利用した音声の好感度の評価と制御法の検討を提案する。この新しいアルゴリズムでは、任意の個数の音声試料を一段階の処理でモーフィングすることができる。モーフィングの割合は、それぞれの試料の5種類の物理属性毎に時系列として指定することができ、負の割合も許容される。ここでは、まず好感度が大きく異なる文章音声試料を複数選択し、それらの試料間のモーフィングにより好感度が系統的に制御されることを確認した。次いで、各属性により張られる5次元超立方体の頂点にあるモーフィング音声の好感度を、対比較により評価し、それぞれの属性の影響を調べた。さらに、新しいアルゴリズムにより可能となった、音声の平均化と外挿によるカリカチュア化による探索的検討を今後の課題として提案した。

  • 聴覚における寸法知覚の練習効果に関する検討

    山本航大, 入野俊夫, 河原英紀, 西村竜一

    日本音響学会関西支部,第16回関西支部若手研究者交流研究発表会#42  2013年12月08日   (産総研関西支部,大阪) 

  • 留学生向け日本語能力測定システムのためのUI設計 〜HTML5を用いた音声入力インタフェース〜

    田藤千弘, 西村竜一, 河原英紀, 入野俊夫, 今井新悟

    日本音響学会関西支部 第16回関西支部若手研究者交流研究発表会,#41  2013年12月08日   (産総研関西支部, 大阪) 

     概要を見る

    (筆頭著者 田藤千弘,「優秀奨励賞」受賞)

  • 環境音収集アプリのためのUI設計 ~クラウドソーシング型データ集積サービスの提案~

    松山みのり, 津田貴彦, 西村竜一, 河原英紀, 入野俊夫

    日本音響学会関西支部第16回関西支部若手研究者交流研究発表会,#36  2013年12月08日   (産総研関西支部, 大阪) 

  • オージオグラムから難聴者の聞こえを再現するシステムの開発

    永江美沙貴, 入野俊夫, 西村竜一, 河原英紀

    日本音響学会関西支部第16回関西支部若手研究者交流研究発表会,#35  2013年12月08日   (産総研関西支部, 大阪) 

     概要を見る

    (筆頭著者 永江美沙貴,「奨励賞」受賞)

  • 近似時変フィルターを用いたグロウル系統の歌唱音声合成の検討

    溝渕翔平, 西垣友理, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会関西支部,第16回関西支部若手研究者交流研究発表会,#31  2013年12月08日   (産総研関西支部,大阪) 

  • SAWS(スケール交替ウェーブレット系列)刺激のピッチ移動に対するスペクトル‐時間受容野モデルからの検討―フーリエ分析による検討も交えて―

    津崎実, 入野俊夫, 竹島千尋, 松井淑恵

    日本音響学会聴覚研究会資料  2013年11月28日   (豊橋技科大, 豊橋,) 

     概要を見る

    Vol.43, No.8, H-2013-109, pp.631-638, 2013年11月28日〜29 日

  • 招待講演 聴覚におけるスケール分析のための末梢系 フィルタバンクのウェーブレット性と非線形性,

    入野俊夫  [招待有り]

    2013 RIMS 共同研究「ウェーブレット解析とサンプリング理論」  2013年10月24日   (京都大学数理解析研究所, 京都,) 

     概要を見る

    2013年10月24日〜25日

  • 日本語母音データベースを用いた任意発声の相対的声道長の推定について

    小林真優子, 坂口諒, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2013年09月27日   (豊橋技科大, 豊橋,) 

     概要を見る

    3-P-17, pp.435-436, 2013年9月25日〜27日

  • SAWS(スケール交替ウェーブレット系列)刺激の支配的ピッチに関する聴覚モデルによる検討―SAIとSTRFとの比較―

    津崎実, 入野俊夫, 竹島千尋, 松井淑恵

    日本音響学会:秋季研究発表会講演論文集  2013年09月26日   (豊橋技科大, 豊橋,) 

     概要を見る

    2-9-5, pp.501-504, 2013年9月25日〜27日

  • スペクトル距離に基づく声道長推定における歌い手および基本周波数の影響について

    坂口諒, 小林真優子, 入野俊夫, 西村竜一, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2013年09月25日   (豊橋技科大, 豊橋,) 

     概要を見る

    1-P-44a, pp.381-382, 2013年9月25日〜27日

  • 対数Swept‐Sineで変調した帯域雑音によるMTF測定

    苔口祐樹, 金内由紀, 西村竜一, 河原英紀, 入野俊夫

    日本音響学会:秋季研究発表会講演論文集  2013年09月25日   (豊橋技科大, 豊橋,) 

     概要を見る

    1-6-7, pp.1005-1006, 2013年9月25日〜27日

  • 基本周波数操作による音声の好感度改善に関連する物理的特徴の検討

    吉元照貴, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2013年09月25日   (豊橋技科大, 豊橋,) 

     概要を見る

    1-P-11c, pp.335-336, 2013年9月25日〜27日

  • 環境音分類結果に基づく収録アプリのインターフェース設計

    松山みのり, 津田貴彦, 西村竜一, 河原英紀, 山田順之介, 入野俊夫

    日本音響学会:秋季研究発表会講演論文集  2013年09月25日   (豊橋技科大, 豊橋,) 

     概要を見る

    1-2-5, pp.1387-1388, 2013年9月25日〜27日

  • 波形の高次対称性に基づく基本周波数抽出法における潜在変数ダイナミクスの導入について

    河原英紀, 森勢将雅, 榊原健一, 西村竜一, 入野俊夫

    日本音響学会:秋季研究発表会講演論文集  2013年09月25日   (豊橋技科大, 豊橋,) 

     概要を見る

    1-7-12, pp.279-282, 2013年9月25日〜27日

  • 説明対話における韻律情報および頭部運動と感情評価値の関連性分析の試み (音声)

    八木 みゆき, 森田 礼子, 中井 正人, 西村 竜一, 河原 英紀, 入野 俊夫

    電子情報通信学会/音響学会 音声研究会, SP2013-67, pp.15-20  2013年09月18日   (千葉大, 千葉) 

     概要を見る

    音声のパラ言語情報と感情の関連性については音声研究の初期段階から検討されている.感情の評価値は通常発話区間ごとに付与されているため,対話者の感情の変化度を検討しているものは少ないと考えられる.また,音声以外にも重要と考えられる,頷きや身振り,手振りなどのジェスチャーを含めた検討は多くない.そこで本研究では,対話における音声やそれ以外の情報が対話の感情推移とどのように関連づけられるか検討することを目指した.まず,目的指向対話の一例として,認知心理の身振り研究でよく用いられるアニメーション説明課題を対象として対話の様子を音声,動画,加速度データの同時計測を行った.その上で収録より得られた動画データを見ながら,感情評価値をGUIで連続的に入力を行った.その上で,評価者によらず感情評価が同傾向で変化する時点を検討した.また,音声や頭部の頷きの物理量から,感情評価値やその推移を線形モデルで説明できるかを検討した.

  • 説明対話における韻律情報および頭部運動と感情評価値の関連性分析の試み

    八木みゆき, 森田礼子, 中井正人, 西村竜一, 河原英紀, 入野俊夫

    電子情報通信学会技術研究報告  2013年09月11日  

  • A Gammachirp Auditory Filterbank for Reliable Estimation of Vocal Tract Length from both Voiced and Whispered Speech,

    Toshio Irino, Erika Okamoto, Ryuichi Nisimura, Hideki Kawahara, Roy D. Patterson

    The 4th Annual Conference of the British Society of Audiology, Abstract #81,  2013年09月  

     概要を見る

    Keele, UK, 4-6, Sept, 2013.(発表日 4-6 Sept. ポスター )

  • 歌唱音声のスペクトル形状の線形伸縮に影響する要因の検討 (応用音響)

    坂口 諒, 小林 真優子, 入野 俊夫, 西村 竜一, 河原 英紀

    日本音響学会聴覚研究会資料, Vol.43, No.5, H-2013-64, pp.365-370,音楽音響研究会MA2013-9,電気音響研究会,EA2013-25  2013年07月18日   (北海道医療大学 札幌) 

     概要を見る

    短時間Fourier変換に基づく簡易な方法により,相対的な声道長を高い再現性で推定する方法を明らかにしてきた.この方法では,駆動信号の周期性に起因する調波構造の影響を取り除いた音声スペクトル包絡に,声帯音源波形や唇からの放射特性に起因するスペクトル概形の除去と,声道の分岐や声門閉止区間の存在や個々の声道共鳴の鋭さの違いによるスペクトル形状の細部の平滑化による前処理を加え,距離計算に用いる周波数範囲を適切に選択することにより,声道長以外の要因による影響を軽減している.ここでは,この方法を歌唱音声に適用することにより,歌い手の個人性と音高により,相対的声道長がどのように変化するかを調べた結果について報告し,歌唱訓練への応用の可能性について議論する.

  • 招待講演 Perceptual outcomes by rapid alternation of the resonant scaling and its relation to the fundamental frequency,

    Minoru Tsuzaki, Chihiro Takeshima, Toshie Matsui, Toshio Irino  [招待有り]

    The 21st International Congress on Acoustics, ICA2013 , 5pPP4, ASA Proceedings of Meetings on Acoustics (POMA) 19, 050199,  2013年06月07日   (Montreal, Canada,) 

     概要を見る

    2 - 7, June, 2013.

  • 声から身体情報を求める

    小林 真優子, 西村 竜一, 入野 俊夫, 河原 英紀

    第99回 音楽情報科学研究会, 音学シンポジウム2013  2013年05月12日   (お茶の水女子大, 東京, 2013年5月11日-12日)  情報処理学会

     概要を見る

    声を聴くと,何となくその人の体型が分かる.ここでは,母音だけを用いて相対的な声道長を推定する方法を提案する.この方法では,声道長以外の要因によるスペクトル形状変化の影響を軽減するために,スペクトル距離の計算に用いる帯域を制限し,スペクトルの大局的な平坦化と形状の過度な詳細の平滑化とを組合せている.6歳から56歳までの284名の男女が発声した母音と身体情報からなるデータベースを用いることで,これらの処理に用いるパラメタを決定した.母音だけを用いた簡易な方法にも関わらず,以前報告した聴覚モデルを用いた方法を凌駕する精度での声道長推定が可能であることを確認した.また,このデータベースに付与された身体情報を母音だけから推定できることを示した.When we hear a voice, we will see the person's body type somehow. In this article, we propose a method for estimating relative vocal tract length using only vowels. The proposed method consists of procedures to alleviate spectral deforming effects caused by other factors than the vocal tract length. They are selection of spectral region for calculating spectral distance, removal of global spectral shape, and smoothing of excessive details of spectrum. Parameter tuning of the proposed method was conducted by using a speech database with relevant physical data which consists of Japanese five vowels spoken by 284 male, female and adolescent talkers ranging from 6 to 56 years old. This simple vowel-based method found to provide better estimates than our previously proposed method. The proposed method also provides estimates of talkers' height and weight only from vowels using the relevant physical data stored in the database.

  • モバイル携帯端末を用いた環境音収集とその認識手法の検討

    津田貴彦, 中西恭介, 松山みのり, 西村竜一, 山田順之介, 河原英紀, 入野俊夫

    第99回 音楽情報科学研究会, 音学シンポジウム2013  2013年05月11日   (お茶の水女子大, 東京)  情報処理学会

     概要を見る

    本研究では、環境音を入力とするインターフェースを有するモバイルアプリケーションの開発を行っている。実現に必要なのは、環境音認識手法の開発と、環境音サンプルの収集及び、クライアントアプリケーションの実装である。認識システムを予備評価した結果、アルゴリズムの改良と学習用データの拡充が必要であることを確認した。この問題に対し、データ収集用のAndroidアプリケーションを作成し、学内ではサークル等の活動に伴う音を29時間24分、学外では電車の走行音や救急車のサイレン等の音を10時間36分にわたって集めることに成功した。本発表では、収集データの分類と、その認識手法について議論する。We have been developing an Android mobile application which can recognize environmental sound signals. This report describes environmental sound signal recognition method, our collection of environmental sounds, and an overview of the prototype system. In order to collect further samples of environmental sounds, Android applications for data collection was developed.

  • 招待講演 聴覚における寸法知覚と最適末梢系,

    入野俊夫  [招待有り]

    第99回 音楽情報科学研究会, 音学シンポジウム2013  2013年05月11日   (お茶の水女子大, 東京,)  情報処理学会

     概要を見る

    2013年5月11日-12日 本発表では、聴覚末梢系の最適性を追求することから始まり、音源の寸法-形状知覚の特性測定や応用に至る研究の背景と経緯を紹介する。聴覚末梢系のインパルス応答は、時間-スケール表現における最小不確定性を満足する関数として解析的に求められることがわかった。得られた「ガンマチャープ関数」とその後の発展版は、生理実験データや心理物理実験データを良く説明できる関数として広く用いられている。また、この健聴者のみならず難聴者の分析特性を模擬できるばかりでなく、模擬難聴の音を合成することも可能となった。この最適性の背景となる時間-スケール表現の導出アルゴリズムとして、「安定化ウェーブレット-メリン変換」を提案した。この表現は、音響系のスケールすなわち音源の寸法や形状に関して、人間の知覚系で分離抽出処理が行われているという仮説に基づいている。日常生活では、大人と子供の同一発話を、同一内容として認識できると同時に発話者のおおよその寸法もわかるので、直感的には妥当である。そこで知覚処理の精度を測るため、様々な音声における寸法の弁別閾や認識率を、聴覚心理実験を通して明らかにしてきた。さらにこのモデルの工学的な優位性を示すため、話者の声道長の推定や大人子供判別に適用し、従来法に比べて性能が向上することも示してきた。世界の先陣を切って突入した高度高齢化社会における音支援を考える上で、最も重要な聴覚的信号処理の基盤となる技術であると考えている。

  • ウェブ集合知に基づいた語彙獲得と3‐gram確率推定による言語モデル自動生成ツール

    田中雅康, 西村竜一, 河原英紀, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2013年03月15日   (東京工科大, 八王子,) 

     概要を見る

    3-P-3c, pp.197-198, 2013年3月13日〜15日

  • ノッチ雑音マスキング法の測定点削減のための感度解析の改良

    深渡瀬智史, 入野俊夫, 西村竜一, 河原英紀, PATTERSON Roy D

    日本音響学会:春季研究発表会講演論文集  2013年03月14日   (東京工科大, 八王子,) 

     概要を見る

    2-Q-4, pp.609-610, 2013年3月13日〜15日

  • 高い時間分解能を有するスペクトルおよび基本周波数抽出法に基づくシャウト歌唱の分析について

    西垣友理, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2013年03月13日   (東京工科大, 八王子,) 

     概要を見る

    1-Q-3c, pp.389-390, 2013年3月13日〜15日

  • 環境音認識を応用した情報提供機能を有するモバイルアプリケーションの検討

    中西恭介, 津田貴彦, 西村竜一, 河原英紀, 入野俊夫

    情報処理学会第75回 全国大会 2013. Vol.3,pp.463-464  2013年03月07日   (東北大,仙台) 

     概要を見る

    近年、スマートフォンで利用できる音声ナビゲーション機能が注目されている。また、日常では環境音からも多くの情報を得ることができる。そこで、本研究では環境音認識を応用し,その場の状況を判断するガイドシステムの開発を目指す。具体的には、和歌山大学の案内システムを開発する。本システムは、サーバークライアント型のアーキテクチャを採用しており、Android端末で録音した音響信号をサーバー側で認識処理する。実現に必要なのは、環境音認識プログラムの開発と、音響信号サンプルの収集およびアプリケーションの実装である。現在までに、収集した環境音を用いて認識実験を行った。結果を報告する。

  • Matching of the Dominant Pitch of Scale Alternating Wavelet Sequences against Complex Tones with Odd Harmonics,

    Minoru Tsuzaki, Toshio Irino, Chihiro Takeshima, Toshie Matsui

    ARO midwinter research meeting, Abstract #491  2013年02月  

     概要を見る

    Baltimore, Maryland, 16-20 Feb., 2013.(発表日 17 Feb )

  • 非対称レベルマスカを導入したノッチ雑音マスキング法の測定点の感度解析による削減

    深渡瀬智史, 入野俊夫, 西村竜一, 河原英紀, Roy D. Patterson

    第15回関西支部若手研究者交流研究発表会  2012年12月09日   (産総研関西支部,大阪)  日本音響学会関西支部

  • 携帯型ガイドシステムのための環境音認識を応用したZoneRecognitionの提案

    中西恭介, 津田貴彦, 西村竜一, 河原英紀, 入野俊夫

    第15回関西支部若手研究者交流研究発表会  2012年12月09日   (産総研関西支部,大阪)  日本音響学会関西支部

  • TANDEM-STRAIGHTを用いた歌唱技法「シャウト」の再現

    西垣友理, 西村竜一, 入野俊夫, 河原英紀

    第15回関西支部若手研究者交流研究発表会  2012年12月09日   (産総研関西支部,大阪)  日本音響学会関西支部

  • ウェブ上の言語情報で拡張した語彙に基づく3-gramモデル自動生成ツール

    田中雅康, 西村竜一, 河原英紀, 入野俊夫

    第15回関西支部若手研究者交流研究発表会  2012年12月09日   (産総研関西支部,大阪)  日本音響学会関西支部

  • 母音区間だけを用いた声道長推定と身体情報との関連 〜あいうえおでBMIがわかる?〜

    小林真優子, 西村竜一, 入野俊夫, 河原英紀

    第15回関西支部若手研究者交流研究発表会  2012年12月09日   (産総研関西支部,大阪)  日本音響学会関西支部

  • コミュニケーションの環を紡ぐ情報処理原理の解明と応用

    入野俊夫

    工学研究シーズ合同発表会  2012年11月12日   (大阪府立大学, 大阪)  大阪府立大学・和歌山大学

  • 非対称レベルマスカを導入したノッチ雑音マスキング法の測定点の削減

    深渡瀬智史, 入野俊夫, 西村竜一, 河原英紀, PATTERSON Roy D

    日本音響学会聴覚研究会資料  2012年10月13日   (いこいの村 岩手,岩手) 

     概要を見る

    Vol.42, No.7, H-2012-99, pp.547-552, 2012
    2012年10月13日〜14 日 筆頭著者 深渡瀬智史,「 聴覚研究会, 研究奨励賞 」受賞

  • Introduction to the dynamic compressive gammachirp filterbank -- How can we implement aging efffect with it?

    入野俊夫

    Workshop on "Shift of the absolute pitch in eldery listener" (Organizer: Prof. Minoru Tsuzaki)  2012年09月23日   (Campus plaza Kyoto, Kyoto) 

  • 日本語スピーキングテストS‐CATにおける並列セグメンテーションを用いた自動採点の検討

    西村竜一, 栗原理沙, 篠崎隆宏, 石塚賢吉, 山田武志, 今井新悟, 河原英紀, 入野俊夫

    日本音響学会:秋季研究発表会講演論文集  2012年09月21日   (信州大, 長野,) 

     概要を見る

    3-Q-17, pp.397-398, 2012年9月19日〜21日

  • 言語モデルの簡易構築に向けたGoogleデータからの必要単語抽出方法の検討

    田中雅康, 西村竜一, 河原英紀, 入野俊夫

    日本音響学会:秋季研究発表会講演論文集  2012年09月21日   (信州大, 長野) 

     概要を見る

    3-P-20, pp.173-174,2012年9月19日〜21日

  • 母音区間情報に基づく声道長正規化と身体情報の基礎的検討

    小林真優子, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2012年09月21日   (信州大, 長野) 

     概要を見る

    3-Q-28, pp.423-424, 2012年9月19日〜21日

  • スピーカー特性の簡易補正と主観評価実験

    苔口祐樹, 入野俊夫, 西村竜一, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2012年09月20日   (信州大, 長野) 

     概要を見る

    2-Q-a9, pp.533-534, 2012年9月19日〜21日

  • 周期信号の瞬時周波数および群遅延の安定な表現について

    河原英紀, 森勢将雅, 西村竜一, 入野俊夫

    日本音響学会:秋季研究発表会講演論文集  2012年09月20日   (信州大, 長野,) 

     概要を見る

    2-2-6, pp.283-286, 2012年9月19日〜21日

  • 感度解析を用いたノッチ雑音マスキング法の測定点の削減に関する研究

    深渡瀬智史, 入野俊夫, 西村竜一, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2012年09月19日   (信州大, 長野) 

     概要を見る

    2-Q-a11, pp.537-538, 2012年9月19日〜21日

  • 携帯型端末で収録した音サインやサイレンなどの環境音認識の検討

    津田貴彦, 西村竜一, 河原英紀, 山田順之介, 入野俊夫

    日本音響学会:秋季研究発表会講演論文集  2012年09月19日   (信州大, 長野) 

     概要を見る

    1-4-5, pp.1515-1516, 2012年9月19日〜21日

  • 周期信号の群遅延の安定な表現について

    河原英紀, 森勢将雅, 西村竜一, 入野俊夫

    音楽音響研究会資料  2012年07月12日  

     概要を見る

    位相の時間微分および周波数微分としてそれぞれ定義される瞬時周波数と群遅延は,位相そのものよりも物理的な意味を理解し易く,またunwrapという脆弱な処理を必要としないなど,優れた性質を有する表現である.しかし,周期信号を対象とした場合,周期的に繰返される成分間の干渉により,それらの値には不連続や急激な変化が生ずる問題があった.著者らは,これまで周期信号から求められる表現に含まれる周期性に起因する干渉を解消する方法を,パワースペクトルと瞬時周波数について明らかにしてきた.ここでは,Flanaganらによる瞬時周波数計算法と同様な表現に基づくことにより,群遅延についてもそのような干渉を解消した表現が可能であることを示す.具体的には,求められた群遅延をパワースペクトルで重み付けた後,コピーを作成し,それぞれを周波数軸上で反対方向に基本周波数の1/4だけ移動させたものの加重平均を求めれば良い.

  • 心理カウンセリング来談者の問題表現時の視点構造 とマイクロスリップ — 問題の所在が遷移した 事例に関する質的検討

    末崎裕康, 古山宣洋, 花田里欧子, 井上雅史, 有久亘, 入野俊夫

    日本生態心理学会第4回大会  2012年07月07日   (函館、北海道) 

  • 招待講演 内耳における圧縮特性とフィルタ特性の同時推定手法とその応用,

    入野俊夫  [招待有り]

    第9回 内耳ひずみ研究会  2012年07月06日   (慶應大学病院, 東京,)  日本聴覚医学会

  • スケール変形母音の話者寸法弁別と母音同定 : 母音持続時間の依存性

    竹島 千尋, 津崎 実, 入野 俊夫

    電子情報通信学会技術研究報告. SP, 音声  2012年06月07日  

     概要を見る

    本研究の目的は,聴覚の寸法情報処理における積分特性を明らかにすることである。母音のスペクトル包絡の周波数スケールを伸縮させた母音刺激に対し話者寸法の弁別実験を行った。その結果,母音の持続時間が16msから32msに増加すると弁別成績が大きく向上した。32ms以上の母音では持続時間の増加に伴って僅かに成績が向上する程度にとどまった。結果から,32ms付近の積分の時間窓が寸法情報処理に影響を及ぼす可能性が示唆された。母音同定実験においても16msの持続時間で成績が最も低下した。しかし寸法弁別実験とは異なり,母音同定では母音の駆動条件によって持続時間の効果の程度に違いが見られた。

  • 楽器音や動物の鳴声の音色と音声の言語情報を保持したクロス合成VOCODER

    西 大輝, 西村 竜一, 入野 俊夫, 河原 英紀

    第95回音楽情報科学研究会,MUS95-3  2012年06月02日   (東京大, 東京, 2012年6月2~3日)  情報処理学会

     概要を見る

    楽器音や動物の鳴声と,音声の2つの音源の特徴を併せ持つ合成音を作るクロス合成 VOCODER の検討をしている.クロス合成は,音声の狭帯域伝送技術である VOCODER を応用した技術で,現在では楽曲制作や Vocal エフェクター等,音楽の分野で広く用いられる.しかし,クロス合成でつくられる合成音は,楽器音等の音色の特徴が失われ,元の楽器の音が何か不明確になるという問題がある.本報告では,この問題を解決するため,変調周波数領域を帯域制限することにより,音声の言語情報だけを残したスペクトルを用いる新たなクロス合成を提案する.さらに,変調周波数領域を処理するフィルタにおける遮断周波数の設計を検討し,その効果を主観評価実験により明らかにした.A new design method of cross synthesis VOCODER, which synthesizes sounds by mixing features of two input sounds, such as speech and musical instruments or animal voices, is proposed. Cross synthesis VOCODER is originated from a narrow-band transmission technology and currently widely used as an effector for musical performance and production. However, current cross synthesis effects tend to deteriorate original character of musical instruments and linguistic information of the processed sound is not always intelligible. The proposed method provide ways to alleviate these difficulties using two technique. One is spectral global shape removal form the speech spectral envelope and the other is band-pass filtering in the modulation frequency domain. Subjective test results indicated relevance of the proposed techniques and provide design guideline of new flexible cross synthesis VOCODERs.

  • 音源およびスペクトル包絡の時間的微細構造の加工と歌唱音声の印象への影響について

    河原 英紀, 森勢 将雅, 西村 竜一, 入野 俊夫

    第95回音楽情報科学研究会,MUS95-4  2012年06月02日   (東京大, 東京, 2012年6月2~3日)  情報処理学会

     概要を見る

    シャウトやデスボイスなどの激しい表現は、ポピュラー歌唱で広く用いられている。これらを適切に分析、再現、制御する方法を明らかにすることは、歌唱合成システムに豊かな表現力を与えるために解決すべき重要な課題である。本報告では、まず、新たに開発した高い時間分解能を有する基本周波数抽出法とそれに基づく TANDEM-STRAIGHT により、様々な歌唱音声を分析した結果について報告する。分析結果は、激しい表現にいおいて、70 Hz付近に 20 dB程度の高さのピークを有する高速の (基本周波数の) 周波数変調と、同様に、高速の (スペクトル包絡の) 振幅変調が存在することを示した。このような高速の変調の存在は、これまでにはっきりとは報告されていない。予備的な実験により、それらの高速の変調を加工することにより、発声の声区と努力の印象を保ったまま、シャウトなどの歌唱表現の強さ (生々しさ) を制御できる可能性が示された。Strong expressions such as "shout" and "death voice" are common in popular singing. However, current singing synthesis systems are not good at handling these strong expressions and are not capable of using them to expand their limit of expressiveness. This is the topic this article tries to address. A set of singing voice analysis tests was conducted using our newly developed F0 extraction method, which has high temporal resolution and is light-weighted, and TANDEM-STRAIGHT for spectral envelope analyses. This test revealed that expressive singing voices consist of high-speed frequency as well as amplitude modulations in F0 and spectral envelope respectively. In one typical case, about 20 dB higher modulation frequency spectral peak was found around 70 Hz for expressive performance than that of normal performance. Preliminary tests suggested that selective control of "expressiveness" can be implemented by manipulating these high-speed modulations while preserving vocal register and effort intact.

  • 聴覚フィルタバンクを導入した音響特徴量による若年者判別手法

    宮森翔子, 西村竜一, 岡本恵里香, 河原英紀, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2012年03月15日   (神奈川大, 神奈川) 

     概要を見る

    3-7-3, pp.87-88, 2012年3月13日〜15日

  • 若年話者判別法の音響特徴に対する聴覚フィルタバンクの導入

    宮森翔子, 西村竜一, 岡本恵里香, 河原英紀, 入野俊夫

    情報処理学会第74回全国大会 2012 Vol.2, pp.613-614  2012年03月15日   (名古屋工大,名古屋, 2012年3月6日~8日) 

     概要を見る

    本研究では、対話インタフェースにおいて子どもに優しい振舞いを提供するために、音声認識を用いた若年者判別技術に関する検討を行っている。今回、従来から用いている音響特徴量であるMFCC(メル周波数ケプストラム係数)に、ガンマチャープ聴覚フィルタバンク(GCFB)から抽出した特徴量を組み合わせ、判別性能の調査を行った。MFCCは、音声認識に一般的に使用されている特徴量である。一方、聴覚フィルタバンクは人間の聴覚特性を模擬しており、先行研究により、音声モーフィングのための声道長正規化に有効であることがわかっている。声道長と人間の身長には相関があることから、聴覚フィルタバンクの導入は若年話者判別にも有効であると考えられる。

  • Googleデータを用いた3‐gramモデル構築における品詞情報に基づいた語彙制限

    田中雅康, 西村竜一, 島田敏明, 河原英紀, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2012年03月15日   (神奈川大, 神奈川) 

     概要を見る

    3-P-9, pp.233-234, 2012年3月13日〜15日

  • Googleデータベースを用いた3‐gram拡張法による言語モデル構築の自動化ツール

    島田敏明, 田中雅康, 西村竜一, 河原英紀, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2012年03月15日   (神奈川大, 神奈川) 

     概要を見る

    3-P-10, pp.235-236, 2012年3月13日〜15日

  • 日本語発話能力測定ウェブテストシステムを用いて収集した留学生の日本語発話の分析

    栗原理沙, 西村竜一, 和田芳佳, 河原英紀, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2012年03月15日   (神奈川大, 神奈川) 

     概要を見る

    3-11-19, pp.421-422, 2012年3月13日〜15日

  • 異なった原理に基づく周期性検出器のアンサンブルによる音源情報の分析について

    河原英紀, 森勢将雅, 西村竜一, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2012年03月15日   (神奈川大, 神奈川) 

     概要を見る

    3-11-4, pp.385-388, 2012年3月13日〜15日

  • 楽器音や動物の鳴声の音色を保持した音声とのクロス合成VOCODERの検討

    西大輝, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2012年03月15日   (神奈川大, 神奈川) 

     概要を見る

    3-11-10, pp.401-402, 2012年3月13日〜15日
    (筆頭著者 西, 「 学生優秀発表賞(第5回),」 受賞)

  • 模擬難聴のための動的圧縮型ガンマチャープによる圧縮特性の制御

    坂口諒, 入野俊夫, 西村竜一, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2012年03月15日   (神奈川大, 神奈川) 

     概要を見る

    3-Q-6, pp.605-606, 2012年3月13日〜15日

  • 非対称レベルマスカを導入したノッチ雑音マスキング法による圧縮特性推定法の提案

    深渡瀬智史, 入野俊夫, 西村竜一, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2012年03月15日   (神奈川大, 神奈川) 

     概要を見る

    3-Q-25, pp.647-648, 2012年3月13日〜15日

  • 母音の持続時間が話者寸法の弁別能力に与える影響

    竹島千尋, 津崎実, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2012年03月15日   (神奈川大, 神奈川) 

     概要を見る

    3-Q-9, pp.611-614, 2012年3月13日〜15日

  • スケール変換したインパルス応答が交替する系列に対するピッチ知覚

    津崎実, 竹島千尋, 松井淑恵, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2012年03月15日   (神奈川大, 神奈川) 

     概要を見る

    3-10-5, pp.583-586, 2012年3月13日〜15日

  • 障害音声および歌唱音声における音声の周期構造分析について

    和田芳佳, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2012年03月15日   (神奈川大, 神奈川) 

     概要を見る

    3-11-1, pp.375-376, 2012年3月13日〜15日

  • 聴覚フィルタバンクに基づく声道長推定と発話様式や身長との関係

    岡本恵里香, 北出晴香, 西村竜一, 河原英紀, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2012年03月14日   (神奈川大, 神奈川,) 

     概要を見る

    2-11-3, pp.339-340, 2012年3月13日〜15日

  • ウェブデータベースを用いた音声認識用言語モデルの簡易適応

    西村竜一, 島田敏明, 田中雅康, 河原英紀, 入野俊夫

    情報処理学会第74回全国大会 2012. Vol.2,pp.5-6  2012年03月07日   (名古屋工大,名古屋, 2012年3月6日~8日) 

     概要を見る

    我々は、大語彙連続音声認識の精度向上の為、ウェブデータベースを用いた3-gram言語モデルの拡張手法を検討している。本手法は、Googleの日本語N-gramデータベースの登録情報に基づき、学習用コーパス内では未観測であった3-gramの出現確率を推定する。また、本手法では情報量を基準として重要単語を抽出し、拡張する3-gramを選別する。昨年の報告に引き続き、提案法を言語モデルのタスク適応に応用した。実験では、日本語話し言葉コーパス(CSJ)から抽出した講演発話を対象に本手法を適用し、認識精度を評価した。また、提案法を実装したウェブアプリサービスを構築する予定なので、その概要を報告する。

  • ウェブデータベースを用いた音声認識用言語モデルの簡易適応

    西村竜一, 島田敏明, 田中雅康, 河原英紀, 入野俊夫

    情報処理学会全国大会講演論文集  2012年03月06日  

     概要を見る

    我々は、大語彙連続音声認識の精度向上の為、ウェブデータベースを用いた3-gram言語モデルの拡張手法を検討している。本手法は、Googleの日本語N-gramデータベースの登録情報に基づき、学習用コーパス内では未観測であった3-gramの出現確率を推定する。また、本手法では情報量を基準として重要単語を抽出し、拡張する3-gramを選別する。昨年の報告に引き続き、提案法を言語モデルのタスク適応に応用した。実験では、日本語話し言葉コーパス(CSJ)から抽出した講演発話を対象に本手法を適用し、認識精度を評価した。また、提案法を実装したウェブアプリサービスを構築する予定なので、その概要を報告する。

  • 聴覚フィルタバンクによる声道長推定と身長との相関および発話様式の影響

    岡本恵里香, 北出晴香, 西村竜一, 河原英紀, 入野俊夫

    日本音響学会聴覚研究会資料  2012年02月04日   (那覇市IT創造館,沖縄) 

     概要を見る

    Vol.42, No.1, H-2012-7, pp.35-40, 2012年2月4日〜5 日

  • スケーリングした2種のインパルス応答が交替する音系列に対するピッチ知覚―調整法による心理物理実験―

    津崎実, 竹島千尋, 松井淑恵, 入野俊夫

    日本音響学会聴覚研究会資料  2012年02月04日   (那覇市IT創造館,沖縄) 

     概要を見る

    Vol.42, No.1,H-2012-6, pp.29-34, 2012年2月4日〜5 日

  • Effects of the Correlation Between the Fundamental Frequecies and Resonance Scales as a Cue for the Auditory Stream Segregation,

    Minoru Tsuzaki, Toshio Irino, Chihiro Takeshima, Toshie Matsui

    ARO midwinter research meeting, Abstract #1079  2012年02月  

     概要を見る

    San Diego, California, USA, 25-29 Feb., 2012.(発表日 29 Feb )

  • Discrimination of Speaker Sizes Through Speech Sounds: Dependence on Sound Duration,

    Chihiro Takeshima, Minoru Tsuzaki, Toshio Irino

    ARO midwinter research meeting, Abstract #417  2012年02月  

     概要を見る

    San Diego, California, USA, 25-29 Feb., 2012.(発表日 26 Feb )

  • 音声の周期構造分析法とその障害音声分析への応用

    和田芳佳, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

    第14回関西支部若手研究者交流研究発表会  2011年12月18日   (産総研関西支部,大阪)  日本音響学会関西支部

  • 和歌山大学のゆるキャラ『わだにゃん』が登場する子どもにやさしい対話システムの開発

    吉本勇希, 西村竜一, 宮森翔子, 河原英紀, 入野俊夫

    第14回関西支部若手研究者交流研究発表会  2011年12月18日   (産総研関西支部,大阪)  日本音響学会関西支部

  • 聴覚フィルタバンクに基づく声道長正規化を用いた音声モーフィングの改良

    岡本恵里香, 入野俊夫, 西村竜一, 河原英紀

    第14回関西支部若手研究者交流研究発表会  2011年12月18日   (産総研関西支部,大阪)  日本音響学会関西支部

  • Googleデータを用いた音声認識用辞書のクイック構築技術

    田中雅康, 西村竜一, 島田敏明, 河原英紀, 入野俊夫

    第14回関西支部若手研究者交流研究発表会  2011年12月18日   (産総研関西支部,大阪)  日本音響学会関西支部

  • pandaPhone:人と動物を混ぜ合わせた声の iPhoneアプリ

    西大輝, 西村竜一, 入野俊夫, 河原英紀

    第14回関西支部若手研究者交流研究発表会  2011年12月18日   (産総研関西支部,大阪)  日本音響学会関西支部

     概要を見る

    (筆頭著者 西, 「若手奨励賞」 受賞)

  • 基本波のFMとAM成分に基づく高速な基本周波数推定法について

    河原英紀, 森勢将雅, 西村竜一, 入野俊夫

    日本音響学会聴覚研究会資料  2011年12月10日   (熊本県立大, 熊本) 

     概要を見る

    Vol.41, No.9, pp.679-684 2011年 12月10日~11 日

  • 音声分析変換合成系における時変フィルタの実装と駆動情報の表現について

    河原英紀, 和田芳佳, 西大輝, 森勢将雅, 西村竜一, 入野俊夫

    日本音響学会聴覚研究会資料  2011年10月01日   (富山) 

     概要を見る

    Vol.41, No.7, pp.561-566, 2011年10月1日~2日

  • Experimental results on size perception in voiced and whispered speech,

    入野俊夫

    Wakayama Auditory and Visual Exploring Workshop (WAVE workshop)  2011年09月27日  

  • 招待講演 安定な声道長推定のための聴覚フィルタバンクとその理論

    入野 俊夫, 河原 英紀  [招待有り]

    日本音響学会  2011年09月22日   (島根大, 島根) 

     概要を見る

    秋季研究発表会講演論文集, pp.505-508,2011年9月20日~22日,

  • 障害音声の分析における基本周波数抽出法の評価について

    和田芳佳, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2011年09月21日   (島根大, 島根) 

     概要を見る

    pp.423-434, 2011年9月20日~22日

  • 語彙で認識対象を制御するGoogleデータを用いた3‐gramモデル構築法の検討

    田中雅康, 西村竜一, 島田敏明, 河原英紀, 入野俊夫

    日本音響学会:秋季研究発表会講演論文集  2011年09月21日   (島根大, 島根) 

     概要を見る

    pp.161-162, 2011年9月20日~22日

  • 聴覚フィルタバンクを用いた声道長推定法の比較

    岡本恵里香, 入野俊夫, 西村竜一, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2011年09月21日   (島根大, 島根) 

     概要を見る

    pp.389-390, 2011年9月20日~22日

  • 情報量を基準とした3‐gram拡張に基づく言語モデルの適応手法

    島田敏明, 田中雅康, 西村竜一, 河原英紀, 入野俊夫

    日本音響学会:秋季研究発表会講演論文集  2011年09月21日   (島根大, 島根) 

     概要を見る

    pp.167-168, 2011年9月20日~22日

  • 招待講演 寸法知覚を中心とした聴覚情景分析 -物理世界と心理世界をつなぐ聴覚-

    津崎 実, 入野 俊夫, 竹島 千尋, 松井 淑恵  [招待有り]

    日本音響学会  2011年09月21日   (島根大, 島根,) 

     概要を見る

    秋季研究発表会講演論文集, pp.1437-1440,2011年9月20日~22日,

  • 言葉の明瞭度と楽器等の特徴を保持したクロス合成の評価について

    西大輝, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2011年09月20日   (島根大, 島根) 

     概要を見る

    pp.587-588, 2011年9月20日~22日

  • 聴覚フィルタバンクを用いた若年話者判別の検討

    宮森翔子, 岡本恵里香, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2011年09月20日   (島根大, 島根) 

     概要を見る

    pp.59-62, 2011年9月20日~22日

  • 安定な声道長推定のための聴覚フィルタバンクとその理論

    入野俊夫, 河原英紀

    日本音響学会研究発表会講演論文集(CD-ROM)  2011年09月13日  

  • 招待講演 音声からの声道長推定における聴覚的ウェーブレット変換について,

    入野俊夫  [招待有り]

    平成23年度 数学•数理科学と諸科学•産業との連携研究ワークショプ 「ウェーブレット理論と工学への応用」  2011年09月12日   (大阪教育大, 大阪,)  文部科学省•大阪教育大

     概要を見る

    大阪, 2011年9月12〜13日

  • 対話型音声インタフェースのための大人・子ども判別技術の改良

    宮森翔子, 西村竜一, 入野俊夫, 河原英紀

    FIT2011 第10回情報科学技術フォーラム  2011年09月07日   (函館大学・函館短期大学, 北海道) 

     概要を見る

    Vol 3. pp.37 - 40, 2011年9月7日~9日

  • 寸法知覚を中心とした聴覚情景分析―物理世界と心理世界をつなぐ聴覚― (招待講演)

    津崎実, 入野俊夫, 竹島千尋, 松井淑恵

    日本音響学会研究発表会講演論文集(CD-ROM)  2011年09月  

  • 複数の周期成分を持つ音声のための周期構造抽出法と障害音声分析への応用について

    和田 芳佳, 森勢 将雅, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告, Vol.111, No.175, EA2011-63, pp.81-86, 日本音響学会聴覚研究会資料, Vol.41, No.6, pp.457-462  2011年08月10日   (東北大, 仙台, 宮城)  電子情報通信学会 電気/応用音響究会

     概要を見る

    歌唱音声や障害音声,強い感情音声など,基本周波数のみでは十分に表すことのできない複雑な構造をもつ音声を分析するために,XSX(eXcitation Structure extractor)と呼ばれる方法を提案してきた.本資料では,従来の基本周波数抽出法と比較することで,XSXの特長と有効な適用領域を明らかにする.まず,FM調波複合音を試験用の信号として,基本周波数の変調周波数に対する追従性能を調べ,XSXが比較対象であるYINとSWIPEを大きく凌ぐ性能を有することを明らかにした.次いで,障害音声データの分析を行い,比較対象の方法と大きく異なる結果が得られる音声に対して詳細な検討を行った.XSXによる詳細な分析結果は,それらの音声では,いわゆる基本周期に加えて,複数の周期が組み合わされた単位が繰返されるサブハーモニックが生じていることを明らかにした.これらの結果は,XSXが従来の方法では困難な複雑な音声の分析に有用な方法であることを示すものである.

  • 言葉の明瞭度と楽器等の音色を保持したクロス合成法の検討

    西 大輝, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会技術研究報告, Vol.111, No.175, SP2011ー64, pp.87-92, 日本音響学会聴覚研究会資料, Vol.41, No.6, pp.463–468  2011年08月10日   (東北大, 仙台, 宮城)  電子情報通信学会 電気/応用音響究会

     概要を見る

    音声と,楽器音や動物の鳴声などの2つの音源の特徴を混合して合成音を作るクロス合成VOCODERに,F0に適応したスペクトル包絡抽出法であるTANDEM-STRAIGHTを適用した.時変フィルタをFIRフィルタにより実装した検討では,STRAIGHTスペクトルを用いることにより,合成音の明瞭度が向上することが示された.しかし,同時に楽器等の音色の特徴が失われるという問題が明らかとなった.この問題を解決するため,音声の変位スペクトルと最小位相応答を用いた時変フィルタによる新たなクロス合成法を提案する.予備的な検討では,提案手法により,言葉の明瞭度を維持しながら,楽器音の特徴を保存できる可能性が示された.

  • 聴覚フィルタバンクを用いた声道長比推定

    岡本 恵里香, 入野 俊夫, 西村 竜一, 河原 英紀

    電子情報通信学会技術研究報告, Vol.111, No.153, SP2011-43, pp.11 - 16  2011年07月22日   (定山渓, 北海道, 2011年7月21日〜23 日)  電子情報通信学会 音声研究会

     概要を見る

    音声認識や,高品質な音声モーフィングなどの音声アプリケーションには声道長正規化(VTLN)は重要な技術となっている.しかし,声道長を個人差が大きい音声から正確に推定することはけして容易ではない.これは,音声の母音のスペクトル形状が,声道長ばかりでなく,声道音源波形や梨状窩による零などの影響により個人毎に大きく異なっているためである.本研究では,聴覚フィルタバンクを用いて.声道長の推定精度を改善する手法を提案する.2話者の音声の間のスペクトル距離が最小となるスペクトル伸縮度合を声道長比とし,28名分の音声(全順列_<28>P_<27>=756通り)について計算を行い,その結果から回帰分析によって推定誤差を統計的に求めた.また,スペクトル表現による違いを比較するために,音声認識に従来から用いられているMFCCの計算に用いられるメル周波数フィルタバンク(MFFB),代表的な聴覚モデルであるガンマトーンフィルタバンク(GTFB),ガンマチャープフィルタバンク(GCFB)を対象とした.この結果,GCFBを用いた場合に,他の手法よりも声道長比推定の精度が良くなることがわかった.

  • Pitch perception for sequences of glottal pulses alternating different resonance scales,

    Minoru Tsuzaki, Toshie Matsui, Chiriro Takeshima, Toshio Irino

    J. Acoust. Soc. Am. , 129 (4), Pt.2  2011年05月  

     概要を見る

    Presented at ASA meeting, Seattle, USA, 23-27 May 2011,(発表日 26 May )

  • 話者寸法の弁別における母音の持続時間の効果―雑音駆動母音を用いた検討―

    竹島千尋, 津崎実, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2011年03月11日   (早稲田大, 東京) 

     概要を見る

    pp.589-592, 2011年3月9日〜11日

  • 単語音声の連続性と音節遷移情報を担う脳領域のfMRIによる検討

    塚田裕樹, 能田由紀子, 河原英紀, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2011年03月11日  

     概要を見る

    pp.483-486, 2011年3月9日〜11日

  • 滑舌の良いCross synthesis VOCODER

    西大輝, 赤桐隼人, 西村竜一, 入野俊夫, 河原英紀

    情報処理学会シンポジウム論文集,インタラクション2011  2011年03月11日   (日本科学未来館) 

     概要を見る

    2011年3月10日〜12日

  • ピーク強調を含んだF0適応型スペクトル包絡抽出法による再合成音声の品質評価について

    赤桐隼人, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2011年03月11日   (早稲田大, 東京) 

     概要を見る

    pp.327-328, 2011年3月9日〜11日

  • 成分位相の制御により声の肌触りを変える

    河原英紀, PATTERSON Roy D, 森勢将雅, 坂野秀樹, 津崎実, 高橋徹, 西村竜一, 入野俊夫

    情報処理学会シンポジウム論文集,インタラクション2011  2011年03月11日   (日本科学未来館) 

     概要を見る

    2011年3月9日〜11日

  • 実環境発話を用いた子ども判別アルゴリズムの検討

    宮森翔子, 西村竜一, 栗原理沙, 入野俊夫, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2011年03月10日   (早稲田大, 東京) 

     概要を見る

    pp.55-56, 2011年3月9日〜11日

  • ウェブを用いたトピック関連N‐gramエントリ抽出手法の検討

    島田敏明, 田中雅康, 西村竜一, 河原英紀, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2011年03月10日   (早稲田大, 東京) 

     概要を見る

    pp.199-200, 2011年3月9日〜11日

  • 聴覚フィルタバンクに基づく声道長正規化と音声モーフィングへの応用について

    岡本恵里香, 入野俊夫, 西村竜一, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2011年03月09日   (早稲田大, 東京) 

     概要を見る

    pp.419-420, 2011年3月9日〜11日

  • 音声の駆動構造分析における周期性検出器の応答特性の整形と統合について

    和田芳佳, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2011年03月09日  

     概要を見る

    pp.395-396, 2011年3月9日〜11日

  • Revisiting VTLN based on auditory filterbank

    入野俊夫

    WAVE workshop on augmentation of speech communication  2011年03月07日   (Sophia University, Tokyo, Japan) 

  • 外部知識としてウェブを用いた3‐gram言語モデル拡張手法の検討

    西村竜一, 島田敏明, 田中雅康, 河原英紀, 入野俊夫

    情報処理学会第73全国大会講演論文集,vol. 2,pp. 75-76  2011年03月02日   (東京工大,東京) 

     概要を見る

    大語彙連続音声認識の精度向上の為、ウェブを用いた3-gram言語モデルの拡張手法に関して報告する。3-gramモデルにおいて、学習コーパスに存在しない未観測3-gramの確率値を推定する手法として、バックオフが従来から用いられている。内包的な確率推定手法であるバックオフが広く普及する一方、本研究のように、外部のデータベースを用いた未観測3-gramの確率推定の手法も存在する。本発表では、外部データベースとしてGoogleデータベースを用いた場合の未観測3-gram確率推定法に関して、従来のバックオフ手法との比較を中心に報告する。

  • 対話の流れと頷きパターン変化

    井上雅史, 入野俊夫, 古山宣洋, 花田里欧子, 一宮貴子, 末崎裕康

    HAIシンポジウム2010  2010年12月12日   (慶應義塾大, 神奈川) 

     概要を見る

    2010年12月12日〜14日

  • 単語の音節遷移情報の処理を担う脳領域のfMRIによる検討

    塚田裕樹, 能田由紀子, 河原英紀, 入野俊夫

    日本音響学会: 聴覚研究会資料  2010年12月11日   (かんぽの宿柳川, 福岡) 

     概要を見る

    H-2010-154, Vol. 40, No.10, pp.851-856, 2010年12月10日〜11日

  • 聴覚フィルタバンクを用いたスペクトル距離に基づく 声道長比推定について

    岡本恵里香, 入野俊夫, 西村竜一, 河原英紀

    第13回関西支部若手研究者交流研究発表会  2010年12月05日   (同志社大学,京都)  日本音響学会関西支部

  • 音声の周期構造分析法の設計パラメタの検討および性能評価について

    和田 芳佳, 森勢 将雅, 西村 竜一, 入野 俊夫, 河原 英紀

    第13回関西支部若手研究者交流研究発表会  2010年12月05日   (同志社大学,京都)  日本音響学会関西支部

  • トピック関連単語を用いた N-gram エントリ拡張法の音声認識性能調査

    島田 敏明, 田中 雅康, 西村 竜一, 河原 英紀, 入野 俊夫

    第13回関西支部若手研究者交流研究発表会  2010年12月05日   (同志社大学,京都)  日本音響学会関西支部

  • Analysis and synthesis of singing with hoarse vocal expressions

    Hideki Kawahara, Hanae Itagaki, Yoshika Wada, Masanori Morise, Ryuichi Nisimura, Toshio Irino

    20th International Congress on Acoustics 2010, ICA 2010 - Incorporating Proceedings of the 2010 Annual Conference of the Australian Acoustical Society  2010年12月01日  

     概要を見る

    Strong vocal expressions in singing use hoarse voice effectively in various manners. However, analysis and synthesis of such voice quality have been a challenging topic with virtually little success. An excitation structure extraction framework called XSX was introduced to represent such complex structured vocal excitation with various types of aperiodicity as an integral component of TANDEM-STRAIGHT, a widely used speech analysis, modification and resynthesis framework. TANDEM-STRAIGHT is basically a source-filter model extended by introducing temporally stable power spectral representation for periodic signals and F0 adaptive spectral envelope estimation based on the consistent sampling theory. The excitation source signal used in TANDEM-STRAIGHT is a mixture of pulses and colored random signals. The source signal parameters are extracted by XSX and an aperiodicity extraction procedure. XSX is based on spectral division and inverse Fourier transform of power spectra by their spectral envelopes, which were calculated for a set of periodicity candidates. Combining salience scores for each candidate yields an integrated measure to detect locally periodic components. The aperiodicity extraction procedure is based on long-range linear prediction of band-pass signals by a set of Quadrature Mirror filters applied to the original and the time-warped signals. This data-driven approach enables to extract and represent complex excitation structures such as diplophonia. The analysis results are used to design voice excitation source, which is capable of adding/modifying hoarse vocal expressions and enables morphing between two or more expressive performance examples.

  • Evaluation and optimization of F0-adaptive spectral envelope estimation based on spectral smoothing with peak emphasis

    Hayato Akagiri, Masanori Morise, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

    20th International Congress on Acoustics 2010, ICA 2010 - Incorporating Proceedings of the 2010 Annual Conference of the Australian Acoustical Society  2010年12月01日  

     概要を見る

    A new spectral estimation method which improves processed sound quality of STRAIGHT, a speech analysis, modification and re-synthesis framework widely used for high-quality speech and singing manipulations, is proposed. Application of the proposed method to TANDEM-STRAIGHT, a completely reformulated version of STRAIGHT, yielded the best spectral envelope approximation among conventional methods such as LPC, cepstrum and legacy-STRAIGHT. TANDEM-STRAIGHT consists of two parts, a temporarily stable power spectrum estimation method of periodic signals (TANDEM) and a spectral envelope calculation method based on consistent sampling theory. The proposed method uses F0-adaptive smoothing and compensation of logarithmic power spectrum, for improving approximation accuracy of spectral peaks, which effects on the quality of re-synthesized sound. A series of simulations was conducted to optimize internal parameters of the proposed method. The optimized system was evaluated and compared with conventional methods using stylized spectra and simulated speech spectra. The evaluation was based on a spectral distance measure proposed by Itakura and Saitou with modification to perceptually relevant ERBNnumber frequency axis. The following set of spectra were used. Power spectra calculated from vocal tract area functions measured using MRI data with LF-model excitation spectra were used as the grand truth and spectral distances between this target and the estimated spectra were evaluated. A set of periodic pulse train was used for excitation signal in this case. These evaluation results indicated that the proposed method yields the smallest spectrum distance among conventional methods such as LPC, cepstrum and legacy-STRAIGHT.

  • VTL estimation using dynamic compressive gammachirp filterbank (dcGCFB)

    Toshio Irino, Erika Okamoto, Ryuchi Nisimura, Hideki Kawahara

    WAVE workshop on "Roles of voice periodicity,"  2010年11月28日   (Miraku community center of arts, Ikoma, Nara) 

     概要を見る

    27-28, Nov. 2010

  • 周期信号における時間的変動の影響を受けない位相関連情報の表現について

    河原英紀, 森勢将雅, 入野俊夫

    電子情報通信学会技術研究報告  2010年11月18日   (愛知県立大, 愛知)  電子情報通信学会 音声研究会

     概要を見る

    Vol.110, No.297, SP2010ー77, pp.47-52, 2010年11月18日〜19日

  • 周期信号における時間的変動の影響を受けない位相関連情報の表現について

    河原 英紀, 森勢 将雅, 入野 俊夫

    電子情報通信学会技術研究報告. SP, 音声  2010年11月11日  

     概要を見る

    基本周期の1/2の間隔を隔てた二つの時間窓を用いて、短時間Fourier変換により求められる二つのパワースペクトルの平均を計算すると、波形と時間窓の相対位置に依存しない表現が得られる。本資料では、瞬時周波数についても、同様に波形と時間窓の相対位置に依存しない表現が得られることを示す.具体的には、基本周期の1/2の間隔を隔てた二つの時間窓を用いて求められる瞬時周波数のパワーによる重み付き平均が、そのような性質を持つ。本資料では、幾つかの前提条件の下で、この方法により求められる瞬時周波数が波形と時間窓の相対位置に依存しないことを示す。また、実際に良く用いられる窓関数を用いて実装した場合の性能について、数値例を示す。

  • The dynamic, compressive GammaChirp filterbank (dcGC) and its applications,

    Toshio Irino, Roy Patterson

    Workshop on "Machine Hearing in the Internet Age: Auditory models in MIR, SIR and AIS," Google, Mountain View,  2010年11月  

     概要を見る

    CA, USA, 19 Nov., 2010

  • 実環境発話を入力とする子ども利用者判別技術の開発

    宮森翔子, 西村竜一, 栗原理沙, 河原英紀, 入野俊夫

    日本ロボット学会第28回学術講演会  2010年09月22日   (名古屋工大, 名古屋) 

     概要を見る

    RSJ2010AC1H2-1, 2010年9月22日~24日

  • 音声の周期構造検出法の設計パラメタの調整と性能評価指標の検討について

    和田芳佳, 板垣英恵, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2010年09月16日   (関西大学, 大阪) 

     概要を見る

    pp. 333 - 334, 2010年9月14日~16日

  • F0適応型スペクトル包絡推定法のケプストラムを用いた実装によるピーク形状近似誤差の改善

    赤桐隼人, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2010年09月16日   (関西大学, 大阪) 

     概要を見る

    pp. 331 - 331, 2010年9月14日~16日

  • 招待講演 はじめての聴覚フィルタ ー 心理物理実験デモで学ぶ聴覚フィルタ特性 ー

    入野俊夫  [招待有り]

    日本音響学会  2010年09月16日   (関西大学, 大阪,) 

     概要を見る

    秋季研究発表会講演論文集, pp.1347 - 1348, 2010年9月14日~16日

  • ウェブ収集発話に基づく子ども向け対話インタフェースの開発

    宮森翔子, 西村竜一, 栗原理沙, 入野俊夫, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2010年09月16日   (関西大学, 大阪) 

     概要を見る

    pp.89 - 90, 2010年9月14日~16日

  • 声道長比に基づくスペクトル正規化のためのスペクトル距離および周波数帯域の検討

    岡本恵里香, 浅香佳希, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2010年09月15日   (関西大学, 大阪) 

     概要を見る

    pp.323 - 324, 2010年9月14日~16日

  • 講演発話を用いたN-gram補完手法の音声認識性能評価

    島田敏明, 西村竜一, 河原英紀, 入野俊夫

    日本音響学会:秋季研究発表会講演論文集  2010年09月14日   (関西大学, 大阪) 

     概要を見る

    pp.147 - 148, 2010年9月14日~16日

  • 講演発話を用いたN‐gram補完手法が与える音声認識性能の調査

    島田敏明, 西村竜一, 河原英紀, 入野俊夫

    日本音響学会研究発表会講演論文集(CD-ROM)  2010年09月07日  

  • E-012 音声ウェブシステムを用いて収集した実環境子供発話に関する調査(E分野:自然言語・音声・音楽,一般論文)

    栗原 理沙, 西村 竜一, 宮森 翔子, 河原 英紀, 入野 俊夫

    FIT2010 第9回情報科学技術フォーラム  2010年09月07日   (九州大学, 福岡) 

     概要を見る

    pp.229 - 230, 2010年9月7日~9日

  • ちょっとした一言の音声認識による子ども利用者判別法の検討

    宮森翔子, 西村竜一, 栗原理沙, 入野俊夫, 河原英紀

    FIT2010 第9回情報科学技術フォーラム  2010年09月07日   (九州大学, 福岡) 

     概要を見る

    pp.469 - 472, 2010年9月7日~9日(筆頭著者 宮森、 「 FITヤングリサーチャー賞」 受賞)

  • はじめての聴覚フィルタ―心理物理実験デモで学ぶ聴覚フィルタ特性― (招待講演)

    入野俊夫

    日本音響学会研究発表会講演論文集(CD-ROM)  2010年09月  

  • 単語重要度を用いたN-gram補完手法が与える音声認識性能の調査

    島田 敏明, 西村 竜一, 河原 英紀, 入野 俊夫

    情報処理学会研究報告, 2010-SLP-82-20, 電子情報通信学会 音声研究会, 電子情報通信学会技術研究報告  2010年07月24日   (秋保温泉, 仙台, 2009年7月22日~24日) 

     概要を見る

    単語 3-gram モデルは,テキストコーパスから統計的手法に基づいて構築される.しかし,テキスト量が少ないと統計量を正しく算出できない.そこで本研究では,Google N-gram データに含まれる 3-gram エントリを用いて,3-gram 情報の補完を行った.3-gram エントリを選別せず補完すると,3-gram エントリ数が爆発的に増加する問題が発生する.そこで,提案手法では TF・IDF 指標と Yahoo! 関連キーワードから算出した単語重要度に基づき,追加する 3-gram エントリを選別した.これにより,重要性の低い 3-gram エントリの追加と,エントリ数の爆発的増加を防ぐ事が出来た.評価では,CSJ コーパスを用いて認識実験を行った.その結果,補完前より単語正解精度において 1.64% の向上が得られた.We have developed a method that utilizes the Google N-gram database to complement 3-gram entries in a language model. Our aim was to improve the accuracies of LVSR systems even when a 3-gram model trained on short texts is being used. This method is based on 3-gram occurrence information in external web documents and consists of three main steps. First, 3-gram entries are searched in the Google database. Secondly, 3-gram appearance counts are normalized on the basis of the ratio of total number of 3-gram entries. Lastly, 3-gram entries are selected on the basis of keywords. To prevent the addition of redundant or not relevant entries, 3-gram entries without a keyword are excluded to calculate 3-gram probabilities. The keywords were composed by measuring the TF-IDF weights and employing the web API of Yahoo! Japan. Experimental results confirmed 1.64% improvement in a recognition accuracy using the CSJ Corpus.

  • 音源構造抽出法の初期推定値のバイアス除去と高速化について

    河原英紀, 和田芳佳, 森勢将雅, 西村竜一, 入野俊夫

    日本音響学会: 聴覚研究会資料  2010年07月17日   (広島県立大, 広島) 

     概要を見る

    H-2010-87, Vol. 40, No.6, pp.477-482, 2010年7月17日〜18日

  • Successful head-nodding movements in psychotherapeutic process -when and how,

    Masashi Inoue, Nobuhiro Furuyama, Ryoko Hanada, Toshio Irino, Hiroyasu Massaki, Takako Ichinomiya

    4th Conference of the International Society for Gesture Studies (ISGS)  2010年07月  

     概要を見る

    25 -30, July, 2010, Frankfurt Oder, Germany. (発表29 Jul 2010)

  • 擬似音声信号を用いた評価による音源構造抽出法の最適化について

    和田 芳佳, 板垣 英恵, 森勢 将雅, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会 応用音響研究会, EA2010-35, 電子情報通信学会技術研究報告, Vol.110, No.71, pp.77-82  2010年06月11日   (北海道医療大学, 北海道, 2010年6月10日~11日) 

     概要を見る

    「痩れ声」や「だみ声」のように,感情音声や歌唱音声において強い印象を与える音声の分析・合成の研究を進めている.それらの音声を駆動する信号は,基本周波数のみでは十分に表すことのできない複雑な構造を有している.本資料では,この駆動信号の構造を分析する方法として提案しているXSX(eXcitation Structure eXtractor)法に含まれる設計パラメタの最適化と,評価方法を検討した結果について報告する.評価用の疑似音声信号としては,音声のスペクトル傾斜を模した調波複合音を用い,評価目的に応じて,瞬時周波数に対するFM,瞬時振幅に対するAMを加えた.提案する方法は,初期推定値の抽出と,抽出された基本周波数候補の推定値の改良の二つのサブシステムから構成されている.本資料では,まず,初期推定値の抽出部分を最適化し,その後,推定値の改良部分を加えた全体のシステムの評価を行った.その結果,提案する方法は,様々な変動に対して,従来の方法を凌ぐ精度と追従性を有することが示された.

  • スペクトル距離に基づく声道長正規化のための周波数帯域の選定について

    岡本 恵里香, 浅香 佳希, 西村 竜一, 入野 俊夫, 河原 英紀

    電子情報通信学会 応用音響研究会, EA2010-36, 電子情報通信学会技術研究報告, Vol.110, No.71, pp.83-88  2010年06月11日   (北海道医療大学, 北海道, 2010年6月10日~11日) 

     概要を見る

    母音のスペクトル形状は,主要な要因である声道長に加え,声道音源波形や梨状窩による零などの影響により個人毎に大きく異なっている.この個人差を取り除くことは,高品質な音声モーフィングの実現や音声認識における重要な課題である.本研究では,この主要な変動要因である声道長比の推定精度を改善する方法を検討した.スペクトル距離に基づく声道長比の推定において,声道長比の影響が支配的である周波数帯域を選択することにより,推定精度を改善できると考えられる.実験では,28名により読み上げられた文音声の全ての組合せから推定された相対的な声道長を真値と仮定し,周波数帯域と推定精度との関係を調べた.その結果,MFCCの計算に用いられるフィルタ出力の対数スペクトル距離とその周波数方向の導関数の距離とを合成した距離を400Hzから4000Hzの周波数帯域で評価した場合に,最良の結果が得られることが示された.

  • Demonstration of a C-implementation of the dynamic compressive gammachirp for machine hearing,

    Toshio Irino Toru Takahashi, Hideki Kawahara

    Auditory Features Workshop, Equipe Audition, DEC, Ecole normale supérieure, France,  2010年06月  

     概要を見る

    1 &amp; 3 Jun., 2010 (発表日 1 Jun)

  • Auditory filter shape from temporal masking curves and notched-noise data,

    Toshio Irino, Nozomi Shimoshio, Hiroki Takahashi, Hideki Kawahara, Roy Patterson

    Auditory Features Workshop, Equipe Audition, DEC, Ecole normale supérieure, France  2010年06月  

     概要を見る

    1 &amp; 3 Jun., 2010 (発表日 3 Jun)

  • ウェブ収集発話を対象とした若年者判別の検討

    宮森翔子, 西村竜一, 入野俊夫, 河原英紀

    情報処理学会創立50周年記念(第72回)全国大会講演論文集  2010年03月11日   (東大, 東京) 

     概要を見る

    vol.2 pp.285-286, 5U-7, 2010年3月8日〜12日 (発表日 3月11日). (筆頭著者 宮森、「学生奨励賞」受賞)

  • fMRIによる音声からの音源寸法情報とピッチ情報の処理とその交互作用の脳領域の検討

    塚田裕樹, 入野俊夫, 大屋義和, PATTERSON Roy D, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2010年03月09日   (電通大, 東京) 

     概要を見る

    pp.599-602, 2010年3月8日〜10日

  • スペクトルピークを強調した平滑化を含むF0適応型スペクトル包絡推定法の最適化

    赤桐隼人, 森勢将雅, 入野俊夫, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2010年03月09日   (電通大, 東京) 

     概要を見る

    pp.507-508, 2010年3月8日〜10日

  • 音声からの複数の周期成分抽出および歌唱音声の周期構造分析への応用

    和田芳佳, 板垣英恵, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2010年03月09日   (電通大, 東京) 

     概要を見る

    pp.505-506, 2010年3月8日〜10日

  • 尖度に基づく音響的イベントの検出と音声分析変換合成システムへの応用について

    河原英紀, 森勢将雅, 高橋徹, 坂野秀樹, 西村竜一, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2010年03月08日   (電通大, 東京) 

     概要を見る

    pp.315-316, 2010年3月8日〜10日

  • Google DBを用いたトピック特化型N‐gramモデル補完の検討

    島田敏明, 鈴田健太郎, 永井裕貴, 西村竜一, 河原英紀, 入野俊夫

    日本音響学会:春季研究発表会講演論文集  2010年03月08日   (電通大, 東京) 

     概要を見る

    pp.177-178, pp.177-178, 2010年3月8日〜10日

  • 時変モーフィングに基づく歌唱音声の操作と声質および歌い回しの評価について

    岡本恵里香, 和田芳佳, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:春季研究発表会講演論文集  2010年03月08日   (電通大, 東京) 

     概要を見る

    pp.463-464, 2010年3月8日〜10日

  • 高品質分析合成のための有声音の非周期成分の表現と推定について

    河原 英紀, 森勢 将雅, 高橋 徹, 坂野 秀樹, 西村 竜一, 入野 俊夫

    日本音響学会聴覚研究会資料, H-2010-44, Vol. 40, No. 3, pp.231ー236, 電子情報通信学会 音声研究会, 電子情報通信学会技術研究報告, Vol.109, No. 451, SP2010ー165, pp.99ー104  2010年03月05日   (芝浦工大, 東京, 2010年3月4日~5日) 

     概要を見る

    高品質な音声分析変換合成系において、駆動信号に非周期成分を加えることは大きな効果を有する。しかし、この非周期成分をどのように表現し推定するかという問題には、幾つかの両立困難な条件がある。TANDEM-S-TRAIGHTでは、推定問題に一応の解を与えたものの、解釈と操作が困難な表現となったことが、応用を広げる上での障害となっていた。本報告では、非周期成分をsigmoidと幕乗による非線形変換とを組み合わせてモデル化する方法を提案する。実際の音声の多数の分析に基づいた検証が必要ではあるが、2個のパラメタのみを用いて非周期成分を効率よく表現できる可能性が示された。予備的な試聴による印象では、この簡単な表現を用いることにより、分析合成音声の品質が向上する効果が認められた。

  • Constraining the derivation of auditory filter shape with temporal masking curves,

    Toshio Irino, Hiroki Takahashi, Hideki Kawahara, Roy D. Patterson

    ARO 33th Midwinter meeting, Abstract #329,  2010年02月  

     概要を見る

    Anaheim, CA, USA, 6-10 Feb. 2010. (発表日 6 Feb., poster, abstract )

  • 部分時変モーフィングによる母音情報に注目した歌声の転写実験と評価

    岡本恵里香, 西村竜一, 入野俊夫, 河原英紀

    第12回関西支部若手研究者交流研究発表会  2009年12月05日   (関西大学,大阪)  日本音響学会関西支部

  • 圧縮型ガンマチャープ適合による聴覚フィルタの周波数特性と圧縮特性の推定

    下塩望, 入野俊夫, 河原英紀, 西村竜一

    第12回関西支部若手研究者交流研究発表会  2009年12月05日   (関西大学,大阪)  日本音響学会関西支部

  • 部分時変モーフィングに基づく歌唱音声の歌い回しの転写実験と評価

    和田芳佳, 西村竜一, 入野俊夫, 河原英紀

    第12回関西支部若手研究者交流研究発表会  2009年12月05日   (関西大学,大阪)  日本音響学会関西支部

  • TANDEM-STRAIGHT スペクトル包絡推定法の改良及び最適化に関する検討

    赤桐隼人, 浅香佳希, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

    第12回関西支部若手研究者交流研究発表会  2009年12月05日   (関西大学,大阪)  日本音響学会関西支部

     概要を見る

    (筆頭著者 赤桐、「若手奨励賞」受賞)

  • ウェブ収集発話を対象とした人間と機械の大人・子ども識別能力の比較

    宮森翔子, 西村竜一, 入野俊夫, 河原英紀

    第12回関西支部若手研究者交流研究発表会  2009年12月05日   (関西大学,大阪)  日本音響学会関西支部

     概要を見る

    (筆頭著者 宮森、「若手奨励賞」受賞)

  • 音声による寸法情報とピッチ情報の処理とその交互作用のfMRI による脳領域の検討

    塚田裕樹, 入野俊夫, 大屋義和, Roy, D.Patterson, 河原英紀

    第12回関西支部若手研究者交流研究発表会  2009年12月05日   (関西大学,大阪)  日本音響学会関西支部

  • Vowel-based voice conversion and its application to singing-voice manipulation

    Yuri Yoshida, Ryuichi Nisimura, Toshio Irino, Hideki Kawahara

    Proceedings of the AES International Conference  2009年12月01日  

     概要を見る

    A novel and light-weight voice conversion method is applied to manipulate a singer's identity and singing style in real time. The proposed method is based on a non-linear spectral morphing method that uses proximity information for vowel templates of the source and the target singing materials. The proposed method is based on the STRAIGHT speech analysis, modification and resynthesis system, and it yields highly natural manipulated sounds. To deal with the difficulties in applying our vowel-based voice conversion method to singing voices, singular-value decomposition and robust statistical measures are introduced to handle the huge variability of vowel spectra and fundamental frequencies in singing voices. Distance measures for preparing vowel templates and calculating proximity information are designed based on a psychophysical frequency scale, the equivalent rectangular band, ERB N rate.

  • 音声のピッチと寸法情報の処理を担う脳領域のfMRIによる検討

    塚田 裕樹, 入野 俊夫, 大屋 義和

    日本音響学会聴覚研究会資料  2009年11月14日   (豊橋技科大, 豊橋) 

     概要を見る

    H-2010-44, Vol. 40, No. 3, pp.231ー236, 2009年11月13日〜14日

  • スペクトル距離に基づくTANDEM-STRAIGHTスペクトル包絡推定 の最適化に関する検討

    赤桐隼人, 浅香佳希, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会聴覚研究会資料  2009年10月09日   (加太国民休暇村, 和歌山) 

     概要を見る

    H-2009-81, Vol. 39, No. 6, pp.459 - 464, 2009年10月9〜10日

  • レクチャー講演 聴覚フィルタの測定と定式化について

    入野 俊夫

    聴覚研究会資料  2009年10月09日  

  • 招待講演 聴覚フィルタの測定と定式化について

    入野俊夫  [招待有り]

    聴覚研究会、レクチャー招待講演  2009年10月09日   (加太国民休暇村, 和歌山,) 

     概要を見る

    日本音響学会聴覚研究会資料, H-2009-73, Vol. 39, No. 6, pp.413 - 418,2009年10月9〜10日,

  • 二話者の発声した音声に基づく声道長比の推定法と実測された身長比との関係について

    河原英紀, 宮森翔子, 浅香佳希, 西村竜一, 入野俊夫

    日本音響学会:秋季研究発表会講演論文集  2009年09月17日   (日本大学, 郡山, 福島) 

     概要を見る

    pp.365-366, 2009年9月15日〜17日

  • 声道形状データを利用したTANDEM‐STRAIGHTスペクトル包絡推定の最適化に関する検討

    赤桐隼人, 浅香佳希, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2009年09月17日   (日本大学, 郡山, 福島) 

     概要を見る

    pp.391-392 , 2009年9月15日〜17日

  • TANDEM‐STRAIGHTに基づく周期構造検出器の性能評価指標と最適化について

    板垣英恵, 森勢将雅, 西村竜一, 入野俊夫, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2009年09月17日   (日本大学, 郡山, 福島) 

     概要を見る

    pp.363-364. 2009年9月15日〜17日

  • 音声Webインタフェースを用いて収集した実環境発話の分析

    鈴田健太郎, 宮森翔子, 西村竜一, 河原英紀, 入野俊夫

    日本音響学会:秋季研究発表会講演論文集  2009年09月17日   (日本大学, 郡山, 福島) 

     概要を見る

    pp.125-126, 2009年9月15日〜17日

  • 音声からの寸法情報処理の脳内部位のfMRIによる検討

    塚田裕樹, 入野俊夫, 大屋義和, PATTERSON Roy D, 河原英紀

    日本音響学会:秋季研究発表会講演論文集  2009年09月16日   (日本大学, 郡山, 福島) 

     概要を見る

    pp.571-572, 2009年9月15日〜17日

  • Size perception in voiced and whispered speech,

    Toshio Irino

    CNBH 12th Anniversary Meeting on "The Role of Perception in Hearing and Speech Research Processing ," CNBH, Dept. of Physiology, Developement, and Neuroscience, Univ. of Cambridge, 3 - 4 Sept. 2009.  2009年09月  

     概要を見る

    (発表 3 Sept. )

  • E-038 大人・子ども発話の自動識別に基づく安心Webシステムの検討(自然言語・音声・音楽,一般論文)

    宮森 翔子, 西村 竜一, 鈴田 健太郎, 河原 英紀, 入野 俊夫

    情報科学技術フォーラム講演論文集  2009年08月20日  

  • Vocoder-based morphing tool demonstrations for flexible voice manipulations,

    Hideki Kawahara, Masanori Morise, Toru Takahashi, Hideki Banno, Ryuichi Nisimura, Toshio Irino

    Proc. 14th Regional Co