以目代听:人工智能读唇器

2019-08-12

Padmanabhan KRISHNAMURTHY(帕德)是来自印度的国际学生,由于姊姊曾在家乡一家服务视障人士的志愿机构工作,他对残疾人士的困境体会甚深,很希望施以援手。皇天不负有心人,他跟队友Amrutavarsh Sanganabasappa KINAGI (雅麦) 合作发明了取名「海伦」的读唇器,并在刚结束的 2019年科大「校长杯」本科生发明大赛赢得大奖,体现赛事鼓励学生发挥创意、力求卓越的精神。 

两人发明的读唇器取名「海伦」,是为了向已故著名美国作家兼教育家海伦凯勒致敬。凯勒既盲且聋,却能克服巨大难关,成为二十世纪其中一位最杰出的人道主义先锋。一待发展成熟,这个得奖读唇器预计将可惠及数以百万计人士。根据世界卫生组织统计,全球多达4亿6,600万人受听障困扰,而到了2050年,人数相信更会增至9亿。

「海伦」是首个可穿戴的读唇器。现时,助听器只使用音频,在嘈杂环境难以发挥效用,至于能抵御噪音的高档助听器,不但售价偏高,而且产量有限,并不普及。「海伦」面世后,听障人士可通过这装置接收视觉信息,无需再倚赖音频信息或昂贵的助听器。新发明应用人工智能,利用相机将人的说话实时串流到一个运行LipNet模型的远程装置。LipNet模型由牛津大学、英国 DeepMind科技公司及加拿大高等研究所共同研发,可以将不同长度序列的视频与文本配对。

Paddy修读计算器科学,队友Amrut则同时主修计算器科学及数学。将于九月升读大学三年级的两个小伙子,由衷感激项目顾问麦鉴荣教授的悉心指导,助他们把意念转化成得奖发明。他们说:「麦教授不但在比赛期间指点方向,更重要的是介绍我们认识有研发读唇器经验的学长,让我们有机会听取前辈的心得和意见。」 

「海伦」的首要作用,自然是帮助听障人士与别人沟通,但它的潜能绝对不容小觑:除了可供法庭书记和法律专业人员在庭上使用,也能协助警方了解闭路电视片段中的人物说话内容,重组案情。 

两人现正忙于改善和增强其新发明的功能:「其中一项首要任务,是扩阔『海伦』的读唇角度, 如此一来,即使说话的人并非正面面向听障人士,读唇器仍可有效运作。」另一有待改善之处,是增强读唇器适应光暗的能力。现时,这个装置必须在光线充足的环境下才可发挥最佳效果。假如能扩阔「海伦」的读唇角度,并改善它在较暗环境的性能,将可大大提高其实用程度。另外,他们也希望把装置做得更加小巧,方便用户将之夹在手腕位置。

帕德和雅麦已开始采购附有传声器的新型电路板,为「海伦」增添音频功能,并着手重新编写其人工智能程序,使装置更加实用。由于读唇器现时仅载有英语数据集,能「阅读」的文字自然只限于英语。然而,两位发明家都强调加入新语言数据集的重要。事实上,他们已成功取得许可证,可以使用由英国广播公司/牛津研发的LRS (唇语句子)及 LRW (唇语识别) 数据集,一待完成重写足以支持新数据的人工智能系统和将硬件升级,即可应用新的数据集,大大加强读唇器的功能。

科大毕业生向有勇于创业的传统,两人也不例外,正计划将「海伦」发展为可推出市场的商品。校方除协助处理知识产权事宜,更透过创业中心及校友网络提供支持,助他们逐步向目标迈进。

帕德和雅麦鼓励同学踊跃参与大学举办的各类创业比赛,把意念化成实物:「感激『校长杯』发明大赛让我们梦想成真。缺少了大会提供的资源和时间,我们根本不可能开展这个创科项目。」

创造「海伦」的两位幕后功臣,漂亮地展示怎样把创研成果转化为造福万千世人的实用器具,  切实体现了二十一世纪高等教育的真正使命。

「海伦」是首个可穿戴的读唇器。
「海伦」是首个可穿戴的读唇器。
「海伦」利用相机将人的说话实时串流到一个运行LipNet模型的远程装置。
「海伦」利用相机将人的说话实时串流到一个运行LipNet模型的远程装置。
雅麦 (左) 和帕德 (右) 漂亮地展示怎样把创研成果转化为造福万千世人的实用器具。
雅麦 (左) 和帕德 (右) 漂亮地展示怎样把创研成果转化为造福万千世人的实用器具。
帕德 (左一) 和雅麦 (右二) 在刚结束的 2019年科大「校长杯」本科生发明大赛赢得大奖。
帕德 (左一) 和雅麦 (右二) 在刚结束的 2019年科大「校长杯」本科生发明大赛赢得大奖。