以目代聽:人工智能讀唇器

2019-08-12

Padmanabhan KRISHNAMURTHY(帕德)是來自印度的國際學生,由於姊姊曾在家鄉一家服務視障人士的志願機構工作,他對殘疾人士的困境體會甚深,很希望施以援手。皇天不負有心人,他跟隊友Amrutavarsh Sanganabasappa KINAGI (雅麥) 合作發明了取名「海倫」的讀唇器,並在剛結束的 2019年科大「校長盃」本科生發明大賽贏得大獎,體現賽事鼓勵學生發揮創意、力求卓越的精神。 

兩人發明的讀唇器取名「海倫」,是為了向已故著名美國作家兼教育家海倫凱勒致敬。凱勒既盲且聾,卻能克服巨大難關,成為二十世紀其中一位最傑出的人道主義先鋒。一待發展成熟,這個得獎讀唇器預計將可惠及數以百萬計人士。根據世界衛生組織統計,全球多達4億6,600萬人受聽障困擾,而到了2050年,人數相信更會增至9億。

「海倫」是首個可穿戴的讀唇器。現時,助聽器只使用音頻,在嘈雜環境難以發揮效用,至於能抵禦噪音的高檔助聽器,不但售價偏高,而且產量有限,並不普及。「海倫」面世後,聽障人士可通過這裝置接收視覺信息,無需再倚賴音頻信息或昂貴的助聽器。新發明應用人工智能,利用相機將人的說話即時串流到一個運行LipNet模型的遠程裝置。LipNet模型由牛津大學、英國 DeepMind科技公司及加拿大高等研究所共同研發,可以將不同長度序列的視頻與文本配對。

Paddy修讀計算機科學,隊友Amrut則同時主修計算機科學及數學。將於九月升讀大學三年級的兩個小伙子,由衷感激項目顧問麥鑑榮教授的悉心指導,助他們把意念轉化成得獎發明。他們說:「麥教授不但在比賽期間指點方向,更重要的是介紹我們認識有研發讀唇器經驗的學長,讓我們有機會聽取前輩的心得和意見。」 

「海倫」的首要作用,自然是幫助聽障人士與別人溝通,但它的潛能絕對不容小覷:除了可供法庭書記和法律專業人員在庭上使用,也能協助警方了解閉路電視片段中的人物說話內容,重組案情。 

兩人現正忙於改善和增強其新發明的功能:「其中一項首要任務,是擴闊『海倫』的讀唇角度, 如此一來,即使說話的人並非正面面向聽障人士,讀唇器仍可有效運作。」另一有待改善之處,是增強讀唇器適應光暗的能力。現時,這個裝置必須在光線充足的環境下才可發揮最佳效果。假如能擴闊「海倫」的讀唇角度,並改善它在較暗環境的性能,將可大大提高其實用程度。另外,他們也希望把裝置做得更加小巧,方便使用者將之夾在手腕位置。

帕德和雅麥已開始採購附有傳聲器的新型電路板,為「海倫」增添音頻功能,並著手重新編寫其人工智能程式,使裝置更加實用。由於讀唇器現時僅載有英語數據集,能「閱讀」的文字自然只限於英語。然而,兩位發明家都強調加入新語言數據集的重要。事實上,他們已成功取得許可證,可以使用由英國廣播公司/牛津研發的LRS (唇語句子)及 LRW (唇語識別) 數據集,一待完成重寫足以支援新數據的人工智能系統和將硬件升級,即可應用新的數據集,大大加強讀唇器的功能。

科大畢業生向有勇於創業的傳統,兩人也不例外,正計劃將「海倫」發展為可推出市場的商品。校方除協助處理知識產權事宜,更透過創業中心及校友網絡提供支援,助他們逐步向目標邁進。

帕德和雅麥鼓勵同學踴躍參與大學舉辦的各類創業比賽,把意念化成實物:「感激『校長盃』發明大賽讓我們夢想成真。缺少了大會提供的資源和時間,我們根本不可能開展這個創科項目。」

創造「海倫」的兩位幕後功臣,漂亮地展示怎樣把創研成果轉化為造福萬千世人的實用器具,  切實體現了二十一世紀高等教育的真正使命。

「海倫」是首個可穿戴的讀唇器。
「海倫」是首個可穿戴的讀唇器。
「海倫」利用相機將人的說話即時串流到一個運行LipNet模型的遠程裝置。
「海倫」利用相機將人的說話即時串流到一個運行LipNet模型的遠程裝置。
雅麥 (左) 和帕德 (右) 漂亮地展示怎樣把創研成果轉化為造福萬千世人的實用器具。
雅麥 (左) 和帕德 (右) 漂亮地展示怎樣把創研成果轉化為造福萬千世人的實用器具。
帕德 (左一) 和雅麥 (右二) 在剛結束的 2019年科大「校長盃」本科生發明大賽贏得大獎。
帕德 (左一) 和雅麥 (右二) 在剛結束的 2019年科大「校長盃」本科生發明大賽贏得大獎。