明月高高地掛在天際。水光澹澹,微風習習。遠處的香港如同海市蜃樓一般漂浮在海月之間。李世鵬詩興大發。出上聯:遠看香港朦朧燈景。他把上聯發用手機發簡訊給對聯的伺服器,馬上收到了系統回覆的一個簡訊:“看看您的大作吧,上聯:遠看香港朦朧燈景,下聯:遙望神州寂寞月光。還滿意吧,回覆88看更多內容。回覆8+文字,重新出上聯。”世鵬又出上聯:“春花秋月何時了”。系統回覆 “暮雨朝雲去不還”。這樣一唱一和,不覺夜色已深了。真有“不覺碧山暮,秋雲暗幾重”之境。
電腦對聯成功決
我經常在想,為什麼這麼一個聽起來有點天方夜譚的專案居然獲得瞭如此大的成功?到底有哪些地方值得今後的工作借鑑呢?
首先我認為,得益於沈向洋的匠心獨運的選題。在此之前,重慶大學陳廷槐教授曾經給我寫過一封信,尋求在計算機自動生成詩詞曲聯領域的合作。當時為此事跟沈向洋請教過。沈向洋認為這個題目太難了,最關鍵的一點就是生成的詩詞的意境和表達形式可能是發散的。很難說什麼是對的,什麼不對的,因此不能有效地評價,而能夠進行自動評價是關係到系統可持續發展的關鍵。我們認為對聯需要首先輸入上聯,然後輸出下聯。兩者已經要麼相對,要麼相合。在形式上,上聯、下聯要符合平仄,字數、詞數要相當,而且上下聯文字使用的規律要一致。譬如上聯出現了疊字則下聯一定要出現疊字,上聯出現了疊音則下聯一定要出現疊音。因此在形式上也有衡量的標準。而且,從機器學習的角度來講,輸入是上聯和輸出則是下聯,結構非常清晰,便於學習。
我們也討論了專案的重要性。對聯的研究,看似小題目,卻牽扯大問題。首先,依靠網際網路和人工智慧技術幫助振興和普及數千年中華文化,於國於民都是大事。在學術研究上,因為涉及到自然語言處理,人工智慧、機器翻譯的重要演算法的研究,對推動以上學科領域的發展也大有價值。
第二,我認為本專案的成功,得益於微軟亞洲研究院的創新文化。微軟研究院歷來鼓勵創新,不怕失敗。因此,這樣一個大膽的專案得到了沈向洋院長和繼任的洪小文院長的大力支援,
第三,這個專案涉及到自然語言處理、網路挖掘、網路服務、介面設計。需要上述種種領域的人才通力配合。微軟研究院各個方面的人才濟濟,而且大家配合默契。良好的組織管理和團隊精神,保證了這個專案的有條不紊地順利進行。同時這個系統也是許多來自不同學校的實習同學一起努力的結果。在此,特別向參加本專案的所有同事和同學表示誠摯的謝意。
許多人問我下一步的計劃。我在想,利用微軟對聯技術,應該可以試一試絕句和律詩的自動生成了。但願能夠做出來,把中華文明發揚光大。
作者介紹:
周明,從2001年至今,擔任微軟亞洲研究院自然語言處理組主任。從事自然語言處理有23年曆史。在1999年加入微軟之前,曾任清華大學計算機系自然語言處理研究組的負責人。他是中國第一個中英機器翻譯系統CEMT…1的研製者,在日本連續10年 (1998…2008) 市佔率超60%的中—日、日—中機器翻譯產品 “J…Beijing”的發明人。他領導的自然語言組在中文分詞、跨語言檢索,機器翻譯等國際競爭中均獲得第一名的佳績。目前他擔任《計算語言學》、《機器翻譯》、《亞洲自然語言資訊處理》等國際學術期刊的編委,還曾任世界計算語言學會議、世界人工智慧大會的領域主席,亞洲資訊檢索大會程式委員會主席。他的信念是第一要做對的事,第二要用簡單的方法,第三要做認真和執著的人。他業餘時間喜歡讀書,欣賞唐詩、宋詞,當然還有對聯。
找到屬於自己的關鍵詞 劉鐵巖(1)
在研究院工作快5年了,沒想到電子工程出身的我會和SIGIR ,這一資訊檢索領域的頂級會議,結下如此的不解之緣。
從2004年到2008年,自己在資訊檢索這個方向上走過的道路,也是自己在微軟亞洲研究院不斷成長的過程:從熟悉資訊檢索這個領域,量身定做地投出第一篇SIGIR論文,到提高研究能力和寫作技巧,到確定自己的主攻方向,到為引領一個研究學派而努力。
期間的收穫和感悟頗多,寫下來願與大家分享。
第一年:“發表第一篇SIGIR論文”
我畢業於清華大學電子工程系,博士論文工作是關於影片訊號處理的,如影片切割、關鍵幀抽