2014年4月22日 星期二

《波莉安娜》

你是一個正面的人嗎?

你有多正面?

或許你比你想像的更正面一些。




2006 年秋,我以大四專題生的身分加入臺灣大學自然語言處理實驗室,開始跟隨陳信希老師工作──來美國以後,我有意識地改口稱「work with」指導教授而非「work for」,但陳老師確是領我進門的老師,日後我與朋友提及「老師」多半是指陳老師。除了用「跟隨」以外我想不出更適切的字眼──

此後的四五年間,直到我 2011 年赴美為止,我主要的研究工作都集中在中文的情感分析(sentiment analysis)技術上,並幸運地發表了幾篇論文。

總的來說,「情感分析」是一門自動分析文章裡「意見或情感傾向」的技術(故又名「意見探勘」,opinion mining)。例如你寫了一篇文章,其中的情緒是什麼?評論的對象是誰?而你對這評論主題的意見是支持還是反對?在這大題目下有許多小題目可做:例如情緒(emotion)和意見(opinion)並不是同一回事,如何定義他們、如何預測、兩者是否有關?例如如何抽取一篇文章正在談論的主題、如何測量該作者對這主題的評價?又例如,每個使用者的表達水平(express level)不同,有人很容易高興、有人則很嚴苛,在同一組資料中(例如,來自同一購物網站的「所有使用者」的評論),如何模擬這種差異性?

我的其中一項工作,是中文文本的「意見極性預測」(polarity prediction)。

其實很簡單,就是給定一段文字,我們將這段文字的意見傾向分為三種極性:正面(positive)、中性(neutral)、負面(negative),施以各種神奇的數學模型、根據已知的資訊(像是,這篇文章用了什麼字)之後,設法預測文章的意見極性。

2006 年前後,我剛進實驗室時,差不多是情感分析發展到頂峰的時期。Lillian LeeBo Pang 合寫的集大成文章「意見探勘與情感分析」(Opinion mining and sentiment analysis)在 2008 年出版(至今引用數已經有兩千多次),Jan Wiebe 最重要的幾篇文章也都是在這前後發的。

而我要說的卻是我在實驗室的最後一年,2010 年開始的故事。




2010 年我替代役退伍,決定赴美讀書,便先回到陳老師的實驗室擔任研究助理。

其時老師收了一位在職專班的碩士生U,是在某大電信公司工作的工程師。U長得挺高,人非常老實、實作能力很強(大家苦不堪言的程式課他也只笑笑地說「學長,這個課有一點麻煩」),但沒有什麼作研究的經驗。

老師竟決定讓我帶著U做研究。

我也不知道哪來的自信,一口答應了。(仔細想想我也才進學術圈沒幾年、論文都沒發幾篇,根本只是新手村的等級,到底憑什麼帶人作研究。)
 
大抵初生之犢不畏虎(此刻要我再帶人我是決計不敢的),湊合著也就開始了。我們找了一些中文的材料來作情感分析:房地產新聞、標準新聞語料庫、還有美食網站上的使用者評論等等。由於U對這個領域很陌生,我們一步一步慢慢做,從整理數據(這比想像中更花時間,我想大概有三分之一的時間在做這個)、標 data、抽 feature、跑實驗,從簡單的 language model、cosine similarity 一路做到 libSVM,整份研究也慢慢有了點基礎。

其中,我們自然也嘗試了一個非常天真直覺的作法,即是「情緒辭典」(sentiment dictionary)。想法很單純:例如像「快樂」這個詞彙,在大多語境下都是當「正面詞」來使用(即使是前面加了否定詞──「不快樂」中的「快樂」本身,還是正面詞的意思),那麼,我們當可蒐集一個「情緒辭典」,將常見正負面詞都列進去,如此只要算算一篇文章裡的正面詞多還是負面詞多就可以猜一下文章的意見極性。

中文的情緒辭典早有人建好,我們拿來用即可。

在實驗的過程中我們發現一件事:正面詞的出現頻率比負面詞多太多了。




我們總共統計了四個不同的中文資料庫,無論在哪一種文件上,正面詞出現的頻率都是負面詞的兩到五倍。

兩到五倍──換句話說,你平均講一次「討厭」,就會講三次「喜歡」(或者更多)。

作為一個有文學學位的偽理工人,我興奮極了,立刻開始著手蒐集文獻。

這一現象原來不是什麼新發現,是早在 1969 就有人寫成論文的「波莉安娜效應」(或稱波莉安娜假說,"The Pollyanna hypothesis")。論文裡開宗明義,說在溝通時,比起負面詞,人類傾向於更為頻繁而多樣地( more frequently and diversely )使用等價的正面詞(evaluatively positive words)

我又繼續往下鑽,發現不僅是英文,包括中文、西班牙文、德文、甚至橫跨 20 種語言的研究都反映了類似的現象。於是我接著又想:那是不是能夠利用這個現象改善情緒分析呢?

與U和老師討論過後,我們決定從這個小題目著手,試著尋找改善情感分析技術的方法。

時間過得很快, 我即將離開臺灣赴美讀書。我們的實驗做得很不順利,嘗試了各種方法都一一失敗,但我還是趕在離臺前催促U先把手上的成果整理整理,寫成論文,投了當年的 IJCNLP 會議。

那是 2011 年的七月。八月七號我就到了美國。




論文毫無懸念被拒了。畢竟實驗結果不太理想。

我人在美國,回信報告老師論文被拒的消息,也順便安慰了一下U(想我第一次論文被拒的時候也很受傷)。我說:既然這會是你碩士論文的一部份,我們再慢慢研究要怎麼補實驗、改投其他會議吧。

U依舊很有禮貌地回信說,謝謝學長。

美國的生活千頭萬緒,這件事一擱就是半年。2012 年初,在 CMU 找好老闆、生活也大致適應了,這篇文章又重新浮上心頭。我寄信與老師提議,把這篇文章改投 ACL 短文,U補做了一些實驗,我同時又多蒐集了一些資料。

「波莉安娜」一詞源於 1913 年出版的暢銷小說《波莉安娜》(Pollyanna)。故事中的女主角波莉安娜是一位極其樂觀的少女,總能以「玩遊戲」的正面心情面對生活中的各種苦難。該小說後來分別於 1920 和 1960 年代被翻拍成電影,紅極一時,「波莉安娜」也就此成為「樂觀者」的代名詞。

──寫是這麼寫,但我 1980 年代過到一半才出生吶。那是一本我出生前 70 年出版的書、我出生前 20 年紅的電影,我無論如何都不可能看過。

於是我上 Amazon 把這本小說買了下來。




只是 2012 年對我親愛的波莉安娜來說是很難樂觀的一年。

三月我們先投了 ACL 短文,被拒;

四月又投了 EMNLP 長文,被拒;

七月時 U口試通過、碩士畢業,八月我們決定最後一試,把論文投往不分長短、這年辦得亂七八糟的 COLING ──

還是被拒了。

這年 COLING 辦在印度,組織得亂七八糟,各種更改時間不說,連會議地點與旅遊的消息都亂成一團。

十一月,收到 COLING 拒絕信的當天,我在走廊上與W抱怨,說文章一直發不出去啊。真是好難。 此時波莉安娜已被拒過四次,雖然我們也自知是實驗效果不佳的緣故,但心裡總是有些不甘心。

這時W對我說:噢,COLING 不是還有 demo paper 可以投嗎?

Demo paper 是長文短文以外,水準再次一級的文章。通常是給系統導向、研究成份較少,但卻可以現場展示結果的作品──我回答他:但截稿日期不是過了嗎?

W笑笑回答我:今年 COLING 辦得這麼亂,況且又是 demo paper,我打賭你現在投都還可以。

我直接飛奔回辦公室,看了 demo paper 的格式:好,再減兩頁!於是立刻選定其中比較與主幹無關的兩個段落,大刀一砍,重新排版,好了。正好少兩頁。

打開系統,上傳。

竟然還真的上傳成功了。

而且上了。




我們的論文是 NLP 社群中第一篇在中文語料上針對「波莉安娜現象」作大規模分析的論文:

Ting-Hao (Kenneth) Huang, Ho-Cheng Yu and Hsin-Hsi Chen. (2012). Modeling Pollyanna Phenomena in Chinese Sentiment Analysis. Proceedings of the COLING 2012 as a demo paper.

(As a disclaimer)不是特別頂尖的會議、也不是特別有用的研究;後來我託W帶海報去印度的會議上交給陳老師,請老師幫我報告論文,但這件事也沒辦成── Demo paper 的會場根本不提供海報架──事後老師對我說,demo paper 的會場,人們三三兩兩的,根本就沒什麼人來聽;甚至連會議安排的旅遊行程都糟透了,帶大家搭幾個小時的車去看一處洞穴,到的時候竟已天黑了。

儘管這趟旅程如此荒謬而漫長,我仍非常欣慰波莉安娜終於還是找了個好人家。

關於為什麼正面詞出現頻率遠高於負面詞,至今心理學界都還沒有定說。有人認為是因那些詞彙「正面」所以「常用」、也有人說是因那些詞「常用」所以「正面」。(Adam A. Augustine 等人在 2011 年發表過一篇論文,裡頭簡短整理了各種解釋這現象的理論。)

至於我買的那本 1996 重出的新版《波莉安娜》,至今仍放在我的書櫃深處。

我只看到第五頁、主角的姑姑還是婆婆通知她有個親戚要來的那段,就默默放棄了。




20140422@書一百 (9)



沒有留言:

張貼留言