———記我校第五屆“英特爾杯”全國(guó)并行應(yīng)用挑戰(zhàn)賽銀獎(jiǎng)獲獎(jiǎng)團(tuán)隊(duì)">
電子報(bào)
電子報(bào)

鄭大人工智能領(lǐng)域的“探索者”

———記我校第五屆“英特爾杯”全國(guó)并行應(yīng)用挑戰(zhàn)賽銀獎(jiǎng)獲獎(jiǎng)團(tuán)隊(duì)







  在第五屆“英特爾杯”全國(guó)并行應(yīng)用挑戰(zhàn)賽的現(xiàn)場(chǎng),面對(duì)“基于自然語(yǔ)言處理(NLP)的金融營(yíng)銷(xiāo)活動(dòng)情感分析”這一賽題,物理工程學(xué)院2016級(jí)的鐘發(fā)海在5分鐘內(nèi),向各位評(píng)委闡述自己所在團(tuán)隊(duì)編寫(xiě)出的程序模型。在歷經(jīng)了與來(lái)自中國(guó)科學(xué)院計(jì)算所、清華大學(xué)等300多支國(guó)內(nèi)強(qiáng)隊(duì)的激烈對(duì)抗后,由我校物理工程學(xué)院羅榮輝副教授和超算中心尚遠(yuǎn)博士帶領(lǐng)的鐘發(fā)海、袁航、劉楓、潘梓恒團(tuán)隊(duì),以第二名的優(yōu)異成績(jī),斬獲了人工智能賽道銀獎(jiǎng)。
  從決定參加比賽起,鐘發(fā)海等人就毅然選擇了今年新增的“人工智能”競(jìng)賽組?!叭斯ぶ悄馨ㄑ芯繖C(jī)器人、圖像識(shí)別、自然語(yǔ)言處理等領(lǐng)域,它通過(guò)輸入大量的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,使模型積累一定的經(jīng)驗(yàn)之后對(duì)新事物做出判斷,其實(shí)就像人學(xué)習(xí)的過(guò)程?!辩姲l(fā)海說(shuō)自己團(tuán)隊(duì)選擇人工智能賽道的原因正是看中了它可以模擬、延伸、拓展人的智能。
  “我們最終炮制出的模型是采用人工智能的方法,在自然語(yǔ)言處理的基礎(chǔ)上對(duì)金融營(yíng)銷(xiāo)活動(dòng)做情感分析?!辩姲l(fā)海這樣解釋自己團(tuán)隊(duì)模型的研究理念,“比如從網(wǎng)上抓取下來(lái)一些關(guān)于金融營(yíng)銷(xiāo)活動(dòng)的評(píng)論,輸入到模型之后,我們可以通過(guò)這個(gè)模型來(lái)判斷發(fā)表評(píng)論人的情感,幫助金融運(yùn)營(yíng)商對(duì)他們的營(yíng)銷(xiāo)活動(dòng)做出評(píng)估。”雖然他們團(tuán)隊(duì)大膽嘗試了新的研究領(lǐng)域,放棄了傳統(tǒng)的優(yōu)化和應(yīng)用賽道,但國(guó)內(nèi)外用人工智能做文本情感分析都沒(méi)有特別多的研究,所以他們一路艱難地摸索著。
  在此之前,國(guó)內(nèi)外在用人工智能文本情感分析上,大都采用二分類(lèi)的方法,只要求把文本轉(zhuǎn)換成積極、消極兩種情感,或者正、負(fù)兩種類(lèi)別。但這次比賽中卻要求選手增加中性這一情感類(lèi)別,原來(lái)很多二分類(lèi)的方法都不再適用。如何創(chuàng)新出一種適合的方法成了團(tuán)隊(duì)當(dāng)時(shí)面臨的主要困難?!拔覀儾殚喠颂貏e多的國(guó)內(nèi)外文獻(xiàn),但在8月初,團(tuán)隊(duì)建造的模型還是不能用,那時(shí)候離比賽截止日期只差10天了。”現(xiàn)在回想起來(lái),劉楓還是有些緊張,“我們整個(gè)暑假都留校了,進(jìn)入8月份,幾乎每天都是通宵,困了,就在實(shí)驗(yàn)室外面的沙發(fā)上躺一躺,有時(shí)候用幾個(gè)椅子拼在一起將就著瞇一會(huì)兒。”
  經(jīng)過(guò)幾十次的嘗試,鐘發(fā)海等人在做了數(shù)據(jù)預(yù)處理后借鑒了微博和電商評(píng)論文本情感分析的方法,把傳統(tǒng)的規(guī)則、統(tǒng)計(jì)學(xué)的方法應(yīng)用到金融營(yíng)銷(xiāo)評(píng)估中,最終研究出了能夠?qū)崿F(xiàn)三分類(lèi)的分析方法,實(shí)際分析準(zhǔn)確度達(dá)到60%左右?!斑@是一個(gè)沒(méi)有多少人研究過(guò)的領(lǐng)域,我們并不知道要達(dá)到什么程度才算好,得到一個(gè)結(jié)果是很簡(jiǎn)單的,但我們并不清楚我們得到的這個(gè)結(jié)果處于哪個(gè)水平,所以就想不斷地提高它?!辩姲l(fā)海說(shuō)道。因?yàn)楫?dāng)時(shí)國(guó)際研究二分法的精確度已達(dá)到 90%以上,想不斷向國(guó)際前沿靠攏的他們,在不斷優(yōu)化數(shù)據(jù)后,最終達(dá)到了82.2%的準(zhǔn)確度。
  除了要?jiǎng)?chuàng)造出新方法來(lái)進(jìn)行三分類(lèi)外,鐘發(fā)海等人在實(shí)際嘗試中還面臨數(shù)據(jù)處理的問(wèn)題。要想把文本轉(zhuǎn)換成情感,首先要對(duì)文本數(shù)據(jù)進(jìn)行識(shí)別?!皵?shù)據(jù)庫(kù)里給了很多類(lèi)似顏文字的數(shù)據(jù),機(jī)器沒(méi)有辦法識(shí)別,所以我們?cè)谶M(jìn)行三分類(lèi)之前,不得不先對(duì)這些數(shù)據(jù)進(jìn)行清理,刪除不能使用的數(shù)據(jù)?!?br>  從4月份選擇參加比賽,到10月份獲獎(jiǎng),7個(gè)月的時(shí)間里四位同學(xué)不斷磨合,共同進(jìn)步。管理工程學(xué)院2015級(jí)的潘梓恒回憶起幾個(gè)人最初在一起的場(chǎng)景,感慨道:“我們四個(gè)人在不同的年級(jí),有的甚至還不同專(zhuān)業(yè),都是因?yàn)榕d趣才把我們聚到一起。我開(kāi)始對(duì)主辦方提供的平臺(tái)也不熟悉,但因?yàn)閳F(tuán)隊(duì)需要,我還是愿意嘗試一下,最后研究出的方法也是幾個(gè)人一起想出來(lái)的。”
  除了幾位隊(duì)友的幫助,鐘發(fā)海還受益于院系和老師一直推崇的“以賽促學(xué)”的教學(xué)理念。在幾個(gè)月的時(shí)間里,羅榮輝老師堅(jiān)持讓團(tuán)隊(duì)里的學(xué)生每10天給自己匯報(bào)一次研究進(jìn)度,在研究方向上給學(xué)生以指導(dǎo)。“對(duì)于我個(gè)人而言,這是一次蛻變,從以前每次都由于緊張?jiān)陉P(guān)鍵時(shí)刻把比賽搞砸,到現(xiàn)在面對(duì)十幾位專(zhuān)家評(píng)委,仍然能夠在答辯場(chǎng)上鎮(zhèn)定地講解演示文稿,團(tuán)隊(duì)幾個(gè)月的共同努力,以賽促學(xué)的教學(xué)思想讓我得到了很多鍛煉,正是老師不斷鼓勵(lì)我們參加各種比賽,才讓我們積累了很多經(jīng)驗(yàn)。”
  “目前我們實(shí)驗(yàn)室在做的導(dǎo)游機(jī)器人也用到了這次比賽所研制出的模型?!眻F(tuán)隊(duì)成員袁航表示。除了對(duì)實(shí)驗(yàn)室的后續(xù)研究產(chǎn)生重要影響,這次探索也是我校物理工程學(xué)院首次在自然語(yǔ)言處理(NLP)方向開(kāi)展新研究、新嘗試,標(biāo)志著我校在自然語(yǔ)言處理研究方向上有了新進(jìn)展。除此之外,該模型在實(shí)際的生活應(yīng)用中還可以為政府部門(mén)提供輿情分析。