报告题目: 社交网络变体词的识别
报告人:沙瀛 副研究员
报告时间:2018年10月20日(周六)9:00
报告地点:逸夫楼C座314会议室
摘要:
变体词是中文社交媒体中的一个典型语言现象。用户为了达到表达情感、讽刺、娱乐、躲避审查等目的,常常创造一些新词来代替一些实体原有的名称。例如,现在网络媒体中通常用“帝都”来代替北京。这些新创造的词就叫做变体词;这些变体词对应的原来的实体名,如北京就叫做“目标词”。变体词的出现对下游自然语言处理任务带来了挑战。
变体词的识别指自动发现给定文本中的变体词,并找出变体词所对应的目标词。变体词的准确识别能够帮助准确理解社交媒体内容的语义特征,为下游自然语言处理任务提供保障。
变体词形式多变,相对海量的社会媒体比较稀疏,变体词构成上少有传统的语言规范,变体词和目标词一般都是深层上的语义联系,这些都对变体词的识别带来了挑战。我们提出了联合词片段信息的Bi-LSTM-CRF模型来实现变体词的发现:该模型利用双向LSTM模型自动抽取文本语义特征,并融合了全局范围内该词为新词的统计信息(词片段信息),然后使用条件随机场(CRF)根据得到的语义特征对文档中的变体词进行标注,最后基于维基百科跨文档源语料验证变体词。本文还提出了基于结合有效上下文信息的自编码器的变体词还原方法:首先基于互信息提取其有效的上下文信息,然后通过自编码器获得结合了有效上下文信息的变体词或目标词的语义表达,最后通过比较语义相似度并排序获得变体词所对应的目标词。实验验证了上述方法的有效性,针对目前最好的方法性能都有所提升。
报告人简介:
沙灜,中国科学院信息工程研究所副研究员,中国科学院大学网络空间安全学院副教授,博士生导师。中文信息学会社会媒体专委会委员。美国伦斯勒理工学院访问学者。获2017年保密科学技术奖励二等奖。主要研究领域包括:自然语言处理、社会计算、网络舆情分析等。主持项目包括:国家科技支撑计划、国家自然科学基金课题、 863子课题、国家信息安全计划等10余项,在SIGIR、 CIKM、 ICDM等国际会议和期刊上发表学术论文20余篇,获授权专利10项,二十余项软著。