- 第6节 处理垃圾内容、反话及俚语
-
垃圾内容
互联网上充斥着各种各样的垃圾帖子、垃圾推文、垃圾博客及垃圾评 论。垃圾信息作者的目的在于引起偶然浏览量或促使搜索引擎注意到他们的网站。
推特搜索在推动点击率方面的有效性意味着垃圾信息制作者常常在他们 的推文里附加热门话题列表上的短语词组。在推文的主体部分包含热门话题 列表上的一个词语(主题标签或对话标签),意味着这篇推文将会出现在回应点击相关话题或搜索相关主题的推特用户产生的推文列表里。这就意味着 当推特用户滚动刷新有关一个热门话题的最新消息或评论时,他们将看到垃 圾信息,然而在点击之前,他们可能并没有意识到那是垃圾推文。
2009 年,英国高端家具连锁商 Habitat 试图利用推特机制,却陷入了一片负面宣传中。Habitat的策略是在推文里使用像“#苹果”和“#伊朗选举” 的词组(例如,“# 穆萨维加入数据库免费获得 1000 英镑礼品卡”)。伊朗人 民努力将关于选举后反民主镇压的消息传播出去后,全世界人民都在转发这 条消息,试图帮助他们,甚至通过推特搜索关注事件发展。Habitat(以及 其他企业)似乎把这看作一次提高自身产品注意的机会。随后,Habitat一再道歉并解释“公司从未试图滥用推特”,一切行动都未经“Habitat 授权” (赢得媒体的努力又一次使结果朝反方向发展)。
虽然,Habitat再也没有这样做,但是任意推文中包含热门话题的做法 一天到晚都在发生。推特努力尝试着过滤掉垃圾信息,然而垃圾信息制作者的行为直接或间接地反映出了与之联系的热门话题列表的感知价值。倾听工 具必须过滤掉这些噪音,为了避免报告错误数据,必须将垃圾推文从结果中 剔除。
搜索引擎排名也易受垃圾信息制作者和“黑帽”搜索引擎优化从事者工 作的影响。搜索引擎结果页面是基于程序对某个搜索请求反馈的最相关网站 的识别。判断相关性的一个主要因素是网站内有多少导入链接。人们通过博客和网站链接他们欣赏的故事,会让链接自然产生,但是通过链接工厂、垃 圾信息制作者创造的垃圾博客,或者更常见的垃圾信息制作者通过网页在博 客上留下的评论,也能产生链接。垃圾评论的目的仅仅是为创造一个链接返回到垃圾信息制作者自己的网站。下面是最近在我博客里留下的评论,是这 项智慧的两个逐字例证:
尼克,你好!!谢谢你分享给我们这么好的资料。实际上,这个博客里的所有帖子都有值得学习的东西。你是专业论文写作。你的作品都很好,我很欣赏你的作品,希望你能发表更多信息丰富的帖子。
嗨,这帖子真的很实用。我肯定会好好利用,把它转发给我的朋友们。巴基斯坦网上购物寄礼物到巴基斯坦搜索酒店休闲服。
以上评论所写内容的拼写、语法和标点符号都正确,然而这些评论中有 下画线的词是其他网站的链接。你能认出它们吗?如果这些垃圾评论没有 被过滤,倾听工具也许会认为我的博客特点是专业论文写作、巴基斯坦和? 购物。
倾听实践者的另一个烦恼是博客和网站的存在除了重新发布其他网站的内 容外什么都没做(为了通过会员链接和广告创造可盈利的内容)。推特机器人账 户也可以自动创造推文链接和内容—再一次产生大量误导倾听工具结果的原样内容。垃圾内容提供零星或没有提供对广告商有用的洞察力,同时人眼很快 就能辨别出垃圾内容。垃圾内容的存在使得更多的人工参与倾听项目成为必要, 这导致我们需要花费更长时间和更多成本才能完成我们想要完成的项目。
反 话
数据分析需要一个严谨的结构化方法,这一方法对于情感分析更为重要。由于数据分析大部分取决于人工参与程度,因此,准确度随着解决方案不同 而变化。机器情感分析比机器加人工情感分析成本低些,但是各有利弊。
即便过滤了垃圾内容、剔除掉不相关信息,倾听分析中的人工参与 也不能停止,因为反话和俚语需要人工参与解决。根据相关经验可知, 60%~70% 的情感分析相当简单,剩余部分才是难题。当事情是“好的”或 者“糟糕的”,就没有问题。但是当迈克尔·杰克逊决定“坏的”意味着“好的”时,机器分析将(十之八九)判定他的歌词表达的是消极情感,然而实 际上他正描绘积极的自己。这就是人工参与进一步起作用的地方。
对于人脑而言,理解反话是个有趣的过程。左边大脑处理词语和句子的 理解,但是右边的海马旁回是大脑中处理反话理解的区域。因此,需要右边 大脑理解非文字的幽默和语言,如双关语、笑话和反话。所以,理解来源于两边大脑的共同合作。心理过程也包括社会认知因素,以及站在别人角度、 替他人着想的能力。这个要能体会语境和言外之意。而大部分电脑和程序仍 然无法做到这样智能!
俚 语
电脑程序可以遵循逻辑原则解释词语,但如果没有人的帮助,电脑程序 就很难充分理解词语。一旦内容中掺杂有年轻人用语和俚语,它就会变得更 加复杂。《每日电报》对来自斯特林大学的丽莎· 惠特克的工作进行了报道, 丽莎 · 惠特克对苏格兰 16~18 岁的青少年在社交网站 Bebo 和推特网上的用 语进行了研究,并发现年轻人常常扭曲他们使用的语言,使那些不熟悉扭曲 语和俗语的人难以理解他们的网页。
◎ 社交网站 Bebo 上的用语似乎超出发短信时常用的缩略词,如省略所 有元音。
◎这不仅仅是指读写能力问题的拼写错误,而是刻意创造拼写错误的单词。
◎ 创造和使用他们自己的社交语言也许是刻意阻止成年人理解他们网 页上写的什么。
◎ 通过这种做法,他们可以跟自己的圈内人交流,隐藏来自圈外的内 容。这进一步增加了他们的网络身份认同感。
基于机器的分析系统不仅要处理单词的不同解释,如“sick”(如果这 个词与一种新技术联系在一起,是好的意思;如果和医院病人联系在一起,就是不好的意思),而且现在它们还面临着不断变化的年轻人用语,即年轻 人故意设计出来迷惑观察员和圈外人的语言!
要体验这有多困难,可以看一下这个例子:一段出自伦敦北部哈林盖 地方议会(地方政府)的广告。哈林盖地方政府鼓励年轻人接受性传播疾 病—衣原体病检查。作为此次活动的一部分,根据脸谱类型配置文件,哈林盖地方政府为一个虚构网站 Baitbook 制作了一段广告。
广告在如青年中心这样的地方播放,展示虚拟人物“坏男孩约翰·布朗” 更新他的状态,具体如下:
“I?Think?I?Have?Chlamydia—But?Who?Cares??Dis?Man?Will?Still?Get? Gal…?Don’t?Watch?Dat!(我想我有衣原体病—但是谁在乎?老子依旧找 妹子……不要看这个!)
下面是一些他朋友的回复评论:
“Narrrsty,?any?gal?dat?sleeps?wiv?u?now?is?nasty?or?will?have?
somefinkworseeee!?Get?tested?blud!”(“龌蹉下流,现在和你睡过的妹子都很肮脏,也许更肮脏!去检查吧,白痴!”)
‘WAT?DA?????Cuz,?u?cant?be?seriously?finking?dis?is?kool?’(什
么???你真的认为这很酷吗?)
在评论的最后,坏男孩约翰 · 布朗再次出现,以如下评论结束:
“Oh?Ma?Dayzzzzzz!?Proper?hype,?safapeepz?I’ll?Do?It?2mo?now?get?
off?my?page!”(我的天哪!适可而止,臭小子们。明天我会去检查,现在滚出我的网页!)
这段广告是哈林盖青年中心创办活动的一部分,广告试图通过用年轻 人自己的语言联系伦敦北部的年轻人。活动第一阶段,要求检查人数增加 34%,这是一个好结果,但是活动也更进一步显示出由机器处理文本分析和 情感解释面临的问题。为仿效年轻人用语,地方政府部门创办了上述活动。然而,正如丽莎· 惠特克指出的那样,这类英语俚语是年轻人刻意设计出来 让老一辈人迷惑和费解的,同时,这也让基于机器的情感分析理解不了!
为了强调这项工作有多困难,倾听工具供应商Conversenon在最近的白皮书中指出:据估计,每天有 1000 个新词加入《城市词典》中。谷歌报 告在某一特定月份,20%的搜索内容在以前从未被搜索过。这是因为人类 语言不是一成不变的,而是随时变化的。的确,2010年脸谱的状态更新中 最常用短语是“HMU”(加我好友),而这个短语在 2009 年脸谱的状态更新 中很少出现,在以前发布的脸谱报告中,对这一短语我并不熟悉 ! 准确的情 感记录分析只能通过机器与人共同合作才能完成。
- 最新书评 查看所有书评
- 发表书评 查看所有书评
-