互联网数据工程师:将用户信息变废为宝

时间:2024-02-23 点赞:47340 浏览:94630 作者原创标记本站原创

本文是一篇互联网论文范文,关于互联网本科论文开题报告,关于互联网数据工程师:将用户信息变废为宝相关毕业论文格式模板范文。适合互联网及工程师及老大哥方面的的大学硕士和本科毕业论文以及互联网相关开题报告范文和职称论文写作参考文献资料下载。

别小看你线上生活的每一个小动作,你在搜索框上输入的关 键 词、每一次随意的签到、社区里留下的不起眼的评论、在购物网站上的一次次消费等这些看起来浩瀚如恒河微沙的行为记录,在互联网公司眼里却是座宝贵的金矿.在其身后,数据挖掘和开发的工程师正日以继夜地运算着你们的信息,将之变废为宝.

裸奔时代

商人、教师、,谁的银行信用更好?

一次闲聊中,一位在银行负责信用卡业务的朋友给我讲了这样一个玩笑故事.在信用卡起步阶段,银行从业人员凭经验认为信用是最高的,教师次之,商人最差.但当银行对他们消费和还款数据的积累日渐丰富,分析结果出乎人的意料之外.

最初的结论几乎被完全推翻:的信用最差,教师还款最及时,但消费偏向理性很少透支,而商人信用居中,却对银行的利润贡献率最高.谁是最优质的信用卡客户的答案呼之欲出.

当然这只是个段子,权当玩笑,如果你是可不要见怪.现在只凭职业这个单一的维度做出判断的做法,在银行从业人员看来显然低级而不可信.为了更好对症下药,他们需要得到你更多的信息.有这想法的绝对不止银行.而且他们的胃口越变越大,恨不得掌握你24小时吃喝拉撒睡的所有信息.

在这一点上,互联网公司们完胜.看看中国互联网络信息中心(CNNIC)的《第29次中国互联网络发展状况统计报告》,截至2011年12月底中国网民规模达到5.13亿,2011年网民平均每周上网时长为18.省略登录你的账号,你的搜索、通信、社交等等行为都一并被它整合到一起综合分析,借助它那神奇的GoogleAdSense,GoogleAnalytics的处理分析,加上今年3月1日谷歌关于这些服务隐私政策统一的通告扫清你会抱怨的障碍,谷歌简直对你了如指掌.

你上Youtube,首页可以根据你在谷歌的搜索记录分析给出更个性化的推荐,或者你在GoogleMusic听了一首歌又被你分享或者竖了大拇指,当你转到某电商网站,后者会给你推送这整张专辑的促销信息,又或者某天你通过圈子里的好友,找到了曾有一面之缘相谈甚欢但又忘了互换的好友的好友.

“神秘配方”

你就在一次次不自觉的“主动”提供信息的同时与老大哥产生互动,在老大哥那边这叫UGC(UserGeneratedCon-tent,也就是用户生成内容的意思).随着时间的推移,你的UGC越丰富,老大哥对你愈加了如指掌.哪怕你觉得毫无意义的一次跳转或者签到,他们都想知道.

这就是他们的商业模式,在你看来甚至是垃圾的信息,都是他们珍视的金矿,或是核心资产,通过处理分析,将它们批量打包“卖”给视你们为潜在消费者的商家.

所以,数据挖掘和分析这门活计,几乎是从每一个互联网公司自诞生之日起就开始要做的,因为光收集你在网上任何蛛丝马迹的信息远远不够.一般而言,除非你是日砸千金的VIP,老大哥不可能一对一对你做个性化服务,因此你只能作为被整合到统一特征范畴的整体当中的一个“样本”,有时候你作为男性的一分子被挖掘和分析,而另一些时候你又作为摇滚乐爱好者当中的一员被他们研究.老大哥根据他们的经验不断炮制和修正他们的算法,从而更精准匹配你的需求.


这里牵涉两个层面的问题.一个是对你贡献的数据的收集、挖掘和分析;另一个则是,有了关于你作为“你”的总体特征之后,能用这些“知识”去做什么而快速地赚到钱呢?之所以说数据并不是万能的,就体现在第二层面的问题上,乌龙就在所难免了.

比如,某个新闻门户根据你的历史点击,记录你在每个页面上停留时间还有浏览的内容,于是后台的工作人员开始假设了:你看军事的内容比较多,那估计你是20多岁年轻男子;如果你看的八卦内容比较多,那估计你就是20多岁的女孩.基于这些假设,他们本可以针对你做个性化内容的推荐了,比如判断你是个男生,就给你推时政新闻或者是啤酒节的消息.但是,可能昨天浏览太多军事新闻只是你一时兴起,兴许今天你转而对某个明星的八卦感兴趣了.于是,你极不耐烦地把鼠标移到右上角点了叉.

因此你会发现,到现在也没有哪个新闻门户会真的这么做.他们还是会一视同仁地向你展示经由他们分类编辑好的统一的信息页面.究其原因,不只是你的兴趣是波动不定的,但说到底,还是因为他们对你了解不够透彻.虽然他们知道你昨天刚买了个电脑,但鬼知道你今天要看的就是牛仔裤呢?

所以,后台那些整日琢磨怎么从你行为轨迹上挖掘你需求的工程师们,要绞尽脑汁调整假设、修正算法.数据大牛们只要看看一个互联网公司收集数据的基础表格都可以大体知道这家公司的数据沉淀及数据应用水平了.这可是老大哥们赚钱的命根,这些数据乃至工程师们最引以为傲的算法,保密程度不亚于可口可乐的配方.

当然了,他们即便有再强大的算法,还要有劳您继续日复一日地去浏览网页、去交友通信、去签到、去下单买东西啦!他们巴不得网络就是你的全部.

老大哥

英语里有一个专有名词,BIGBROTHER,直译为汉语便是“老大哥”,典出乔治·奥威尔的名著《1984》.

2000年,当1984成为一个过去的时间符号的时候,英国生产了一档电视娱乐节目《BIGBROTHER》,电视台召集一些年轻男女,把他们放到一个四处布满摄像头的公寓里,拍摄他们的生活然后剪辑播放.同时,在电脑技术领域,出现了一款同名软件,功能为“系统监视”.

无论是电视娱乐节目还是“系统监视”的得名,都来源于《1984》里的一个经典场景:“老大哥在看着你!”在小说《1984》里,乔治·奥威尔为我们描述了一个无处不在的“老大哥”形象:一个无时无刻无所不在的“老大哥”监视着所有人的一举一动,无论是吃饭、睡觉、工作或者走在街上、躲进洞穴-包括思想活动.

相关论文

大数据时代的计算机信息处理技术

本文是一篇计算机信息处理论文范文,关于计算机信息处理毕业论文格式,关于大数据时代的计算机信息处理技术相关电大毕业论文范文。适合计算机。

互联网数据中心安全管理

本文是一篇互联网论文范文,互联网相关专升本毕业论文开题报告,关于互联网数据中心安全管理相关电大毕业论文范文。适合互联网及安全管理及可。

有关财会信息资源元数据标准的

本文是一篇数据论文范文,数据有关专升本毕业论文开题报告,关于有关财会信息资源元数据标准的相关毕业论文开题报告范文。适合数据及数据库及。

当前互联网信息活动的伦理培育

本文是一篇网络信息论文范文,网络信息有关毕业论文格式模板,关于当前互联网信息活动的伦理培育相关硕士论文范文。适合网络信息及互联网及科。