`
阿尔萨斯
  • 浏览: 4186306 次
社区版块
存档分类
最新评论

玩聚热点新发现--中国的techmeme!

 
阅读更多
<iframe align="center" marginwidth="0" marginheight="0" src="http://www.zealware.com/csdnblog336280.html" frameborder="0" width="336" scrolling="no" height="280"></iframe>

玩聚& Techmeme

编写者

日期

关键词

郑昀

<chsdate isrocdate="False" islunardate="False" day="15" month="6" year="2007" w:st="on"><span lang="EN-US" style="COLOR: gray; FONT-FAMILY: Verdana; mso-bidi-font-family: Arial">2007-6-15</span></chsdate>

Meme 热点 引爆点 techmeme

20059月,techmeme 的前身memeOrandum横空出世,在当时北美也算是刮起了一阵旋风,大家把它和slashdotdigg这些成名站点相提并论,并提出了slashdot效应类似的memeOrandum效应。

techmeme这款Gabe Rivera主导的热点计算引擎,对由他自己定义blog列表进行实时监测,通过追寻blog、新闻媒体url链接来挖掘blogger之间的对话线索,并以对话的形式展现在首页上,成为一个非常有效的内容过滤器,Tells us what's hot and what's not

这种链接挖掘热点的算法在中国并不适用,原因很简单:

中国博客很少在博文正文里嵌入URL链接

同样原因,GooglePageRank算法在博客上也发挥不了太大价值。

实际上,从2006年下半年开始,我们一直都在秘密研发Content Engine(内容引擎),其中“热点自动发现(hot point)”就涵盖了techmeme的方向。

转眼进入2007年,最近媒体上屡屡提及techmeme

<chsdate isrocdate="False" islunardate="False" day="25" month="5" year="2007" w:st="on"><span lang="EN-US" style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: Verdana; mso-bidi-font-family: 宋体; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">5</span><span style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: 宋体; mso-ascii-font-family: Verdana; mso-hansi-font-family: Verdana; mso-bidi-font-family: 宋体; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">月</span><span lang="EN-US" style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: Verdana; mso-bidi-font-family: 宋体; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">25</span><span style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: 宋体; mso-ascii-font-family: Verdana; mso-hansi-font-family: Verdana; mso-bidi-font-family: 宋体; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">日</span></chsdate>,新浪翻译Read/Write Web的文章《美著名科技博客:谷歌新闻与Techmeme大比拼》。

如经济观察报20076月出版的CEO经观商业评论刊载了《网络社区这些年》,其中说道“在第一轮互联网泡沫破灭之后,Slashdot的影响力开始逐渐变弱。近年来,新兴的Techmeme开始取代前者的地位。

曾经获评为Microsoft十大最热BloggerAlex Barnett也于<chsdate isrocdate="False" islunardate="False" day="23" month="5" year="2007" w:st="on"><span lang="EN-US" style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: Verdana; mso-bidi-font-family: 宋体; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">5</span><span style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: 宋体; mso-ascii-font-family: Verdana; mso-hansi-font-family: Verdana; mso-bidi-font-family: 宋体; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">月</span><span lang="EN-US" style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: Verdana; mso-bidi-font-family: 宋体; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">23</span><span style="FONT-SIZE: 12pt; COLOR: black; LINE-HEIGHT: 200%; FONT-FAMILY: 宋体; mso-ascii-font-family: Verdana; mso-hansi-font-family: Verdana; mso-bidi-font-family: 宋体; mso-font-kerning: 0pt; mso-bidi-font-weight: bold">日</span></chsdate>发表文章《How I find stuff I like》说techmeme是他的三个内容过滤器之一:The three main methods I use to find content I'll be interested in are: 2. Techmeme - two or three times daily. Tells me what's hot and what's not.

引子

20061月,我撰写并发布了《MemeEngine讨论集(点击此处下载完整PDF文档)。当时也注意到有几个人在媒体上宣布说要复制techmeme,但随后便没有了下文。也许正是因为techmeme的链接分析算法根本无法搬到中国来。

一直在路上

20063月,我开始寻找符合中国特色的meme engine之路,很快发现只有文本挖掘算法才能做这件事情。

博客内容的文本挖掘,在中国还有一个大问题要解决。博客比新闻要复杂得多得多:

l 文字风格:博客风格迥异,往往不按牌理出牌,天马行空,远远比规范书写的新闻要难分析。

l 涉及的范围:博客什么都谈论,大到国家大事,小到个人情感,甚至流水帐。

l 信息源分散:国内大大小小数百家BSP,数以百万计个博客发布文章,很难在第一时间收集起来并迅速展开大规模计算。

20069月,我和中科院软件所的张俊林张博士等一起创建了玩聚网,瞄准信息过滤器和人过滤器的未来大方向。

200610月,张博士推出了“热点自动发现”算法。但这时候,算法还不太成熟,在非事件驱动、非新闻驱动的分类中表现不佳,比如:互联网两性,在新闻驱动的明星社会表现则不错。这种情况下还不能对外开放。

在我们为了内容引擎而研发了“主题聚类聚合”“话题时间脉络”算法之后, 又回过头来重新优化了热点自动发现算法。这次的精度就上升到了一个新高度,真正可以做到:

从爬虫抓取到输出各个领域的热点,整个流程不用任何人工、不用编辑审核就能直接放出来给普通用户看。

郑昀

郑昀的相关阅读:

国内那么多新技术、新服务,根本没人试用、讨论、从中获得更好的开发启示。比方说,抓虾的好看、豆瓣的9点、郑昀正操作的玩聚(onejoo)这些都是新闻聚合的好例子

“由于以下三大原因,在中国,玩聚(OneJoo)将在信息过滤器上超越techmeme的成就

3:玩聚互联网热点新发现精度上升到了一个新高度


我们上星期优化了互联网热点新发现算法,确实精度提高了很多,基本可以直接放出来给普通用户看了。



分享到:
评论

相关推荐

    joooy博客中国论坛《笑傲职场--如何获得影响力、权力和晋升》帖子内容集结[郑昀@玩聚整理]

    joooy在博客中国论坛那个贴子从第二页之后的摘录,直至11月27日的最新回复都在其中。 包括各个网友的经典回复。

    教育学习-玩聚辅助 v2.5.5.zip

    教育学习

    infrared-remote-candroid studiodemo

    android studio下载

    【新质生产力】新质生产力赋能智能制造数字化解决方案.pptx

    【新质生产力】新质生产力赋能智能制造数字化解决方案.pptx

    基于matlab实现的用于应用布格重力异常数据反演地下异常密度体.rar

    基于matlab实现的用于应用布格重力异常数据反演地下异常密度体.rar

    node-v8.10.0-linux-x64.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    基于Yolov5目标检测和deepsort目标跟踪无人机跟踪.zip

    无人机最强算法源码,易于部署和学习交流使用

    数据库课程设计实战.zip

    数据库课程设计后端 使用Springboot + Mybatis + Redis + Maven 数据库课程设计实战.zip,使用到了所有的相关SQL 的操作,如增删改查等,让你可以在一个项目里面,锻炼到所有的数据库相关的知识。项目亲测可以运行,里面含有运行相关的文档,不会的可以丝我请求帮助。 数据库课程设计后端 使用Springboot + Mybatis + Redis + Maven 具体的表和相关的数据如下: 用户(电话号码,密码,身份证号,邮箱,真实姓名,用户类型,性别,地址) 乘客(用户电话号码,乘客身份证号,乘客真实姓名,乘客电话号码,乘客类型,地址) 列车信息(列车编号,车次,列车类型,列车车厢数,列车始发站,列车终点站,列车开车时间,列车到达时间,列车到达日期,列车运行时间,列车状态) 列车座位信息(列车编号,车厢号,座位类型,座位数) 列车经停信息(列车编号,车次,车站编号,车站名,到达时间,总运行时间,开车时间) 订单信息(订单编号,用户电话号码,乘客身份证号码,列车编号,出发站编号,到达站编号,车厢号,座位编号,订单创建时间,订单状态,开车时间)

    咨询的分析方法gl.ppt

    咨询的分析方法gl.ppt

    node-v10.14.0-linux-ppc64le.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    2019年电赛无人机题目(B题)OpenMV相关代码

    These're the OpenMV codes written by microPython in 2019 NUEDC. 2019年电赛无人机题目(B题)OpenMV相关代码(原创).zip

    无人机降落TRT版本.zip

    无人机最强算法源码,易于部署和学习交流使用

    熊出没.zip

    熊出没.zip

    基于SpringBoot和Vue的家教信息平台设计与实现.zip

    基于SpringBoot和Vue的家教信息平台设计与实现.zip 有完整的部署指导文档,源码也是完整的,可以直接运行,里面包含了所有的相关步骤。 本文旨在设计和实现一套基于Java技术的家教信息系统,采用Spring Boot框架构建后端服务,MySQL数据库存储数据,Vue.js作为前端框架实现用户界面。该系统旨在解决家教信息管理的问题,包括家教师资信息管理、用户信息管理以及家教入驻等功能。通过综合运用Java、Spring Boot、MySQL和Vue等技术,实现了系统的高效运行和良好的用户体验。系统提供了用户注册、登录、信息查看和编辑等功能,同时支持家教的发布和查看,用户信息的管理以及家教审核的后台管理。家长可以方便地寻找合适的家教老师,家教老师也能够更便捷地管理自己的信息和相关资料。通过本设计,展示了Java技术在现代化家教信息系统中的应用,为家教行业的信息化管理提供了一种有效的解决方案。该系统的设计与实现将为家长、家教老师和用户提供便利,促进家教行业的发展与进步。 关键词:SpringBoot; MySQL; 系统设计; 家教

    利用CNN进行无人售货机的商品识别.zip

    无人机最强算法源码,易于部署和学习交流使用

    node-v11.10.1-linux-armv6l.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

    (R语言)-6-箱线图的绘制

    (R语言)-6-箱线图的绘制

    麦肯锡-xx联通固定市场举措gl.ppt

    麦肯锡-xx联通固定市场举措gl.ppt

    在PyCharm中配置Python环境步骤

    附件是在PyCharm中配置Python环境步骤,文件绿色安全,请大家放心下载,仅供交流学习使用,无任何商业目的!

Global site tag (gtag.js) - Google Analytics