作为人类对信息控制和管理最普及、最便捷的途径,搜索引擎的每一个新成果都可能影响整个社会文明进步的进程。它的未来在哪里?我们一直在期待大佬们每一个可能的答案。/ W n3 I+ o1 q4 q
/ p. Y; I% v) S0 |% N
最近,在中文互联网领域,百度上交了自己的作业--阿拉丁。之前李彦宏和李一男曾经在多个公开场合提及它,但在发布时,百度却变得异常低调。
% x( l; ]% T# ?- t8 r9 u3 v7 S X% c7 [8 g
这个被百度官方称为“搜索开放平台”的新东西会是影响搜索未来的big thing么?在过去的几天里,这是我与业界朋友聊天的唯一话题,在本文评论之前,我先梳理一下什么是搜索开放平台本身。
' v8 v. ], u Y" c: }+ T. k
@1 b# B* t5 G* H Y3 T' q 我所理解的搜索开放平台% X# Z: p$ R3 c' K/ a5 l, D
) S8 M H% Y7 M! z6 U
“搜索开放平台”的机制实际上很简单,站长主动向搜索引擎提交一个个结构化的数据模块,并可设置其展现样式、关联的关键词、更新频率等,百度予以采纳后将这些数据直接呈现给用户。
* f& B7 h1 W1 {' Q0 b: L% C) u6 S6 ^+ ?
9 T6 P3 B& S+ j' H& Z 和传统的搜索机制,它主要有3点变革:! }4 U, n- P" |) c" @
# w7 e5 F7 I- i) [ 其一,传统搜索的展示元为一个个的web,开放平台将其缩小到了数据模块。这一变革的意义在于信息价值的最大化,同时大幅提升搜索的用户体验。 i/ w- R( W$ I) r& I9 g
. V8 O4 K* ]2 H' q. s' \6 C- I这一点,大家可以百度一下“人民币汇率”,我粗略估算了一下,应用搜索开放平台之后,对于关心“人民币汇率”的用户,每次检索,至少可以节省10秒以上。
: T6 p* p5 A( A- ?$ ]% v( l/ W6 a7 g; L7 O# K" M4 r# \
其二,搜索由“只读”变为“可写”。如果说之前的sitemap类协议让搜索从“被动”变成“主动”,那么阿拉丁让搜索引擎本身从“只读”变成了“可写”。站长在参与搜索结果本身,将变得越来越主动,而这种主动,是基于非SEO方式下开展的。' N" ~ w3 B, N' U
0 e2 q8 D6 u( b" @6 L- [
其三,搜索结果开始可定制。在开放平台中,站长将“指定的内容”,在“指定的关键词”匹配下,以“指定的样式”进行展现。' P+ Q5 }* v; M0 i
2 A! p, a) c2 g6 H" [( D
从本质上来说,这可以理解为:百度与内容网站合作,共同来满足网民对搜索体验的更高要求。
; \+ w: ?( z5 y
) q- B% F( x6 R8 A. F 搜索开放平台、Onebox、Subscribed Links、SearchMonkey7 N5 {, Y4 v. @0 t! E
! {% k8 l& L- O f V/ I
看到这个平台,让我想起了一大堆搜索创新技术,包括Google的Onebox、Subscribed Links,以及Yahoo的SearchMonkey。
$ j5 a2 C9 p0 D
9 E7 U2 E j* Z) f- {! s7 |3 f 这些新应用的共同之处在于,搜索结果将展示一些更为具体的数据模块,而非传统的--链接,比如在Google onebox技术下,搜索百度的股票“BIDU”可以直接看到实时的盘面信息,在Yahoo的SearchMonkey技术下,一些声音、视频节目可以嵌入到结果中直接播放。 o8 S: P i- K! W7 I y
( H9 p* e) q2 A" K' W* @0 H# s 不过它们和搜索开放平台却有着很大的区别--Onebox下搜索结果的展示方式很像阿拉丁,但它是一个封闭的系统,主要由Google自身把控,Google再强大,也不可能聪明到重构内容网站的数据展示形式,它更多的是对自身网页数据库内容的直接抓取,且覆盖领域很小。
" C( T4 ]: e. s% O$ M' D: W0 P/ O% Q) Y- i2 p5 h
从运行机制来看,Subscribed Link和SearchMonkey倒是和搜索开放平台有点相似--站长提交标准的数据模块,设置匹配的关键词,设计其展示样式,Google和Yahoo对数据进行索引,供用户直接查询。但实际却大不相同:
& D" W' `) O5 B* E- y/ d2 L4 [: ^+ [; P) k- V
其一,是否将这些应用展现在搜索结果中,搜索开放平台是由百度产品人员替用户来考虑决定的,而Subscribed Link和SearchMonkey是由用户决定的。Subscribed Link采用的是用户订阅的方式,也就是说,只有当你订阅某个内容网站提交的数据模块时,在搜索相关关键词后才能感受到它的存在。SearchMonkey也类似。
8 N$ b5 n3 B% `) B. }
F5 x( F- F2 G 也就是说,百度期望平台的应用能让每一个用户受益,而Google和Yahoo则更在意开放的自由度。我认为,这是“百度更懂中国网民”的又一次体现。如果搜索开放平台也采用“自由使用”的方式,几乎可以肯定它将成为鸡肋。
5 i9 W g& y6 M _5 l- G6 J1 @
% M3 Z* y! r, c# i其二,搜索开放平台目前只开放了“确定性”的数据源,类似“人民币汇率”、“NBA赛程”这种。而Subscribed Link和SearchMonkey则甚至开放了图片、视频、游戏等众多内容。
$ [! {8 ]9 N* |7 N
0 D! {& W5 h% n9 W这是百度的又一个聪明之处。显然,对于一个强推的应用来说,最重要的就是可控性,开放是一把双刃剑,它可能带来更精准的搜索结果,也可能带来一大堆spam。在这一点上,百度极为谨慎,这种谨慎很有必要。5 r5 s7 ]0 w) }5 a
* |7 `' Z( Y/ s% n. x2 p, p不管是阿拉丁、onebox,还是Subscribed Link、SearchMonkey,本质上都是搜索巨头们对“Hidden Web”(暗网)的一种应对方案,但大家在处理方式上的不同,将引发截然不同的效果。
# y; P8 r9 l. G8 O; T5 g3 Y5 e5 _! }
如何评估阿拉丁对中文互联网的影响
9 x+ U/ Y* ~: y$ S
; N; y$ V9 j5 K: Q4 o- O) u一切才刚刚开始,现在要评价搜索开放平台似乎为时尚早,不过它的王侯气质已经显现出来。在我看来看,这个平台将带来以下变革。
# B* B- M' u) P7 `: |+ d% a" Y
7 Z' f6 g: Z% C7 ^8 g1、搜索体验革命。Web还是那些Web,它们的内容没有发生任何变化,但搜索开放平台将用户想要的最终答案呈现出来,这一点,是全体中文网民的福气。
1 W# D) A- |1 K' J* J
9 O6 v4 H( V4 E在韩国的Naver搜索引擎中,输入“china”你会发现一个关于中国概况的信息模块,与百度相比,Naver依赖的是人肉的力量,两者搜索体验的提升是异曲同工的。
0 r: N0 q n# B/ x( z
) B. S5 {; B% g; P' ?- g x- |% n& L0 v' W2 A' ]
2、搜索引擎与内容网站的关系将重构。在互联网早期,网站更多来自自然流量,Yahoo和Google的崛起开始让提供内容的网站对搜索越来越依赖。随着搜索开放平台、Subscribed Link、SearchMonkey等新技术的应用,可以想象,针对同一类数据的抢夺将不可避免的变得惨烈,在这个过程中,搜索引擎与内容网站之间的关系将变得更加微妙。
2 \" q. g% a, @+ l+ J; [, r9 S( H, m3 L* w* t4 m
3、互联网信息的流通正在有序化。对于搜索,传统的展现方式是以网页为单位的,百度的搜索开放平台则让这种单位缩小到了一个个信息模块,这些信息模块的整理和标准化将有助于未来我们对互联网信息更深层次的掌控。1 ]$ x* ]' q; @: v3 \1 o( j
. v$ t. c8 p T4 u% ~3 e6 N5 f
总之,阿拉丁的最大受益者是网民,其次是那些在这个变革期间的积极实践网站,最后才是百度自身。值得提醒的是,一如当年搜索引擎诞生之初就重视SEO的网站,这是一个新的契机。9 G- L v4 N! H, P/ ?2 K( P) f
1 `$ m# L/ t- y7 Z' Z
搜索开放平台只是“阿拉丁”的“一期工程”) m$ f9 w9 ~. d( E" T
G( a+ R3 k6 l! a
通过开放平台来解决“暗网”问题,可以理解为一种“迂回”的方式,但是我相信,在百度的整个“阿拉丁”计划中,这只是一部分。
' N A3 `) n) v- `4 U, `) t1 t" m
据Communications Of the ACM的数据,目前主流的搜索引擎只覆盖到了网页数据内容的37%。如何抓取更深层次的网页,并非一个搜索开放平台完全能解决的,比如声音、视频格式内容,AJAX产生的内容,程序动态生成的内容,人为限制的内容,等等。( A) h4 X( {, P
, V; |' ]1 Q: Y/ p3 k4 ?2 g
相信在搜索开放平台之外,百度还在尝试一些主动的技术。等到将所有关节都打通的时候,阿拉丁的完整面貌才会展现在我们面前。
3 O: G) L. A) ?( X: S' h6 ]4 z
& I! v) b" h' c) N2 o从阿拉丁计划中我们可以得到一个启示:真正颠覆格局的还是技术上的创新,一旦这些创新打破了各个信息源之间的隔阂,未来的互联网将变得更加有意思。
! G) P. j8 E, R% M- e/ ?3 o+ w7 k9 [0 ?( r
对阿拉丁的一些建议和强调+ y D) j4 s) s0 p: \
- N" \1 \! s; h+ U在我的理解中,阿拉丁计划成败,有几个问题至关重要。
8 ]: W! C. J" B, e
B% Z5 Q, l& g; v( ?, ^1、对信息源的100%把握# q! u1 [+ a }& q
; }( `+ E& P: | 单纯论理想,Google Base不可谓不宏大,也不可谓不开放,但如果在中国开放这么一个东西,不可避免成了spam的乐园。: a9 A8 X% n' p5 i
& O5 L' Y% k: u! V1 o对于阿拉丁,我的建议就是--控制、控制、控制。据我所知,目前百度对网站提交数据的审核非常严格,对什么是“确定性数据”,百度一定要有一个非常严厉的把控。
' F- \& \" L7 j4 L9 v; Z
- A' g/ F+ v9 o) z3 x7 k' c阿拉丁应该是一个着眼未来的长期计划,不要急于求成,宁愿这个进程更慢一点,急功近利会害了它。$ h: T3 k3 w+ L, \, ~8 F& l
3 O2 ]7 P D! u( p+ G
2、必要的黑名单机制
0 T$ P7 b! H7 g W, @! ^! h/ h# \
8 a& Z( E, {7 \, F& i 我留意到在搜索开放平台的注册中,引入了实名机制,站长甚至需要提交身份证复印件。可以看出,百度将为站长建立一个信用的评估机制。, {1 n3 A# G8 u h% H
: X- `5 i9 V" B2 q& P
要保证平台本身的健康,这一点很有必要。从规则来看,百度对站长提交的信息会进行审核,但并未公布一个黑名单机制,我建议对于一些有恶意的站长,可以永久封杀。 |