中国第一批搜索引擎往事丨CERNET30周年

起源:中国教育和科研推算机网 功夫:2024-10-14

  三大搜索引擎成功实现了他们的初衷——钻研关键利用,堆集搜索引擎技术,并在此基础上造就了大批互联网人才,他们走出尝试室,成为了中国互联网发展的沉要力量 。

  1991年,蒂姆·伯纳斯·李发现的WWW席卷了全球,规模每年翻一番的互联网起头每三个月翻一番 。

  但总的来说,全球互联网还是一片待开垦的地皮:人们找不着北,不知路去哪里寻找自己想要的内容 。固然互联网将推算机衔接了起来,却没有把人和互联网连起来 。在没有搜索引擎的日子里,人们只能按图索骥,点开一个又一个网站,逐个寻找自己必要的信息 。

  1994年,美国斯坦福大学的钻研生杨志远(Jerry Yang)和大卫·费罗(David Filo)用人为分类目录的方式造作了一个网站指南,这是由很多网站的链接组成的列表,取名为Yahoo 。Yahoo已经推出就吸引了一大批需要者 。

  但这种“喂到嘴边”的目录分类列表没能真正满足用户的主题需要——让信息蹦到面前 。

  搜索,作为互联网最根基的信息服务,依然没有出现最优解,也因而成为全球互联网钻研人员倾泻周到的课题 。

  CERNET三大搜索引擎启航

  1995年,全球互联网的用户数量达到了1600万 。随后的几年里,风险投资家们忙得不成开交 。《华尔街日报》说,险些每隔15秒就有一家以“.com”定名的新公司上市,互联网走向了贸易化 。

  在网络经济破茧而出的前夕,中国全职能接入了国际互联网 。1994年4月20日,通过美国Sprint公司的64K专线,中关村地域教育与科研示范网络NCFC接入国际互联网 。也在这一年,中国第一个覆盖全国的互联网主干网——中国教育和科研推算机网CERNET诞生了 。

  从接入国际互联网那一刻起头,中国就用互联网衔接并奋力追赶着世界 。

  1996年,“九五”攻关启动,旨在集中力量攻克产业升级和社会持续发展亟需解决的关键技术和共性技术 。信息技术是其中一个沉点领域 。CERNET领到的工作是“推算机信息网络及其利用关键技术钻延妆,即基于建成的CERNET示范工程,对推算机信息网络及其利用关键技术发展钻研 。

  也就是说,一是要钻研互联网关键主题技术,二是要发展互联网关键利用,从而构建一个齐全的国内互联网生态系统 。项目提出了六大沉要工作:网络治理与运行技术、网络及信息安全技术、网络互连和路由技术、网络设计和测试技术、网络信息发现技术、典型网络利用技术 。而搜索引擎既属于网络信息发现技术,又属于极度关键的互联网利用 。

  今天回过甚看,“九五”攻关的项目立项得极度实时,极具战术眼光,富有远见解抓住了互联网发展的底子关键问题 。

  搜索引擎钻研课题选取的方式也极度有趣,并不是由一家单元来实现,而是选择了三所高校来施杏转—清华大学、北京大学和华南理工大学 。由此,在三所高校的网络尝试室里,开启了中国最早的搜索引擎技术钻研 。

  清华大学网络指南针

腾龙集团(中国)有限公司官网501

网络指南针搜索引擎主页

  清华大学网络指南针搜索引擎的研发由清华大学教授、CERNET网络中心副主任李星主持 。

  网络指南针(Net Compass)的名字就是李星取的 。早前,他从清华大学电子工程系本科毕业后赴美留学,1991年留学归来后,他很不适应没有网络的生涯,因而四处呼吁建设中国的互联网 。1994年,CERNET示范工程启动,李星就被吸收进入了项目,所以他总说自己是“票友下海” 。

  1996年,李星携带他的学生们张俐、杨文峰、解冲锋、李粤、许静芳和崔伟东等起头了对搜索技术的索求 。

  网络指南针重要钻研中文搜索引擎的技术实现 。比起英文的字词搜索,中文更难 。由于英文的字与字之间有空格,能很天然地切分词汇,而中文不是 。因而,团队面对的第一个关键问题就是:若何切分中文的关键词来进行搜索 ?字与字之间应该若何切词 ?若是基于一个一个字来切,推算量巨大 ;若是基于词来切,那么没有内容寓意的词组要不要切 ?

  在充分思考了中国文化布景和汉语的使用习惯后,网络指南针对切词的方式进行了调整 。像《红楼梦》里的语句:“雨村领其意,作别至馆中,忙寻邸报看真确了 。”“邸报看真」剽样的词条,虽不是成语,也不是常用词,但能在指南针上搜出链接 。

  除了提供网站列表之表,网络指南针还提供了一些关于链接的吞吐信息,由一个词能够衍伸至另一个有关的词 。

  这种做法一是给用户提供了更多选择,二是提升了用户搜索履历的趣味感 。当用户把稳到一个凸起显示的文字或短语时,就会进行点击以相识更多信息,链接就将他们带到另一个页面 。好比搜索“cisco”,就会自动出现“路由器”的链接,用户就能顺藤摸瓜浏览其他网页 。

  1997年10月,网络指南针起头向用户提供中英文信息查问服务,它收录有20多万网页,网络了CERNET、ChinaNet、中国科技网和中国金桥网等信息资源 。1998年7月《软件世界》杂志上登载的一篇名为《中文搜索网站介绍与比力》的文章评论说:“网络指南针的特色在于查问步骤的多种多样 。其系统不变性、查找速度均为中上之选 。”

  从1999年12月到2000年8月,有10万多名用户对指南针进行了80多万次的查问,指南针成为教科网内驰名的搜索引擎 。

  “还是有遗憾的,”李星谈起网络指南针时暗示,“第一个遗憾是依赖于集中式的技术,未能像谷歌那样发现Map-Reduce技术,从而走到散布式 。第二个遗憾是不足相应的机造,将网络指南针贸易化 。”

  对于前者,网络指南针其时的系统结构是集中式,随着Web的发展,对于搜索引擎的可扩大性提出了挑战 。在互联网发展初期信息量还没有那么大的时辰,集中式的技术的确能够满足用户的需要,而当互联网飞速发展以来,这种模式就逐步跟不上急速扩张的互联网资源了 。对于后者而言,贸易化涉实时期理想和环境,更是难 。

  对于搜索引擎而言,1998年是拥有划时期意思的一年 。这年,斯坦福大学的博士生拉里·佩奇(Lawrence Edward Page)由科研文件被引用率与其价值成正比想到,网页链接也如此——不是所有链接都平等,一个链接被衔接得越多,它就越沉要 。在此基础上,拉里·佩奇和谢尔盖·布林(Sergey Brin)发了然Page Rank(佩奇排名)算法 。正是这个基于网页链接分析的算法,使得搜索技术拥有了和以往齐全分歧的使用成效,Google一举成名 。

  几年后,Google发了然面向大规模数据处置的并行推算模型和步骤——Map-Reduce技术,并将其宽泛利用于大规模的数据处置 。技术上的不休启发,伴以成熟的风险投资机造,Google飞速壮大 。

  然而,对于鼎新盛开才20多个年初、贸易环境不够成熟、还在迷雾中摸索互联网技术的中国,所有都是Hard模式 。和其他一些90年代的搜索引擎一样,在不足贸易化机造的情况下,网络指南针没能走到最后 。二十世纪末的最后几年,国内上网用户的规 ;购苡,搜索引擎贸易化的远景并不被看好 。固然在今天,在线告白是互联网最主流的变现模式,但在90年代,在报刊上登一次告白的反馈率,比在网上登两个月告白的反馈率还要多一倍 。

  网络指南针(Net Compass)的名字还引发了一段幼插曲 。2024年,在中国互联网协会进行的“中国互联网30年留想”座谈上,搜狐的张向阳回顾起1998年缔造网站前夕,他灵光一闪,想出一个极度中意的名字——指南针 。他回到清华推算机系,兴奋地和吴建平教员聊,吴建平说,清华的搜索引擎就叫指南针,还申请了域名 。因而张向阳把他的网站名改成了搜狐 。“遗憾的是,后来腾龙集团官网域名没有陆续交费,此刻已经不在了,要是留着也挺好的 。”李星回顾路 。

  北大天网搜索引擎

腾龙集团(中国)有限公司官网502

天网搜索引擎主页

  Google缔造后的第二年,北京大学信息治理学院毕业的李彦宏实现了在美国的职业生涯,回国创业,剑指搜索引擎 。他的首要工作是招兵买马,传说钟装百度七 ?汀敝械牧轿弧踅ü屠酌屠醋员贝筇焱阉饕 。

  天网搜索引擎取意“天网恢恢,疏而不漏”,用在信息搜索上极度贴切 。

  1996年,北京大学网络尝试室陈葆珏教授带着刘建国、周利民和雷鸣等人起头了对天网搜索的研发 。刘建国是北大老师,其他人都是钻研生 。

  团队以为,搜索引擎是系统层面的新事物 。它性质上是一种信息服务,主题问题有两个:若何返回用户想要的信息,若何让用户急剧接见 。也就是一要准,二要快 。要从几千万甚至上亿个网页中找出信息并在1秒内返回,难如海底捞针,而团队成功实现了从零到一的突破,并获得了阶段性的成就 。

  1997年10月29日,北大天网起头在CERNET上向用户提供服务 。到了1998年9月,接见者已经超过了10万 。1999年《中国信息导报》颁布了一篇名为《中文搜索引擎发展的近况、问题及对策》的文章,对天网搜索引擎做出了如下评价:“北京大学‘天网’的关键词查问方式有单一查问和复杂查问,查问界面敦睦且职能性较强,相比而言,查准率较高,因而深受宽大网上用户的青睐 。”

  其实,刘建国很早就起头思虑若何让搜索引擎在巨大的市场竞争中逆流而上 。在1998年的一次采访中,他提到,就像以前的操作系统、字处置软件最后被很多国表软件占了优势一样,搜索引擎也面对同样的问题 。技术的深刻、本钱的投入和贸易化可能步崆做大做强的必经之路 。

  1999年对于天网搜索而言是很出格的一年 。那一年,李彦宏回国创业  ;乩辞跋,他依照天网上的Email地址给刘建国发了一封邮件,约请刘建国一路在中国开发一款搜索引擎 。几经思考后,刘建国辞掉了北大老师的职务,成为百度的第一名员工,掌管技术研发 。在刘建国的推荐下,北大天网的其他主力开发人员周利民、雷鸣也参与了百度 。

  同年,陈葆珏教授退休,李晓明接任了北大天网研发掌管人的职位 。“在天网搜索引擎发展的第一阶段,陈葆珏教员给我们打了一个很好的底子 。从2000年起头,我们成立了新课题组,进入了北大天网第二阶段的发展 。新课题组的重要成员有王建勇、闫宏飞、彭波、谢欣和陈华等人 。”李晓明说 。

  彼时,互联网上的网页数量已达千万级,闫宏飞和彭波开发了一套技术,以实现系统的并行化 。陈华从雷鸣手里接下了其时并不受器沉的FTP搜索工作,他还真做了出来,2002年,北大天网FTP搜索成为国内最驰名的FTP搜索 。北大网络尝试室还使用了Google的新技术提升了系统的能力,推出了天网Maze 。

  之后,北大天网迎来了它的第三个发展阶段:留存中国互联网的影象  ;チ闲畔⒎追贝碓,在不足守护的情况下,大无数网页只是“县花一现”,随着功夫的流逝而湮灭 。2002年,北大网络尝试室开发建设了“中国Web信息博物馆”,到2015年,博物馆珍藏了70多亿网页文本数据,容量超200TB 。2016年,尝试室将其捐赠给了中国推算机学会,向公家盛开 。

  这一项主张意思最近越来越得到凸显:2024年,一篇名为《中文互联网在加快崩塌》的文章在网上流传,文章指出,中文互联网上的很多汗青信息崩塌式隐没,就像汗青中断掉的链条通常 。这篇文章让很多人起头关注北大的Web信息博物馆 。这一项主张意思还不止于此——陪伴着近两年天生式人为智能的发展,Web信息博物馆里网络的近20年的数据成为了各大科研机构训练大模型的贵重语料,已经被30多家机构选取 。当然,这是后话了 。

  华南理工木棉搜索引擎

腾龙集团(中国)有限公司官网503

木棉搜索引擎主页

  每年秋天,木棉花盛开时,华南理工大学的校园中宛如有无数欢快的火苗在跳跃,满树粉黛亦如云如霞,而木棉搜索引擎这一美好的名字就由此而来 。

  1996年,木棉搜索引擎的研发在华南理工大学信息网络工程钻研中心正式启动 。网络尝试室的掌管人是华南理工大学教授张凌,他同时也是CERNET专家委员会的副主任 。那年,他和尝试室的董守斌教授一路带着学生们研发木棉检索 。

  1998年12月,木棉正式向互联网用户提供服务,支持Web检索、FTP检索和信息采编 。重要提供两类信息检索服务,一是面向学堂、大型企业的企业级搜索引擎,如华南理工大学堂内搜索、昭通科技网检索系统等 。二是面向教育网资源的全网专题检索,这一系统面向中国教育和科研推算机网CERNET,整合了全国各类教育资源,为教育网用户提供优良的信息检索平台 。

  木棉检索团队在技术上做了好多索求 。他们与清华大学结合承担国际联网安全钻研项目——“信息自动查问与鉴别技术”,通过网络信息抓取并实现敏感词汇的过滤,这也是第一代带关键词过滤的爬虫系统 。

  他们还与Sun公司合作,成立了大陆第一个大型FTP开源文件下载中心(SunSite),并沉点攻关FTP检索,网络了百万条FTP文件信息,支持对文件名、文件目录和文件URL的吞吐查问和文件属性的结构查问,对大批量数据有较快的响应功夫,是其时国内信息量较大和服务职能较美满的FTP检索 。

  进入二十一世纪后,互联网技术得以急剧发展 。木棉搜索引擎也经历了很多发展变动,其系统由集中式搜索改为散布式搜索,这是一个很大的调整 。同时,尽可能选择搜索领域的开源系统——如早期出现的Lucene——进行二次开发 。

  2002年,北京大学主办了第一届全国搜索引擎和网上信息挖掘学术(SEWM)钻研会  ;侠砉ご笱А⑶寤笱Ы羲婧,主办了第二届和第三届钻研会 。该会议其时是搜索引擎领域的旗舰会议,其重要特色是进行中文搜索引擎较量测评 。木棉搜索团队屡次在该会组织的测评中名列前茅  ;嵋楹蟾拿畔⒓焖餮趸嵋椋–CIR),进行至今年,刚好是第三十届 。

  2005年,董守斌和一路参加项主张袁华开设了“网络信息检索”本科课程  ?纬唐鸪跏亲魑绻こ套ㄒ档奶厣纬,后发展为面向推算机学院的选建课,这也是国内首个讲述信息检索技术和搜索引擎道理的本科生课程 。在多年钻研与讲授的基础上,两位教员撰写了本科教材《网络信息检索》,获评“十三五”高档教育本科国度级规划教材 。

  2009年,在发改委下一代互联网项主张支持下,四所高校——华中科技大学、华南理工大学、北京大学、清华大学结合开发了IPv6散布式搜索引擎,建设了下一代互联网散布式搜索引擎平台,推进了我国IPv6下一代互联网利用的繁华 。

  互联网人才造就基地

  2000年之后,国内掀起了互联网贸易化的海潮,占有贸易资源的利用在本钱的加持下一路前行,早期仅仅出于钻研主张的搜索引擎逐步退出了江湖 。

  然而,不成否定的是,90年代末、00年代初,以网络指南针为代表的三大高校的积极索求,为贸易搜索引擎的飞速发展扫清了阻碍——不仅堆集了中文处置的优势,更在此过程中造就了一大批技术人才,他们成为日后中国搜索引擎领域的骨干 。

  在清华,团队的学生们后来在互联网领域大放异彩:张俐,后来任职IBM钻研院 ;解冲锋,现为中国电信北京钻研院IPv6首席专家 ;李粤,博士毕业,现任华南理工大学副教授,持续钻研搜索引擎 ;许静芳,现为微信搜索利用部副总经理,微信搜一搜业务掌管人,在此之前,她是搜狗的高级副总裁 。

  在北大,天网搜索引擎在整个发展中造就了诸多人们熟知的互联网人才 。搜狗的王幼川用“黄埔军校”来迸作,很可能是由于这里是新兴互联网技术公司的孵化器,也可能是由于从这里走出了很多成功的互联网创业者 。从天网搜索第一个发展阶段的刘建国、雷鸣等人,到第二、三阶段的陈华、谢欣等人,很多互联网创业人从这里走出 。谢欣现为字节跳动副总裁,陈华是酷讯网、唱吧的首创人,姚丛磊是百炼智能的结合首创人,张志刚、陈静是脉讯在线的结合首创人,欧高炎创办了博雅数智,陈日闪则在美国创办了AutoBizLine,等等 。“从这个尝试室出来的学生,创业密度出格大 。”一家媒体说 。

  华南理工大学的团队也在数十年的钻研与讲授中造就了很多专业搜索技术人才,这些学生毕业之后活跃于腾讯、百度、搜狗、字节跳动、网易、中国电信、中国移动等公司的搜索有关部门,业已成为技术带头人及骨干成员 。

  在这个意思上,三大搜索引擎已成功实现了他们的初衷——钻研最关键的利用,堆集搜索引擎技术,并在此基础上造就了大批互联网骨干人才,他们走出尝试室,成为了后来中国互联网发展的沉要力量 。

  布景资料:“推算机信息网络及其利用关键技术钻延妆项目

  1996年,由教育部主持,清华大学等14所高档院校和科研单元承担的国度“九五”沉点科技项目(攻关)打算——“推算机信息网络及其利用关键技术钻延妆经国度计委批复立项 。1998年,该项目通过国度鉴定验收,这也是我国第一个互联网领域的国度沉大科研项目通过验收 。项目涉及网络互连、治理和安全方面的六大主题技术攻关 。

  项目基于CERNET示范工程,萦绕网络治理与运行技术、网络及信息安全技术、网络互连和路由技术、网络设计和测试技术、网络信息发现技术、典型网络利用技术六大互联网领域的关键技术和设备进行攻关,在网络治理系统、路由引擎、防火墙、搜索引擎等方面添补了国内空缺 。