李明冲进贾瀞雯办公室时,手里攥着一沓打印纸,手指都在发抖。
“成了!贾总,成了!”
贾瀞雯抬起头:“什么成了?”
“分布式索引!”李明把打印纸铺在她桌上,“你看,测试数据!搜索响应时间平均缩短了百分之五十!最快的时候能达到零点八秒!”
贾瀞雯拿起数据报告。
表格密密麻麻,但结论很清楚:新技术让百度搜索的速度提升了一半。
“怎么做到的?”她问。
“我们把索引彻底打散了。”李明在白板上画图,“以前是集中式索引,所有数据在一个大库里,查询要遍历整个库。
现在是分布式,数据按关键词首字母分片,存在不同的服务器上。
查询时,系统自动定位到对应的服务器,只搜那一片数据。”
他顿了顿:“就像图书馆以前把所有书堆在一起,现在分门别类放不同房间。
找小说去A房间,找历史去B房间,不用把所有房间都翻一遍。”
贾瀞雯看着数据,心里一阵激动。
这意味着,百度的搜索速度将达到一个新高度,甚至可能超过那家美国公司。
“稳定性呢?”她问。
“测了一周,没问题。”李明说,“而且分布式架构更健壮。
一台服务器宕机,只影响一部分数据,其他还能正常服务。
不像以前,主库一挂,全瘫。”
“太好了。”贾瀞雯站起来,“马上部署,尽快上线。”
“等等。”李明说,“还有件事。
陈总昨天打电话,提了个新构想。
他说……光快还不够,要更聪明。”
“什么意思?”
“个性化排序。”李明翻开笔记本,“陈总说,现在的搜索结果是基于全网数据,对所有用户都一样。
但不同用户的需求不同。
比如搜‘苹果’,程序员可能想找编程资料,果农可能想找种植技术,普通用户可能想买水果。
如果能根据用户的历史行为,给每个人个性化的排序,体验会更好。”
贾瀞雯思考着这个构想。
听起来很先进,但……
“这涉及用户隐私吧?”她问。
“对,所以陈总让我们先做伦理研讨。”李明说,“技术上是可行的。
我们可以记录用户的搜索历史、点击行为,建立偏好模型。
但这个数据怎么用,边界在哪里,得想清楚。”
当天下午,贾瀞雯组织了伦理研讨会。
参会的有技术核心、产品经理、法务顾问,还有新成立的用户体验团队。
会议室里争论得很激烈。
技术负责人张涛说:“从技术角度看,个性化是未来。
互联网信息太多,用户需要过滤。
我们帮他们过滤,这是服务。”
产品经理王磊摇头:“但你怎么知道用户想要什么?靠历史行为推测,可能推测错。
而且用户会担心:我的搜索记录被保存,会不会泄露隐私?”
法务顾问李律师推了推眼镜:“法律上目前没有明确规定。
但用户隐私是敏感问题。
如果我们要做,必须有严格的数据保护措施,还要给用户选择权——要不要开启个性化。”
用户体验团队的刘明说:“我做过用户调研。
大部分用户希望搜索结果更相关,但确实担心隐私。
如果能有折中方案就好了。”
贾瀞雯听着大家的讨论,在白板上写下关键点:技术可行性、隐私边界、用户选择权、数据安全。
“这样吧。”她最后说,“我们做,但要有底线。
第一,数据必须匿名化处理,不关联具体用户身份。
第二,用户可以选择是否开启个性化功能,默认关闭。
第三,数据加密存储,定期清理。
第四,明确告知用户我们收集什么数据,怎么用。”
“如果用户选择关闭,还收集数据吗?”王磊问。
“不收集。”贾瀞雯说,“只有开启的用户,我们才记录行为。
而且用户随时可以关闭,关闭后数据立即删除。”
【跪求礼物,免费的为爱发电也行!】