阅读 1321

黑客的数据库:Google进阶搜索技巧

对于程序员来说,已经彻底离不开搜索引擎了,遇到任何疑难问题,第一时间的反映,就是打开Google,输入问题的关键词,然后在搜索结果页里,进一步寻找匹配的结果。

然而,有时候简单的搜索方式,无法满足需求。所以,Google提供了进阶的搜索技巧,黑客甚至利用这些技巧,发现了很多网站的后门,号称“Google Hacking Database”,本文后面,会列举出一些相关的搜索例子。

Google搜索操作符

Google会时常地移除一些操作符,因此,需要关注哪些操作符是有效的。

这里使用A、B代表输入的搜索词。

"A B"

强制进行完全匹配搜索,避免单个关键词的歧义。

"steve jobs"

A AND B

Google默认操作符就是AND,即返回A和B相关的搜索结果。对于常规搜索,它实际上并没有多大区别,但与其它操作符搭配,就会非常有用。

分词 AND 教程

A OR B

搜索结果为A或者B,再或者A和B,也可以使用符号“|”替代OR。

电影 OR 电视剧

-A

-A表示排除搜索词A,即返回的搜索结果排除与A有关的。

苹果 -公司

*

*充当通配符,将匹配任何单个关键词。

steve * apple

()

通过()对搜索操作符进行分组,以控制搜索的执行方式。

(git OR svn) 回退

以上就是基本的搜索逻辑,可以组合出复杂的查询表达式,缩小搜索范围,解决歧义问题。

Google还提供了属性字段,限制搜索范围,更加精确。

filetype:

将搜索结果限制为特定的文件类型,如:PDF、PPT等。也可以使用“ext:”,作用是相同的。

filetype:pdf 机器学习

这里整理了一份常见的文件类型:

  • PHP
  • ASP
  • CGI
  • PDF
  • JSP
  • FCGI
  • SWF
  • DOC
  • TXT
  • EXE
  • PPT
  • XLS
  • INI
  • YML
  • MP3
  • MP4
  • JPG

想获得更多的文件类型,可以访问这个链接

site:

限制搜索结果在指定的网站。

site:juejin.im 深入理解NLP的中文分词

intitle:

限定搜索词,在网页标题里进行查找,这样更契合网页的主题。

intitle:自然语言处理

allintitle类似于intitle,只是结果完全包含搜索词。

inurl:

限定搜索词,在URL里进行查找。URL的标准格式如下:

[协议类型]://[域名]:[端口]/[资源层级][文件名]?[查询]#[片段ID]

i.e.: https://juejin.im/book/5d9ea8fff265da5b81794756
复制代码

inurl:juejin

allinurl类似于inurl,只是结果完全包含搜索词。

intext:

限定搜索词,在网页内容进行查找。

intext:自然语言处理

allintext类似于intext,只是结果完全包含搜索词。

cache:

返回网页的最新缓存版本,就可以查看网页的历史信息。

cache:juejin.im

以上就是最常用的属性字段,基本满足90%以上的搜索需求。还有一些其它的属性字段,适用于一些特定领域,如下:

  • weather: 查询天气
  • stocks: 查询股票
  • map: 查询地图
  • movie: 查询电影
  • source: 查询新闻源

实际搜索效果:

黑客如何利用Google搜索

黑客会通过综合利用Google进阶搜索技巧,获取服务器的信息,包含敏感信息的文件,检测出暗藏的登录页,服务器日志等。

代理服务器

inurl:"nph-proxy.cgi" "start browsing"

代理服务器的URL会保留某些特征,同时,页面也会留有相关信息。所以,只有知道这些特征,就可以全网查找代理服务器地址。

文件目录

intitle:index.of etc shadow

intitle:index.of "parent directory"

intitle:index.of name size

intitle:index.of "server at"

intitle:index.of 登录

intitle:index.of 管理

数据库

site: filetype:mdb

site: intext:"to parent directory"+"intext.mdb"

github

github就是一个很好的黑客数据库,里面会有很多敏感信息,都是公司的程序员不小心上传的。

site:github.com intext:smtp

site:github.com intext:password,username

总结

这些黑客的搜索技巧,非常值得借鉴,可以解决一些棘手的搜索问题,但切记不要用于非法的目的。

安利大家一本掘金小册《深入理解NLP的中文分词:从原理到实践》,让你从零掌握中文分词技术,踏入NLP大门。如果以上内容对你有所帮助,希望点赞、评论、转发,多谢多谢!

关注下面的标签,发现更多相似文章
评论