読者です 読者をやめる 読者になる 読者になる

temoto/robotstxt-go がURLエンコードを考慮してないように見える

かのnorobots-rfc.txt では、%7Eについては

/~joe/index.html /%7Ejoe/index.html yes
http://www.robotstxt.org/norobots-rfc.txt

とマッチするとされているが、robotstxt-goでは


を実行するとfalseとなる。

robotstxt-goはどうやら、現状のgoogleのwebmastersページでの説明を尊重した実装になっているんだけれど、
https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt
エンコード回りについては斜め読みすると、
" Non-7-bit ASCII characters in a path may be included as UTF-8 characters or as percent-escaped UTF-8 encoded characters per RFC 3986."とだけで、チルダについては判断が難しい。
まあ自分が今のところ、temoto/robotstxt-goのコード・GoogleRobots.txt Specificationsの説明・関連するRFCwikipediaでの解説などを飛ばし読みしてるんでどこかで解釈をミスってそうですが。