temoto/robotstxt-go がURLエンコードを考慮してないように見える
かのnorobots-rfc.txt では、%7Eについては
/~joe/index.html /%7Ejoe/index.html yes
http://www.robotstxt.org/norobots-rfc.txt
とマッチするとされているが、robotstxt-goでは
を実行するとfalseとなる。
robotstxt-goはどうやら、現状のgoogleのwebmastersページでの説明を尊重した実装になっているんだけれど、
https://developers.google.com/webmasters/control-crawl-index/docs/robots_txt
エンコード回りについては斜め読みすると、
" Non-7-bit ASCII characters in a path may be included as UTF-8 characters or as percent-escaped UTF-8 encoded characters per RFC 3986."とだけで、チルダについては判断が難しい。
まあ自分が今のところ、temoto/robotstxt-goのコード・GoogleのRobots.txt Specificationsの説明・関連するRFCやwikipediaでの解説などを飛ばし読みしてるんでどこかで解釈をミスってそうですが。