Robots.txt является строго добровольной конвенцией среди поисковых систем; они свободны проигнорировать его, или реализовать его всегда они выбирают. Тем не менее запрещая случайного паука, ища адреса электронной почты и т.п., они в значительной степени все уважение это. Его формат и логика очень, очень просты, и правило по умолчанию, позволяют (так как можно только запретить). Сайт без robots.txt будет полностью индексирован.
Да, haproxy совершенно не нужен. Unicorn выполняет собственную «балансировку нагрузки» между своими рабочими. Когда вам требуется несколько машин, вы можете использовать haproxy, но я настоятельно предпочитаю решение L3, такое как IPVS.