<div dir="ltr">Grarpamp<div><br></div><div>I'm only not publishing it because of privacy concerns - ultimately some HS operators might not wish to have their existence publically known..  I would be open to supplying it to bona fide and verifiable tor project members if it is for a legitimate research purpose.</div><div><br></div><div>I am collecting version 2 descriptors.  I have exactly 445994 hidden service descriptors - for approximately 70,000 unique hidden services.  I do not believe the introduction points are secret, having a list of IPs doesn't help you connect to the hidden service.</div><div><br></div><div>Best</div><div>Gareth</div></div><div class="gmail_extra"><br><div class="gmail_quote">On 9 November 2014 23:39, grarpamp <span dir="ltr"><<a href="mailto:grarpamp@gmail.com" target="_blank">grarpamp@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class="">On Sun, Nov 9, 2014 at 3:22 PM, Gareth Owen <<a href="mailto:gareth.owen@port.ac.uk">gareth.owen@port.ac.uk</a>> wrote:<br>
> I have several hundred thousand (or million? Haven't counted) hs descriptors<br>
> saved on my hard disk from a data collection experiment (from 70k HSes).<br>
> I'm a bit nervous about sharing these en masse as whilst not confidential<br>
> they're supposed to be difficult to obtain in this quantity.  However, if<br>
> someone wants to write a quick script that goes through all of them and<br>
> counts the number of authenticated vs nonauthed then I do not mind running<br>
> it on the dataset and publishing the results.  I have a directory where each<br>
> file is a hs descriptor.<br>
><br>
> The introduction point data is base64 encoded plaibtext when unauthed or has<br>
> high entropy otherwise.<br>
<br>
</span>What version descriptors are you collecting?<br>
<br>
There are a few reports I could think to run against your dataset, even if<br>
the IntroPoints were replaced with 127.0.0.n (n set to 1, 2, 3, n for each<br>
IntroPoint in respective descriptors list)... or even 1:1 mapped for all<br>
descriptors either a) randomly into a new parallel IPv4/IPv6 space (dot-quad),<br>
or b) serially into a respective 32 or 128 bit number (not dot-quad).<br>
<br>
Whether on or off list I could use your collection patches, and a raw<br>
sample of a single recent on disk descriptor from a public service such as<br>
hbjw7wjeoltskhol or kpvz7ki2v5agwt35 so we know your data format.<br>
<br>
It's effectively public info anyways, I'll get to it sooner or later, others<br>
already have.<br>
_______________________________________________<br>
<div class="HOEnZb"><div class="h5">tor-dev mailing list<br>
<a href="mailto:tor-dev@lists.torproject.org">tor-dev@lists.torproject.org</a><br>
<a href="https://lists.torproject.org/cgi-bin/mailman/listinfo/tor-dev" target="_blank">https://lists.torproject.org/cgi-bin/mailman/listinfo/tor-dev</a><br>
</div></div></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature"><div dir="ltr">Dr Gareth Owen<div>Senior Lecturer</div><div>Forensic Computing Course Leader</div><div>School of Computing, University of Portsmouth</div><div><br></div><div><b>Office:</b> BK1.25 <br></div><div><b>Tel:</b> +44 (0)2392 84 (6423)</div><div><b>Web</b>: <a href="http://ghowen.me" target="_blank">ghowen.me</a></div></div></div>
</div>