<div dir="ltr">ThanksĀ <span style="font-size:12.8px">Ismael!</span><div><span style="font-size:12.8px"><br></span></div><div><span style="font-size:12.8px">Great work. You are very productive.</span></div><div><span style="font-size:12.8px"><br></span></div><div><span style="font-size:12.8px">-Juha</span></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Sat, Aug 13, 2016 at 1:02 AM, Ismael R <span dir="ltr"><<a href="mailto:zma@riseup.net" target="_blank">zma@riseup.net</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi everyone,<br>
<br>
I'm working on <a href="http://ahmia.fi" rel="noreferrer" target="_blank">ahmia.fi</a>, the hidden service search engine and you're reading<br>
status update #6.<br>
<br>
During the last two weeks, I finished porting the django app to the new<br>
structure. I'm also working on last minute things before shipping the new site<br>
online.<br>
<br>
I will continue updating documentation and add some unit tests to the project.<br>
<br>
The code is not merged yet but you're welcome to check it on my forks. [1] [2]<br>
<br>
<br>
Since this status report is short, here is a list of goals I had in my initial<br>
project proposition and what work has been done on each.<br>
<br>
Review code and infrastructure:<br>
- Split the project in several repositories<br>
- Improve documentation<br>
- Automate testing (Travis.CI)<br>
- Track code quality (Landscape.IO)<br>
- Track requirements (Requires.IO)<br>
- Refactor each subproject<br>
<br>
Improve search results:<br>
- Better use of elasticsearch (use of stemmers, shingles, term-centric search)<br>
- Search results are now pages instead of domains.<br>
<br>
Improve UI/UX:<br>
Not much work has been done for this goal. The website has been in the process<br>
of porting old pages to a new design. All pages are now using the new design.<br>
<br>
Gather more statistics:<br>
- Pagerank is now used to compute an authority score for each page<br>
- I suggested that we could use a self hosted statistics framework like piwik<br>
[3] but no decision has been made.<br>
<br>
Use stats to better rank search results:<br>
- Results are ranked by authority score.<br>
<br>
Make sense of the indexed info to understand a search meaning:<br>
- Shingles enable us to differenciate these two queries: "i'm not happy i'm<br>
working" and "i'm happy i'm not working".<br>
- Synonyms could be used by the search algorithm if we provided a synonym<br>
dictionnary. No work has been done at making this work.<br>
<br>
Make a google trend-like interface to visualize searches over time:<br>
No work has been done to reach this optional goal. Even some stats<br>
fonctionnalities were dropped in the new site because they were "domain-<br>
centric" when a search engine needs to be "page-centric". We could probably<br>
index searches in elasticsearch and use Date Histogram Aggregation [4] to<br>
display trends.<br>
<br>
Make stats available with the API:<br>
No work has been done to reach this optional goal. Some API endpoints were<br>
also dropped because they were domain-centric. It would be great to have an<br>
API with a coherent url scheme. I think Django Rest Framework can help design<br>
that API while keeping the code simple.<br>
<br>
<br>
That's it for this week,<br>
Have a nice weekend.<br>
<br>
Ismael R.<br>
<br>
<br>
[1] <a href="https://github.com/iriahi/ahmia-site" rel="noreferrer" target="_blank">https://github.com/iriahi/<wbr>ahmia-site</a><br>
[2] <a href="https://github.com/iriahi/ahmia-crawler" rel="noreferrer" target="_blank">https://github.com/iriahi/<wbr>ahmia-crawler</a><br>
[3] <a href="https://piwik.org/" rel="noreferrer" target="_blank">https://piwik.org/</a><br>
[4] <a href="https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-bucket-datehistogram-aggregation.html" rel="noreferrer" target="_blank">https://www.elastic.co/guide/<wbr>en/elasticsearch/reference/<wbr>current/search-aggregations-<wbr>bucket-datehistogram-<wbr>aggregation.html</a><br>
[5] <a href="http://www.django-rest-framework.org/" rel="noreferrer" target="_blank">http://www.django-rest-<wbr>framework.org/</a><br>
______________________________<wbr>_________________<br>
tor-dev mailing list<br>
<a href="mailto:tor-dev@lists.torproject.org">tor-dev@lists.torproject.org</a><br>
<a href="https://lists.torproject.org/cgi-bin/mailman/listinfo/tor-dev" rel="noreferrer" target="_blank">https://lists.torproject.org/<wbr>cgi-bin/mailman/listinfo/tor-<wbr>dev</a><br>
</blockquote></div><br></div>