Daniel Lemire

Professeur UER Science et Technologie

Photo de Daniel Lemire

5800, rue Saint-Denis
Bureau 1105
Montréal (Québec) Canada
H2S 3L5

Téléphone : 514 843-2015, poste 2835
1 800 665-4333 (sans frais)
Télécopieur : 514 843-2160

lemire@gmail.com

Présentation

est chercheur en informatique. Son algorithme Slope One est utilisé par plusieurs sites de commerce électronique où il sert à recommander des produits aux clients. Ses travaux sur les index bitmap sont utilisés par des sociétés comme Facebook et Netflix dans leurs entrepôts de données au sein de la plate-forme Apache Hive. Ses travaux sont aussi utilisés par Google pour accélérer la gestion du code source. Il a aussi été chercheur au Conseil national de recherches du Canada où il a dirigé le groupe de recherche en santé électronique.

Il s'intéresse principalement aux bases de données et à la recherche d'information. Son programme de recherche actuel est centré sur les techniques de compression de données rapides. Par exemple, il a travaillé sur les index bitmap, les bases de données orientées-colonnes et la compression des listes d'entiers. Il s'intéresse aussi au design des bases de données et aux algorithmes probabilistes (par ex. le hachage universel).

Il est un avide utilisateur des médias sociaux : son blogue compte plusieurs milliers de lecteurs (>5000). Le logiciel de toutes ses publications est disponible sous la forme de logiciel open source.

Quelques publications récentes :

Formation

  • Postdoctorat (Institut de génie biomédical)
  • Doctorat en mathématiques de l'ingénieur (Université de Montréal et École Polytechnique)
  • Maîtrise en mathématiques (University of Toronto)
  • Baccalauréat en mathématique (University of Toronto), avec mention «High Distinction»

Champs de recherche

  • Compression dans les bases de données et systèmes de recherche d'information
  • Design des bases de données
  • Algorithmes probabilistes
  • Entrepôts de données et bases de données multidimensionnelles (OLAP)
  • Séries chronologiques
  • Filtrage collaboratif et systèmes de recommandation

Subventions actuelles:

  • Data reordering for better compression in databases (Subvention à la découverte du CRSNG, 2012-2017)

Principales subventions détenues par le passé:

  • Local and multiscale online mining. (Subvention à la découverte du CRSNG, 2003-2007)
  • Data mining and OLAP over sequential data. (Subvention à la découverte du CRSNG, 2007-2012)
  • Estimation et vues dans les entrepôts de données. (Programme Établissement de nouveau chercheur du FQRNT, 2006-2008)
  • Infrastructure ERASME (FCI, 2008)
  • Diamond Dicing (Programme de collaboration Québec/Nouveau-Brunswick, 2007-2008)

Voici quelques articles récents :

Owen Kaser and Daniel Lemire, Strongly universal string hashing is fast, Computer Journal (à paraître)

Daniel Lemire and Leonid Boytsov, Decoding billions of integers per second through vectorization, Software: Practice & Experience (à paraître)

Hazel Webb, Owen Kaser, Daniel Lemire, Diamond Dicing, Data & Knowledge Engineering 86, 2013.

Zoltán Prekopcsák et Daniel Lemire, Time Series Classification by Class-Based Mahalanobis Distances, Advances in Data Analysis and Classification 6 (3), 2012.

Daniel Lemire, Owen Kaser, Eduardo Gutarra, Reordering Rows for Better Compression: Beyond the Lexicographic Order, ACM Transactions on Database Systems  37 (3), 2012.

Cameron Neylon, Jan Aerts, C. Titus Brown, Daniel Lemire, Jarrod Millman, Peter Murray-Rust, Fernando Perez, Neil Saunders, Arfon Smith, Gaël Varoquaux and Egon Willighagen, Changing computational research: The challenges ahead (Editorial), Source Code for Biology and Medicine 7 (2), 2012.

Daniel Lemire, Daniel Lemire, The universality of iterated hashing over variable-length strings, Discrete Applied Mathematics 160 (4-5), 2012.

Antonio Badia and Daniel Lemire, A Call to Arms: Revisiting Database Design, SIGMOD Record 40 (3), 2011.

Daniel Lemire and Owen Kaser, Reordering Columns for Smaller Indexes, Information Sciences 181 (12), 2011.

Daniel Lemire and Owen Kaser, Recursive n-gram hashing is pairwise independent, at best, Computer Speech & Language 24 (4), pages 698-710, 2010.

Daniel Lemire, Owen Kaser, Kamel Aouiche, Sorting improves word-aligned bitmap indexes. Data & Knowledge Engineering 69 (1), pages 3-28, 2010.

Daniel Lemire, Martin Brooks and Yuhong Yan, An Optimal Linear Time Algorithm for Quasi-Monotonic Segmentation. International Journal of Computer Mathematics 86 (7), 2009.

Daniel Lemire, Faster Retrieval with a Two-Pass Dynamic-Time-Warping Lower Bound, Pattern Recognition 42 (9), pages 2169-2180, 2009.

Daniel Lemire and Owen Kaser, Hierarchical Bin Buffering: Online Local Moments for Dynamic External Memory Arrays, ACM Transactions on Algorithms 4 (1), pages 1-31, 2008.

Daniel Lemire, Streaming maximum-minimum filter using no more than three comparisons per element, Nordic Journal of Computing 13 4, 2006.
Owen Kaser and Daniel Lemire, Attribute value reordering for efficient hybrid OLAP, Information Sciences 176 16,2006.
Daniel Lemire, Harold Boley, Sean McGrath, Marcel Ball, Collaborative filtering and inference rules for context-aware learning object recommendation, International Journal of Interactive Technology & Smart Education 2 3, 2005.
Daniel Lemire, Scale and Translation Invariant Collaborative Filtering Systems, Information Retrieval 8 1, 2005.
Serge Dubuc, Daniel Lemire, Jean-Louis Merrien, Fourier analysis of 2-point Hermite interpolatory subdivision schemes, Journal of Fourier Analysis and Applications 7 5, 2001.
Daniel Lemire, Chantal Pharand, Jean-Claude Rajaonah, Bruno Dubé, A.-Robert LeBlanc, Wavelet time entropy, T wave morphology and myocardial ischemia, IEEE Transactions in Biomedical Engineering 47 7, 2000.
Gilles Deslauriers, Serge Dubuc, and Daniel Lemire, Une famille d'ondelettes biorthogonales sur l'intervalle obtenue par un schéma d'interpolation itérative, Annales des Sciences Mathématiques du Québec 23 1, 1999.

Voici quelques communications récentes :

Andre Vellino and Daniel Lemire, Extracting, Transforming and Archiving Scientific Data, VLDL 2011, 2011.

Owen Kaser, Daniel Lemire, Kamel Aouiche, Histogram-Aware Sorting for Enhanced Word-Aligned Compression in Bitmap Indexes, DOLAP 2008, 2008.

Kamel Aouiche and Daniel Lemire, A Comparison of Five Probabilistic View-Size Estimation Techniques in OLAP, DOLAP 2007, pp. 17-24, 2007.

Kamel Aouiche and Daniel Lemire, Unassuming View-Size Estimation Techniques in OLAP, An Experimental Comparison, ICEIS 2007, pp. 145-150, 2007.

Daniel Lemire, A Better Alternative to Piecewise Linear Time Series Segmentation, SIAM Data Mining 2007, 2007.

Dan Kucerovsky and Daniel Lemire, Monotonicity analysis over chains and curves, Curves and Surfaces 2006, 2007.
Owen Kaser, Daniel Lemire, Steven Keith, The LitOLAP Project: data warehousing with literature, CaSTA 2006, 2006.
Daniel Lemire, Martin Brooks, Yuhong Yan, An optimal linear time algorithm for quasi-monotonic segmentation, ICDM 2005, 2005.
Will Fitzgerald, Daniel Lemire, Martin Brooks, Quasi-monotonic segmentation of state variable behavior for reactive control, AAAI 2005, 2005.
Yuhong Yan, Martin Brooks, Daniel Lemire, Scale-based monotonicity analysis in qualitative modelling with flat segments, IJCAI 2005, 2005.
Daniel Lemire and Anna Maclachlan, Slope One predictors for online rating-based collaborative filtering. SIAM Data Mining 2005, 2005.
Yuhong Yan, Daniel Lemire, Martin Brooks, Monotone pieces analysis for qualitative modeling, MONET 2004, 2004.
Michelle Anderson, Marcel Ball, Harold Boley, Stephen Greene, Nancy Howse, Daniel Lemire, Sean McGrath, RACOFI: A rule-applying collaborative filtering system, IEEE/WIC COLA 2003, 2003.
Owen Kaser and Daniel Lemire, Attribute value reordering for efficient hybrid OLAP. DOLAP 2003, 2003.
Daniel Lemire, A family of 4-point dyadic high resolution subdivision schemes, Curves and Surfaces 2002, 2003.
Daniel Lemire, Wavelet-based relative prefix sum methods for range sum queries in data cubes, CASCON 2002, 2002. (Best Paper Award)

Membre du comité de programme des conférences suivantes:

  • ACM Conference on Information and Knowledge Management (ACM CIKM)
  • ACM Conference on Web Search and Data Mining (ACM WSDM)
  • Business Information Systems (BIS)
  • International Conference on Enterprise Information Systems (ICEIS)
  • Conference on Web Information Systems and Technologies (WEBIST)
  • Database and Expert Systems Applications (DEXA)
  • ACM Conference on Recommender Systems (ACM RecSys)
  • International Conference on Web Intelligence, Mining and Semantics (WIMS)
  • ACM/IEEE Joint Conference on Digital Libraries (JCDL)
  • International Conference on Logistics, Informatics and Service Science (LISS)

Membre du comité éditorial des revues suivantes:

Professeur associé à l'Université du Nouveau-Brunswick depuis 2004.

Prix de la meilleure communication lors de la conférence CASCON en 2002.