Abstract :
[en] With growing e-commerce flows and new legislative rules, customs representatives confront serious liabilities when completing customs declarations for their clients. In the latter, the Harmonized System (HS) code is a crucial component using 10 digits (HS10) to classify products and define national tax rates. In this paper, we first compare the performance of sentence embedding models using semantic similarity, and second, we assess the effectiveness of supervised models, both aimed at predicting up to the HS10 code. To the best of our knowledge, there is currently little research being conducted on this topic. We demonstrate the differences and respective strengths of each approach. Our results show the outstanding performance of the semantic similarity approach with a top-3 and top-5 accuracy of 89% and 94.8% respectively for HS10 prediction.
[fr] Avec l'augmentation des flux e-commerce et les nouvelles règles législatives, les représentants en douane sont confrontés à de sérieuses responsabilités lorsqu'ils remplissent les déclarations en douane pour leurs clients. Dans ces dernières, le code du système harmonisé (HS) est un élément crucial qui utilise 10 chiffres (HS10) pour classer les produits et définir les taux d'imposition nationaux. Dans cet article, nous comparons tout d'abord les performances des modèles avec un fonctionnement basé sur le traitement de phrases ("sentence embeddings"), utilisant la similarité sémantique. Puis, nous évaluons l'efficacité des modèles supervisés, tous deux visant à prédire jusqu'au code HS10. À notre connaissance, peu de recherches sont actuellement menées sur ce sujet. Nous démontrons les différences et les forces respectives de chaque approche. Nos résultats montrent les performances fortes de l'approche par similarité sémantique, avec une précision de 89 % et 94,8 % respectivement dans le top-3 et le top-5 pour la prédiction du code HS10.