AI 14

기업 연계 프로젝트: 버그바운티 리포트 다국어 번역 서비스 개발 회고

이번 프로젝트에서는 버그바운티 리포트의 다국어 번역을 자동화하는 AI 기반 시스템을 개발했다.보안 리포트는 외부 공개가 제한되므로, 오픈된 API가 아닌 Private AI 환경에서 번역해야 하는 도전 과제가 있었다.이 과정에서 번역 품질과 속도의 균형, 보안 특화 도메인 대응, MLOps 환경 구축 등 다양한 문제를 해결해야 했다.이번 글에서는 프로젝트 진행 과정과 배운 점을 정리해보려고 한다. 프로젝트 개요프로젝트명: 버그바운티 리포트 다국어 번역 서비스기간: 2025.01.13 ~ 2025.02.14목표:다국어로 작성된 버그바운티 리포트를 자동 번역하여 글로벌 서비스 확장외부 LLM API를 사용하지 않고, Private AI 환경에서 번역 처리보안 특화 번역 모델을 구축하여 용어의 정확성과 품질을..

AI 2025.03.13

<14일차> RS(Recommend System) 프로젝트 회고..

프로젝트의 세 주제중(AD/OCR/RS) 중 가장 관심이 있었던 추천 시스템(RecSys)과 관련된 학습을 진행하면서, 그리고 RecSys 경진대회(2주)를 경험하며 느낀 점을 정리해보려 한다. 그동안 여러 프로젝트와 머신러닝 경진대회를 경험해왔지만, 이번 대회를 통해 추천 시스템이 미래 고객들(customer) 대한 예측이 쉽지많은 않다는걸 다시 한번 느꼈고 새로운 관점과 문제 해결 경험을 얻을 수 있었다. 경진대회 개요이번 경진대회의 목표는 사용자의 쇼핑 패턴을 분석하여 미래에 구매할 상품을 추천하는 것이었다.평가 지표는 NDCG@10이며, 사용자의 과거 행동 데이터(view, cart, purchase)를 기반으로 학습한 모델의 성능을 평가했다.데이터는 50:50 random split을 통해 pu..

AI 2025.03.13

<13일차> IR 경진대회 회고

이번 IR 경진대회에서는 **과학 지식 기반 질의 응답 시스템(Scientific Knowledge Question Answering)**을 개발했다.짧은 기간 동안 여러 가지 접근법을 실험하며, 검색 엔진 기반 문서 추출, LLM 모델 활용, Reranking 및 Hybrid Retrieval 기법을 적용해 보았다.이 과정에서 팀원들과의 협업, 최적의 검색 기법 실험, 그리고 IR 모델 최적화에 대해 많은 것을 배울 수 있었다. 경진대회 개요이번 대회의 목표는 과학 지식 기반의 질문과 이전 대화 히스토리를 참고하여 적절한 문서를 검색하고, 이를 바탕으로 응답을 생성하는 시스템을 구축하는 것이었다.이를 위해 우리는 다양한 임베딩 모델, 검색 기법, Reranking 기법을 활용하여 성능을 개선하려 했다...

AI 2025.03.13

<12일차> NLP 경진대회

작년 12월에 2주간의 자연어처리(NLP) 관련 학습과 2주간의 NLP 경진대회를 진행하면서, 자연어처리에 대한 다양한 실험과 문제 해결 경험을 쌓을 수 있었다. 올해 초 기업 연계 프로젝트 진행 및 작년 말에 제대로 정리를 못한 2개의 프로젝트를 정리하고자 이렇게 늦게나마 글을 작성하게 되었다. 이번 글에서는 NLP 모델 실험 과정, 성능 최적화, 그리고 배운 점을 정리해보려고 한다.  경진대회 개요이번 경진대회의 목표는 일상 대화 데이터를 기반으로 자동 요약 모델을 개발하는 것이었다.대화 데이터를 기반으로 효율적이고 정확한 요약문을 생성하는 NLP 모델을 구축하는 것이 주요 과제였다. 주제: Dialogue Summarization (일상 대화 요약)주요 과제: 대화 중 요약이 어려운 문제를 해결하고..

AI 2025.03.13

<10,11일차> Computer vision / 경진대회 진행

한달동안 computer vision에 대해 학습(강의) 및 경진대회 2주를 진행하면서 느낀 점을 적어보려고 한다. 일단 가장 먼저 앞서 여러 프로젝트와 ml 경진대회 한번 겪으면서 진행했던 머신러닝 모델 과정에서 모델을 한번 돌렸을 때 train set의 sample 수가 많거나(이것저것 적용을 하면서) one epoch당 결과를 k-fold로 여러번의 검증을 한다던가 식으로 했을 때 압도적으로 시간이 다 돌리고 만약 위에 있던 코드에서 에러가 터져서 모델을 다시 돌려야했을때의 time management가 매우 힘들었음을 느꼈다. 초반 test 과정에선 이것저것 하이퍼파리미터던지 모델이던지 쉽게쉽게 금방 변경해서 test가 가능했는데 후반에 train set을 증강시킨다던지(offline)으로  ta..

AI 2024.11.08

<9일차> MLops Project...

저번 포스팅에서 배운 Mlops 과정을 2주동안 "추천 시스템" project로 모델 배포 및 유지 관리를 해 볼 수 있는 시간을 가져보았다. 물론 bert model을 사용하진 않았지만 경진대회때 model의 성능을 끌어올리기 위해 rmse값을 낮추는 그런 practice를 해보았기 때문에 model 학습에 대한 어느정도 개념이 잡혀있었고 서버측에서 fastapi를 사용 client측에서 streamlit 그리고 학습한 모델에 대해 mlflow, airflow로 관리해준다는 전체적인 mlops 개념을 배울 수 있었기 때문에 프로젝트 면에서 많은 걸 얻고 갈 수 있었다고 생각한다.  일단 topic은 영화 추천 시스템으로 결정했고 one of the main topic 주제였기 때문에 다른 걸 해보면 어..

AI 2024.10.11

<8일차> Mlflow, FastApi, Bertmodel, Airflow ...

5일동안 김인섭 강사님의 mlflow, fastapi, bertmodel 그리고 airflow의 활용법에 대한 강의를 들었다. 최근에 regression 머신러닝 경연대회를 진행한 후에 ML 에 대한 전체적인 flow, feature engineering, 그리고 모델 학습 및 training을 직접 돌려보면서 정말 많이 배웠다고 생각했는데 이번 강의를 통해서 mlflow (머신머링 라이프사이클을 관리하는 플랫폼), fastapi (웹 어플을 빠르고 쉽게 만들 수 있는 python 기반 프레임워크), bert (google NLP model), airflow (data pipeline을 자동화하고 관리하는 워크플로우 플랫폼) 등 여러 프레임워크와 플랫폼들을 실습해보면서 또 다른 인사이트를 얻었다고 생각한..

AI 2024.09.25

<7일차> ML 경진대회 : Regression Wrap up

일주일동안 (baseline code와 instruction은 일주일 전에 받아서 총 2주긴 했지만) ML 경진대회를 진행하고 추석이 지나서 결과물을 발표하고 마무리하는 시간을 가졌다. Kaggle과 데이콘 등 여러 경진대회의 소스들을 보고 코드를 공부하는 시간은 예전부터 가졌지만 막상 실질적으로 경진대회를 참여 하는 건 처음이었기 때문에 time management 및 그룹과의 협업등이 얼마나 중요하였는지 막상 끝나고 나서 깨닫게 되었고 강사님 말로는 submit 할 수 있는 12번의 기회는 다른 경연대회보다 훨씬 많은 기회라고 말을 듣자마자 결과 한번 한번이 나올때마다 얼마나 신중하게 냈어야 했는지 고민하게 되었다. (물론 우리 팀은 5명이라 인당 2-3번이 한계였지만)   일단 우리 조는 그래도 다..

AI 2024.09.20

<6일차> LLM Project : 스포츠 규정에 관하여 답하는 QA Engine 개발

끝난지는 일주일이 되었지만 llm에 대해서 좀 더 공부해보고 코드들도 좀더 보느라고 작성하는게 조금 늦었다. 일주일이란 시간동안 QA engine 혹은 Chatbot Project를 개발할 시간이 주어졌는데 초반에 QA engine을 고른 이유는 아무래도 챗봇이 좀 더 구현하는데 있어서 시간이 좀더 걸리고 Deadline동안 정말 기능적인 일부만 보여줄 수 있을거라 생각하고 Timeline 안에 맞추려면 QA engine이라는 좀더 system prompt에 focus를 두고 llm 이 어떤 workflow를 가지는지 배우면서 프로젝트를 가지고 가고 싶었다.  결과론적인 부분만 말하면 (초기 프로젝트였지만) llm의 workflow도 workflow대로, 팀장으로써 git 및 meeting log를 작성..

AI 2024.08.27

<5일차> Statistics

3일동안 딜런 강사님의 기초적인 통계를 리뷰하는 시간을 가졌다. 학과 과목에서 들었던 discrete math 및 linear algebra가 실질적으로 도움이 많이 되었고 막상 학과에선 이 과목들이 왜 필수과목일까 (discrete은 필수, linear는 선택이었음) 생각했고, 안 그래도 수학이 많이 약하다고 생각했기 때문에 엄청나게 노력해서 pass했던 기억이 있었는데 이번 리뷰를 통해서 다시 한번 maching learning을 할려면 이 정도는 기본으로 알고 있어야겠구나를 느꼈고 이번 학습일지는 1,2일치 내주셨던 문제를 토대로 내가 풀었던 방식을 작성하면서 3일 과정을 요약해보고자 한다.  Latex를 사용해서 해보려 했으나(학과과정에선 latex를 썼다) 생각보다 티스토리에서 작성하는 게 오래..

AI 2024.08.23