linguana

고정 헤더 영역

글 제목

메뉴 레이어

linguana

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 분류 전체보기 (133)
    • 일상다반사 (5)
    • Coding (122)
      • Image (52)
      • Sound (11)
      • 잡동사니 (21)

검색 레이어

linguana

검색 영역

컨텐츠 검색

Coding/Sound

  • CTC loss

    2022.05.05 by linguana

  • Understanding automated assessment of speaking with Jing Xu

    2021.12.03 by linguana

  • 4. Custom Audio PyTorch Dataset with Torchaudio

    2021.06.18 by linguana

  • Query, Key, and Value in Attention

    2021.06.10 by linguana

  • Transformer

    2021.06.03 by linguana

  • Attention

    2021.05.31 by linguana

  • SCE+TTS

    2021.05.28 by linguana

  • BK-tree search

    2021.05.27 by linguana

CTC loss

오리지널 논문 PyTorch CRNN: Seq2Seq Digits Recognition w/ CTC | coding.vision (codingvision.net) 위 링크 중반쯤에 CTC and Duplicates Removal 있음 코랩에서 파이토치로 짧게 예시 코드 구현해놔서 보기 좋음 An Intuitive Explanation of Connectionist Temporal Classification | by Harald Scheidl | Towards Data Science 예시도 간결하고 직관적인 설명임 (Encoding, Loss calculation, Decoding로 글을 구성). 하지만 구체적이지 않고 decoding 방식을 best-path 만 제공해줌. 기본적인 개념 잡기로는 적당함...

Coding/Sound 2022. 5. 5. 12:01

Understanding automated assessment of speaking with Jing Xu

(https://youtu.be/Jh7gqNhJv8s) Overview - Modes of speaking assessment - Automated speech evaluation + Architecture + Automarker training and evaluation + Limitations - Assessing the suitability of automated speaking tests Modes of Speaking Assessment Comparison between the two green parts An example of automated speaking test is Linguaskill (e.g. answer phone messege) Architecture Let's look at..

Coding/Sound 2021. 12. 3. 03:20

4. Custom Audio PyTorch Dataset with Torchaudio

본 포스팅은 다음 [1] 영상을 보고 작성한 것임을 미리 밝힙니다. "Welcome to new exciting video in the ..."라는 오프닝 멘트와 함께 시작하는 이 영상, 참 재밌다. 오디오 분야에서 커스텀 데이터셋을 만드는 방식을 알려드림. Urban Sound Dataset 8K를 이용해서 해보자. [2] 에서 다운로드 할 수 있다. 데이터를 다루기 위해선 (1) Dataset (2) Dataloader 이 두 가지가 필요한데, Dataloader는 단순히데이터를 로딩하기 위해 사용하는 wrapper다. 근데 여기에서 관심있는 건 wrapper가 아니고 데이터셋임! 10개 폴더 있음. 10 classes. import os from torch.utils.data import Datas..

Coding/Sound 2021. 6. 18. 20:14

Query, Key, and Value in Attention

What are Query, Key, and Value in attention? First visit stackexchange [1] to get familiar with what issue we are dealing with here. After you read all of the things written in the page, you would probably not clear about the issue. But, as suggested in the page, pay a visit to this video clip about SVD [2] to have some idea about "compatibility function". Intuitively and naively speaking, it wo..

Coding/Sound 2021. 6. 10. 21:33

Transformer

Title: Attention Is All You Need Authors: Vaswani et al. (2017) 제목이 비틀즈의 "All you need is love"를 오마주한 부분이 상당히 인상적이다. 초 록 대부분의 시퀀스 변환(transduction) 모델은 복잡한 순환신경망 혹은 합성곱신경망에 기반을 두고 인코더와 디코더를 가진 형태이다. 가장 좋은 성능을 보이는 모델들 또한 어텐션 매커니즘을 통해 인코더와 디코더를 연결한다. 우리는 트랜스포머(Transformer)라고 불리는 오로지 순환신경망과 합성곱신경망을 전혀 사용하지 않고 어텐션 매커니즘으로만 작동되는 간단한 신경망을 제안한다. 이 모델들은 두 개의 기계 번역 과제를 수행하는 실험에서 성능은 더 뛰어나면서도 병렬 처리(parallel..

Coding/Sound 2021. 6. 3. 11:33

Attention

[Basic NLP_1] Sequence-to-Sequence with Attention (jaehyeongan.github.io) [Basic NLP_1] Sequence-to-Sequence with Attention Intro최근 몇 년간 Transformer 모델의 등장 이후 BERT, GPT, RoBERTa, XLNet, ELECTRA, BART 등과 같은 언어 모델(Language Model)이 매해 새로운 SOTA를 달성하며 등장하고 있다.특히 언어모델의 경우 self-su jaehyeongan.github.io

Coding/Sound 2021. 5. 31. 17:19

SCE+TTS

프로젝트 소개 (sce-tts.github.io)

Coding/Sound 2021. 5. 28. 16:03

BK-tree search

BK-Tree | Introduction & Implementation - GeeksforGeeks

Coding/Sound 2021. 5. 27. 17:03

추가 정보

인기글

최신글

페이징

이전
1 2
다음
TISTORY
linguana © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바